В данном разделе производится обобщение уже приведенных сведений о Data Mining и даются дополнительные сведения о не рассмотренных ранее, реже встречающихся методах.
Итак, к числу методов Data Mining моно отнести следующие.
1. Регрессионный анализ с выбором набора переменных.
2. Деревья классификации.
3. Методы сравнения с образцом.
4. Нейронные сети. Они моделируют совокупность взаимосвязанных нейронов – теперь уже устаревших моделей нервных клеток. В классическом случае обучаются (довольно медленно) на основе имеющихся примеров: описаний ситуации с правильным решением. Пример удачного использования – распознавание образов. Делаются попытки использовать для прогнозов курсов акций и при принятии решений.
5. Эволюционные алгоритмы основываются на принципах, сформулированных еще Ч. Дарвином: наследственности, изменчивости и отборе. Именно эти феномены и моделируются на компьютере. Вначале создается исходная популяция элементов, характеризующихся надором признаков. Затем происходит передача значений этих признаков по наследству следующему поколению. При этом моделируются генетические операции, например, мутации. Из полученных элементов наименее приспособленные отбраковываются. Далее процесс повторяется. Метод может найти довольно широкое применение, от поиска экстремума сложной функции до поиска неизвестного заранее набора взаимосвязанных характеристик некоторого объекта, наилучшим образом приспособленного к заданным условиям.
6. Генетическое программирование. При использовании этого метода строятся несколько программ на специальном языке. Они отражают гипотезы о виде зависимости переменной-следствия от переменных-причин. Далее моделируется эволюция. Автоматически вносятся небольшие изменения и выбираются варианты, улучшающие решение. Применения метода довольно сложны[195]. Можно упомянуть так называемую «объективную кластеризацию», при коротой предполагается, что на характеристики исследуемых элементов влияют как случайные факторы, так и закономерности и делается попытка учесть при кластеризации только систематическую составляющую.
7. Алгоритмы ограниченного перебора были предложены еще в середине 60-х. Пусть X – параметр некоторого элемента исследования, a,b – константы. Тогда имеются простые логические события: X>a, X=b… можно ввести и комбинации простых логических событий, например, одновременное появление двух вышеприведенных событий. Далее определяются частоты появления различных комбинаций событий в данных. По этим частотам устанавливаются различные закономерности в данных, полазные для классификации, кластеризации и прогнозирования.
Методы и средства Data Mining развиваются очень быстро, многие авторы указывают на экспоненциальный их рост. Разрабатываются как средства
q универсального применения;
q маркетинговой ориентации (автор взял на себя смелость ввести данный класс, так как многие статистические пакеты не только позволяют вводить такие параметры, как цена ощибки классификации, но и снабжены многочисленными примерами из области маркетинга);
q проблемно-ориентированные, например, средства для технического анализа финансовых рынков, построенные с учетом специфики предметной области, испоьзующие соответствующую терминологию, систему условных обозначений;
q средства для специальных исследований.
Аналитики отмечают все возрастающую популярность средств, ориентированных на построение если…то правил.
Основное направление работ – поиск методов перебора вариантов за приемлемое время.
Похожие статьи