1. Торговля.
1.1. Анализ совместных покупок. Узнав, какие товары часто покупаются вместе, можно улучшить рекламу, более эффективно управлять запасами, улучшить раскладку товаров в торговых залах.
1.2. Анализ последовательности покупок. После покупки квартиры новоселам необходимо купить обои, краску, линолеум. Чуть позже они придут за мебелью, бытовой техникой. Знание типового поведения новоселов поможет разработать рекламу, эффеткивно использовать скидки, уточнить ассортимент, лучше управлять запасами.
1.3. Построение прогнозирующих моделей. Зная, кто ходит на распродажи, кто ищет товары определенных категорий, можно разработать хорошую программу продвижения.
1.4. Определение параметров, влияющих на цену объектов недвижимости, поможет более точно устанавливать эту цену и прогнозировать ее изменение.
ранее неизвестных;
нетривиальных;
практически полезных;
доступных интерпретации
знаний, используемых для принятия решений в различных сферах человеческой деятельности.
Теперь, после того, как принципы Data Mining были проиллюстрированы на примерах, можно обобщить сведения об этой идее, которая получила распространение с 1990-х годов.
К этому времени сложилась ситуация, характаризующаяся тем, что:
- данные, накопленные в компьютерных системах, имеют практически неограниченный объем;
- накопленные данные разнородны: в форме баз данных, текста, электронных таблиц содержится как количественная, так и качественная информация;
- требуется простой и понятный инструмент для работы с этими данными;
- получаемые результаты также должны быть конкретными, полезными и понятными.
Таким образом, имеется большое количество «руды», из которой можно выбрать самородки.
Метод сравнения с прототипом
Метод хорош, если в пространстве признаков есть компактные группы элементов исследования. Это можно увидеть при визуализации собранных данных. Для снижения размерности задачи можно применить метод главных компонент.
Сущность метода заключается в том, что каждый элемент исследуемого множества, относящийся к некоторой группе, заменяется своим прототипом.
Шаклы измерения атрибутов должны быть порядковыми, интервальными или относительными.
Это означает, например, что каждый представитель сегмента заменяется некоторым «средним покупателем», типовым представителем данного сегмента.
Для определения характеристик прототипа можно
- выбрать центр группы по каждой i-й измеренной характеристике:
ХПi=(X1i+X2i+…+Xni)/N
1. Определяется критерий качества дерева.
- Довольно часто минимизируется процент неправильно определенных элементов.
- Если размеры классификационных групп сильно различаются, то для снижения общей ошибки классификации лучше уделить больше внимания большей группе, постаравшись снизить вероятность ошибки для нее. Чтобы учесть размеры групп, программы построения деревьев классияикации допускают ввод априорных вероятностей попасть в ту или иную группу. Их можно
- взять равными;
- определить по имеющемуся набору случаев;
- взять из данных прошлых исследований.
- Минимизируется не вероятность ошибок, а их стоимость. Например, при сегментировании рынка продажи товаров по почте возможная реакция адресатов на почтовое предложение корреспондент может
1. Необходимо ли применение данного метода. Он может оказаться эффективным, когда малое число факторов объясняет практически все отличия между объектами. Это проверяется по резкому падению дисперсии факторов при возрастании номера фактора. Вторым критерием является наличие высокой попарной корреляции ответов внутри некоторых групп вопросов анкеты.
2. Сколько факторов брать для рассмотрения. Если их число велико, то результаты перехода к факторам не только трудно объяснимы. Они не упрощают, а в некоторых случаях даже усложняют задачу.
3. Осуществлять ли вращение факторов, как и в каком направлении. Рекомендация здесь – продолжать попытки до тех пор, пока не будет выявлено осмысленного объяснения факторов.
4. Можно ли выбрать переменные-заменители факторов.
Для этого для каждого факторва выбирается одна переменная с наивысшим значением факторной нагрузки. Она и становится заменителем для фактора. Если для какого-либо фактора лишь одна из переменных имеет значительную факторную нагрузку, то выбор достаточно прост. Но для случая набора нагрузок выбор не столь очевиден. Можно выбрать переменные с наибольшей нагрузкой для факторов после вращения. Наибольшее значение координаты F1' или факторной нагрузки для F1' имеет переменная, представляющая собой ответы на вопрос Д3, так как она имеет наибольшую координату по оси F1'. Для фактора F2' переменной-заменителем могут стать Р2 или Р3. Для определенности можно выбрать Р2.
Итак, теперь исследование свелось к анализу ответов на вопросы Д3 и Р2, которые определяют, соответственно, удовлетворенность жизнью дома и работой.
Выбор переменной-заменителя может производиться на основе некоторой имеющейся у исследователя гипотезы. Иногда выбирают ту переменную, которая может быть измерена более точно.
Пусть из анкеты об удовлетворенности жизнью выбраны шесть вопросов: три о доме (Д1, Д2, Д3) и три о работе (Р1, Р2, Р3). Исходные данные находятся в таблице, строки которой соответствуют респондентам, а столбцы – их ответам, например, в процентах от полной удовлетворенности.
Пусть далее по ответам респондентов построена корреляционная матрица (табл. 5.19). В ней показаны корреляции между ответами на каждую пару вопросов.
Видно, что значения элементов этой матрицы различаются в несколько раз, причем некоторые имею довольно значительную величину (выделены рамкой). Наличие таких значений – простейший критерий применимости факторного анализа.
Поэтому определяются два фактора, что можно сделать стандартными методами. Как обычно, первый фактор «возьмет» максимальную дисперсию, а второй – максимум оставшейся. Каждый фактор будет представлять собой взвешенную сумму ответов на все вопросы.
Результат анализа будет полезным, если факторы удастся интерпретировать, выявить их смысл.
Рассчитав значения каждого из двух факторов для каждого респондента, следует рассмотреть корреляцию между переменными и полученными факторами (Табл. 5.20). Эти величины называются также факторными нагрузками и являются коэффициентами линейных уравнений, выражающих нормированные переменные через факторы. (Значения измеренных переменных для каждого элемента исследования может быть выражено как взвешенная сумма значений факторов для этого элемента. Эта операция обратна вычислению факторов в методе главных компонент). Полученные значения видны на графике в координатах {F1, F2}.
и отсутствует мультиколлинеарность. Пусть по методу наименьших квадратов получены значения b1=3, b2=0,5 и b3=10. Это означает, что увеличение количества торговых представителей на 1 увеличит объем продаж на 3, а увеличение на 1 количества рекламных обращений повысит объем продаж на 0,5. Кроме того, видно, что работа отличного менеджера (оценивается в 5 балла) отличается от работы хорошего (4 балла) на 10 единиц, работа хорошего и удовлетворительного (4 и 3 балла соответственно), удовлетворительного и плохого (3 и 2 балла соответственно) также отличаются на 10 единиц. В результате исходно лингвистическая шкала оценки получилась интервальной. Вдобавок получилось, что полное отсутствие ответственного менедера на 20 единиц хуже, чем присутствие плохого менеджера. Все это вызывает справедливые сомнения.
Для уточнения полученных выводов вводят фиктивные переменные. Они помогают работать с переменными, заданными в номинальных шкалах.
Но на этом пути имеются большие сложности.
- Можно пропустить важную новую зависимость.
- Если строить уравнение регрессии с малым числом переменных, то оно обычно оказывается низкого качества.
- Если стараться включить побольше переменных, то может возникнуть мультиколлинеарность между малозначимыми характеристиками, то есть включение малозначимых характеристик не внесет ничего, кроме искажений.
- Компьютер не может за приемлемое время осуществить полный перебор всех возможных наборов переменных и провести расчеты для каждого набора.
В большинстве случаев анализ сводится к проверке справедливости определенной гипотезы. Статистические методы проверки гипотез предполагают некоторую нуль-гипотезу. Методы анализа разработаны для конкретных типов нуль-гипотез. Проверка заключается в том, что с определенной степенью уверенности (достоверности) нуль-гипотеза принимается или отвергается в пользу альтернативной гипотезы. Использование нуль-гипотез будет рассмотрено на примерах. Поскольку события происходят все-таки случайно, результаты измерений могут не совсем соответствовать ожиданиям, но все же не очень сильно отличаться от них. Теория статистики позволяет количественно определить тот уровень отклонений, при котором нуль-гипотеза отвергается с заданной достоверностью a. Но всегда остается шанс, что нуль-гипотеза была отвергнута ошибочно.
Для каждого метода анализа уже имеется определенная нуль-гипотеза. В данной книге приводится ее вид, а также способ ее проверки. Если требуется подтвердить гипотезу, обратную нуль-гипотезе, то это равносильно тому, что нуль-гипотеза отвергается.
Наиболее распространенный иллюстрационный пример связан с правосудием. Если нуль-гипотеза – невиновен, то aзадает вероятность ошибочно наказать невинного человека. Соответственно, вероятность вынести правильный оправдательный приговор равно 1 - a . Вероятность ошибочно принять нуль-гипотезу, когда она на самом деле неверна (оправдать виновного), b, в общем случае не связана с a. Методы анализа разрабатываются с учетом требования минимизации этой ошибки.
С помощью простой табуляции выполняется целый ряд действий.
1. Обобщение результатов исследования. Результаты представляются в удобной и компактной форме.
2. Выявление ошибок. Они могут возникнуть при редактировании, кодировании, вводе данных в компьютер. Например, при сборе данных об объеме продаж по городам из одного города пришли странные данные. Выяснилось, что один из служащих со скуки приписал к данным пять нулей.
Данные лучше представлять в процентах, причем с точностью до целых. В исключительных случаях, если на то есть веские причины, можно вводить один знак после запятой. Хорошее представление: абсолютная величина и рядом, в скобках, процент.
3. Определениевыбросов (посторонних значений). Выброс – не обязательно ошибка. Это просто измерение, сильно отличающееся от других. Обычно его убирают из общего анализа и исследуют его отдельно.
Под редактированием понимается обеспечение минимальных стандартов качества данных.
Редактирование в поле является предварительным, устраняются большие пропуски и явные неточности в формулировках вопросов и ответов. Контролируются также и полевые работники: выявляются ошибки в их работе, проверяется понимание ими процедуры проведения опросов или наблюдений, регистрации полученных данных. Главное – провести редактирование как можно быстрее, пока еще можно устранить недочеты малыми затратами.
Редактирование в офисе производится грамотным специалистом, который знает цели и процедуры исследования. Если редактор не один, то работа должна разделяться не по респондентам (анкетам) по инструментам сбора данных. На этом этапе обводят мелкие и плохо читаемые ответы, разбирают слова, написанные респондентами неразборчиво, определяют, какие ответы обозначают небрежно поставленные «галочки». Решаются и вопросы о том, что делать с анкетами, в которых много неответов; в которых нет ответов на отдельные пункты; содержащими противоречивые ответы; заполненными незаинтересованными людьми, ответившими, например, на все вопросы одинаково.
Обычно такие анкеты обрабатываются отдельно от прочих. Затем определяется их доля, проверяется, изменятся ли результаты исследования от того, включать или не включать их в анализ. Потом для кАждого конкретного случая принимается окончательное решение о том, что делать с такими анкетами.