Data Mining в регрессионном анализе

Наука » Маркетинг » Маркетинговые исследования
В регрессионном анализе можно построить множество уравнений линейной регрессии по многим переменным. Например, для рассмотренного выше примера с тремя независимыми переменными существуют три уравнения регрессии с одной переменной, три – с двумя и одно – с тремя. Требуется рассмотреть семь уравнений, чтобы выбрать наилучшее. С ростом числа переменных сложность задачи быстро растет. Типовая анкета содержит от 10 до 30 социоэкономических характеристик и других независимых переменных. Перебрать все возможные варианты не представляется возможным. Традиционно исследователь выбирал из всего множества только те уравнения, которые считал перспективными на основе своего опыта или интуиции.

Но на этом пути имеются большие сложности.
- Можно пропустить важную новую зависимость.

- Если строить уравнение регрессии с малым числом переменных, то оно обычно оказывается низкого качества.

- Если стараться включить побольше переменных, то может возникнуть мультиколлинеарность между малозначимыми характеристиками, то есть включение малозначимых характеристик не внесет ничего, кроме искажений.

- Компьютер не может за приемлемое время осуществить полный перебор всех возможных наборов переменных и провести расчеты для каждого набора.

Цель и результаты анализа

Наука » Маркетинг » Маркетинговые исследования

В большинстве случаев анализ сводится к проверке справедливости определенной гипотезы. Статистические методы проверки гипотез предполагают некоторую нуль-гипотезу. Методы анализа разработаны для конкретных типов нуль-гипотез. Проверка заключается в том, что с определенной степенью уверенности (достоверности) нуль-гипотеза принимается или отвергается в пользу альтернативной гипотезы. Использование нуль-гипотез будет рассмотрено на примерах. Поскольку события происходят все-таки случайно, результаты измерений могут не совсем соответствовать ожиданиям, но все же не очень сильно отличаться от них. Теория статистики позволяет количественно определить тот уровень отклонений, при котором нуль-гипотеза отвергается с заданной достоверностью a. Но всегда остается шанс, что нуль-гипотеза была отвергнута ошибочно.

Для каждого метода анализа уже имеется определенная нуль-гипотеза. В данной книге приводится ее вид, а также способ ее проверки. Если требуется подтвердить гипотезу, обратную нуль-гипотезе, то это равносильно тому, что нуль-гипотеза отвергается.

Наиболее распространенный иллюстрационный пример связан с правосудием. Если нуль-гипотеза – невиновен, то aзадает вероятность ошибочно наказать невинного человека. Соответственно, вероятность вынести правильный оправдательный приговор равно 1 - a . Вероятность ошибочно принять нуль-гипотезу, когда она на самом деле неверна (оправдать виновного), b, в общем случае не связана с a. Методы анализа разрабатываются с учетом требования минимизации этой ошибки.

Простая табуляция

Наука » Маркетинг » Маркетинговые исследования

С помощью простой табуляции выполняется целый ряд действий.

1. Обобщение результатов исследования. Результаты представляются в удобной и компактной форме.

2. Выявление ошибок. Они могут возникнуть при редактировании, кодировании, вводе данных в компьютер. Например, при сборе данных об объеме продаж по городам из одного города пришли странные данные. Выяснилось, что один из служащих со скуки приписал к данным пять нулей.

Данные лучше представлять в процентах, причем с точностью до целых. В исключительных случаях, если на то есть веские причины, можно вводить один знак после запятой. Хорошее представление: абсолютная величина и рядом, в скобках, процент.

3. Определениевыбросов (посторонних значений). Выброс – не обязательно ошибка. Это просто измерение, сильно отличающееся от других. Обычно его убирают из общего анализа и исследуют его отдельно.

Редактирование

Наука » Маркетинг » Маркетинговые исследования

Под редактированием понимается обеспечение минимальных стандартов качества данных.

Редактирование в поле является предварительным, устраняются большие пропуски и явные неточности в формулировках вопросов и ответов. Контролируются также и полевые работники: выявляются ошибки в их работе, проверяется понимание ими процедуры проведения опросов или наблюдений, регистрации полученных данных. Главное – провести редактирование как можно быстрее, пока еще можно устранить недочеты малыми затратами.

Редактирование в офисе производится грамотным специалистом, который знает цели и процедуры исследования. Если редактор не один, то работа должна разделяться не по респондентам (анкетам) по инструментам сбора данных. На этом этапе обводят мелкие и плохо читаемые ответы, разбирают слова, написанные респондентами неразборчиво, определяют, какие ответы обозначают небрежно поставленные «галочки». Решаются и вопросы о том, что делать с анкетами, в которых много неответов; в которых нет ответов на отдельные пункты; содержащими противоречивые ответы; заполненными незаинтересованными людьми, ответившими, например, на все вопросы одинаково.

Обычно такие анкеты обрабатываются отдельно от прочих. Затем определяется их доля, проверяется, изменятся ли результаты исследования от того, включать или не включать их в анализ. Потом для кАждого конкретного случая принимается окончательное решение о том, что делать с такими анкетами.

Контроль работы интервьюеров

Наука » Маркетинг » Маркетинговые исследования

Поскольку телефонный опрос в настоящее время проводится достаточно часто и наилучшим образом поддается контролю, а подход к оценке деятельности интервьюеров един для различных форм опроса, будет рассмотрен контроль телефонных опросов.

Конечно, работа интервьюера должна оцениваться прежде всего количеством проведенных опросов и процентом сделанных ошибок. Однако это не так-то легко. Для получения таких оценок требуется повторное исследование. Оно, во-первых, стоит достаточно дорого, а во-вторых, может дать другие результаты, так как, например, отношение респондентов к товару могло за это время измениться. Кроме того, если респондентов опрашивать повторно, у них возникнут сомнения в анонимности опросов. Они могут также отказаться отвечать повторно на те же вопросы.

Таким образом, для оценки работы интервьюеров чаще используются другие показатели.

Рассмотрим процесс опроса по телефону, так как он легче всего поддается контролю. Еще в 1980 году было составлено дерево вариантов одного телефонного контакта при опросах по домашним телефонам

Работа интервьюеров

Наука » Маркетинг » Маркетинговые исследования

Когда респонденту задают вопрос, то он должен сделать следующее:

qпонять вопрос;

qначать процесс обдумывания, который приведет к ответу;

qоценить точность ответа;

qоценить приемлемость ответа с точки зрения собственного имиджа;

qоткорректировать его;

qвыдать итоговый ответ.

Модель взаимодействия участников интервью по [35] сведена в табл. 4.2. В ней показано, какие особенности двух общающихся сторон важны при проведении опроса.

Ошибки при сборе данных

Наука » Маркетинг » Маркетинговые исследования

При сборе данных главная проблема – проблема ошибок. Различные виды ошибок представлены на рис. Рис. 14.

Ошибки при сборе данных

Рис. 14. Виды ошибок при сборе данных

Ошибки выборки(ошибки репрезентативности) обусловлены зависимостью результата от тех исследуемых единиц, которые попали в выборку. Из-за наличия этих ошибок при повторных выборочных наблюдениях наблюдаемые переменные будут, скорее всего, иметь другое значение. Хотя эти ошибки обычно уменьшаются с увеличением размера выборки, саму выборку следует тщательно планировать и проводить. Было показано, что неправильно организованная процедура выборки может привести к искажению получаемых результатов.

Ошибки, не связанные с выборкой (они могут быть в десятки раз больше первых!) подразделяются на случайные и неслучайные.

Случайные ошибки имеют различный знак, так что их общий итог равен нулю при достаточном объеме выборки. Неслучайные ошибки дают смещение суммарной оценки.

Спектр неслучайных ошибок очень широк. Они могут быть обусловлены ошибочными концепциями, неправильной логикой рассуждений, неправильной интерпретацией ответов, некорректным определением статистики, ошибками в арифметике, при табуляции, при кодировании, ошибками в отчете. Эти ошибки могут увеличиваться с увеличением выборки.

Неслучайные ошибки, в свою очередь, подразделяются на ошибки ненаблюдения (когда нельзя получить данные из-за неохвата исследуемых элементов или неответа респондентов) и ошибки наблюдения(когда были получены неточные данные или произошли ошибки в их обработке).

Определение размера выборки

Наука » Маркетинг » Маркетинговые исследования

Размер выборки определяется типом выборки, статистикой, гомогенностью совокупности, временными и финансовыми ограничениями.

Основными исходными данными для определения размера выборки являются:

q план выборки;

q требуемая точность оценки;

q требуемый уровень достоверности.

Как уже отмечалось, для одинакового размера выборки увеличение точности снижает достоверность оценок и наоборот.

Процедуры определения размеров выборки различны для различных статистик и часто сложны. Для них разработаны соответствующие алгоритмы. Здесь будут рассмотрены только некоторые из них и только для простой случайной выборки.

Территориальная выборка

Наука » Маркетинг » Маркетинговые исследования

При одноступенчатой территориальной выборке элементами выбора служат чаще всего городские кварталы. Разбиение по кварталам удобно, так как оно взаимоисключающее и полное.

В выбранных кварталах опрашивается каждая семья. Если считать все кварталы одинаковыми по размеру, то вероятность для семьи попасть в опрос равна отношению количества кварталов города к количеству выбранных кварталов.

Метод достаточно дешев (интервьюеру не надо ездить по всему городу, опрашивая случайно выбранные семьи), но не идеален: в квартале проживают семьи примерно одного социального положения, что может внести некоторую ошибку. Она будет проявляться достаточно сильно, так как общее число выбираемых кварталов невелико. Если выбирать каждую семью отдельно, эта ошибка будет ниже.

Если количество семей в кварталах различно, то вероятность выбора квартала должна быть пропорциональна его размеру. Для такого выбора строится табл. 4.1.

Далее берутся равномерно распределенные случайные числаот 1 до 400. Если выбранное случайное число меньше 200 (см. правый столбец), то выбирается первый квартал, если меньше 300, но больше 200 – второй и т.д.

Механическая выборка

Наука » Маркетинг » Маркетинговые исследования

При этой выборке элементы генеральной совокупности, обычно предварительно расположенные в некотором порядке, нумеруются и разбиваются на n групп по номерам. Например, для n =10: 1-я группа включает 1-й, 11-й, 21-й,… элемент, 2-я – 2-й, 12-й, 22-й,… и т. д.

n называется интервалом выборки.

В выборку включается только одна группа. Если начало отбора соответствует 5-му элементу (k=5), то будут взяты 5-й, 15-й, 25-й … элементы. В общем случае выбираются k-й, (k+n)-й, (k+2n)-й, (k+3n)-й, … элементы.

В выборку попадает 1/n часть элементов генеральной совокупности. Точностные параметры правильно спланированной механической выборки близки к параметрам простой случайной выборки.

Случайный выбор k не дает большого эффекта. Он может даже ухудшить репрезентативность выборки. Например, если для оценки среднего товарооборота магазинов небольшого города взять список магазинов, расположить их по убыванию размера торговых залов, то скорее всего окажется, что в городе есть один-два очень больших магазина, которые имеют большой объем продаж. Если они попадут в выборку, то это вызовет ошибку репрезентативности. При простой случайной выборке включение в выборку таких магазинов приводит к большому отклонению выборочного среднего от среднего для генеральной совокупности. Именно из-за таких неудачных выборок уверенность в попадании истинного среднего в доверительный интервал не может быть 100%.

Виды стратификации

Наука » Маркетинг » Маркетинговые исследования

Пропорционально размеру страт. Размер выборки пропорционален доле страты в совокупности.

Пропорционально разбросу значений в стратах. Если в страте разброс велик, берется большое количество элементов, если мал – мало

Равный размер выборки для каждой страты.

Не следует путать страту с квотой. В страте выборка случайна и можно оценить доверительный интервал результата. Квота – заданное количество объектов с определенными характеристиками, а выбор остается за полевым работником.

Гнездовые выборки

Наука » Маркетинг » Маркетинговые исследования

Гнездовыми называются выборки, осуществляемые следующим образом:

1. Исследуемая совокупность элементов делится на взаимоисключающие подмножества, охватывающие всю совокупность.

2. Производится случайный выбор этих подмножеств.

3. Если используются все элементы выбранного подмножества, то это одношаговая гнездовая выборка. Если далее производится случайный выбор внутри подмножества, то выборка называется двухшаговой.

Каждое подмножество должно представлять собой маленькую модель исходной совокупности, поэтому они должны быть гетерогенны (включать разнородные объекты), в отличие от гомогенных страт.