Пусть из анкеты об удовлетворенности жизнью выбраны шесть вопросов: три о доме (Д1, Д2, Д3) и три о работе (Р1, Р2, Р3). Исходные данные находятся в таблице, строки которой соответствуют респондентам, а столбцы – их ответам, например, в процентах от полной удовлетворенности.
Пусть далее по ответам респондентов построена корреляционная матрица (табл. 5.19). В ней показаны корреляции между ответами на каждую пару вопросов.
Видно, что значения элементов этой матрицы различаются в несколько раз, причем некоторые имею довольно значительную величину (выделены рамкой). Наличие таких значений – простейший критерий применимости факторного анализа.
Поэтому определяются два фактора, что можно сделать стандартными методами. Как обычно, первый фактор «возьмет» максимальную дисперсию, а второй – максимум оставшейся. Каждый фактор будет представлять собой взвешенную сумму ответов на все вопросы.
Результат анализа будет полезным, если факторы удастся интерпретировать, выявить их смысл.
Рассчитав значения каждого из двух факторов для каждого респондента, следует рассмотреть корреляцию между переменными и полученными факторами (Табл. 5.20). Эти величины называются также факторными нагрузками и являются коэффициентами линейных уравнений, выражающих нормированные переменные через факторы. (Значения измеренных переменных для каждого элемента исследования может быть выражено как взвешенная сумма значений факторов для этого элемента. Эта операция обратна вычислению факторов в методе главных компонент). Полученные значения видны на графике в координатах {F1, F2}.
и отсутствует мультиколлинеарность. Пусть по методу наименьших квадратов получены значения b1=3, b2=0,5 и b3=10. Это означает, что увеличение количества торговых представителей на 1 увеличит объем продаж на 3, а увеличение на 1 количества рекламных обращений повысит объем продаж на 0,5. Кроме того, видно, что работа отличного менеджера (оценивается в 5 балла) отличается от работы хорошего (4 балла) на 10 единиц, работа хорошего и удовлетворительного (4 и 3 балла соответственно), удовлетворительного и плохого (3 и 2 балла соответственно) также отличаются на 10 единиц. В результате исходно лингвистическая шкала оценки получилась интервальной. Вдобавок получилось, что полное отсутствие ответственного менедера на 20 единиц хуже, чем присутствие плохого менеджера. Все это вызывает справедливые сомнения.
Для уточнения полученных выводов вводят фиктивные переменные. Они помогают работать с переменными, заданными в номинальных шкалах.
Но на этом пути имеются большие сложности.
- Можно пропустить важную новую зависимость.
- Если строить уравнение регрессии с малым числом переменных, то оно обычно оказывается низкого качества.
- Если стараться включить побольше переменных, то может возникнуть мультиколлинеарность между малозначимыми характеристиками, то есть включение малозначимых характеристик не внесет ничего, кроме искажений.
- Компьютер не может за приемлемое время осуществить полный перебор всех возможных наборов переменных и провести расчеты для каждого набора.
В большинстве случаев анализ сводится к проверке справедливости определенной гипотезы. Статистические методы проверки гипотез предполагают некоторую нуль-гипотезу. Методы анализа разработаны для конкретных типов нуль-гипотез. Проверка заключается в том, что с определенной степенью уверенности (достоверности) нуль-гипотеза принимается или отвергается в пользу альтернативной гипотезы. Использование нуль-гипотез будет рассмотрено на примерах. Поскольку события происходят все-таки случайно, результаты измерений могут не совсем соответствовать ожиданиям, но все же не очень сильно отличаться от них. Теория статистики позволяет количественно определить тот уровень отклонений, при котором нуль-гипотеза отвергается с заданной достоверностью a. Но всегда остается шанс, что нуль-гипотеза была отвергнута ошибочно.
Для каждого метода анализа уже имеется определенная нуль-гипотеза. В данной книге приводится ее вид, а также способ ее проверки. Если требуется подтвердить гипотезу, обратную нуль-гипотезе, то это равносильно тому, что нуль-гипотеза отвергается.
Наиболее распространенный иллюстрационный пример связан с правосудием. Если нуль-гипотеза – невиновен, то aзадает вероятность ошибочно наказать невинного человека. Соответственно, вероятность вынести правильный оправдательный приговор равно 1 - a . Вероятность ошибочно принять нуль-гипотезу, когда она на самом деле неверна (оправдать виновного), b, в общем случае не связана с a. Методы анализа разрабатываются с учетом требования минимизации этой ошибки.
С помощью простой табуляции выполняется целый ряд действий.
1. Обобщение результатов исследования. Результаты представляются в удобной и компактной форме.
2. Выявление ошибок. Они могут возникнуть при редактировании, кодировании, вводе данных в компьютер. Например, при сборе данных об объеме продаж по городам из одного города пришли странные данные. Выяснилось, что один из служащих со скуки приписал к данным пять нулей.
Данные лучше представлять в процентах, причем с точностью до целых. В исключительных случаях, если на то есть веские причины, можно вводить один знак после запятой. Хорошее представление: абсолютная величина и рядом, в скобках, процент.
3. Определениевыбросов (посторонних значений). Выброс – не обязательно ошибка. Это просто измерение, сильно отличающееся от других. Обычно его убирают из общего анализа и исследуют его отдельно.
Под редактированием понимается обеспечение минимальных стандартов качества данных.
Редактирование в поле является предварительным, устраняются большие пропуски и явные неточности в формулировках вопросов и ответов. Контролируются также и полевые работники: выявляются ошибки в их работе, проверяется понимание ими процедуры проведения опросов или наблюдений, регистрации полученных данных. Главное – провести редактирование как можно быстрее, пока еще можно устранить недочеты малыми затратами.
Редактирование в офисе производится грамотным специалистом, который знает цели и процедуры исследования. Если редактор не один, то работа должна разделяться не по респондентам (анкетам) по инструментам сбора данных. На этом этапе обводят мелкие и плохо читаемые ответы, разбирают слова, написанные респондентами неразборчиво, определяют, какие ответы обозначают небрежно поставленные «галочки». Решаются и вопросы о том, что делать с анкетами, в которых много неответов; в которых нет ответов на отдельные пункты; содержащими противоречивые ответы; заполненными незаинтересованными людьми, ответившими, например, на все вопросы одинаково.
Обычно такие анкеты обрабатываются отдельно от прочих. Затем определяется их доля, проверяется, изменятся ли результаты исследования от того, включать или не включать их в анализ. Потом для кАждого конкретного случая принимается окончательное решение о том, что делать с такими анкетами.
Поскольку телефонный опрос в настоящее время проводится достаточно часто и наилучшим образом поддается контролю, а подход к оценке деятельности интервьюеров един для различных форм опроса, будет рассмотрен контроль телефонных опросов.
Конечно, работа интервьюера должна оцениваться прежде всего количеством проведенных опросов и процентом сделанных ошибок. Однако это не так-то легко. Для получения таких оценок требуется повторное исследование. Оно, во-первых, стоит достаточно дорого, а во-вторых, может дать другие результаты, так как, например, отношение респондентов к товару могло за это время измениться. Кроме того, если респондентов опрашивать повторно, у них возникнут сомнения в анонимности опросов. Они могут также отказаться отвечать повторно на те же вопросы.
Таким образом, для оценки работы интервьюеров чаще используются другие показатели.
Рассмотрим процесс опроса по телефону, так как он легче всего поддается контролю. Еще в 1980 году было составлено дерево вариантов одного телефонного контакта при опросах по домашним телефонам
Когда респонденту задают вопрос, то он должен сделать следующее:
qпонять вопрос;
qначать процесс обдумывания, который приведет к ответу;
qоценить точность ответа;
qоценить приемлемость ответа с точки зрения собственного имиджа;
qоткорректировать его;
qвыдать итоговый ответ.
Модель взаимодействия участников интервью по [35] сведена в табл. 4.2. В ней показано, какие особенности двух общающихся сторон важны при проведении опроса.
При сборе данных главная проблема – проблема ошибок. Различные виды ошибок представлены на рис. 14.
Рис. 14. Виды ошибок при сборе данных
Ошибки выборки(ошибки репрезентативности) обусловлены зависимостью результата от тех исследуемых единиц, которые попали в выборку. Из-за наличия этих ошибок при повторных выборочных наблюдениях наблюдаемые переменные будут, скорее всего, иметь другое значение. Хотя эти ошибки обычно уменьшаются с увеличением размера выборки, саму выборку следует тщательно планировать и проводить. Было показано, что неправильно организованная процедура выборки может привести к искажению получаемых результатов.
Ошибки, не связанные с выборкой (они могут быть в десятки раз больше первых!) подразделяются на случайные и неслучайные.
Случайные ошибки имеют различный знак, так что их общий итог равен нулю при достаточном объеме выборки. Неслучайные ошибки дают смещение суммарной оценки.
Спектр неслучайных ошибок очень широк. Они могут быть обусловлены ошибочными концепциями, неправильной логикой рассуждений, неправильной интерпретацией ответов, некорректным определением статистики, ошибками в арифметике, при табуляции, при кодировании, ошибками в отчете. Эти ошибки могут увеличиваться с увеличением выборки.
Неслучайные ошибки, в свою очередь, подразделяются на ошибки ненаблюдения (когда нельзя получить данные из-за неохвата исследуемых элементов или неответа респондентов) и ошибки наблюдения(когда были получены неточные данные или произошли ошибки в их обработке).
Размер выборки определяется типом выборки, статистикой, гомогенностью совокупности, временными и финансовыми ограничениями.
Основными исходными данными для определения размера выборки являются:
q план выборки;
q требуемая точность оценки;
q требуемый уровень достоверности.
Как уже отмечалось, для одинакового размера выборки увеличение точности снижает достоверность оценок и наоборот.
Процедуры определения размеров выборки различны для различных статистик и часто сложны. Для них разработаны соответствующие алгоритмы. Здесь будут рассмотрены только некоторые из них и только для простой случайной выборки.
При одноступенчатой территориальной выборке элементами выбора служат чаще всего городские кварталы. Разбиение по кварталам удобно, так как оно взаимоисключающее и полное.
В выбранных кварталах опрашивается каждая семья. Если считать все кварталы одинаковыми по размеру, то вероятность для семьи попасть в опрос равна отношению количества кварталов города к количеству выбранных кварталов.
Метод достаточно дешев (интервьюеру не надо ездить по всему городу, опрашивая случайно выбранные семьи), но не идеален: в квартале проживают семьи примерно одного социального положения, что может внести некоторую ошибку. Она будет проявляться достаточно сильно, так как общее число выбираемых кварталов невелико. Если выбирать каждую семью отдельно, эта ошибка будет ниже.
Если количество семей в кварталах различно, то вероятность выбора квартала должна быть пропорциональна его размеру. Для такого выбора строится табл. 4.1.
Далее берутся равномерно распределенные случайные числаот 1 до 400. Если выбранное случайное число меньше 200 (см. правый столбец), то выбирается первый квартал, если меньше 300, но больше 200 – второй и т.д.
При этой выборке элементы генеральной совокупности, обычно предварительно расположенные в некотором порядке, нумеруются и разбиваются на n групп по номерам. Например, для n =10: 1-я группа включает 1-й, 11-й, 21-й,… элемент, 2-я – 2-й, 12-й, 22-й,… и т. д.
n называется интервалом выборки.
В выборку включается только одна группа. Если начало отбора соответствует 5-му элементу (k=5), то будут взяты 5-й, 15-й, 25-й … элементы. В общем случае выбираются k-й, (k+n)-й, (k+2n)-й, (k+3n)-й, … элементы.
В выборку попадает 1/n часть элементов генеральной совокупности. Точностные параметры правильно спланированной механической выборки близки к параметрам простой случайной выборки.
Случайный выбор k не дает большого эффекта. Он может даже ухудшить репрезентативность выборки. Например, если для оценки среднего товарооборота магазинов небольшого города взять список магазинов, расположить их по убыванию размера торговых залов, то скорее всего окажется, что в городе есть один-два очень больших магазина, которые имеют большой объем продаж. Если они попадут в выборку, то это вызовет ошибку репрезентативности. При простой случайной выборке включение в выборку таких магазинов приводит к большому отклонению выборочного среднего от среднего для генеральной совокупности. Именно из-за таких неудачных выборок уверенность в попадании истинного среднего в доверительный интервал не может быть 100%.