Data Mining в регрессионном анализе

В регрессионном анализе можно построить множество уравнений линейной регрессии по многим переменным. Например, для рассмотренного выше примера с тремя независимыми переменными существуют три уравнения регрессии с одной переменной, три – с двумя и одно – с тремя. Требуется рассмотреть семь уравнений, чтобы выбрать наилучшее. С ростом числа переменных сложность задачи быстро растет. Типовая анкета содержит от 10 до 30 социоэкономических характеристик и других независимых переменных. Перебрать все возможные варианты не представляется возможным. Традиционно исследователь выбирал из всего множества только те уравнения, которые считал перспективными на основе своего опыта или интуиции.

Но на этом пути имеются большие сложности.
- Можно пропустить важную новую зависимость.

- Если строить уравнение регрессии с малым числом переменных, то оно обычно оказывается низкого качества.

- Если стараться включить побольше переменных, то может возникнуть мультиколлинеарность между малозначимыми характеристиками, то есть включение малозначимых характеристик не внесет ничего, кроме искажений.

- Компьютер не может за приемлемое время осуществить полный перебор всех возможных наборов переменных и провести расчеты для каждого набора.

В связи с этим в регрессионном анализе предложено использовать подход Data Mining. Применение этого подхода описано в [13] и хорошо иллюстрирует идею, лежащую в основе Data Mining.

Для получения наилучшей регрессионной функции за приемлемое время предлагается использовать три алгоритма.

- Последовательное увеличение размерности. Работа начинается с постоения регрессионных функций с одной независимой переменной. Среди них находится функция с максимальным коэффициентом детерминации. Затем строятся все возмжные регрессионные функции с двумя переменными, причем одна из переменных остается такой же, как и в наилучшей функции одной переменной. Процесс продолжается до тех пор, пока не будет получено уравенние со всеми независимыми переменными. Строится график зависимости коэффициента детерминации от количества переменных. Далее исследователь может выбрать такое соотношение коэффициента детерминации и количества переменных, которое устроит его наилучшим образом.

- Последовательное уменьшение размерности. Расчеты начинаются с построения регрессионной функции, включающей все переменные. Затем находится такая переменная, удаление которой минимально ухудшит регрессионную функцию, то есть без которой коэффициент детерминации будет максимальным. Так продолжается до тех пор, пока не останется одна переменная. Далее исследователь может выбрать набор переменных, обеспечивающих необходимую ему точность.

- Алгоритм «плюс l минус r производит попеременное добавление и удаление переменных.

Все эти алгоритмы являются эвристическими, то есть почти всегда работают, но не гарантируют получение наилучшего результата.

Интересное применение регрессионного анализа – исследование поведения потребителей, продавцов, менеджеров, их мотивы. Делаются попытки построить количественные, а не умозрительные модели.

Источник: Н. В. Павлов, Санкт-Петербург, Издательство СПбГТУ, 2005

Авторское право на материал

Копирование материалов допускается только с указанием активной ссылки на статью!

Data Mining в регрессионном анализе

Наука » Маркетинг » Маркетинговые исследования

Похожие статьи

Авторизация

Друзья сайта

Популярные разделы

НАУКА

...

ЧЕЛОВЕК

...

ВНЕ НАУКИ

...

О НАС