Метод регрессии. Регрессионный анализ в Microsoft Excel
Регрессионный анализ — это статистический метод исследования, позволяющий показать зависимость того или иного параметра от одной либо нескольких независимых переменных. В докомпьютерную эру его применение было достаточно затруднительно, особенно если речь шла о больших объемах данных. Сегодня, узнав как построить регрессию в Excel, можно решать сложные статистические задачи буквально за пару минут. Ниже представлены конкретные примеры из области экономики.
Виды регрессии
Само это понятие было введено в математику в 1886 году. Регрессия бывает:
- линейной;
- параболической;
- степенной;
- экспоненциальной;
- гиперболической;
- показательной;
- логарифмической.
Пример 1
Рассмотрим задачу определения зависимости количества уволившихся членов коллектива от средней зарплаты на 6 промышленных предприятиях.
Задача. На шести предприятиях проанализировали среднемесячную заработную плату и количество сотрудников, которые уволились по собственному желанию. В табличной форме имеем:
Количество уволившихся | Зарплата |
||
30000 рублей |
|||
35000 рублей |
|||
40000 рублей |
|||
45000 рублей |
|||
50000 рублей |
|||
55000 рублей |
|||
60000 рублей |
Для задачи определения зависимости количества уволившихся работников от средней зарплаты на 6 предприятиях модель регрессии имеет вид уравнения Y = а 0 + а 1 x 1 +…+а k x k , где х i — влияющие переменные, a i — коэффициенты регрессии, a k — число факторов.
Для данной задачи Y — это показатель уволившихся сотрудников, а влияющий фактор — зарплата, которую обозначаем X.
Использование возможностей табличного процессора «Эксель»
Анализу регрессии в Excel должно предшествовать применение к имеющимся табличным данным встроенных функций. Однако для этих целей лучше воспользоваться очень полезной надстройкой «Пакет анализа». Для его активации нужно:
- с вкладки «Файл» перейти в раздел «Параметры»;
- в открывшемся окне выбрать строку «Надстройки»;
- щелкнуть по кнопке «Перейти», расположенной внизу, справа от строки «Управление»;
- поставить галочку рядом с названием «Пакет анализа» и подтвердить свои действия, нажав «Ок».
Если все сделано правильно, в правой части вкладки «Данные», расположенном над рабочим листом «Эксель», появится нужная кнопка.
в Excel
Теперь, когда под рукой есть все необходимые виртуальные инструменты для осуществления эконометрических расчетов, можем приступить к решению нашей задачи. Для этого:
- щелкаем по кнопке «Анализ данных»;
- в открывшемся окне нажимаем на кнопку «Регрессия»;
- в появившуюся вкладку вводим диапазон значений для Y (количество уволившихся работников) и для X (их зарплаты);
- подтверждаем свои действия нажатием кнопки «Ok».
В результате программа автоматически заполнит новый лист табличного процессора данными анализа регрессии. Обратите внимание! В Excel есть возможность самостоятельно задать место, которое вы предпочитаете для этой цели. Например, это может быть тот же лист, где находятся значения Y и X, или даже новая книга, специально предназначенная для хранения подобных данных.
Анализ результатов регрессии для R-квадрата
В Excel данные полученные в ходе обработки данных рассматриваемого примера имеют вид:
Прежде всего, следует обратить внимание на значение R-квадрата. Он представляет собой коэффициент детерминации. В данном примере R-квадрат = 0,755 (75,5%), т. е. расчетные параметры модели объясняют зависимость между рассматриваемыми параметрами на 75,5 %. Чем выше значение коэффициента детерминации, тем выбранная модель считается более применимой для конкретной задачи. Считается, что она корректно описывает реальную ситуацию при значении R-квадрата выше 0,8. Если R-квадрата<0,5, то такой анализа регрессии в Excel нельзя считать резонным.
Анализ коэффициентов
Число 64,1428 показывает, каким будет значение Y, если все переменные xi в рассматриваемой нами модели обнулятся. Иными словами можно утверждать, что на значение анализируемого параметра оказывают влияние и другие факторы, не описанные в конкретной модели.
Следующий коэффициент -0,16285, расположенный в ячейке B18, показывает весомость влияния переменной Х на Y. Это значит, что среднемесячная зарплата сотрудников в пределах рассматриваемой модели влияет на число уволившихся с весом -0,16285, т. е. степень ее влияния совсем небольшая. Знак «-» указывает на то, что коэффициент имеет отрицательное значение. Это очевидно, так как всем известно, что чем больше зарплата на предприятии, тем меньше людей выражают желание расторгнуть трудовой договор или увольняется.
Множественная регрессия
Под таким термином понимается уравнение связи с несколькими независимыми переменными вида:
y=f(x 1 +x 2 +…x m) + ε, где y — это результативный признак (зависимая переменная), а x 1 , x 2 , …x m — это признаки-факторы (независимые переменные).
Оценка параметров
Для множественной регрессии (МР) ее осуществляют, используя метод наименьших квадратов (МНК). Для линейных уравнений вида Y = a + b 1 x 1 +…+b m x m + ε строим систему нормальных уравнений (см. ниже)
Чтобы понять принцип метода, рассмотрим двухфакторный случай. Тогда имеем ситуацию, описываемую формулой
Отсюда получаем:
где σ — это дисперсия соответствующего признака, отраженного в индексе.
МНК применим к уравнению МР в стандартизируемом масштабе. В таком случае получаем уравнение:
в котором t y , t x 1, … t xm — стандартизируемые переменные, для которых средние значения равны 0; β i — стандартизированные коэффициенты регрессии, а среднеквадратическое отклонение — 1.
Обратите внимание, что все β i в данном случае заданы, как нормируемые и централизируемые, поэтому их сравнение между собой считается корректным и допустимым. Кроме того, принято осуществлять отсев факторов, отбрасывая те из них, у которых наименьшие значения βi.
Задача с использованием уравнения линейной регрессии
Предположим, имеется таблица динамики цены конкретного товара N в течение последних 8 месяцев. Необходимо принять решение о целесообразности приобретения его партии по цене 1850 руб./т.
номер месяца | название месяца | цена товара N |
|
1750 рублей за тонну |
|||
1755 рублей за тонну |
|||
1767 рублей за тонну |
|||
1760 рублей за тонну |
|||
1770 рублей за тонну |
|||
1790 рублей за тонну |
|||
1810 рублей за тонну |
|||
1840 рублей за тонну |
|||
Для решения этой задачи в табличном процессоре «Эксель» требуется задействовать уже известный по представленному выше примеру инструмент «Анализ данных». Далее выбирают раздел «Регрессия» и задают параметры. Нужно помнить, что в поле «Входной интервал Y» должен вводиться диапазон значений для зависимой переменной (в данном случае цены на товар в конкретные месяцы года), а в «Входной интервал X» — для независимой (номер месяца). Подтверждаем действия нажатием «Ok». На новом листе (если так было указано) получаем данные для регрессии.
Строим по ним линейное уравнение вида y=ax+b, где в качестве параметров a и b выступают коэффициенты строки с наименованием номера месяца и коэффициенты и строки «Y-пересечение» из листа с результатами регрессионного анализа. Таким образом, линейное уравнение регрессии (УР) для задачи 3 записывается в виде:
Цена на товар N = 11,714* номер месяца + 1727,54.
или в алгебраических обозначениях
y = 11,714 x + 1727,54
Анализ результатов
Чтобы решить, адекватно ли полученное уравнения линейной регрессии, используются коэффициенты множественной корреляции (КМК) и детерминации, а также критерий Фишера и критерий Стьюдента. В таблице «Эксель» с результатами регрессии они выступают под названиями множественный R, R-квадрат, F-статистика и t-статистика соответственно.
КМК R дает возможность оценить тесноту вероятностной связи между независимой и зависимой переменными. Ее высокое значение свидетельствует о достаточно сильной связи между переменными «Номер месяца» и «Цена товара N в рублях за 1 тонну». Однако, характер этой связи остается неизвестным.
Квадрат коэффициента детерминации R 2 (RI) представляет собой числовую характеристику доли общего разброса и показывает, разброс какой части экспериментальных данных, т.е. значений зависимой переменной соответствует уравнению линейной регрессии. В рассматриваемой задаче эта величина равна 84,8%, т. е. статистические данные с высокой степенью точности описываются полученным УР.
F-статистика, называемая также критерием Фишера, используется для оценки значимости линейной зависимости, опровергая или подтверждая гипотезу о ее существовании.
(критерий Стьюдента) помогает оценивать значимость коэффициента при неизвестной либо свободного члена линейной зависимости. Если значение t-критерия > t кр, то гипотеза о незначимости свободного члена линейного уравнения отвергается.
В рассматриваемой задаче для свободного члена посредством инструментов «Эксель» было получено, что t=169,20903, а p=2,89Е-12, т. е. имеем нулевую вероятность того, что будет отвергнута верная гипотеза о незначимости свободного члена. Для коэффициента при неизвестной t=5,79405, а p=0,001158. Иными словами вероятность того, что будет отвергнута верная гипотеза о незначимости коэффициента при неизвестной, равна 0,12%.
Таким образом, можно утверждать, что полученное уравнение линейной регрессии адекватно.
Задача о целесообразности покупки пакета акций
Множественная регрессия в Excel выполняется с использованием все того же инструмента «Анализ данных». Рассмотрим конкретную прикладную задачу.
Руководство компания «NNN» должно принять решение о целесообразности покупки 20 % пакета акций АО «MMM». Стоимость пакета (СП) составляет 70 млн американских долларов. Специалистами «NNN» собраны данные об аналогичных сделках. Было принято решение оценивать стоимость пакета акций по таким параметрам, выраженным в миллионах американских долларов, как:
- кредиторская задолженность (VK);
- объем годового оборота (VO);
- дебиторская задолженность (VD);
- стоимость основных фондов (СОФ).
Кроме того, используется параметр задолженность предприятия по зарплате (V3 П) в тысячах американских долларов.
Решение средствами табличного процессора Excel
Прежде всего, необходимо составить таблицу исходных данных. Она имеет следующий вид:
- вызывают окно «Анализ данных»;
- выбирают раздел «Регрессия»;
- в окошко «Входной интервал Y» вводят диапазон значений зависимых переменных из столбца G;
- щелкают по иконке с красной стрелкой справа от окна «Входной интервал X» и выделяют на листе диапазон всех значений из столбцов B,C, D, F.
Отмечают пункт «Новый рабочий лист» и нажимают «Ok».
Получают анализ регрессии для данной задачи.
Изучение результатов и выводы
«Собираем» из округленных данных, представленных выше на листе табличного процессора Excel, уравнение регрессии:
СП = 0,103*СОФ + 0,541*VO - 0,031*VK +0,405*VD +0,691*VZP - 265,844.
В более привычном математическом виде его можно записать, как:
y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844
Данные для АО «MMM» представлены в таблице:
Подставив их в уравнение регрессии, получают цифру в 64,72 млн американских долларов. Это значит, что акции АО «MMM» не стоит приобретать, так как их стоимость в 70 млн американских долларов достаточно завышена.
Как видим, использование табличного процессора «Эксель» и уравнения регрессии позволило принять обоснованное решение относительно целесообразности вполне конкретной сделки.
Теперь вы знаете, что такое регрессия. Примеры в Excel, рассмотренные выше, помогут вам в решение практических задач из области эконометрики.
1. Впервые термин «регрессия» был введен основателем биометрии Ф. Гальтоном (XIX в.), идеи которого были развиты его последователем К. Пирсоном.
Регрессионный анализ - метод статистической обработки данных, позволяющий измерить связь между одной или несколькими причинами (факторными признаками) и следствием (результативным признаком).
Признак - это основная отличительная черта, особенность изучаемого явления или процесса.
Результативный признак - исследуемый показатель.
Факторный признак - показатель, влияющий на значение результативного признака.
Целью регрессионного анализа является оценка функциональной зависимости среднего значения результативного признака (у ) от факторных (х 1 , х 2 , …, х n ), выражаемой в виде уравнения регрессии
у = f (x 1 , х 2 , …, х n ). (6.1)
Различают два вида регрессии: парную и множественную.
Парная (простая) регрессия - уравнение вида:
у = f (x ). (6.2)
Результативный признак при парной регрессии рассматривается как функция от одного аргумента, т.е. одного факторного признака.
Регрессионный анализ включает в себя следующие этапы:
· определение типа функции;
· определение коэффициентов регрессии;
· расчет теоретических значений результативного признака;
· проверку статистической значимости коэффициентов регрессии;
· проверку статистической значимости уравнения регрессии.
Множественная регрессия - уравнение вида:
у = f (x 1 , х 2 , …, х n ). (6.3)
Результативный признак рассматривается как функция от нескольких аргументов, т.е. много факторных признаков.
2. Для того чтобы правильно определить тип функции нужно на основании теоретических данных найти направление связи.
По направлению связи регрессия делится на:
· прямую регрессию, возникающую при условии, что с увеличением или уменьшением независимой величины «х» значения зависимой величины «у» также соответственно увеличиваются или уменьшаются;
· обратную регрессию, возникающую при условии, что с увеличением или уменьшением независимой величины «х» зависимая величина «у» соответственно уменьшается или увеличивается.
Для характеристики связей используют следующие виды уравнений парной регрессии:
· у=a+bx – линейное;
· y=e ax + b – экспоненциальное;
· y=a+b/x – гиперболическое;
· y=a+b 1 x+b 2 x 2 – параболическое;
· y=ab x – показательное и др.
где a, b 1 , b 2 - коэффициенты (параметры) уравнения; у - результативный признак; х - факторный признак.
3. Построение уравнения регрессии сводится к оценке его коэффициентов (параметров), для этого используют метод наименьших квадратов (МНК).
Метод наименьших квадратов позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака «у »от теоретических «у х » минимальна, то есть
Параметры уравнения регрессии у=a+bх по методу наименьших квадратов оцениваются с помощью формул:
где а – свободный коэффициент, b - коэффициент регрессии, показывает на сколько изменится результативный признак «y » при изменении факторного признака «x » на единицу измерения.
4. Для оценки статистической значимости коэффициентов регрессии используется -критерий Стьюдента.
Схема проверки значимости коэффициентов регрессии:
1) Н 0: a =0, b =0 - коэффициенты регрессии незначимо отличаются от нуля.
Н 1: a≠ 0, b≠ 0 - коэффициенты регрессии значимо отличаются от нуля.
2) р =0,05 – уровень значимости.
где m b , m a - случайные ошибки:
; . (6.7)
4) t табл (р; f ),
где f =n-k- 1 - число степеней свободы (табличное значение), n - число наблюдений, k х».
5) Если , то отклоняется, т.е. коэффициент значимый.
Если , то принимается, т.е. коэффициент незначимый.
5. Для проверки правильности построенного уравнения регрессии применяется критерий Фишера.
Схема проверки значимости уравнения регрессии:
1) Н 0: уравнение регрессии незначимо.
Н 1: уравнение регрессии значимо.
2) р =0,05 – уровень значимости.
3) , (6.8)
где - число наблюдений; k - число параметров в уравнении при переменных «х» ; у - фактическое значение результативного признака; y x - теоретическое значение результативного признака; - коэффициент парной кореляции.
4) F табл (р; f 1 ; f 2 ),
где f 1 =k, f 2 =n-k-1- число степеней свободы (табличные значения).
5) Если F расч >F табл , то уравнение регрессии подобрано верно и может применяться на практике.
Если F расч
6. Основным показателем, отражающим меру качества регрессионного анализа, является коэффициент детерминации (R 2).
Коэффициент детерминации показывает, какая доля зависимой переменной «у » учтена в анализе и вызвана влиянием на нее факторов, включенных в анализ.
Коэффициент детерминации (R 2) принимает значения в промежутке . Уравнение регрессии является качественным, если R 2 ≥0,8.
Коэффициент детерминации равен квадрату коэффициента корреляции, т.е.
Пример 6.1. По следующим данным построить и проанализировать уравнение регрессии:
Решение.
1) Вычислить коэффициент корреляции: . Связь между признаками прямая и умеренная.
2) Построить уравнение парной линейной регрессии.
2.1) Составить расчетную таблицу.
№ | Х | у | Ху | х 2 | у х | (у-у х) 2 | ||
55,89 | 47,54 | 65,70 | ||||||
45,07 | 15,42 | 222,83 | ||||||
54,85 | 34,19 | 8,11 | ||||||
51,36 | 5,55 | 11,27 | ||||||
42,28 | 45,16 | 13,84 | ||||||
47,69 | 1,71 | 44,77 | ||||||
45,86 | 9,87 | 192,05 | ||||||
Сумма | 159,45 | 558,55 | ||||||
Среднее | 77519,6 | 22,78 | 79,79 | 2990,6 |
,
Уравнение парной линейной регрессии: у х =25,17+0,087х.
3) Найти теоретические значения «у x » путем подстановки в уравнение регрессии фактических значений «х ».
4) Построить графики фактических «у» и теоретических значений «у х » результативного признака (рисунок 6.1):r xy =0,47) и небольшим числом наблюдений.
7) Вычислить коэффициент детерминации: R 2 =(0,47) 2 =0,22. Построенное уравнение некачественное.
Т.к. вычисления при проведении регрессионного анализа достаточно объемные, рекомендуется пользоваться специальными программами («Statistica 10», SPSS и др.).
На рисунке 6.2 приведена таблица с результатами регрессионного анализа, проведенного с помощью программы «Statistica 10».
Рисунок 6.2. Результаты регрессионного анализа, проведенного с помощью программы «Statistica 10»
5. Литература:
1. Гмурман В.Е. Теория вероятностей и математическая статистика: Учеб. пособие для вузов / В.Е. Гмурман. - М.: Высшая школа, 2003. - 479 с.
2. Койчубеков Б.К. Биостатистика: Учебное пособие. - Алматы: Эверо, 2014. - 154 с.
3. Лобоцкая Н.Л. Высшая математика. / Н.Л. Лобоцкая, Ю.В. Морозов, А.А. Дунаев. - Мн.: Высшая школа, 1987. - 319 с.
4. Медик В.А., Токмачев М.С., Фишман Б.Б. Статистика в медицине и биологии: Руководство. В 2-х томах / Под ред. Ю.М. Комарова. Т. 1. Теоретическая статистика. - М.: Медицина, 2000. - 412 с.
5. Применение методов статистического анализа для изучения общественного здоровья и здравоохранения: учебное пособие / ред. Кучеренко В.З. - 4-е изд., перераб. и доп. – М.: ГЭОТАР - Медиа, 2011. - 256 с.
ВЫВОД ИТОГОВ
Регрессионная статистика | |
Множественный R | 0,998364 |
R-квадрат | 0,99673 |
Нормированный R-квадрат | 0,996321 |
Стандартная ошибка | 0,42405 |
Наблюдения | 10 |
Сначала рассмотрим верхнюю часть расчетов, представленную в таблице 8.3а , - регрессионную статистику.
Величина R-квадрат , называемая также мерой определенности, характеризует качество полученной регрессионной прямой. Это качество выражается степенью соответствия между исходными данными и регрессионной моделью (расчетными данными). Мера определенности всегда находится в пределах интервала .
В большинстве случаев значение R-квадрат находится между этими значениями, называемыми экстремальными, т.е. между нулем и единицей.
Если значение R-квадрата близко к единице, это означает, что построенная модель объясняет почти всю изменчивость соответствующих переменных. И наоборот, значение R-квадрата , близкое к нулю, означает плохое качество построенной модели.
В нашем примере мера определенности равна 0,99673, что говорит об очень хорошей подгонке регрессионной прямой к исходным данным.
Множественный R - коэффициент множественной корреляции R - выражает степень зависимости независимых переменных (X) и зависимой переменной (Y).
Множественный R равен квадратному корню из коэффициента детерминации, эта величина принимает значения в интервале от нуля до единицы.
В простом линейном регрессионном анализе множественный R равен коэффициенту корреляции Пирсона. Действительно, множественный R в нашем случае равен коэффициенту корреляции Пирсона из предыдущего примера (0,998364).
Коэффициенты | Стандартная ошибка | t-статистика | |
Y-пересечение | 2,694545455 | 0,33176878 | 8,121757129 |
Переменная X 1 | 2,305454545 | 0,04668634 | 49,38177965 |
* Приведен усеченный вариант расчетов |
Теперь рассмотрим среднюю часть расчетов, представленную в таблице 8.3б . Здесь даны коэффициент регрессии b (2,305454545) и смещение по оси ординат, т.е. константа a (2,694545455).
Исходя из расчетов, можем записать уравнение регрессии таким образом:
Y= x*2,305454545+2,694545455
Направление связи между переменными определяется на основании знаков (отрицательный или положительный) коэффициентов регрессии (коэффициента b).
Если знак при коэффициенте регрессии - положительный, связь зависимой переменной с независимой будет положительной. В нашем случае знак коэффициента регрессии положительный, следовательно, связь также является положительной.
Если знак при коэффициенте регрессии - отрицательный, связь зависимой переменной с независимой является отрицательной (обратной).
В таблице 8.3в . представлены результаты вывода остатков . Для того чтобы эти результаты появились в отчете, необходимо при запуске инструмента "Регрессия" активировать чекбокс "Остатки".
ВЫВОД ОСТАТКА
Наблюдение | Предсказанное Y | Остатки | Стандартные остатки |
---|---|---|---|
1 | 9,610909091 | -0,610909091 | -1,528044662 |
2 | 7,305454545 | -0,305454545 | -0,764022331 |
3 | 11,91636364 | 0,083636364 | 0,209196591 |
4 | 14,22181818 | 0,778181818 | 1,946437843 |
5 | 16,52727273 | 0,472727273 | 1,182415512 |
6 | 18,83272727 | 0,167272727 | 0,418393181 |
7 | 21,13818182 | -0,138181818 | -0,34562915 |
8 | 23,44363636 | -0,043636364 | -0,109146047 |
9 | 25,74909091 | -0,149090909 | -0,372915662 |
10 | 28,05454545 | -0,254545455 | -0,636685276 |
При помощи этой части отчета мы можем видеть отклонения каждой точки от построенной линии регрессии. Наибольшее абсолютное значение
Основная цель регрессионного анализа состоит в определении аналитической формы связи, в которой изменение результативного признака обусловлено влиянием одного или нескольких факторных признаков, а множество всех прочих факторов, также оказывающих влияние на результативный признак, принимается за постоянные и средние значения.Задачи регрессионного анализа :
а) Установление формы зависимости. Относительно характера и формы зависимости между явлениями, различают положительную линейную и нелинейную и отрицательную линейную и нелинейную регрессию.
б) Определение функции регрессии в виде математического уравнения того или иного типа и установление влияния объясняющих переменных на зависимую переменную.
в) Оценка неизвестных значений зависимой переменной. С помощью функции регрессии можно воспроизвести значения зависимой переменной внутри интервала заданных значений объясняющих переменных (т. е. решить задачу интерполяции) или оценить течение процесса вне заданного интервала (т. е. решить задачу экстраполяции). Результат представляет собой оценку значения зависимой переменной.
Парная регрессия - уравнение связи двух переменных у и х: y=f(x), где y - зависимая переменная (результативный признак); x - независимая, объясняющая переменная (признак-фактор).
Различают линейные и нелинейные регрессии.
Линейная регрессия: y = a + bx + ε
Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.
Регрессии, нелинейные по объясняющим переменным:
Регрессии, нелинейные по оцениваемым параметрам:
- степенная y=a·x b ·ε
- показательная y=a·b x ·ε
- экспоненциальная y=e a+b·x ·ε
.
Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно a и b:
Можно воспользоваться готовыми формулами, которые вытекают из этой системы:
Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции r xy для линейной регрессии (-1≤r xy ≤1):
и индекс корреляции p xy - для нелинейной регрессии (0≤p xy ≤1):
Оценку качества построенной модели даст коэффициент (индекс) детерминации, а также средняя ошибка аппроксимации .
Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:
.
Допустимый предел значений A - не более 8-10%.
Средний коэффициент эластичности Э показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения:
.
Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:
∑(y-y
)²=∑(y x -y
)²+∑(y-y x)²
где ∑(y-y
)² - общая сумма квадратов отклонений;
∑(y x -y
)² - сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»);
∑(y-y x)² - остаточная сумма квадратов отклонений.
Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у характеризует коэффициент (индекс) детерминации R 2:
Коэффициент детерминации - квадрат коэффициента или индекса корреляции.
F-тест - оценивание качества уравнения регрессии - состоит в проверке гипотезы Но о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического F факт и критического (табличного) F табл значений F-критерия Фишера. F факт определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:
,
где n - число единиц совокупности; m - число параметров при переменных х.
F табл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости a. Уровень значимости a - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно a принимается равной 0,05 или 0,01.
Если F табл < F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл > F факт, то гипотеза Н о не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н о о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:
; ; .
Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:
Сравнивая фактическое и критическое (табличное) значения t-статистики - t табл и t факт - принимаем или отвергаем гипотезу Н о.
Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством
Если t табл < t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл > t факт то гипотеза Н о не отклоняется и признается случайная природа формирования а, b или r xy .
Для расчета доверительного интервала определяем предельную ошибку D для каждого показателя:
Δ a =t табл ·m a , Δ b =t табл ·m b .
Формулы для расчета доверительных интервалов имеют следующий вид:
γ a =a±Δ a ; γ a =a-Δ a ; γ a =a+Δ a
γ b =b±Δ b ; γ b =b-Δ b ; γ b =b+Δ b
Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.
Прогнозное значение y p определяется путем подстановки в уравнение регрессии y x =a+b·x соответствующего (прогнозного) значения x p . Вычисляется средняя стандартная ошибка прогноза m y x:
,
где
и строится доверительный интервал прогноза:
γ y x =y p ±Δ y p ; γ y x min=y p -Δ y p ; γ y x max=y p +Δ y p
где Δ y x =t табл ·m y x .
Пример решения
Задача №1 . По семи территориям Уральского района За 199Х г. известны значения двух признаков.Таблица 1.
Требуется:
1. Для характеристики зависимости у от х рассчитать параметры следующих функций:
а) линейной;
б) степенной (предварительно нужно произвести процедуру линеаризации переменных, путем логарифмирования обеих частей);
в) показательной;
г) равносторонней гиперболы (так же нужно придумать как предварительно линеаризовать данную модель).
2. Оценить каждую модель через среднюю ошибку аппроксимации A
и F-критерий Фишера.
Решение (Вариант №1)
Для расчета параметров a и b линейной регрессии y=a+b·x (расчет можно проводить с помощью калькулятора).решаем систему нормальных уравнений относительно а и b:
По исходным данным рассчитываем ∑y, ∑x, ∑y·x, ∑x², ∑y²:
y | x | yx | x 2 | y 2 | y x | y-y x | A i | |
l | 68,8 | 45,1 | 3102,88 | 2034,01 | 4733,44 | 61,3 | 7,5 | 10,9 |
2 | 61,2 | 59,0 | 3610,80 | 3481,00 | 3745,44 | 56,5 | 4,7 | 7,7 |
3 | 59,9 | 57,2 | 3426,28 | 3271,84 | 3588,01 | 57,1 | 2,8 | 4,7 |
4 | 56,7 | 61,8 | 3504,06 | 3819,24 | 3214,89 | 55,5 | 1,2 | 2,1 |
5 | 55,0 | 58,8 | 3234,00 | 3457,44 | 3025,00 | 56,5 | -1,5 | 2,7 |
6 | 54,3 | 47,2 | 2562,96 | 2227,84 | 2948,49 | 60,5 | -6,2 | 11,4 |
7 | 49,3 | 55,2 | 2721,36 | 3047,04 | 2430,49 | 57,8 | -8,5 | 17,2 |
Итого | 405,2 | 384,3 | 22162,34 | 21338,41 | 23685,76 | 405,2 | 0,0 | 56,7 |
Ср. знач. (Итого/n) | 57,89 y | 54,90 x | 3166,05 x·y | 3048,34 x² | 3383,68 y² | X | X | 8,1 |
s | 5,74 | 5,86 | X | X | X | X | X | X |
s 2 | 32,92 | 34,34 | X | X | X | X | X | X |
a=y -b·x = 57.89+0.35·54.9 ≈ 76.88
Уравнение регрессии: у =
76,88 - 0,35х.
С увеличением среднедневной заработной платы на 1 руб. доля расходов на покупку продовольственных товаров снижается в среднем на 0,35 %-ных пункта.
Рассчитаем линейный коэффициент парной корреляции:
Связь умеренная, обратная.
Определим коэффициент детерминации: r² xy =(-0.35)=0.127
Вариация результата на 12,7% объясняется вариацией фактора х. Подставляя в уравнение регрессии фактические значения х
, определим теоретические (расчетные) значения y x . Найдем величину средней ошибки аппроксимации A
:
В среднем расчетные значения отклоняются от фактических на 8,1%.
Рассчитаем F-критерий:
Полученное значение указывает на необходимость принять гипотезу Н 0 о случайной природе выявленной зависимости и статистической незначимости параметров уравнения и показателя тесноты связи.
1б.
Построению степенной модели y=a·x b предшествует процедура линеаризации переменных. В примере линеаризация производится путем логарифмирования обеих частей уравнения:
lg y=lg a + b·lg x
Y=C+b·Y
где Y=lg(y), X=lg(x), C=lg(a).
Для расчетов используем данные табл. 1.3.
Таблица 1.3
Y | X | YX | Y 2 | X 2 | y x | y-y x | (y-y x)² | A i | |
1 | 1,8376 | 1,6542 | 3,0398 | 3,3768 | 2,7364 | 61,0 | 7,8 | 60,8 | 11,3 |
2 | 1,7868 | 1,7709 | 3,1642 | 3,1927 | 3,1361 | 56,3 | 4,9 | 24,0 | 8,0 |
3 | 1,7774 | 1,7574 | 3,1236 | 3,1592 | 3,0885 | 56,8 | 3,1 | 9,6 | 5,2 |
4 | 1,7536 | 1,7910 | 3,1407 | 3,0751 | 3,2077 | 55,5 | 1,2 | 1,4 | 2,1 |
5 | 1,7404 | 1,7694 | 3,0795 | 3,0290 | 3,1308 | 56,3 | -1,3 | 1,7 | 2,4 |
6 | 1,7348 | 1,6739 | 2,9039 | 3,0095 | 2,8019 | 60,2 | -5,9 | 34,8 | 10,9 |
7 | 1,6928 | 1,7419 | 2,9487 | 2,8656 | 3,0342 | 57,4 | -8,1 | 65,6 | 16,4 |
Итого | 12,3234 | 12,1587 | 21,4003 | 21,7078 | 21,1355 | 403,5 | 1,7 | 197,9 | 56,3 |
Среднее значение | 1,7605 | 1,7370 | 3,0572 | 3,1011 | 3,0194 | X | X | 28,27 | 8,0 |
σ | 0,0425 | 0,0484 | X | X | X | X | X | X | X |
σ 2 | 0,0018 | 0,0023 | X | X | X | X | X | X | X |
Рассчитаем С иb:
C=Y
-b·X
= 1.7605+0.298·1.7370 = 2.278126
Получим линейное уравнение: Y=2.278-0.298·X
Выполнив его потенцирование, получим: y=10 2.278 ·x -0.298
Подставляя в данное уравнение фактические значения х,
получаем теоретические значения результата. По ним рассчитаем показатели: тесноты связи - индекс корреляции p xy и среднюю ошибку аппроксимации A
.
Характеристики степенной модели указывают, что она несколько лучше линейной функции описывает взаимосвязь.
1в
. Построению уравнения показательной кривой y=a·b x предшествует процедура линеаризации переменных при логарифмировании обеих частей уравнения:
lg y=lg a + x·lg b
Y=C+B·x
Для расчетов используем данные таблицы.
Y | x | Yx | Y 2 | x 2 | y x | y-y x | (y-y x)² | A i | |
1 | 1,8376 | 45,1 | 82,8758 | 3,3768 | 2034,01 | 60,7 | 8,1 | 65,61 | 11,8 |
2 | 1,7868 | 59,0 | 105,4212 | 3,1927 | 3481,00 | 56,4 | 4,8 | 23,04 | 7,8 |
3 | 1,7774 | 57,2 | 101,6673 | 3,1592 | 3271,84 | 56,9 | 3,0 | 9,00 | 5,0 |
4 | 1,7536 | 61,8 | 108,3725 | 3,0751 | 3819,24 | 55,5 | 1,2 | 1,44 | 2,1 |
5 | 1,7404 | 58,8 | 102,3355 | 3,0290 | 3457,44 | 56,4 | -1,4 | 1,96 | 2,5 |
6 | 1,7348 | 47,2 | 81,8826 | 3,0095 | 2227,84 | 60,0 | -5,7 | 32,49 | 10,5 |
7 | 1,6928 | 55,2 | 93,4426 | 2,8656 | 3047,04 | 57,5 | -8,2 | 67,24 | 16,6 |
Итого | 12,3234 | 384,3 | 675,9974 | 21,7078 | 21338,41 | 403,4 | -1,8 | 200,78 | 56,3 |
Ср. зн. | 1,7605 | 54,9 | 96,5711 | 3,1011 | 3048,34 | X | X | 28,68 | 8,0 |
σ | 0,0425 | 5,86 | X | X | X | X | X | X | X |
σ 2 | 0,0018 | 34,339 | X | X | X | X | X | X | X |
Значения параметров регрессии A и В
составили:
A=Y
-B·x
= 1.7605+0.0023·54.9 = 1.887
Получено линейное уравнение: Y=1.887-0.0023x. Произведем потенцирование полученного уравнения и запишем его в обычной форме:
y x =10 1.887 ·10 -0.0023x = 77.1·0.9947 x
Тесноту связи оценим через индекс корреляции p xy:
В результате изучения материала главы 4 обучающийся должен:
знать
- основные понятия регрессионного анализа;
- методы оценивания и свойства оценок метода наименьших квадратов;
- основные правила проверки значимости и интервального оценивания уравнения и коэффициентов регрессии;
уметь
- находить по выборочным данным оценки параметров двумерной и множественной моделей уравнений регрессии, анализировать их свойства;
- проверять значимость уравнения и коэффициентов регрессии;
- находить интервальные оценки значимых параметров;
владеть
- навыками статистического оценивания параметров двумерного и множественного уравнения регрессии; навыками проверки адекватности регрессионных моделей;
- навыками получения уравнения регрессии со всеми значимыми коэффициентами с использованием аналитического программного обеспечения.
Основные понятия
После проведения корреляционного анализа, когда выявлено наличие статистически значимых связей между переменными и оценена степень их тесноты, обычно переходят к математическому описанию вида зависимостей с использованием методов регрессионного анализа. С этой целью подбирают класс функций, связывающий результативный показатель у и аргументы„ вычисляют оценки параметров уравнения связи и анализируют точность полученного уравнения .
Функция|, описывающая зависимость условного среднего значения результативного признака у от заданных значений аргументов, называется уравнением регрессии.
Термин "регрессия" (от лат. regression – отступление, возврат к чему- либо) введен английским психологом и антропологом Ф. Гальтоном и связан с одним из его первых примеров, в котором Гальтон, обрабатывая статистические данные, связанные с вопросом о наследственности роста, нашел, что если рост отцов отклоняется от среднего роста всех отцов на х дюймов, то рост их сыновей отклоняется от среднего роста всех сыновей меньше, чем на x дюймов. Выявленная тенденция была названа регрессией к среднему состоянию.
Термин "регрессия" широко используется в статистической литературе, хотя во многих случаях он недостаточно точно характеризует статистическую зависимость.
Для точного описания уравнения регрессии необходимо знать условный закон распределения результативного показателя у. В статистической практике такую информацию получить обычно не удается, поэтому ограничиваются поиском подходящих аппроксимаций для функции f(x u х 2,.... л*), основанных на предварительном содержательном анализе явления или на исходных статистических данных.
В рамках отдельных модельных допущений о типе распределения вектора показателей <) может быть получен общий вид уравнения регрессии , где. Например, в предположении о том, что исследуемая совокупность показателей подчиняется ()-мерному нормальному закону распределения с вектором математических ожиданий
Где, и ковариационной матрицей,
где– дисперсия у,
Уравнение регрессии (условное математическое ожидание) имеет вид
Таким образом, если многомерная случайная величина ()
подчиняется ()-мерному нормальному закону распределения, то уравнение регрессии результативного показателя у по объясняющим переменнымимеет линейный по х вид.
Однако в статистической практике обычно приходится ограничиваться поиском подходящих аппроксимаций для неизвестной истинной функции регрессии f(x), так как исследователь не располагает точным знанием условного закона распределения вероятностей анализируемого результативного показателя у при заданных значениях аргументов х.
Рассмотрим взаимоотношение между истинной , модельнойи оценкой регрессии . Пусть результативный показатель у связан с аргументом х соотношением
где– случайная величина, имеющая нормальный закон распределения, причеми. Истинная функция регрессии в этом случае имеет вид
Предположим, что точный вид истинного уравнения регрессии нам неизвестен, но мы располагаем девятью наблюдениями над двумерной случайной величиной, связанной соотношениеми представленной на рис. 4.1.
Рис. 4.1. Взаимное расположение истинной f(x) и теоретической уы модели регрессии
Расположение точек на рис. 4.1 позволяет ограничиться классом линейных зависимостей вида
С помощью метода наименьших квадратов найдем оценкууравнения регрессии.
Для сравнения на рис. 4.1 приводятся графики истинной функции регрессиии теоретической аппроксимирующей функции регрессии. К последней сходится по вероятности оценка уравнения регрессии уы при неограниченном увеличении объема выборки ().
Поскольку мы вместо истинной функции регрессии ошибочно выбрали линейную функцию регрессии, что, к сожалению, достаточно часто встречается в практике статистических исследований, то наши статистические выводы и оценки не будут обладать свойством состоятельности, т.е. так бы мы ни увеличивали объем наблюдений, наша выборочная оценкане будет сходиться к истинной функции регрессии
Если бы мы правильно выбрали класс функций регрессии, то неточность в описании с помощью уы объяснялась бы только ограниченностью выборки и, следовательно, она могла бы быть сделана сколько угодно малой при
С целью наилучшего восстановления по исходным статистическим данным условного значения результативного показателяи неизвестной функции регрессии наиболее часто используют следующие критерии адекватности функции потерь .
1. Метод наименьших квадратов, согласно которому минимизируется квадрат отклонения наблюдаемых значений результативного показателя, , от модельных значений , где коэффициенты уравнения регрессии;– значения вектора аргументов в "-М наблюдении:
Решается задача отыскания оценкивектора. Получаемая регрессия называется средней квадратической.
2. Метод наименьших модулей , согласно которому минимизируется сумма абсолютных отклонений наблюдаемых значений результативного показателя от модульных значений, т.е.
Получаемая регрессия называется среднеабсолютной (медианной).
3. Метод минимакса сводится к минимизации максимума модуля отклонения наблюдаемого значения результативного показателя у, от модельного значения, т.е.
Получаемая при этом регрессия называется минимаксной.
В практических приложениях часто встречаются задачи, в которых изучается случайная величина у, зависящая от некоторого множества переменныхи неизвестных параметров. Будем рассматривать () как (k + 1)-мерную генеральную совокупность, из которой взята случайная выборка объемом п, где () результат /-го наблюдения,. Требуется по результатам наблюдений оценить неизвестные параметры. Описанная выше задача относится к задачам регрессионного анализа.
Регрессионным анализом называют метод статистического анализа зависимости случайной величины у от переменных, рассматриваемых в регрессионном анализе как неслучайные величины, независимо от истинного закона распределения