Регресивний аналіз прикладу. Основи аналізу даних
ВИСНОВОК ПІДСУМКІВ
Регресійна статистика | |
Множинний R | 0,998364 |
R-квадрат | 0,99673 |
Нормований R-квадрат | 0,996321 |
Стандартна помилка | 0,42405 |
Спостереження | 10 |
Спочатку розглянемо верхню частину розрахунків, подану в таблиці 8.3а - регресійну статистику.
Величина R-квадрат, звана також мірою визначеності, характеризує якість отриманої регресійної прямої. Ця якість виражається ступенем відповідності між вихідними даними та регресійною моделлю (розрахунковими даними). Міра визначеності завжди знаходиться в межах інтервалу.
Найчастіше значення R-квадрат перебуває між цими значеннями, званими екстремальними, тобто. між нулем та одиницею.
Якщо значення R-квадрату близьке до одиниці, це означає, що побудована модель пояснює майже всю мінливість відповідних змінних. І навпаки, значення R-квадрату, близьке до нуля, означає погана якістьпобудованої моделі.
У нашому прикладі міра визначеності дорівнює 0,99673, що говорить про дуже хороше припасування регресійної прямої до вихідних даних.
Множинний R- Коефіцієнт множинної кореляції R - виражає ступінь залежності незалежних змінних (X) та залежної змінної (Y).
Множинний R дорівнює квадратного кореняз коефіцієнта детермінації, ця величина набуває значення в інтервалі від нуля до одиниці.
У простому лінійному регресійному аналізі множинний R дорівнює коефіцієнту кореляції Пірсона. Справді, множинний R у нашому випадку дорівнює коефіцієнту кореляції Пірсона з попереднього прикладу (0,998364).
Коефіцієнти | Стандартна помилка | t-статистика | |
Y-перетин | 2,694545455 | 0,33176878 | 8,121757129 |
Змінна X 1 | 2,305454545 | 0,04668634 | 49,38177965 |
* Наведено усічений варіант розрахунків |
Тепер розглянемо середню частину розрахунків, подану у таблиці 8.3б. Тут дано коефіцієнт регресії b (2,305454545) і усунення осі ординат, тобто. константа a (2,694545455).
Виходячи з розрахунків, можемо записати рівняння регресії таким чином:
Y = x * 2,305454545 +2,694545455
Напрямок зв'язку між змінними визначається на підставі знаків (негативний або позитивний) коефіцієнтів регресії(Коефіцієнта b).
Якщо знак при коефіцієнт регресії- Позитивний, зв'язок залежної змінної з незалежною буде позитивним. У нашому випадку знак коефіцієнта регресії позитивний, отже, зв'язок також є позитивним.
Якщо знак при коефіцієнт регресії- негативний, зв'язок залежної змінної з незалежною є негативним (зворотним).
У таблиці 8.3в. представлені результати виведення залишків. Для того, щоб ці результати з'явилися у звіті, необхідно при запуску інструменту "Регресія" активувати чекбокс "Залишки".
ВИСНОВОК ЗАЛИШКУ
Спостереження | Передбачене Y | Залишки | Стандартні залишки |
---|---|---|---|
1 | 9,610909091 | -0,610909091 | -1,528044662 |
2 | 7,305454545 | -0,305454545 | -0,764022331 |
3 | 11,91636364 | 0,083636364 | 0,209196591 |
4 | 14,22181818 | 0,778181818 | 1,946437843 |
5 | 16,52727273 | 0,472727273 | 1,182415512 |
6 | 18,83272727 | 0,167272727 | 0,418393181 |
7 | 21,13818182 | -0,138181818 | -0,34562915 |
8 | 23,44363636 | -0,043636364 | -0,109146047 |
9 | 25,74909091 | -0,149090909 | -0,372915662 |
10 | 28,05454545 | -0,254545455 | -0,636685276 |
За допомогою цієї частини звіту ми можемо бачити відхилення кожної точки від збудованої лінії регресії. Найбільше абсолютне значення
Регресійний аналіз метод моделювання вимірюваних даних та дослідження їх властивостей. Дані складаються з пар значень залежною змінною(змінної відгуку) та незалежної змінної(Пояснення змінної). Регресійна модель є функція незалежної змінної та параметрів з доданою випадковою змінною. Параметри моделі налаштовуються таким чином, що модель найкраще наближає дані. Критерієм якості наближення (цільовою функцією) зазвичай є середньоквадратична помилка: сума квадратів різниці значень моделі та залежної змінної для всіх значень незалежної змінної як аргумент. Регресійний аналіз - розділ математичної статистики та машинного навчання. Передбачається, що залежна змінна є сумою значень деякої моделі і випадкової величини . Щодо характеру розподілу цієї величини робляться припущення, які називають гіпотезою породження даних. Для підтвердження чи спростування цієї гіпотези виконуються статистичні тести, які називають аналізом залишків. При цьому передбачається, що незалежна змінна не містить помилок. Регресійний аналіз використовується для прогнозу, аналізу часових рядів, тестування гіпотез та виявлення прихованих взаємозв'язків у даних.
Визначення регресійного аналізу
Вибірка може бути не функцією, а ставленням. Наприклад, дані побудови регресії може бути такими: . У такій вибірці одного значення змінної відповідає кілька значень змінної .
Лінійна регресія
Лінійна регресія передбачає, що функція залежить від параметрів лінійно. При цьому лінійна залежність від вільної змінної необов'язкова,
У разі коли функція лінійна регресія має вигляд
тут | компоненти вектора.
Значення параметрів у разі лінійної регресіїзнаходять за допомогою методу найменших квадратів. Використання цього методу обґрунтоване припущенням про гауссівський розподіл випадкової змінної.
Різниці між фактичними значеннями залежної змінної та відновленими називаються регресійними залишками(Residuals). У літературі використовуються також синоніми: нев'язкиі помилки. Однією з важливих оцінок критерію якості отриманої залежності є сума квадратів залишків:
Тут Sum of Squared Errors.
Дисперсія залишків обчислюється за формулою
Тут Mean Square Error, середньоквадратична помилка.
На графіках представлені вибірки, позначені синіми точками, та регресійні залежності, позначені суцільними лініями. По осі абсцис відкладена вільна змінна, а по осі ординат залежна. Усі три залежності лінійні щодо параметрів.
Нелінійна регресія
Нелінійні регресійні моделі - моделі виду
які не можуть бути представлені у вигляді скалярного твору
де - параметри регресійної моделі, - вільна змінна з простору , - залежна змінна, - випадкова величинаі - функція з деякої заданої множини.
Значення параметрів у разі нелінійної регресії знаходять за допомогою одного з методів спуску градієнта, наприклад алгоритму Левенберга-Марквардта .
Про терміни
Термін " регресія " запроваджено Френсісом Гальтоном наприкінці 19-го століття. Гальтон виявив, що діти батьків із високим чи низьким зростанням зазвичай не успадковують визначне зростання і назвав цей феномен "регресія до посередності". Спочатку цей термін використовувався виключно у біологічному сенсі. Після робіт Карла Пірсона цей термін почали використовувати у статистиці.
У статистичній літературі розрізняють регресію за участю однієї вільної змінної та з кількома вільними змінними одновимірнуі багатовимірнурегресію. Передбачається, що ми використовуємо кілька вільних змінних, тобто, вільна змінна вектор . У окремих випадках, коли вільна змінна є скаляром, вона позначатиметься . Розрізняють лінійнуі нелінійнурегресію. Якщо регресійну модель не є лінійною комбінацією функцій від параметрів, то говорять про нелінійну регресію. При цьому модель може бути довільною суперпозицією функцій деякого набору. Нелінійними моделями є експоненційні, тригонометричні та інші (наприклад, радіальні базисні функції або персептрон Розенблатта), що вважають залежність між параметрами і залежною змінною нелінійною.
Розрізняють параметричнуі непараметричнурегресію. Суворий кордон між цими двома типами регресій провести складно. Зараз немає загальноприйнятого критерію відхилення одного типу моделей від іншого. Наприклад, вважається, що лінійні моделі є параметричними, а моделі, що включають усереднення залежної змінної простору вільної змінної непараметричними. Приклад параметричної регресійної моделі: лінійний предиктор, багатошаровий персептрон. Приклади змішаної регресійної моделі: функція радіального базису. Непараметрична модель ковзне усереднення у вікні деякої ширини. В цілому, непараметрична регресія відрізняється від параметричної тим, що залежна змінна залежить не від одного значення вільної змінної, а від певної заданої околиці цього значення.
Є різницю між термінами: " наближення функцій " , " апроксимація " , " інтерполяція " , і " регресія " . Воно полягає у наступному.
Наближення функції.Дана функція дискретного чи безперервного аргументу. Потрібно знайти функцію з деякого параметричного сімейства, наприклад, серед алгебраїчних поліномів заданого ступеня. Параметри функції повинні доставляти мінімум деякому функціоналу, наприклад,
Термін апроксимаціясинонім терміну "наближення функцій". Найчастіше використовується тоді, коли мова йдепро задану функцію, як про функцію дискретного аргументу. Тут також потрібно знайти таку функцію, яка проходить найближче до всіх точок заданої функції. При цьому запроваджується поняття нев'язкивідстані між точками безперервної функції та відповідними точками функції дискретного аргументу.
Інтерполяціяфункцій окремий випадокзавдання наближення, коли потрібно, щоб у певних точках, званих вузлами інтерполяціїзбігалися значення функції і функції, що наближає її. У загальному випадку накладаються обмеження значення деяких похідних похідних. Тобто дана функція дискретного аргументу. Потрібно знайти таку функцію, яка проходить через усі точки. При цьому метрика зазвичай не використовується, проте часто вводиться поняття "гладкості" функції, що шукається.
Поняття регресії. Залежність між змінними величинами xі yможе бути описана різними способами. Зокрема, будь-яку форму зв'язку можна виразити рівнянням загального виду , де yрозглядається як залежна змінна, або функціївід іншої – незалежної змінної величини x, яка називається аргументом. Відповідність між аргументом та функцією може бути задана таблицею, формулою, графіком тощо. Зміна функції в залежності від зміни одного або кількох аргументів називається регресією. Всі засоби, які застосовуються для опису кореляційних зв'язків, становить зміст регресійного аналізу.
Для вираження регресії служать кореляційні рівняння, чи рівняння регресії, емпіричні та теоретично обчислені ряди регресії, їх графіки, звані лініями регресії, і навіть коефіцієнти лінійної і нелінійної регресії.
Показники регресії виражають кореляційний зв'язок двосторонньо, враховуючи зміну усереднених значень ознаки Yпри зміні значень x iознаки X, і, навпаки, показують зміну середніх значень ознаки Xза зміненими значеннями y iознаки Y. Виняток становлять часові ряди, або ряди динаміки, що показують зміну ознак у часі. Регресія таких лав є односторонньою.
Різних форм та видів кореляційних зв'язків багато. Завдання зводиться до того, щоб у кожному конкретному випадку виявити форму зв'язку та висловити її відповідним кореляційним рівнянням, що дозволяє передбачити можливі зміни однієї ознаки Yна підставі відомих змін іншого X, пов'язаного з першим кореляційним.
12.1 Лінійна регресія
Рівняння регресії.Результати спостережень, проведених над тим чи іншим біологічним об'єктом за кореляційно пов'язаними ознаками xі y, можна зобразити точками на площині, побудувавши систему прямокутних координат. В результаті виходить деяка діаграма розсіювання, що дозволяє судити про форму і тісноту зв'язку між ознаками, що варіюють. Досить часто цей зв'язок виглядає у вигляді прямої або може бути апроксимований прямою лінією.
Лінійна залежність між змінними xі yописується рівнянням загального виду , де a, b, c, d,… – параметри рівняння, що визначають співвідношення між аргументами x 1 , x 2 , x 3 , …, x mта функцій.
У практиці враховують не всі можливі, а лише деякі аргументи, у найпростішому випадку – лише один:
У рівнянні лінійної регресії (1) a- вільний член, а параметр bвизначає нахил лінії регресії щодо осей прямокутних координат. В аналітичній геометрії цей параметр називають кутовим коефіцієнтом, а в біометрії – коефіцієнтом регресії. Наочне уявлення про цей параметр і положення ліній регресії Yпо Xі Xпо Yу системі прямокутних координат дає рис.1.
Рис. 1 Лінії регресії Y X і X Y у системі
прямокутних координат
Лінії регресії, як показано на рис.1, перетинаються в точці О (,), що відповідає середнім арифметичним значенням кореляційно пов'язаних один з одним ознак Yі X. При побудові графіків регресії по осі абсцис відкладають значення незалежної змінної X, а по осі ординат – значення залежної змінної, або функції Y. Лінія АВ, що проходить через точку О(,) відповідає повній (функціональній) залежності між змінними величинами Yі Xколи коефіцієнт кореляції . Чим сильніший зв'язок між Yі X, Тим ближчі лінії регресії до АВ, і, навпаки, чим слабкіший зв'язок між цими величинами, тим більше віддаленими виявляються лінії регресії від АВ. За відсутності зв'язок між ознаками лінії регресії виявляються під прямим кутом стосовно друг до друга і .
Оскільки показники регресії виражають кореляційний зв'язок двосторонньо, рівняння регресії (1) слід записувати так:
За першою формулою визначають усереднені значення за зміни ознаки Xна одиницю міри, по другий - усереднені значення при зміні на одиницю міри ознаки Y.
Коефіцієнт регресії.Коефіцієнт регресії показує, наскільки в середньому величина однієї ознаки yзмінюється за зміни на одиницю заходу іншого, кореляційно пов'язаного з Yознаки X. Цей показник визначають за формулою
Тут значення sмножать на розміри класових інтервалів λ , якщо їх знаходили за варіаційними рядами або кореляційними таблицями.
Коефіцієнт регресії можна обчислити минаючи розрахунок середніх квадратичних відхилень s yі s xза формулою
Якщо ж коефіцієнт кореляції невідомий, коефіцієнт регресії визначають так:
Зв'язок між коефіцієнтами регресії та кореляції.Порівнюючи формули (11.1) (тема 11) і (12.5), бачимо: в їх чисельнику одна й та сама величина, що вказує на наявність зв'язку між цими показниками. Цей зв'язок виражається рівністю
Таким чином, коефіцієнт кореляції дорівнює середній геометричній з коефіцієнтів b yxі b xy. Формула (6) дозволяє, по-перше, за відомими значеннями коефіцієнтів регресії b yxі b xyвизначати коефіцієнт регресії R xy, а по-друге, перевіряти правильність розрахунку цього показника кореляційного зв'язку R xyміж варіюючими ознаками Xі Y.
Як і коефіцієнт кореляції, коефіцієнт регресії характеризує лише лінійний зв'язок і супроводжується знаком плюс при позитивному та знаком мінус при негативному зв'язку.
Визначення параметрів лінійної регресії.Відомо, що сума квадратів відхилень варіант x iвід середньої є величина найменша, тобто. Ця теорема становить основу методу найменших квадратів. Щодо лінійної регресії [див. формулу (1)] на вимогу цієї теореми задовольняє деяка система рівнянь, званих нормальними:
Спільне вирішення цих рівнянь щодо параметрів aі bпризводить до наступних результатів:
;
;
, звідки в.
Враховуючи двосторонній характер зв'язку між змінними Yі Xформулу для визначення параметра аслід висловити так:
та . (7)
Параметр b, або коефіцієнт регресії, визначають за такими формулами:
Побудова емпіричних рядів регресії.При наявності великої кількостіспостережень регресійний аналіз починається із побудови емпіричних рядів регресії. Емпіричний ряд регресіїутворюється шляхом обчислення за значеннями однієї варіюючої ознаки Xсередніх значень іншого, пов'язаного кореляційно з Xознаки Y. Іншими словами, побудова емпіричних рядів регресії зводиться до знаходження групових середніх і з відповідних значень ознак Y і X.
Емпіричний ряд регресії – це подвійний ряд чисел, які можна зобразити точками на площині, та був, з'єднавши ці точки відрізками прямий, отримати емпіричну лінію регресії. Емпіричні ряди регресії, особливо їх графіки, звані лініями регресіїдають наочне уявлення про форму і тісність кореляційної залежності між варіюючими ознаками.
Вирівнювання емпіричних рядів регресії.Графіки емпіричних рядів регресії виявляються, як правило, не такими, що плавно йдуть, а ламаними лініями. Це пояснюється тим, що поряд з головними причинами, що визначають загальну закономірність у мінливості ознак, що корелює, на їх величині позначається вплив численних другорядних причин, що викликають випадкові коливання вузлових точок регресії. Щоб виявити основну тенденцію (тренд) сполученої варіації корелюваних ознак, потрібно замінити ламані лінії на гладкі лінії регресії, що плавно йдуть. Процес заміни ламаних ліній на плавно йдуть вирівнюванням емпіричних рядіві ліній регресій.
Графічний спосіб вирівнювання.Це найпростіший спосіб, що не вимагає обчислювальної роботи. Його суть зводиться до наступного. Емпіричний ряд регресії зображують як графіка у системі прямокутних координат. Потім візуально намічаються середні точки регресії, якими з допомогою лінійки чи лекала проводять суцільну лінію. Недолік цього способу очевидний: він не виключає впливу індивідуальних властивостей дослідника на результати вирівнювання емпіричних ліній регресії. Тому в тих випадках, коли необхідна більш висока точність при заміні ламаних ліній регресії на плавні, використовують інші способи вирівнювання емпіричних рядів.
Спосіб ковзної середньої.Суть цього способу зводиться до послідовного обчислення середніх арифметичних із двох або трьох сусідніх членів емпіричного ряду. Цей спосіб особливо зручний у тих випадках, коли емпіричний ряд представлений великою кількістю членів, так що втрата двох з них - крайніх, що неминуче при цьому способі вирівнювання, помітно не вплине на його структуру.
Метод найменших квадратів.Цей метод запропоновано на початку ХІХ століття А.М. Лежандром та незалежно від нього К. Гауссом. Він дозволяє найточніше вирівнювати емпіричні ряди. Цей метод, як було показано вище, заснований на припущенні, що сума квадратів відхилень варіант x i від їх середньої є величина мінімальна, тобто. Звідси і назва методу, що застосовується не тільки в екології, а й у техніці. Метод найменших квадратів об'єктивний і універсальний, його застосовують у різних випадках при відшуканні емпіричних рівнянь рядів регресії та визначенні їх параметрів.
p align="justify"> Вимога методу найменших квадратів полягає в тому, що теоретичні точки лінії регресії повинні бути отримані таким чином, щоб сума квадратів відхилень від цих точок для емпіричних спостережень y iбула мінімальною, тобто.
Обчислюючи відповідно до принципів математичного аналізу мінімум цього виразу та певним чином перетворюючи його, можна отримати систему так званих нормальних рівнянь, В яких невідомими величинами виявляються шукані параметри рівняння регресії, а відомі коефіцієнти визначаються емпіричними величинами ознак, зазвичай сумами їх значень та їх перехресних творів.
Множинна лінійна регресія.Залежність між кількома змінними величинами прийнято виражати рівнянням множинної регресії, яка може бути лінійноїі нелінійною. У найпростішому вигляді множинна регресія виражається рівнянням із двома незалежними змінними величинами ( x, z):
де a– вільний член рівняння; bі c- Параметри рівняння. Для знаходження параметрів рівняння (10) (за способом найменших квадратів) застосовують таку систему нормальних рівнянь:
Ряди динаміки. Вирівнювання рядів.Зміна ознак у часі утворює так звані тимчасові рядиабо ряди динаміки. Характерною особливістю таких рядів є те, що як незалежна змінна X тут завжди виступає фактор часу, а залежною Y – ознака, що змінюється. Залежно від рядів регресії залежність між змінними X і Y носить односторонній характер, оскільки чинник часу залежить від мінливості ознак. Незважаючи на зазначені особливості, ряди динаміки можна уподібнити до рядів регресії та обробляти їх одними і тими ж методами.
Як і лави регресії, емпіричні лави динаміки несуть на собі вплив не тільки основних, а й численних другорядних (випадкових) факторів, що загасають ту головну тенденцію у мінливості ознак, яку мовою статистики називають трендом.
Аналіз рядів динаміки починається з виявлення форми тренду. Для цього тимчасовий ряд зображують у вигляді лінійного графікау системі прямокутних координат. При цьому по осі абсцис відкладають тимчасові точки (роки, місяці та інші одиниці часу), а по осі ординат – значення залежної змінної Y. За наявності лінійної залежності між змінними X та Y (лінійного тренду) для вирівнювання рядів динаміки способом найменших квадратів найбільш підходящим є рівняння регресії у вигляді відхилень членів ряду залежної змінної Y від середньої арифметичної низки незалежної змінної X:
Тут – параметр лінійної регресії.
Числові характеристики рядів динаміки.До основних узагальнюючих числових характеристик рядів динаміки відносять середню геометричнуі близьку до неї середню арифметичну величини. Вони характеризують середню швидкість, з якою змінюється величина залежної змінної за певні періоди часу:
Оцінкою мінливості членів низки динаміки служить середнє квадратичне відхилення. При виборі рівнянь регресії для опису рядів динаміки враховують форму тренду, яка може бути лінійною (або приведена до лінійної) та нелінійної. Про правильність вибору рівняння регресії зазвичай судять за подібністю емпірично спостережених і обчислених значень залежною змінною. Більш точним у вирішенні цього завдання є метод дисперсійного аналізу регресії (тема 12 п.4).
Кореляція рядів динаміки.Нерідко доводиться зіставляти динаміку тимчасових рядів, що паралельно йдуть, пов'язаних один з одним деякими загальними умовами, наприклад з'ясувати зв'язок між виробництвом сільськогосподарської продукції і зростанням поголів'я худоби за певний проміжок часу. У таких випадках характеристикою зв'язку між змінними X та Y служить коефіцієнт кореляції R xy (за наявності лінійного тренду).
Відомо, що тренд рядів динаміки, як правило, затушовується коливаннями членів ряду залежної змінної Y. Звідси виникає завдання двоякого роду: вимірювання залежності між рядами, що зіставляються, не виключаючи тренд, і вимірювання залежності між сусідніми членами одного і того ж ряду, виключаючи тренд. У першому випадку показником тісноти зв'язку між зіставлюваними рядами динаміки служить коефіцієнт кореляції(якщо зв'язок лінійний), у другому – коефіцієнт автокореляції. Ці показники мають різні значення, хоч і обчислюються за тими самими формулами (див. тему 11).
Неважко помітити, що на значенні коефіцієнта автокореляції позначається мінливість членів ряду залежної змінної: що менше члени ряду відхиляються від тренда, то вище коефіцієнт автокореляції, і навпаки.
Регресійний та кореляційний аналіз – статистичні методидослідження. Це найпоширеніші способи показати залежність будь-якого параметра від однієї чи кількох незалежних змінних.
Нижче на конкретних практичних прикладах розглянемо ці два дуже популярні серед економістів аналізу. А також наведемо приклад отримання результатів при їх об'єднанні.
Регресійний аналіз у Excel
Показує вплив одних значень (самостійних, незалежних) на залежну змінну. Наприклад, як залежить кількість економічно активного населення кількості підприємств, величини зарплати та інших. властивостей. Або як впливають іноземні інвестиції, ціни на енергоресурси та ін на рівень ВВП.
Результат аналізу дає змогу виділяти пріоритети. І ґрунтуючись на головних факторах, прогнозувати, планувати розвиток пріоритетних напрямків, ухвалювати управлінські рішення.
Регресія буває:
- лінійної (у = а + bx);
- параболічній (y = a + bx + cx 2);
- експоненційною (y = a * exp (bx));
- статечної (y = a * x ^ b);
- гіперболічної (y = b/x + a);
- логарифмічної (y = b * 1n(x) + a);
- показовою (y = a * b^x).
Розглянемо з прикладу побудова регресійної моделі в Excel і інтерпретацію результатів. Візьмемо лінійний тип регресії.
Завдання. На 6 підприємствах була проаналізована середньомісячна заробітна плата і кількість співробітників, що звільнилися. Необхідно визначити залежність кількості співробітників, що звільнилися, від середньої зарплати.
Модель лінійної регресії має такий вигляд:
У = а 0 + а 1 х 1 + ... + а до х к.
Де а – коефіцієнти регресії, х – що впливають змінні, до – число чинників.
У нашому прикладі як У виступає показник працівників, що звільнилися. фактор, що впливає - заробітна плата (х).
У Excel існують інтегровані функції, з допомогою яких можна розрахувати параметри моделі лінійної регресії. Але найшвидше це зробить надбудова «Пакет аналізу».
Активуємо потужний аналітичний інструмент:
Після активації надбудова буде доступна на вкладці "Дані".
Тепер візьмемося безпосередньо регресійним аналізом.
Насамперед звертаємо увагу на R-квадрат та коефіцієнти.
R-квадрат – коефіцієнт детермінації. У прикладі – 0,755, чи 75,5%. Це означає, що розрахункові параметри моделі на 75,5% пояснюють залежність між параметрами, що вивчаються. Що коефіцієнт детермінації, то якісніша модель. Добре – понад 0,8. Погано – менше 0,5 (такий аналіз навряд можна вважати резонним). У нашому прикладі - "непогано".
Коефіцієнт 64,1428 показує, яким буде Y, якщо всі змінні в моделі, що розглядається, будуть рівні 0. Тобто на значення аналізованого параметра впливають і інші фактори, не описані в моделі.
p align="justify"> Коефіцієнт -0,16285 показує вагомість змінної Х на Y. Тобто середньомісячна заробітна плата в межах даної моделі впливає на кількість звільнених з вагою -0,16285 (це невеликий ступінь впливу). Знак «-» вказує на негативний вплив: чим більша зарплата, тим менше звільнених Що слушно.
Кореляційний аналіз у Excel
Кореляційний аналіз допомагає встановити, чи між показниками в одній або двох вибірках є зв'язок. Наприклад, між часом роботи верстата та вартістю ремонту, ціною техніки та тривалістю експлуатації, зростанням та вагою дітей тощо.
Якщо зв'язок є, то чи тягне збільшення одного параметра підвищення (позитивна кореляція) чи зменшення (негативна) іншого. Кореляційний аналіз допомагає аналітику визначитися, чи можна за величиною одного показника передбачити можливе значення іншого.
Коефіцієнт кореляції позначається r. Варіюється в межах від +1 до -1. Класифікація кореляційних зв'язків для різних сфер відрізнятиметься. При значенні коефіцієнта 0 лінійної залежності між вибірками немає.
Розглянемо, як з допомогою засобів Excel визначити коефіцієнт кореляції.
Для знаходження парних коефіцієнтів застосовується функція Корел.
Завдання: Визначити, чи є взаємозв'язок між часом роботи токарного верстата та вартістю його обслуговування.
Ставимо курсор у будь-яку комірку і натискаємо кнопку fx.
- У категорії «Статистичні» вибираємо функцію КОРРЕЛ.
- Аргумент "Масив 1" - перший діапазон значень - час роботи верстата: А2: А14.
- Аргумент "Масив 2" - другий діапазон значень - вартість ремонту: В2: В14. Тиснемо ОК.
Щоб визначити тип зв'язку, потрібно подивитися абсолютну кількість коефіцієнта (для кожної сфери діяльності є своя шкала).
Для кореляційного аналізу кількох параметрів (більше 2) зручніше застосовувати "Аналіз даних" (надбудова "Пакет аналізу"). У списку потрібно вибрати кореляцію та позначити масив. Всі.
Отримані коефіцієнти відобразяться у кореляційній матриці. На кшталт такий:
Кореляційно-регресійний аналіз
Насправді ці дві методики часто застосовуються разом.
Приклад:
Тепер стали помітні й дані регресійного аналізу.
1. Вперше термін «регресія» було введено засновником біометрії Ф. Гальтоном (XIX ст.), Ідеї якого були розвинені його послідовником К. Пірсоном.
Регресійний аналіз- метод статистичної обробки даних, що дозволяє виміряти зв'язок між однією чи кількома причинами (факторними ознаками) та наслідком (результативною ознакою).
Ознака- це основна характерна риса, особливість досліджуваного явища чи процесу.
Результативна ознака -досліджуваний показник.
Факторна ознака- Показник, що впливає на значення результативної ознаки.
Метою регресійного аналізу є оцінка функціональної залежності середнього значення результативної ознаки ( у) від факторних ( х 1, х 2, …, х n), що виражається у вигляді рівняння регресії
у= f(x 1 , х 2 , …, х n). (6.1)
Розрізняють два види регресії: парну та множинну.
Парна (проста) регресія- Рівняння виду:
у= f(x). (6.2)
Результативний ознака при парної регресії сприймається як функція від однієї аргументу, тобто. однієї факторної ознаки.
Регресійний аналіз включає наступні етапи:
· Визначення типу функції;
· Визначення коефіцієнтів регресії;
· Розрахунок теоретичних значень результативної ознаки;
· Перевірку статистичної значущості коефіцієнтів регресії;
· Перевірку статистичної значущості рівняння регресії.
Множинна регресія- Рівняння виду:
у= f(x 1 , х 2 , …, х n). (6.3)
Результативний ознака сприймається як функція від кількох аргументів, тобто. багато факторних ознак.
2. Щоб правильно визначити тип функції потрібно виходячи з теоретичних даних знайти напрям зв'язку.
У напрямку зв'язку регресія поділяється на:
· пряму регресію,що виникає за умови, що із збільшенням чи зменшенням незалежної величини « х»значення залежної величини « у»також відповідно збільшуються чи зменшуються;
· зворотну регресію,що виникає за умови, що із збільшенням чи зменшенням незалежної величини «х»залежна величина « у»відповідно зменшується чи збільшується.
Для характеристики зв'язків використовують такі види рівнянь парної регресії:
· у = a + bx– лінійне;
· y = e ax + b - експонентне;
· y=a+b/x – гіперболічна;
· y=a+b 1 x+b 2 x 2 – параболічний;
· y=ab x – показовета ін.
де a, b 1 , b 2- Коефіцієнти (параметри) рівняння; у- результативна ознака; х- Факторна ознака.
3. Побудова рівняння регресії зводиться до оцінки його коефіцієнтів (параметрів), цього використовують метод найменших квадратів(МНК).
Метод найменших квадратів дозволяє отримати такі оцінки параметрів, за яких сума квадратів відхилень фактичних значень результативної ознаки у"від теоретичних" у хмінімальна, тобто
Параметри рівняння регресії у = a + bхза методом найменших квадратів оцінюються за допомогою формул:
де а –вільний коефіцієнт, b- Коефіцієнт регресії, показує на скільки зміниться результативний ознака « y» при зміні факторної ознаки « x» на одиницю виміру.
4. Для оцінки статистичної значущості коефіцієнтів регресії використовується критерій Стьюдента.
Схема перевірки значимості коефіцієнтів регресії:
1) Н 0: a=0, b=0 - коефіцієнти регресії незначно від нуля.
Н 1: a≠ 0, b≠ 0 - коефіцієнти регресії істотно від нуля.
2) р=0,05 – рівень значимості.
де m b,m a- Випадкові помилки:
; . (6.7)
4) t табл(р; f),
де f=n-k- 1 - число ступенів свободи (табличне значення), n- Число спостережень, k х».
5) Якщо , то відхиляється, тобто. коефіцієнт значимий.
Якщо , приймається, тобто. коефіцієнт незначний.
5. Для перевірки правильності побудованого рівняння регресії застосовується критерій Фішера.
Схема перевірки значущості рівняння регресії:
1) Н 0:рівняння регресії незначне.
Н 1:рівняння регресії значуще.
2) р=0,05 – рівень значимості.
3) , (6.8)
де - Число спостережень; k- Число параметрів у рівнянні при змінних « х»; у- Фактичне значення результативної ознаки; y x- теоретичне значення результативної ознаки; - Коефіцієнт парної кореляції.
4) F табл(р; f 1; f 2),
де f 1 =k, f 2 =n-k-1-число ступенів волі (табличні значення).
5) Якщо F розрахунок >F табл, то рівняння регресії підібрано правильно і можна застосовувати практично.
Якщо F розрах
6. Основним показником, що відображає міру якості регресійного аналізу, є коефіцієнт детермінації (R2).
Коефіцієнт детермінаціїпоказує, яка частка залежної змінної у»врахована в аналізі та викликана впливом на неї факторів, включених до аналізу.
Коефіцієнт детермінації (R 2)приймає значення у проміжку. Рівняння регресії є якісним, якщо R 2 ≥0,8.
Коефіцієнт детермінації дорівнює квадрату коефіцієнта кореляції, тобто.
Приклад 6.1.За наступними даними побудувати та проаналізувати рівняння регресії:
Рішення.
1) Обчислити коефіцієнт кореляції: . Зв'язок між ознаками прямий і помірний.
2) Побудувати рівняння парної лінійної регресії.
2.1) Скласти розрахункову таблицю.
№ | Х | у | Ху | х 2 | у х | (у-у х) 2 | ||
55,89 | 47,54 | 65,70 | ||||||
45,07 | 15,42 | 222,83 | ||||||
54,85 | 34,19 | 8,11 | ||||||
51,36 | 5,55 | 11,27 | ||||||
42,28 | 45,16 | 13,84 | ||||||
47,69 | 1,71 | 44,77 | ||||||
45,86 | 9,87 | 192,05 | ||||||
Сума | 159,45 | 558,55 | ||||||
Середнє | 77519,6 | 22,78 | 79,79 | 2990,6 |
,
Рівняння парної лінійної регресії: у х = 25,17 +0,087 х.
3) Знайти теоретичні значення « у xшляхом підстановки в рівняння регресії фактичних значень х».
4) Побудувати графіки фактичних у»та теоретичних значень « у х»результативної ознаки (рисунок 6.1): r xy = 0,47) і невеликою кількістю спостережень.
7) Обчислити коефіцієнт детермінації: R 2= (0,47) 2 = 0,22. Побудоване рівняння неякісне.
Т.к. обчислення під час проведення регресійного аналізу досить об'ємні, рекомендується користуватися спеціальними програмами («Statistica 10», SPSS та інших.).
На малюнку 6.2 наведено таблицю з результатами регресійного аналізу, проведеного за допомогою програми Statistica 10.
Малюнок 6.2. Результати регресійного аналізу, проведеного за допомогою програми Statistica 10
5. Література:
1. Гмурман В.Є. Теорія ймовірностей та математична статистика: Навч. посібник для вузів/В.Є. Гмурман. – М.: Вища школа, 2003. – 479 с.
2. Койчубеков Б.К. Біостатистика: Навчальний посібник. – Алмати: Еверо, 2014. – 154 с.
3. Лобоцька Н.Л. Вища математика. / Н.Л. Лобоцька, Ю.В. Морозов, А.А. Дунаєв. – Мн.: Вища школа, 1987. – 319 с.
4. Медик В.А., Токмачов М.С., Фішман Б.Б. Статистика в медицині та біології: Керівництво. У 2-х томах/За ред. Ю.М. Комарова. Т. 1. Теоретична статистика. – М.: Медицина, 2000. – 412 с.
5. Застосування методів статистичного аналізу вивчення громадського здоров'я та охорони здоров'я: навчальний посібник / ред. Кучеренко В.З. - 4-те вид., перероб. та дод. - М.: ГЕОТАР - Медіа, 2011. - 256 с.