Regresinės analizės pavyzdys. Duomenų analizės pagrindai
REZULTATAI
Regresijos statistika | |
Keli R | 0,998364 |
R kvadratas | 0,99673 |
Normalizuotas R kvadratas | 0,996321 |
Standartinė klaida | 0,42405 |
Stebėjimai | 10 |
Pirmiausia pažvelkime į 8.3a lentelėje pateiktų skaičiavimų viršutinę dalį – regresijos statistiką.
R-kvadrato reikšmė, dar vadinama tikrumo matu, apibūdina gautos regresijos linijos kokybę. Ši kokybė išreiškiama pirminių duomenų ir regresijos modelio (apskaičiuotų duomenų) atitikimo laipsniu. Tikrumo matas visada yra intervale .
Daugeliu atvejų R kvadrato reikšmė yra tarp šių reikšmių, vadinamų kraštutinumais, t.y. tarp nulio ir vieneto.
Jei R kvadrato reikšmė yra artima vienetui, tai reiškia, kad sukurtas modelis paaiškina beveik visą atitinkamų kintamųjų kintamumą. Ir atvirkščiai, R kvadrato reikšmė artima nuliui reiškia prastos kokybės pastatytas modelis.
Mūsų pavyzdyje tikrumo matas yra 0,99673, o tai rodo labai gerą regresijos linijos atitikimą pradiniams duomenims.
Keli R- koeficientas daugialypė koreliacija R – išreiškia nepriklausomų kintamųjų (X) ir priklausomo kintamojo (Y) priklausomybės laipsnį.
Keli R lygūs kvadratinė šaknis nuo determinacijos koeficiento ši vertė įgauna vertes diapazone nuo nulio iki vieno.
Atliekant paprastą tiesinės regresijos analizę, kartotinis R yra lygus Pirsono koreliacijos koeficientui. Iš tiesų, kartotinis R mūsų atveju yra lygus Pirsono koreliacijos koeficientui iš ankstesnio pavyzdžio (0,998364).
Šansai | Standartinė klaida | t-statistika | |
Y sankirta | 2,694545455 | 0,33176878 | 8,121757129 |
Kintamasis X 1 | 2,305454545 | 0,04668634 | 49,38177965 |
* Pateikiamas sutrumpintas skaičiavimų variantas |
Dabar apsvarstykite vidurinę 8.3b lentelėje pateiktų skaičiavimų dalį. Čia pateikiamas regresijos koeficientas b (2,305454545) ir poslinkis išilgai y ašies, t.y. konstanta a (2,694545455).
Remdamiesi skaičiavimais, regresijos lygtį galime parašyti taip:
Y= x*2,305454545+2,694545455
Ryšio tarp kintamųjų kryptis nustatoma pagal ženklus (neigiamus arba teigiamus) regresijos koeficientai(koeficientas b).
Jei ženklas adresu regresijos koeficientas- teigiamas, priklausomo kintamojo ryšys su nepriklausomu bus teigiamas. Mūsų atveju regresijos koeficiento ženklas yra teigiamas, todėl ir ryšys yra teigiamas.
Jei ženklas adresu regresijos koeficientas- neigiamas, priklausomo kintamojo ir nepriklausomo kintamojo ryšys yra neigiamas (atvirkštinis).
8.3c lentelėje. pateikiami likučių išvedimo rezultatai. Kad šie rezultatai atsirastų ataskaitoje, paleidžiant įrankį „Regresija“ būtina aktyvuoti varnelę „Likučiai“.
LIKO ATŠALINIMAS
Stebėjimas | Numatė Y | Lieka | Standartiniai likučiai |
---|---|---|---|
1 | 9,610909091 | -0,610909091 | -1,528044662 |
2 | 7,305454545 | -0,305454545 | -0,764022331 |
3 | 11,91636364 | 0,083636364 | 0,209196591 |
4 | 14,22181818 | 0,778181818 | 1,946437843 |
5 | 16,52727273 | 0,472727273 | 1,182415512 |
6 | 18,83272727 | 0,167272727 | 0,418393181 |
7 | 21,13818182 | -0,138181818 | -0,34562915 |
8 | 23,44363636 | -0,043636364 | -0,109146047 |
9 | 25,74909091 | -0,149090909 | -0,372915662 |
10 | 28,05454545 | -0,254545455 | -0,636685276 |
Naudodamiesi šia ataskaitos dalimi, galime pamatyti kiekvieno taško nuokrypius nuo sukonstruotos regresijos linijos. Didžiausia absoliuti vertė
Regresinė analizė išmatuotų duomenų modeliavimo ir jų savybių tyrimo metodas. Duomenys susideda iš reikšmių porų priklausomas kintamasis(atsakymo kintamasis) ir nepriklausomas kintamasis(aiškinamasis kintamasis). Regresijos modelis yra nepriklausomo kintamojo ir parametrų su pridėtu atsitiktiniu dydžiu funkcija. Modelio parametrai sureguliuoti taip, kad modelis kuo geriau aproksimuotų duomenis. Apytikslis kokybės kriterijus (objektyvi funkcija) paprastai yra vidutinė kvadratinė paklaida: skirtumo tarp modelio verčių ir priklausomo kintamojo kvadratų suma visoms nepriklausomo kintamojo reikšmėms kaip argumentas. Matematinės statistikos ir mašininio mokymosi regresinės analizės skyrius. Daroma prielaida, kad priklausomasis kintamasis yra tam tikro modelio ir atsitiktinio dydžio reikšmių suma. Dėl šios vertės pasiskirstymo pobūdžio daromos prielaidos, vadinamos duomenų generavimo hipoteze. Norint patvirtinti arba paneigti šią hipotezę, atliekami statistiniai testai, vadinami likučių analize. Tai daroma prielaida, kad nepriklausomas kintamasis neturi klaidų. Regresinė analizė naudojama prognozavimui, laiko eilučių analizei, hipotezių tikrinimui ir paslėptų duomenų sąsajų atradimui.
Regresinės analizės apibrėžimas
Pavyzdys gali būti ne funkcija, o santykis. Pavyzdžiui, regresijos sudarymo duomenys gali būti: . Tokiame pavyzdyje viena kintamojo reikšmė atitinka kelias kintamojo reikšmes.
Tiesinė regresija
Tiesinė regresija daro prielaidą, kad funkcija tiesiškai priklauso nuo parametrų. Šiuo atveju linijinė priklausomybė nuo laisvojo kintamojo yra neprivaloma,
Tuo atveju, kai tiesinės regresijos funkcija turi formą
čia yra vektoriaus komponentai.
Parametrų reikšmės tuo atveju tiesinė regresija rasta naudojant mažiausių kvadratų metodą. Šio metodo naudojimas pateisinamas atsitiktinio dydžio Gauso skirstinio prielaida.
Skirtumai tarp faktinių priklausomo kintamojo verčių ir rekonstruotų yra vadinami regresijos likučiai(likučiai). Sinonimai taip pat vartojami literatūroje: likučiai ir klaidų. Vienas iš svarbių gautos priklausomybės kokybės kriterijaus įverčių yra likučių kvadratų suma:
Čia kvadratinių klaidų suma.
Likučių dispersija apskaičiuojama pagal formulę
Čia yra vidutinė kvadrato klaida.
Grafikai rodo pavyzdžius, pažymėtus mėlynais taškais, ir regresijos priklausomybes, pažymėtas ištisomis linijomis. Laisvasis kintamasis brėžiamas išilgai abscisių, o priklausomasis – išilgai ordinačių. Visos trys priklausomybės yra tiesinės parametrų atžvilgiu.
Netiesinė regresija
Netiesinės regresijos modeliai – modelių peržiūra
kurio negalima pavaizduoti kaip taškinį sandaugą
kur – parametrai regresijos modelis, - laisvas kintamasis iš vietos , - priklausomas kintamasis, - atsitiktinė vertė ir yra funkcija iš tam tikros aibės.
Parametrų reikšmės netiesinės regresijos atveju randamos naudojant vieną iš gradiento nusileidimo metodų, pavyzdžiui, Levenbergo-Marquardto algoritmą.
Apie terminus
Terminą „regresija“ sugalvojo Francisas Galtonas XIX amžiaus pabaigoje. Galtonas išsiaiškino, kad aukštų ar žemo ūgio tėvų vaikai paprastai nepaveldi išskirtinio ūgio ir pavadino šį reiškinį „regresija į vidutinybę“. Iš pradžių šis terminas buvo vartojamas tik biologine prasme. Po Karlo Pearsono darbo šis terminas pradėtas vartoti statistikoje.
Statistinėje literatūroje išskiriama regresija, apimanti vieną laisvąjį kintamąjį, ir su keliais laisvaisiais kintamaisiais. vienmatis ir daugiamatis regresija. Daroma prielaida, kad naudojame kelis laisvuosius kintamuosius, tai yra laisvąjį kintamąjį vektorių. Ypatingais atvejais, kai laisvasis kintamasis yra skaliarinis, jis bus žymimas . Išskirti linijinis ir nelinijinis regresija. Jei regresijos modelis nėra linijinis parametrų funkcijų derinys, tada kalbama apie nelinijinę regresiją. Šiuo atveju modelis gali būti savavališka tam tikros aibės funkcijų superpozicija. Netiesiniai modeliai yra eksponentiniai, trigonometriniai ir kiti (pavyzdžiui, radialinės bazinės funkcijos arba Rozenblato perceptronas), kurie daro prielaidą, kad ryšys tarp parametrų ir priklausomo kintamojo yra netiesinis.
Išskirti parametrinis ir neparametrinis regresija. Sunku nubrėžti aštrią ribą tarp šių dviejų regresijų tipų. Šiuo metu nėra visuotinai priimto kriterijaus, pagal kurį būtų galima atskirti vieno tipo modelį nuo kito. Pavyzdžiui, tiesiniai modeliai laikomi parametriniais, o modeliai, apimantys priklausomo kintamojo vidurkį per laisvojo kintamojo erdvę, laikomi neparametriniais. Parametrinės regresijos modelio pavyzdys: tiesinis prognozuotojas, daugiasluoksnis perceptronas. Mišrios regresijos modelio pavyzdžiai: Radialinio pagrindo funkcijos. Neparametrinio modelio slenkamasis vidurkis tam tikro pločio lange. Apskritai neparametrinė regresija skiriasi nuo parametrinės regresijos tuo, kad priklausomas kintamasis priklauso ne nuo vienos laisvojo kintamojo reikšmės, o nuo tam tikros šios reikšmės kaimynystės.
Yra skirtumas tarp terminų: „funkcijos aproksimacija“, „approksimacija“, „interpoliacija“ ir „regresija“. Jį sudaro toliau.
Funkcijų priartinimas. Pateikiama diskretinio arba tęstinio argumento funkcija. Reikia rasti funkciją iš kokios nors parametrinės šeimos, pavyzdžiui, tarp tam tikro laipsnio algebrinių daugianarių. Funkciniai parametrai turi užtikrinti minimalias funkcijas, pvz.
Terminas aproksimacija termino „funkcijų suderinimas“ sinonimas. Dažniau naudojamas, kai Mes kalbame apie duotąją funkciją kaip diskretinio argumento funkciją. Čia taip pat reikia rasti tokią funkciją, kuri eina arčiausiai visų duotosios funkcijos taškų. Tai pristato koncepciją likučiai atstumai tarp tolydžios funkcijos taškų ir atitinkamų diskrečiojo argumento funkcijos taškų.
Interpoliacija funkcijas ypatinga byla aproksimacijos problemos, kai reikalaujama, kad tam tikruose taškuose, vadinamas interpoliacijos mazgai funkcijos ir ją aproksimuojančios funkcijos reikšmės sutapo. Bendresniu atveju kai kurių išvestinių finansinių priemonių vertės yra ribojamos. Tai yra, atsižvelgiant į atskiro argumento funkciją. Būtina rasti funkciją, kuri eina per visus taškus. Tokiu atveju metrika dažniausiai nenaudojama, tačiau dažnai įvedama norimos funkcijos „glotnumo“ sąvoka.
Regresijos samprata. Ryšys tarp kintamųjų x ir y galima apibūdinti įvairiai. Visų pirma, bet kokia ryšio forma gali būti išreikšta bendra lygtimi , kur y traktuojamas kaip priklausomas kintamasis, arba funkcijas iš kito – nepriklausomas kintamasis x, vadinamas argumentas. Argumento ir funkcijos atitikimą galima pateikti lentele, formule, grafiku ir pan. Iškviečiamas funkcijos keitimas, atsižvelgiant į vieno ar kelių argumentų pasikeitimą regresija. Visos priemonės, naudojamos koreliacijai apibūdinti, yra turinys regresinė analizė.
Regresijai išreikšti pasitarnauja koreliacinės lygtys, arba regresijos lygtys, empirinės ir teoriškai apskaičiuotos regresijos eilutės, jų grafikai, vadinami regresijos linijomis, taip pat tiesinės ir nelinijinės regresijos koeficientai.
Regresijos rodikliai išreiškia koreliaciją abipusiai, atsižvelgiant į požymio vidutinių verčių pokytį Y keičiant vertybes x iženklas X, ir atvirkščiai, parodykite ypatybės vidutinių verčių pokytį X pakeistomis vertybėmis y iženklas Y. Išimtis yra laiko eilutės arba dinamikos eilutės, rodančios ženklų kitimą laikui bėgant. Tokių eilučių regresija yra vienpusė.
Egzistuoja daugybė skirtingų koreliacijų formų ir tipų. Užduotis sumažinama iki ryšio formos kiekvienu konkrečiu atveju identifikavimo ir jos išreiškimo atitinkama koreliacijos lygtimi, kuri leidžia numatyti galimus vieno ženklo pokyčius Y remiantis žinomais pakeitimais X, susietas su pirmąja koreliacija.
12.1 Tiesinė regresija
Regresijos lygtis. Stebėjimų, atliktų konkrečiame biologiniame objekte, rezultatai pagal koreliacines charakteristikas x ir y, gali būti pavaizduotas taškais plokštumoje, sukūrus stačiakampių koordinačių sistemą. Dėl to gaunama tam tikra sklaidos diagrama, leidžianti spręsti apie kintančių požymių santykio formą ir sandarumą. Gana dažnai šis ryšys atrodo kaip tiesi linija arba gali būti apytikslis tiesės linijos.
Linijinis ryšys tarp kintamųjų x ir y apibūdinama bendra lygtimi , kur a, b, c, d,… yra lygties parametrai, nustatantys ryšį tarp argumentų x 1 , x 2 , x 3 , …, x m ir funkcijas.
Praktikoje atsižvelgiama ne į visus galimus argumentus, o tik į kai kuriuos argumentus, paprasčiausiu atveju tik į vieną:
Tiesinės regresijos lygtyje (1) a yra laisvas terminas ir parametras b nustato regresijos tiesės nuolydį stačiakampių koordinačių ašių atžvilgiu. Analitinėje geometrijoje šis parametras vadinamas nuolydžio koeficientas ir biometriniuose duomenyse - regresijos koeficientas. Vizualus šio parametro vaizdas ir regresijos linijų padėtis Yįjungta X ir Xįjungta Y stačiakampių koordinačių sistemoje pateikia 1 pav.
Ryžiai. 1 Y pagal X ir X pagal Y regresijos linijos sistemoje
stačiakampės koordinatės
Regresijos linijos, kaip parodyta 1 pav., susikerta taške O (,), atitinkančiame viena su kita koreliuojančių ženklų aritmetines vidutines vertes. Y ir X. Braižant regresijos grafikus, nepriklausomo kintamojo X reikšmės brėžiamos išilgai abscisių, o priklausomo kintamojo arba funkcijos Y reikšmės – išilgai ordinačių. Tiesė AB, einanti per tašką O (, ) atitinka pilną (funkcinį) ryšį tarp kintamųjų Y ir X kai koreliacijos koeficientas . Kuo stipresnis ryšys tarp Y ir X, kuo regresijos tiesės yra arčiau AB, ir, atvirkščiai, kuo silpnesnis ryšys tarp šių reikšmių, tuo regresijos tiesės yra toliau nuo AB. Nesant ryšio tarp požymių, regresijos linijos yra viena kitai stačiu kampu ir .
Kadangi regresijos rodikliai išreiškia koreliaciją abipusiai, regresijos lygtis (1) turėtų būti parašyta taip:
Pagal pirmąją formulę, pasikeitus ženklui, nustatomos vidutinės reikšmės X vienam matavimo vienetui, antroje - vidutinės vertės, kai požymis keičiamas pagal matavimo vienetą Y.
Regresijos koeficientas. Regresijos koeficientas parodo, kaip vidutiniškai vieno požymio reikšmė y pasikeičia, kai kitas matavimo vienetas koreliuoja su Yženklas X. Šis rodiklis nustatomas pagal formulę
Čia vertybės s padauginkite iš klasių intervalų dydžio λ jei jie buvo rasti variacijų eilutėmis arba koreliacijos lentelėmis.
Regresijos koeficientą galima apskaičiuoti apeinant standartinių nuokrypių skaičiavimą s y ir s x pagal formulę
Jei koreliacijos koeficientas nežinomas, regresijos koeficientas nustatomas taip:
Regresijos ir koreliacijos koeficientų ryšys. Palyginus (11.1) (11 tema) ir (12.5) formules, matome, kad jų skaitiklyje yra ta pati reikšmė , o tai rodo ryšį tarp šių rodiklių. Šis santykis išreiškiamas lygybe
Taigi koreliacijos koeficientas lygus geometriniam koeficientų vidurkiui b yx ir b xy. (6) formulė leidžia, pirma, iš žinomų regresijos koeficientų verčių b yx ir b xy nustatyti regresijos koeficientą R xy, antra, patikrinti šio koreliacijos rodiklio skaičiavimo teisingumą R xy tarp įvairių bruožų X ir Y.
Kaip ir koreliacijos koeficientas, regresijos koeficientas apibūdina tik tiesinį ryšį ir yra kartu su pliuso ženklu, reiškiančiu teigiamą ryšį, ir su minuso ženklu – neigiamu ryšiu.
Tiesinės regresijos parametrų nustatymas. Yra žinoma, kad varianto nuokrypių kvadratu suma x i iš vidurkio yra mažiausia reikšmė, t.y. Ši teorema sudaro metodo pagrindą mažiausių kvadratų. Kalbant apie tiesinę regresiją [žr formulė (1)], šios teoremos reikalavimą tenkina tam tikra lygčių sistema, vadinama normalus:
Bendras šių lygčių sprendimas parametrų atžvilgiu a ir b veda prie šių rezultatų:
;
;
, iš kur aš.
Atsižvelgiant į dvipusį ryšį tarp kintamųjų Y ir X, parametro nustatymo formulė a turėtų būti išreikšta taip:
ir . (7)
Parametras b, arba regresijos koeficientas, nustatomas pagal šias formules:
Empirinės regresijos eilučių konstravimas. Dalyvaujant didelis skaičius stebėjimų regresinė analizė prasideda nuo empirinių regresijos eilučių konstravimo. Empirinės regresijos eilutės susidaro apskaičiuojant vieno kintamojo atributo reikšmes X kito vidutinės vertės, koreliuojamos su Xženklas Y. Kitaip tariant, empirinės regresijos eilučių konstravimas reiškia, kad iš atitinkamų ženklų Y ir X reikšmių randama grupė reiškia u.
Empirinės regresijos eilutė yra dviguba skaičių serija, kurią galima pavaizduoti plokštumos taškais, o tada, sujungus šiuos taškus tiesių atkarpomis, galima gauti empirinę regresijos liniją. Empirinės regresijos eilutės, ypač jų siužetai, vadinami regresijos linijos, pateikia vaizdinį koreliacijos priklausomybės tarp įvairių požymių formos ir sandarumo vaizdą.
Empirinės regresijos eilučių išlyginimas. Empirinės regresijos eilučių grafikai, kaip taisyklė, pasirodo ne sklandžiai, bet laužytos linijos. Tai paaiškinama tuo, kad kartu su pagrindinėmis priežastimis, lemiančiomis bendrą koreliuojamų požymių kintamumo modelį, jų vertę įtakoja daugybė antrinių priežasčių, sukeliančių atsitiktinius regresijos mazginių taškų svyravimus. Norėdami nustatyti pagrindinę koreliuojamų požymių konjuguoto kitimo tendenciją (tendenciją), laužytas linijas turite pakeisti sklandžiai, sklandžiai einančiomis regresijos linijomis. Nutrūkusių linijų pakeitimo lygiomis procesas vadinamas empirinių eilučių derinimas ir regresijos linijos.
Grafinio derinimo metodas. Tai paprasčiausias metodas, nereikalaujantis skaičiavimo darbo. Jo esmė yra tokia. Empirinės regresijos eilutė brėžiama kaip grafikas stačiakampėje koordinačių sistemoje. Tada vizualiai nubrėžiami regresijos vidurio taškai, išilgai kurių liniuote arba raštu nubrėžiama ištisinė linija. Šio metodo trūkumas akivaizdus: jis neatmeta individualių tyrėjo savybių įtakos empirinės regresijos tiesių derinimo rezultatams. Todėl tais atvejais, kai reikia didesnio tikslumo pakeičiant laužytas regresijos linijas lygiosiomis, naudojami kiti empirinių eilučių derinimo būdai.
Slenkančio vidurkio metodas.Šio metodo esmė apsiriboja nuosekliu dviejų ar trijų gretimų narių aritmetinių vidurkių skaičiavimu. empirinė serija. Šis metodas yra ypač patogus tais atvejais, kai empirinę seriją vaizduoja daug terminų, todėl dviejų iš jų - kraštutinių - praradimas, kuris yra neišvengiamas naudojant šį išlyginimo metodą, nepadarys pastebimos įtakos jos struktūrai.
Mažiausio kvadrato metodas.Šį metodą XIX amžiaus pradžioje pasiūlė A.M. Legenda ir, nepriklausomai nuo jo, K. Gaussas. Tai leidžia tiksliausiai suderinti empirines serijas. Šis metodas, kaip parodyta aukščiau, yra pagrįstas prielaida, kad varianto kvadratinių nuokrypių suma x i nuo jų vidurkio yra minimali reikšmė, t.y. Iš čia ir kilęs metodo pavadinimas, kuris naudojamas ne tik ekologijoje, bet ir technologijoje. Mažiausių kvadratų metodas yra objektyvus ir universalus, jis naudojamas įvairiais atvejais ieškant empirinių regresijos eilučių lygčių ir nustatant jų parametrus.
Mažiausių kvadratų metodo reikalavimas yra tas, kad teoriniai regresijos tiesės taškai turi būti gauti taip, kad empiriniams stebėjimams būtų gauta kvadratinių nukrypimų nuo šių taškų suma. y i buvo minimalus, t.y.
Apskaičiavus šios išraiškos minimumą pagal matematinės analizės principus ir jį tam tikru būdu transformavus, galima gauti sistemą, vadinamą. normalios lygtys, kuriame nežinomos reikšmės yra norimi regresijos lygties parametrai, o žinomi koeficientai nustatomi pagal savybių empirines reikšmes, dažniausiai jų reikšmių ir jų sandaugų sumas.
Daugkartinė tiesinė regresija. Ryšys tarp kelių kintamųjų paprastai išreiškiamas daugialypės regresijos lygtimi, kuri gali būti linijinis ir nelinijinis. Paprasčiausia daugialypė regresija išreiškiama lygtimi su dviem nepriklausomais kintamaisiais ( x, z):
kur a yra lygties laisvasis narys; b ir c yra lygties parametrai. Norint rasti (10) lygties parametrus (mažiausių kvadratų metodu), naudojama tokia normaliųjų lygčių sistema:
Dinamikos eilutės. Eilučių lygiavimas.Ženklų kitimas laikui bėgant formuoja vadinamąjį laiko eilutės arba dinamikos eilutės. Būdingas tokių eilučių bruožas yra tas, kad laiko veiksnys čia visada veikia kaip nepriklausomas kintamasis X, o kintantis ženklas yra priklausomasis kintamasis Y. Priklausomai nuo regresijos eilutės, ryšys tarp kintamųjų X ir Y yra vienpusis, nes laiko veiksnys nepriklauso nuo požymių kintamumo. Nepaisant šių savybių, laiko eilutes galima palyginti su regresijos eilėmis ir apdoroti tais pačiais metodais.
Kaip ir regresijos eilutes, taip ir empirines laiko eilutes įtakoja ne tik pagrindiniai, bet ir daugybė antrinių (atsitiktinių) veiksnių, kurie užgožia pagrindinę požymių kintamumo tendenciją, kuri statistikos kalboje vadinama. tendencija.
Laiko eilučių analizė prasideda nuo tendencijos formos nustatymo. Norėdami tai padaryti, laiko eilutė vaizduojama kaip linijinė diagrama stačiakampių koordinačių sistemoje. Tuo pačiu metu laiko taškai (metai, mėnesiai ir kiti laiko vienetai) brėžiami išilgai abscisių ašies, o priklausomo kintamojo Y reikšmės brėžiamos išilgai ordinačių ašies. yra regresijos lygtis. priklausomo kintamojo Y eilutės dėmenų nuokrypiai nuo nepriklausomo kintamojo X eilutės aritmetinio vidurkio:
Čia yra tiesinės regresijos parametras.
Dinamikos serijos skaitinės charakteristikos. Pagrindinės apibendrinančios skaitinės dinamikos serijos charakteristikos apima geometrinis vidurkis ir jam artimą aritmetinį vidurkį. Jie apibūdina vidutinį greitį, kuriuo priklausomo kintamojo reikšmė kinta per tam tikrą laikotarpį:
Dinamikos eilučių sąlygų kintamumo įvertis yra standartinis nuokrypis. Renkantis regresijos lygtis laiko eilutėms apibūdinti, atsižvelgiama į tendencijos formą, kuri gali būti tiesinė (arba redukuota į tiesinę) ir netiesinė. Regresijos lygties pasirinkimo teisingumas paprastai vertinamas pagal empiriškai pastebėtų ir apskaičiuotų priklausomo kintamojo verčių panašumą. Tiksliau sprendžiant šią problemą yra regresinės dispersinės analizės metodas (12 tema p.4).
Dinamikos eilučių koreliacija. Dažnai tenka palyginti lygiagrečių laiko eilučių, kurios tarpusavyje susijusios tam tikromis bendromis sąlygomis, dinamiką, pavyzdžiui, norint išsiaiškinti ryšį tarp žemės ūkio produkcijos ir gyvulių prieaugio per tam tikrą laikotarpį. Tokiais atvejais ryšį tarp kintamųjų X ir Y charakterizuoja koreliacijos koeficientas R xy (esant tiesinei tendencijai).
Žinoma, kad dinamikos eilučių tendenciją, kaip taisyklė, užgožia priklausomo kintamojo Y eilučių svyravimai. Taigi iškyla dvejopa problema: išmatuoti priklausomybę tarp lyginamų eilučių, neatmetant. tendencija ir priklausomybės tarp gretimų tos pačios serijos narių matavimas, neįskaitant tendencijos. Pirmuoju atveju ryšio tarp lyginamų dinamikos serijų glaudumo rodiklis yra koreliacijos koeficientas(jei ryšys linijinis), antroje - autokoreliacijos koeficientas. Šie rodikliai turi skirtingas reikšmes, nors apskaičiuojami naudojant tas pačias formules (žr. 11 temą).
Nesunku pastebėti, kad autokoreliacijos koeficiento reikšmę įtakoja priklausomo kintamojo eilės narių kintamumas: kuo mažiau eilutės nariai nukrypsta nuo tendencijos, tuo didesnis autokoreliacijos koeficientas ir atvirkščiai.
Regresinė ir koreliacinė analizė - statistiniais metodais tyrimai. Tai yra dažniausiai pasitaikantys būdai parodyti parametro priklausomybę nuo vieno ar kelių nepriklausomų kintamųjų.
Toliau, naudodamiesi konkrečiais praktiniais pavyzdžiais, panagrinėsime šias dvi labai populiarias ekonomistų analizes. Taip pat pateiksime pavyzdį, kaip gauti rezultatus, kai jie sujungiami.
Regresinė analizė programoje Excel
Rodo kai kurių reikšmių (nepriklausomų, nepriklausomų) įtaką priklausomam kintamajam. Pavyzdžiui, kaip ekonomiškai aktyvių gyventojų skaičius priklauso nuo įmonių skaičiaus, darbo užmokesčio ir kitų parametrų. Arba: kaip BVP lygį veikia užsienio investicijos, energijos kainos ir pan.
Analizės rezultatas leidžia nustatyti prioritetus. Ir remiantis pagrindiniais veiksniais, numatyti, planuoti plėtrą prioritetines sritis priimti valdymo sprendimus.
Regresija vyksta:
- tiesinis (y = a + bx);
- parabolinis (y = a + bx + cx 2);
- eksponentinis (y = a * exp(bx));
- galia (y = a*x^b);
- hiperbolinis (y = b/x + a);
- logaritminis (y = b * 1n(x) + a);
- eksponentinis (y = a * b^x).
Apsvarstykite regresijos modelio kūrimo Excel programoje ir rezultatų interpretavimo pavyzdį. Paimkime tiesinį regresijos tipą.
Užduotis. 6 įmonėse buvo analizuojamas vidutinis mėnesinis atlyginimas ir išėjusių darbuotojų skaičius. Būtina nustatyti išėjusių į pensiją darbuotojų skaičiaus priklausomybę nuo vidutinio darbo užmokesčio.
Linijinės regresijos modelis turi tokią formą:
Y \u003d a 0 + a 1 x 1 + ... + a k x k.
Kur a yra regresijos koeficientai, x yra įtakojantys kintamieji, o k yra veiksnių skaičius.
Mūsų pavyzdyje Y yra pasitraukusių darbuotojų rodiklis. Įtakojantis veiksnys yra darbo užmokestis (x).
„Excel“ turi integruotas funkcijas, kurias galima naudoti tiesinės regresijos modelio parametrams apskaičiuoti. Tačiau „Analysis ToolPak“ priedas tai padarys greičiau.
Suaktyvinkite galingą analizės įrankį:
Kai bus suaktyvintas, priedas bus pasiekiamas skirtuke Duomenys.
Dabar mes tiesiogiai užsiimsime regresine analize.
Pirmiausia atkreipiame dėmesį į R kvadratą ir koeficientus.
R kvadratas yra determinacijos koeficientas. Mūsų pavyzdyje tai yra 0,755 arba 75,5%. Tai reiškia, kad apskaičiuoti modelio parametrai ryšį tarp tirtų parametrų paaiškina 75,5 proc. Kuo didesnis determinacijos koeficientas, tuo geresnis modelis. Gerai – virš 0,8. Prastas – mažiau nei 0,5 (tokia analizė vargu ar gali būti laikoma pagrįsta). Mūsų pavyzdyje – „neblogai“.
Koeficientas 64,1428 parodo, koks bus Y, jei visi nagrinėjamo modelio kintamieji yra lygūs 0. Tai yra, kiti faktoriai, kurie modelyje neaprašyti, taip pat turi įtakos analizuojamo parametro reikšmei.
Koeficientas -0,16285 rodo kintamojo X svorį Y. Tai reiškia, kad vidutinis mėnesinis atlyginimas pagal šį modelį įtakoja pasitraukusiųjų skaičių, kurio svoris yra -0,16285 (tai yra nedidelis įtakos laipsnis). „-“ ženklas rodo bloga įtaka: kuo didesnis atlyginimas, tuo mažiau mesti. Kas yra sąžininga.
Koreliacijos analizė programoje Excel
Koreliacinė analizė padeda nustatyti, ar yra ryšys tarp rodiklių vienoje ar dviejose imtyse. Pavyzdžiui, tarp mašinos veikimo laiko ir remonto išlaidų, įrangos kainos ir eksploatavimo trukmės, vaikų ūgio ir svorio ir kt.
Jei ryšys yra, tai ar vieno parametro padidėjimas lemia kito padidėjimą (teigiama koreliacija), ar sumažėjimą (neigiamą). Koreliacinė analizė padeda analitikui nustatyti, ar vieno rodiklio reikšmė gali numatyti galimą kito rodiklio reikšmę.
Koreliacijos koeficientas žymimas r. Varijuoja nuo +1 iki -1. Skirtingų sričių koreliacijų klasifikacija bus skirtinga. Kai koeficiento reikšmė yra 0, tarp imčių nėra tiesinio ryšio.
Apsvarstykite, kaip naudoti „Excel“ koreliacijos koeficientui rasti.
Funkcija CORREL naudojama poriniams koeficientams rasti.
Užduotis: Nustatyti, ar yra ryšys tarp tekinimo staklės veikimo laiko ir jos priežiūros išlaidų.
Įveskite žymeklį į bet kurį langelį ir paspauskite fx mygtuką.
- Kategorijoje „Statistika“ pasirinkite funkciją CORREL.
- Argumentas „1 masyvas“ - pirmasis reikšmių diapazonas - mašinos laikas: A2: A14.
- Argumentas „Array 2“ - antrasis verčių diapazonas - remonto kaina: B2:B14. Spustelėkite Gerai.
Norint nustatyti ryšio tipą, reikia pažvelgti į absoliutų koeficiento skaičių (kiekviena veiklos sritis turi savo skalę).
Kelių parametrų (daugiau nei 2) koreliacinei analizei patogiau naudoti „Duomenų analizę“ („Analysis Package“ priedas). Sąraše turite pasirinkti koreliaciją ir nurodyti masyvą. Visi.
Gauti koeficientai bus rodomi koreliacijos matricoje. Kaip šis:
Koreliacinė-regresinė analizė
Praktikoje šie du būdai dažnai naudojami kartu.
Pavyzdys:
Dabar matomi regresinės analizės duomenys.
1. Pirmą kartą terminą „regresija“ įvedė biometrijos pradininkas F. Galtonas (XIX a.), kurio idėjas plėtojo jo pasekėjas K. Pearsonas.
Regresinė analizė- statistinių duomenų apdorojimo metodas, leidžiantis išmatuoti ryšį tarp vienos ar kelių priežasčių (faktorinių požymių) ir pasekmės (veiksmingumo ženklas).
ženklas- tai yra pagrindinis skiriamasis bruožas, tiriamo reiškinio ar proceso ypatybė.
Veiksmingas ženklas - tiriamas rodiklis.
Faktoriaus ženklas- rodiklis, turintis įtakos efektyvios savybės vertei.
Regresinės analizės tikslas – įvertinti efektyvaus požymio vidutinės reikšmės funkcinę priklausomybę ( adresu) iš faktorialo ( x 1, x 2, ..., x n), išreikštas kaip regresijos lygtys
adresu= f(x 1, x 2, ..., x n). (6.1)
Yra dviejų tipų regresija: porinė ir daugkartinė.
Porinė (paprastoji) regresija- formos lygtis:
adresu= f(x). (6.2)
Gautas požymis porinėje regresijoje laikomas vieno argumento funkcija, t.y. vienas veiksnys.
Regresijos analizė apima šiuos veiksmus:
funkcijos tipo apibrėžimas;
regresijos koeficientų nustatymas;
Efektyviosios savybės teorinių verčių skaičiavimas;
Regresijos koeficientų statistinio reikšmingumo tikrinimas;
Regresijos lygties statistinio reikšmingumo tikrinimas.
Daugkartinė regresija- formos lygtis:
adresu= f(x 1, x 2, ..., x n). (6.3)
Gautas požymis laikomas kelių argumentų funkcija, t.y. daug veiksnių.
2. Norint teisingai nustatyti funkcijos tipą, pagal teorinius duomenis reikia rasti ryšio kryptį.
Pagal ryšio kryptį regresija skirstoma į:
· tiesioginė regresija, kylančių su sąlyga, kad padidėjus arba mažėjant nepriklausoma vertė « X" priklausomo dydžio vertės " prie" taip pat atitinkamai didinti arba mažinti;
· atvirkštinė regresija, atsirandantys su sąlyga, kad padidėjus arba sumažėjus nepriklausomai vertei "X" priklausoma vertė" prie" atitinkamai mažėja arba didėja.
Ryšiams apibūdinti naudojamos šių tipų porinės regresijos lygtys:
· y=a+bx– linijinis;
· y=e ax + b – eksponentinis;
· y=a+b/x – hiperbolinis;
· y=a+b 1 x+b 2 x 2 – parabolinis;
· y=ab x – eksponentinis ir kt.
kur a, b 1, b 2- lygties koeficientai (parametrai); adresu- efektyvus ženklas; X- faktoriaus ženklas.
3. Regresijos lygties konstrukcija sumažinama iki jos koeficientų (parametrų) įvertinimo, tam jie naudoja mažiausių kvadratų metodas(MNK).
Mažiausių kvadratų metodas leidžia gauti tokius parametrų įvertinimus, kuriuose yra faktinių efektyvios savybės verčių kvadratinių nuokrypių suma " adresu"Iš teorinės" y x» yra minimalus, tai yra
Regresijos lygties parinktys y=a+bx Mažiausių kvadratų metodu apskaičiuojami naudojant formules:
kur a - laisvasis koeficientas, b- regresijos koeficientas, parodo, kiek pasikeis gaunamas ženklas y» keičiant faktoriaus atributą « x» vienam matavimo vienetui.
4. Regresijos koeficientų statistiniam reikšmingumui įvertinti naudojamas Stjudento t-testas.
Regresijos koeficientų reikšmingumo tikrinimo schema:
1) H 0: a=0, b=0 – regresijos koeficientai nežymiai skiriasi nuo nulio.
H 1: a≠ 0, b≠ 0 – regresijos koeficientai gerokai skiriasi nuo nulio.
2) R=0,05 – reikšmingumo lygis.
kur m b,m a- atsitiktinės klaidos:
; . (6.7)
4) t stalas(R; f),
kur f=n-k- 1 – laisvės laipsnių skaičius (lentelės reikšmė), n- stebėjimų skaičius, k X".
5) Jei , tai nukrypsta, t.y. reikšmingas koeficientas.
Jei , tai yra priimta, t.y. koeficientas yra nereikšmingas.
5. Sudarytos regresijos lygties teisingumui patikrinti naudojamas Fišerio kriterijus.
Regresijos lygties reikšmingumo patikrinimo schema:
1) H 0: regresijos lygtis nėra reikšminga.
H 1: regresijos lygtis yra reikšminga.
2) R=0,05 – reikšmingumo lygis.
3) , (6.8)
kur yra stebėjimų skaičius; k- parametrų skaičius lygtyje su kintamaisiais " X"; adresu- faktinė veiksmingo požymio vertė; y x- efektyvaus požymio teorinė vertė; - poros koreliacijos koeficientas.
4) F lentelė(R; f1; f2),
kur f 1 \u003d k, f 2 \u003d n-k-1- laisvės laipsnių skaičius (lentelės reikšmės).
5) Jei F calc >F lentelė, tada regresijos lygtis parinkta teisingai ir gali būti taikoma praktiškai.
Jeigu F skaičiuot
6. Pagrindinis regresinės analizės kokybės matą atspindintis rodiklis yra determinacijos koeficientas (R 2).
Determinacijos koeficientas rodo, kokia priklausomo kintamojo dalis adresu» yra atsižvelgiama atliekant analizę ir yra sąlygota į analizę įtrauktų veiksnių įtakos.
Determinacijos koeficientas (R2) paima vertes diapazone . Regresijos lygtis yra kokybinė, jei R2 ≥0,8.
Determinacijos koeficientas lygus koreliacijos koeficiento kvadratui, t.y.
6.1 pavyzdys. Remdamiesi šiais duomenimis, sukurkite ir išanalizuokite regresijos lygtį:
Sprendimas.
1) Apskaičiuokite koreliacijos koeficientą: . Ryšys tarp ženklų yra tiesioginis ir vidutinio sunkumo.
2) Sudarykite porinę tiesinės regresijos lygtį.
2.1) Padarykite skaičiavimo lentelę.
№ | X | adresu | Hu | x 2 | y x | (y-y x) 2 | ||
55,89 | 47,54 | 65,70 | ||||||
45,07 | 15,42 | 222,83 | ||||||
54,85 | 34,19 | 8,11 | ||||||
51,36 | 5,55 | 11,27 | ||||||
42,28 | 45,16 | 13,84 | ||||||
47,69 | 1,71 | 44,77 | ||||||
45,86 | 9,87 | 192,05 | ||||||
Suma | 159,45 | 558,55 | ||||||
Vidutinis | 77519,6 | 22,78 | 79,79 | 2990,6 |
,
Suporuota tiesinės regresijos lygtis: y x \u003d 25,17 + 0,087x.
3) Raskite teorines vertes y x» pakeičiant faktines reikšmes į regresijos lygtį « X».
4) Nubraižykite faktinių " prie" ir teorinės vertybės“ y x» efektyvi savybė (6.1 pav.): r xy =0,47) ir nedidelis stebėjimų skaičius.
7) Apskaičiuokite determinacijos koeficientą: R2=(0,47) 2 = 0,22. Sudaryta lygtis yra prastos kokybės.
Nes skaičiavimai regresinės analizės metu yra gana dideli, rekomenduojama naudoti specialias programas ("Statistica 10", SPSS ir kt.).
6.2 paveiksle pateikta lentelė su regresinės analizės, atliktos naudojant programą „Statistica 10“, rezultatais.
6.2 pav. Programa „Statistica 10“ atliktos regresinės analizės rezultatai
5. Literatūra:
1. Gmurmanas V.E. Tikimybių teorija ir matematinė statistika: Proc. vadovas universitetams / V.E. Gmurmanas. - M.: Aukštoji mokykla, 2003. - 479 p.
2. Koičubekovas B.K. Biostatistika: vadovėlis. - Almata: Evero, 2014. - 154 p.
3. Lobotskaya N.L. Aukštoji matematika. / N.L. Lobotskaja, Yu.V. Morozovas, A.A. Dunajevas. - Minskas: Aukštoji mokykla, 1987. - 319 p.
4. Medikas V.A., Tokmačiovas M.S., Fishmanas B.B. Medicinos ir biologijos statistika: vadovas. 2 tomais / Red. Yu.M. Komarovas. T. 1. Teorinė statistika. - M.: Medicina, 2000. - 412 p.
5. Statistinės analizės metodų taikymas visuomenės sveikatos ir sveikatos priežiūros studijoms: vadovėlis / red. Kucherenko V.Z. - 4-asis leidimas, pataisytas. ir papildomas - M.: GEOTAR - Žiniasklaida, 2011. - 256 p.