Kas yra statistinis modelis? Statistinis modeliavimas
4.1.1. Statistinis modelis. Statistiniame (stochastiniame) modeliavime pagrindiniai modeliavimo objektai yra atsitiktiniai įvykiai, atsitiktiniai dydžiai ir atsitiktinės funkcijos.
Atlikdamas eksperimentus, tyrėjas fiksuoja dominančių įvykių įvykį arba neįvykimą, taip pat matuoja atsitiktinio pobūdžio parametrų reikšmes ir iš esmės yra kai kurių atsitiktinių dydžių įgyvendinimo reikšmės.
Statistinis modeliavimas leidžia neatliekant realių eksperimentų su tiriamu objektu (tam dažniausiai reikia didelių materialinių ir finansinių išlaidų), gauti aktualią informaciją apie tam tikrų įvykių, vykstančių realiame objekte, atsiradimą ar neįvykimą. apie pavyzdines vertes atsitiktiniai dydžiai remiantis turimomis imituojamų įvykių ir atsitiktinių dydžių tikimybinėmis charakteristikomis. Šio tipo modeliavimas apima išankstinį informacijos apie modeliuojamus rodiklius rinkimą ir tolesnį gautų rezultatų statistinį apdorojimą, siekiant gauti pagrįstus statistinius įverčius, reikalingus tikimybinėms charakteristikoms modeliuoti.
Stochastiniai modeliai dažniausiai naudojami dviem atvejais:
1) modeliavimo objektas yra menkai ištirtas - nėra pakankamai gerai išplėtotų kiekybinių dėsnių, apibūdinančių nagrinėjamus procesus ir reiškinius, taip pat nėra galimybės rasti priimtiną analitinį šios problemos sprendimą;
2) modeliuojamas objektas gana gerai ištirtas deterministiniu būdu, tačiau neatsižvelgiant į atsitiktinius veiksnius, turinčius įtakos tiriamiems procesams ir reiškiniams.
Pirmuoju atveju, remiantis žodiniu tiriamo objekto aprašymu, kiekybiniai rodikliai parenkami apskaičiuojant jų fizinį matmenį, susidedantį iš dviejų grupių. Viena iš grupių laikoma modelio įvesties dydžiais, o kita – išvesties dydžiais. Be to, taikant kitų šios srities tyrėjų gautus mokslinius teorinius rezultatus ir galbūt taikant keletą būtinų prielaidų, taip pat galbūt jau turimus eksperimentinius duomenis apie įvesties ir išvesties dydžius (pavyzdžiui, apie jų pasiskirstymo dėsnius), nustatomos deterministinės arba stochastinės priklausomybės tarp modelio įvesties ir išvesties dydžiai . Gautų ryšių tarp įvesties ir išvesties dydžių aibė (dažniausiai rašoma lygčių forma) vadinama statistinis modelis.
Įgyvendinant statistinį modelį, remiantis pasirinktais atsitiktinių dydžių pasiskirstymo dėsniais ir pasirinktomis imituojamų įvykių tikimybėmis, matematinės statistikos metodais nustatomos imtinės priešeksperimentinės atsitiktinių dydžių reikšmės ir kvaziempirinės įvykių sekos. arba imituojamų įvykių nebuvimas. Toliau pagal modelio lygtis nustatomos atitinkamos jo išvesties dydžių imties vertės. O pakartotinis sukonstruoto modelio įgyvendinimas leidžia tyrėjui sukonstruoti jo išvesties reikšmių modelio imtį, kuriai vėl atliekama statistinė analizė (koreliacija, regresija, dispersija, spektrinė), siekiant gauti modelio išvesties parametrų charakteristikų įverčius arba patikrinkite iškeltas hipotezes. Remiantis gautais rezultatais, daromos išvados dėl tyrimo objekto, taip pat pagrindžiami sukonstruoto modelio praktinis pritaikymas.
Sprendžiant uždavinius plačiai taikomi statistinio modeliavimo metodai eilėje, optimizavimo teorija, valdymo teorija, teorinė fizika ir kt.
Teorinis pagrindas Statistinio modeliavimo kompiuteriu metodas yra tikimybių teorijos ribinės teoremos.
4.1.2. Čebyševo nelygybė. Už neneigiama funkcija atsitiktinis kintamasis ir galioja nelygybė
.
4.1.3. Bernulio teorema. Jei atliekami nepriklausomi testai, kurių kiekviename įvyksta tam tikras įvykis su tikimybe , tai įvykio santykinis grynumas (palankių testo rezultatų skaičius) tikimybe konverguoja į , t.y. adresu
4.1.4. Puasono teorema. Jei atliekami nepriklausomi testai ir įvykio tikimybė tame bandyme yra lygi , tai įvykio santykinis grynumas (palankių testo rezultatų skaičius) tikimybe konverguoja į tikimybių vidurkį. , t.y. adresu
4.1.5. Čebyševo teorema. Jei nepriklausomų testų metu stebimos atsitiktinio dydžio reikšmės, tai atsitiktinio dydžio reikšmių aritmetiniame vidurkiu tikimybė susilyginti su jo matematiniais lūkesčiais, t.y. adresu
4.1.6. Apibendrinta Čebyševo teorema. Jei nepriklausomi atsitiktiniai dydžiai su matematiniais lūkesčiais ir dispersijomis yra apriboti iš viršaus tuo pačiu skaičiumi, tai kai atsitiktinio dydžio reikšmių aritmetinis vidurkis suartėja su tikimybe, kad jų matematinių lūkesčių aritmetinis vidurkis
4.1.7. Markovo teorema.. Čebyševo teorema galios ir priklausomiems atsitiktiniams dydžiams, jei
4.1.8. Centrinės ribos teorema. Jei nepriklausomi identiškai pasiskirstę atsitiktiniai dydžiai su matematiniais lūkesčiais ir dispersija, tada, kai sumos pasiskirstymo dėsnis artėja neribotai normalus įstatymas paskirstymas
kur yra Laplaso funkcija
4.1.9. Laplaso teorema. Jei kiekviename iš nepriklausomų bandymų įvykis įvyksta su tikimybe, tada
Statinis modeliavimas – tai tam tikro reiškinio ar santykių tarp reiškinių sistemos atvaizdavimas arba aprašymas per kintamųjų (rodiklių, charakteristikų) rinkinį ir statistinius ryšius tarp jų. Statinio modeliavimo (kaip ir bet kurio kito modeliavimo) tikslas – vizualiai ir studijoms prieinama forma pateikti svarbiausius tiriamo reiškinio bruožus. Visi statistiniai modeliai galiausiai yra skirti dviejų ar daugiau kintamųjų ryšių stiprumui ir krypčiai išmatuoti. Dauguma sudėtingi modeliai Jie taip pat leidžia spręsti apie kelių kintamųjų santykių struktūrą. Daugumą statistinių modelių galima iš esmės suskirstyti į koreliacinius, struktūrinius ir priežastinius. Koreliacijos modeliai naudojami poriniams „nekryptiniams“ ryšiams tarp kintamųjų matuoti, t.y. tokie ryšiai, kuriuose priežastinio komponento nėra arba jie ignoruojami. Tokių modelių pavyzdžiai yra Pirsono porinės tiesinės koreliacijos koeficientas, poros rango koeficientai ir daugialypė koreliacija, dauguma susiejimo priemonių, sukurtų nenumatytų atvejų lentelėms (išskyrus informacijos teorinius koeficientus ir log-tiesinę analizę).
Statinio modeliavimo struktūriniai modeliai yra skirti tam tikro kintamųjų ar objektų rinkinio struktūrai tirti. Pradiniai duomenys kelių kintamųjų santykių struktūrai tirti yra koreliacijų tarp jų matrica. Koreliacinės matricos analizė gali būti atliekama rankiniu būdu arba naudojant daugiamačius metodus statistinė analizė- faktorinis, klasterinis, daugiamačio mastelio metodas. Daugeliu atvejų santykių tarp kintamųjų struktūros tyrimas yra išankstinis žingsnis sprendžiant sudėtingesnę problemą – sumažinant ypatybių erdvės matmenį.
Objektų rinkinio struktūrai tirti naudojami klasterinės analizės ir daugiamačio mastelio metodai. Atstumų tarp jų matrica naudojama kaip pradiniai duomenys. Atstumas tarp objektų yra mažesnis, tuo labiau objektai yra „panašesni“ vienas į kitą pagal juos išmatuotų kintamųjų reikšmes; jei visų dviejų objektų kintamųjų reikšmės yra vienodos, atstumas tarp jų yra lygus nuliui. Atsižvelgiant į tyrimo tikslus, struktūriniai modeliai gali būti pateikiami matricų (koreliacijų, atstumų), faktorių struktūros arba vizualiai. Klasterinės analizės rezultatai dažniausiai pateikiami dendrogramos pavidalu; faktorinės analizės ir daugiamačio mastelio rezultatai pateikiami sklaidos pavidalu. Koreliacinės matricos struktūra taip pat gali būti pateikta grafiko forma, atspindinti reikšmingiausius kintamųjų ryšius. Priežastiniai modeliai yra skirti tyrimams priežastiniai ryšiai tarp dviejų ar daugiau kintamųjų. Kintamieji, matuojantys priežastinius reiškinius, statistikoje vadinami nepriklausomais kintamaisiais arba prognozuotojais; Kintamieji, matuojantys pasekmių reiškinius, vadinami priklausomais. Dauguma statistinių priežastinių modelių prisiima vieną priklausomą kintamąjį ir vieną ar daugiau prognozių. Išimtis yra tiesiniai struktūriniai modeliai, kuriuose vienu metu gali būti naudojami keli priklausomi kintamieji, o kai kurie kintamieji vienu metu gali veikti kaip priklausomi vienų rodiklių atžvilgiu ir kaip prognozuojantys kitų rodiklių atžvilgiu.
Yra dvi statistinio modeliavimo metodo taikymo sritys: statinio modeliavimo modeliavimo planavimas
- - stochastinėms sistemoms tirti;
- - deterministinių problemų sprendimui.
Pagrindinė mintis, kuri naudojama sprendžiant deterministines problemas taikant statistinio modeliavimo metodą, yra deterministinės problemos pakeitimas ekvivalentiška kokios nors stochastinės sistemos grandine, pastarosios išėjimo charakteristikos sutampa su deterministinio uždavinio sprendimo rezultatu. Atlikus tokį pakeitimą, paklaida mažėja didėjant testų skaičiui (modeliavimo algoritmo įgyvendinimas) N.
Sistemos statistinio modeliavimo rezultatas S gaunama norimų dydžių ar funkcijų dalinių verčių serija, kurios statistinis apdorojimas leidžia gauti informacijos apie realaus objekto ar proceso elgesį savavališkais laiko momentais. Jei pardavimo kiekis N yra pakankamai didelis, tada gauti sistemos modeliavimo rezultatai įgauna statistinį stabilumą ir pakankamai tiksliai gali būti priimti kaip reikiamų sistemos veikimo proceso charakteristikų įverčiai. S.
Statistiniai ir tikimybių teoriniai metodai sudaro metodologinį pagrindą to paties pavadinimo modeliavimo tipui. Šiame modelio formalizavimo lygmenyje mes dar nekalbame apie dėsnio, užtikrinančio neapibrėžtumo pašalinimą priimant sprendimą atskleidimą, tačiau yra tam tikras šios sistemos ar jos analogo stebėjimų masyvas, leidžiantis nubrėžti tam tikrus. išvados dėl sistemos praeities/dabartinės/ateities būsenos, remiantis hipoteze apie jos elgesio nekintamumą.
Kaip visada, suformuluokime apibrėžimą... Statistinis arba tikimybių teorinis modelis (stochastinis modelis) – tai modelis, kuriame atsižvelgiama į atsitiktinių veiksnių įtaką sistemos veikimo metu, remiantis statistinės arba tikimybių teorinės metodikos taikymu pasikartojančių reiškinių atžvilgiu.. Šis modelis, vertinant pasikartojančius reiškinius, veikia kiekybiniais kriterijais ir leidžia atsižvelgti į jų netiesiškumą, dinamiką ir atsitiktinius trikdžius, remiantis stebėjimų rezultatų analize iškeliant hipotezes apie tam tikrų atsitiktinių dydžių, turinčių įtakos, pasiskirstymo pobūdį. sistemos elgesys.
Iš esmės tikimybių teoriniai ir statistiniai modeliai skiriasi žinių apie modeliuojamą sistemą neapibrėžtumo lygiu, kuris egzistuoja modelio sintezės metu. Tuo atveju, kai idėjos apie sistemą yra veikiau teorinio pobūdžio ir pagrįstos tik hipotezėmis apie sistemos prigimtį ir trikdančias įtakas, neparemtos stebėjimo rezultatais, teorinis-tikimybinis modelis yra vienintelis galimas. Kai modelio sintezės etape eksperimentiniu būdu gauti duomenys jau egzistuoja, hipotezes galima sustiprinti statistiškai apdorojant jas. Tai tampa akivaizdu, jei atsižvelgsime į ryšį tarp matematinės statistikos metodų ir tikimybių teorijos. Matematinė statistika yra mokslas, tiriantis metodus, kaip atskleisti modelius, būdingus didelėms vienarūšių objektų ar įvykių kolekcijoms, remiantis jų atranka (arba dideliu duomenų kiekiu, gautu stebint tą patį objektą per gana ilgą laiką). Tikimybių teorija tiria kiekybinius modelius, kuriais vadovaujasi atsitiktiniai reiškiniai, jei šiuos reiškinius lemia žinomos tikimybės įvykiai. Atitinkamai, matematinė statistika yra jungtis tarp tikimybių teorijos ir realaus pasaulio reiškinių, nes leidžia suformuluoti tam tikrų įvykių tikimybės įverčius remiantis statistinių duomenų analize.
Galima teigti, kad statistiniai modeliai yra ypatinga matematinių modelių rūšis, kuri kaip pradinius duomenis naudoja ne tik esamus duomenis apie esamą objekto būseną, bet ir duomenis, apibūdinančius arba kitų tam tikros klasės objektų, arba šio objekto būseną. bet kitu laiko momentu. Statistiniai modeliai taikomi tiriant bet kokio pobūdžio masių reiškinius, įskaitant ir tuos, kurie nepriklauso tikimybiškai nustatytų kategorijai (deterministiniams uždaviniams spręsti pritaikyta ir matematinė statistika). Modeliuojant pastarąjį, į modelį dirbtinai įvedamas statistinis procesas, siekiant gauti statistinius skaitinio sprendimo įverčius (pavyzdžiui, deterministinio proceso parametrų matavimo tikslumą).
Matematinės statistikos ir tikimybių teorijos metodai, be kita ko, gali būti įtraukti į loginius ir loginius-lingvistinius modelius, kaip nurodyta ankstesniame poskyryje. Pavyzdžiui, galima būtų apsvarstyti statistinių įverčių integravimo į semantinių santykių modelius metodus, skirtus atskiras viršūnes jungiantiems lankams priskirti skirtingus svorius. Statistiniai įverčiai taip pat gali būti įtraukti į tezaurų pateikimo sistemas, siekiant išspręsti polisemijos situacijas, nesiimant kontekstinės analizės procedūrų. Kitaip tariant, statistiniai metodai gali būti modelio pagrindas ir naudojami kitų tipų modeliams modifikuoti.
Stebėjimų rezultatams apdoroti naudojami koreliacinės, regresinės, faktorinės, klasterinės ir kitos analizės metodai, operuojant su statistinėmis hipotezėmis. Ypatingas vaidmuo čia skiriamas statistinio tyrimo metodas (Monte Karlo metodas ). Tai matematinių uždavinių skaitinio sprendimo metodas, pagrįstas pakartotiniu tikimybių teoriniu ir statistiniu atsitiktinių dydžių ar procesų modeliavimu, siekiant sudaryti statistinius norimų dydžių įverčius. Metodo esmė – įgyvendinti kelis atsitiktinio reiškinio modeliavimus naudojant tam tikrą procedūrą, kuri duoda atsitiktinį rezultatą. Tam, naudojant kompiuterį, sukuriama eilė atsitiktinių procesų realizacijų, kurios imituoja trikdančius poveikius tiriamam objektui ar procesui, po kurių šis procesas ar objektas modeliuojamas sąlygomis, kurias lemia atsirandantys atsitiktiniai poveikiai. Tokio modeliavimo rezultatai apdorojami matematinės statistikos metodais. Tokiu atveju atsitiktinio dydžio skirstinio tipas ir parametrai gali skirtis.
Atsitiktinio proceso įgyvendinimas Monte Karlo metodu – tai pavienių partijų seka, sumaišyta su įprastais skaičiavimais, kurių metu nustatomas trikdančio poveikio objektui ar procesui rezultatas operacijos rezultatui.
Kadangi atsitiktinių įtakų pasiskirstymo modelio adekvatumą bendru atveju nustatyti sunku, modeliavimo Monte Karlo metodu užduotis yra užtikrinti gautų sprendinių tvirtumas (atsitiktinių dydžių pasiskirstymo dėsnio parametrų pokyčiams ir pradinės modeliavimo sąlygos). Jei modeliavimo rezultatas nėra patikimas (labai priklauso nuo pasiskirstymo dėsnio parametrų ir modelio parametrų), tai rodo, kad priimant sprendimus šiuo modeliuojamos sistemos įgyvendinimu yra didelė rizika.
Svarbų vaidmenį statistiniuose modeliuose vaidina hipotezės apie būsenų kaitos procesų prigimtį modeliuojamoje sistemoje. Pavyzdžiui, labai įdomus atvejis yra hipotezė apie „ Markoviškumas » procesai (pavadintas rusų mokslininko A. A. Markovo vardu – XX a. pradžia). Markovo procesai yra proceso su deterministinėmis tikimybėmis atvejis, kuriam ankstyva sistemos būklės pokyčių istorija tam tikru ankstesniu laiko intervalu yra nereikšminga nustatant kito įvykio tikimybę - pagrindinė reikšmė teikiama jos dabartinė būklė. Jei Markovo procesu pasitikima, tai žymiai pakeičia sistemos idėją (ji gali būti laikoma „inercine“, daugiausia priklausoma nuo dabartinės būsenos ir trikdančios įtakos pobūdžio). Markovo principas buvo atrastas analizuojant tekstus natūraliomis kalbomis, kai remiantis statistine teksto masyvų analize tam tikra kalba galima numatyti kito simbolio atsiradimo tikimybę.
Statistinis modeliavimas yra glaudžiai susijęs su modeliavimo modeliavimu , kurio metu objekto modelis dažnai „panardinamas į tikimybinę (statistinę) aplinką“, kurioje įvairios situacijos ir modelio/objekto veikimo režimai. Tačiau modeliavimo modelius galima įgyvendinti ir deterministinėje aplinkoje.
Statistinio modeliavimo metodai plačiai taikomi strateginio planavimo ir valdymo srityje. Plačiai taikyti statistinio modeliavimo metodus veiklos valdymo srityje trukdo didelis modeliavimo proceso sudėtingumas. Taip yra daugiausia dėl poreikio giliai matematiškai tobulinti modelius ir aukštus vartotojų matematinėms žinioms keliamus reikalavimus.
Statistinis modeliavimas pagrindinis modeliavimo metodas, kurį sudaro modelio testavimas atsitiktinių signalų rinkiniu su tam tikru tikimybių tankiu. Tikslas – statistiškai nustatyti išvesties rezultatus. Statistinis modeliavimas remiasi Monte Karlo metodas. Prisiminkime, kad imitacija naudojama tada, kai negalima naudoti kitų būdų.
Monte Karlo metodas
Panagrinėkime Monte Karlo metodą, naudodamiesi integralo, kurio reikšmės negalima rasti analitiškai, skaičiavimo pavyzdžiu.
1 užduotis. Raskite integralo reikšmę:
Fig. 21.1 rodomas funkcijos grafikas f(x). Apskaičiuoti šios funkcijos integralo reikšmę reiškia rasti plotą po šiuo grafiku.
Monte Karlo metodas
Apribojame kreivę iš viršaus, į dešinę ir į kairę. Atsitiktinai paskirstome taškus paieškos stačiakampyje. Pažymėkime pagal N 1 priimtų testuoti taškų skaičius (ty patenka į stačiakampį, šie taškai 21.1 pav. parodyti raudona ir mėlyna spalva), o per N 2 taškų skaičius po kreive, tai yra, patenkančių į užtamsintą sritį po funkcija (šie taškai 21.1 pav. parodyti raudonai). Tada natūralu manyti, kad taškų, patenkančių po kreive, skaičius bendras skaičius taškai yra proporcingi plotui po kreive (integralo reikšme) bandomojo stačiakampio ploto atžvilgiu. Matematiškai tai galima išreikšti taip:
Šie samprotavimai, be abejo, yra statistiniai ir kuo teisingesni, tuo didesnį testo taškų skaičių imame.
Monte Karlo metodo algoritmo fragmentas blokinės diagramos pavidalu atrodo taip, kaip parodyta Fig. 21.2.
Monte Karlo metodas
Vertybės r 1 ir r 2 pav. 21.2 yra tolygiai paskirstyti atsitiktiniai skaičiai iš intervalų ( x 1 ; x 2) ir ( c 1 ; c 2) atitinkamai.
Monte Karlo metodas yra itin efektyvus, paprastas, tačiau jam reikalingas „geras“ atsitiktinių skaičių generatorius. Antroji metodo taikymo problema yra imties dydžio nustatymas, tai yra taškų, reikalingų tam, kad būtų pateiktas tam tikro tikslumo sprendimas, skaičius. Eksperimentai rodo, kad norint padidinti tikslumą 10 kartų, imties dydį reikia padidinti 100 kartų; tai yra, tikslumas yra maždaug proporcingas imties dydžio kvadratinei šakniai:
Monte Karlo metodo panaudojimo tyrime schema
sistemos su atsitiktiniais parametrais
Sukūrus sistemos modelį su atsitiktiniais parametrais, į jo įvestį tiekiami atsitiktinių skaičių generatoriaus (RNG) įvesties signalai, kaip parodyta Fig. 21.3. RNG sukurtas taip, kad jis gamina tolygiai paskirstytas atsitiktiniai skaičiai r pp iš intervalo . Kadangi kai kurie įvykiai gali būti labiau tikėtini, kiti mažiau tikėtini, tolygiai paskirstyti atsitiktiniai skaičiai iš generatoriaus yra tiekiami į atsitiktinių skaičių įstatymo keitiklį (RLC), kuris paverčia juos į duota tikimybių skirstinio dėsnio naudotojas, pavyzdžiui, normalusis arba eksponentinis dėsnis. Šie konvertuoti atsitiktiniai skaičiai x paduodamas į modelio įvestį. Modelis apdoroja įvesties signalą x pagal kažkokį įstatymą y = φ (x) ir priima išėjimo signalą y, kuris taip pat yra atsitiktinis.
Filtrai ir skaitikliai įdiegti statistikos kaupimo bloke (BNStat). Filtras (tam tikra loginė sąlyga) nustato pagal vertę y, ar tam tikras įvykis buvo realizuotas konkrečiame eksperimente (sąlyga buvo įvykdyta, f= 1) ar ne (sąlyga nebuvo įvykdyta, f= 0). Jei įvykis įvyksta, įvykių skaitiklis padidinamas vienu. Jei įvykis nerealizuojamas, skaitiklio reikšmė nesikeičia. Jei jums reikia stebėti kelių skirtingų tipų įvykius, jums reikės kelių filtrų ir skaitiklių statistiniam modeliavimui N i. Visada laikomas eksperimentų skaičiaus skaitiklis N .
Tolesnis ryšys N iĮ N, apskaičiuotas skaičiavimo bloke statistinės charakteristikos(BVSH), naudojant Monte Karlo metodą, pateikia tikimybės įvertinimą p iįvykio atsiradimas i, tai yra, nurodo jo atsiradimo dažnumą serijoje N eksperimentai. Tai leidžia daryti išvadas apie statistines modeliuojamo objekto savybes.
Pavyzdžiui, įvykis A įvyko po 200 eksperimentų, atliktų 50 kartų. Tai reiškia, pagal Monte Karlo metodą, kad įvykio tikimybė yra: p A = 50/200 = 0,25. Tikimybė, kad įvykis neįvyks, lygi 1 0,25 = 0,75.
Atkreipkite dėmesį: kai kalbama apie eksperimentiniu būdu gautą tikimybę, ji vadinama dažniu; žodis tikimybė vartojamas, kai norima tai pabrėžti mes kalbame apie apie teorinę koncepciją.
Su daugybe eksperimentų Nįvykio pasireiškimo dažnis, gautas eksperimentiniu būdu, yra linkęs į teorinės įvykio tikimybės reikšmę.
Patikimumo vertinimo bloke (RAB) analizuojamas statistinių eksperimentinių duomenų, paimtų iš modelio, patikimumo laipsnis (atsižvelgiant į rezultato tikslumą ε , nurodytą vartotojo) ir nustatyti tam reikalingų statistinių testų skaičių. Jei įvykių pasireiškimo dažnio verčių svyravimai, palyginti su teorine tikimybe, yra mažesni už nurodytą tikslumą, tada atsakymu laikomas eksperimentinis dažnis, kitaip atsitiktinių įvesties įtakų generavimas tęsiamas, o modeliavimo procesas yra kartojo. Atlikus nedidelį skaičių testų, rezultatas gali būti nepatikimas. Bet kuo daugiau testų, tuo tikslesnis atsakymas pagal centrinės ribos teoremą.
Atkreipkite dėmesį, kad vertinimas atliekamas naudojant blogiausią dažnį. Taip gaunami patikimi visų išmatuotų modelio charakteristikų rezultatai vienu metu.
1 pavyzdys. Nuspręskime paprasta užduotis. Kokia tikimybė, kad atsitiktinai nukritus iš aukščio moneta nusileis aukštyn?
Pradėkime mesti monetą ir fiksuoti kiekvieno metimo rezultatus (žr. 21.1 lentelę).
21.1 lentelė. Monetų metimo testo rezultatai |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Eksperimentų skaičius N | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 |
Skaitiklio vertė krentančios galvos N o |
0 | 0 | 1 | 1 | 2 | 3 | 4 | … | … | … | … | … | … | … |
Skaitiklio vertė heads up N p |
1 | 2 | 2 | 3 | 3 | 3 | 3 | … | … | … | … | … | … | … |
Nuostolių rodiklis erelis P o =N o /N |
0 | 0 | 0.33 | 0.25 | 0.4 | 0.5 | 0.57 | … | … | … | … | … | … | … |
Nuostolių rodiklis Uodegos P r =N r /N |
1 | 1 | 0.66 | 0.75 | 0.6 | 0.5 | 0.43 | … | … | … | … | … | … | … |
Galvų dažnumą skaičiuosime kaip galvų atvejų skaičiaus santykį su bendru stebėjimų skaičiumi. Pažiūrėkite į lentelę. 21.1. atvejų N = 1 , N = 2 , N= 3 iš pradžių dažnio reikšmės negali būti vadinamos patikimomis. Pabandykime sudaryti priklausomybės grafiką P o nuo N ir pažiūrėkime, kaip kinta galvų dažnis priklausomai nuo atliktų eksperimentų skaičiaus. Žinoma, atliekant skirtingus eksperimentus bus sukurtos skirtingos lentelės, taigi ir skirtingi grafikai. Fig. 21.4 paveiksle parodyta viena iš parinkčių.
apie stebėjimų skaičių ir jo teorinės tikimybės troškimą
Padarykime keletą išvadų.
- Matyti, kad esant mažoms vertėms N, Pavyzdžiui, N = 1 , N = 2 , N= 3 Atsakymu visiškai negalima pasitikėti. Pavyzdžiui, P o = 0 at N= 1, tai yra, tikimybė gauti galvas vienu metimu yra lygi nuliui! Nors visi puikiai žino, kad taip nėra. Tai yra, kol kas gavome labai nemandagų atsakymą. Tačiau pažiūrėkite į grafiką: vyksta santaupų informacija, atsakymas lėtai, bet užtikrintai artėja prie teisingo (jis paryškintas punktyrine linija). Laimei, šiuo konkrečiu atveju mes žinome teisingą atsakymą: idealiu atveju tikimybė gauti galvas yra 0,5 (kituose, sudėtingesniuose uždaviniuose atsakymas, žinoma, mums bus nežinomas). ε = 0,1. P Nubrėžkime dvi lygiagrečias linijas, kurias nuo teisingo atsakymo 0,5 skiria 0,1 atstumas (žr. 21.4 pav.). N Gauto koridoriaus plotis bus 0,2. Kai tik kreivė N O ( ) įeis į šį koridorių taip, kad iš jo niekada neišeis, galima sustoti ir pažiūrėti už kokią vertę tai atsitiko. Štai viskas N eksperimentiškai apskaičiuota kritinė vertė ε = 0.1 ; ε reikiamo skaičiaus eksperimentų P kr e tiksliai nustatyti atsakymą P- kaimynystė mūsų samprotavimuose atlieka savotiško tikslaus vamzdžio vaidmenį. Atkreipkite dėmesį, kad atsakymai
- o (91) , o (92) ir tt savo reikšmių labai nekeičia (žr. 21.4 pav.); bent jau pirmasis skaitmuo po kablelio, kuriuo pagal problemos sąlygas privalome pasitikėti, nesikeičia. Tokio kreivės elgesio priežastis yra veiksmas P centrinės ribos teorema
- (Žr. 25 ir 34 paskaitas). Šiuo metu mes suformuluosime jį paprasčiausia versija: „Atsitiktinių dydžių suma yra neatsitiktinis dydis“. Mes naudojome vidutinė vertė
Jei dar kartą atliksime šį eksperimentą nuo pat pradžių, tada, žinoma, rezultatas bus kitokio pobūdžio atsitiktinė kreivė. Ir atsakymas bus kitoks, nors ir maždaug toks pat. Atlikime visą eilę tokių eksperimentų (žr. 21.5 pav.).
Ši serija vadinama Nįgyvendinimų ansamblis N.
Kuriuo atsakymu galiausiai turėtumėte tikėti? Juk nors ir artimi, bet vis tiek skiriasi. Praktiškai jie elgiasi skirtingai. Pirmasis variantas – apskaičiuoti kelių realizacijų atsakymų vidurkį (žr. 21.2 lentelę). Ryžiai. 21.5. Eksperimentiniu būdu gautas atsitiktinių priklausomybių ansamblis atsitiktinio įvykio pasireiškimo dažnis, priklausantis nuo stebėjimų skaičiaus Mes nustatėme keletą eksperimentų ir kiekvieną kartą nustatėme, kiek eksperimentų reikia atlikti, ty ε = 0.1 cr e . Atlikta 10 eksperimentų, kurių rezultatai apibendrinti lentelėje. 21.2. Remiantis 10 eksperimentų rezultatais, buvo apskaičiuota vidutinė vertė |
|||||||||||||||||||||||
cr e . | 21.2 lentelė. |
1 | 288 |
2 | 95 |
3 | 50 |
4 | 29 |
5 | 113 |
6 | 210 |
7 | 30 |
8 | 42 |
9 | 39 |
10 | 48 |
Eksperimentiniai duomenys | 94 |
reikiamas monetų metimų skaičius tikslumui pasiekti skaičiuojant tikimybę gauti galvas
Patirtis N kr e Vidutinis N kr. ai N= 94 vertikali juosta. Yra tam tikras procentas raudonų linijų, kurios nespėjo kirsti ε - kaimynystė, tai yra ( P exp ε ≤ P teorija ≤ P exp + ε ) ir įeikite į koridorių tiksliai iki to momento N= 94 . Atkreipkite dėmesį, kad yra 5 tokios eilutės. Tai reiškia, kad 95 iš 100, tai yra, 95% eilučių patikimai pateko į nurodytą intervalą.
Taigi, atlikę 100 realizacijų, pasiekėme maždaug 95% pasitikėjimą eksperimentiniu būdu gauta galvų tikimybe, ją nustatydami 0,1 tikslumu. Norėdami palyginti gautą rezultatą, apskaičiuokime teorinę vertę N kr t teoriškai. Tačiau tam turėsime įvesti pasitikėjimo tikimybės sąvoką K F, kuris parodo, kaip norime tikėti atsakymu. Pavyzdžiui, kada K F= 0,95 esame pasirengę patikėti atsakymu 95% atvejų iš 100. Teorinio eksperimentų skaičiaus skaičiavimo formulė, kuri bus išsamiai išnagrinėta 34 paskaitoje, yra tokia: N cr t = k(K F) · p· (1 p)/ε 2 , Kur k(K F) Laplaso koeficientas, p tikimybė gauti galvą, ε tikslumas (pasitikėjimo intervalas). Lentelėje 21.3 rodo skirtingų būtinų eksperimentų skaičiaus teorinės vertės reikšmes K F(dėl tikslumo ε = 0,1 ir tikimybė p = 0.5 ).
Kaip matote, mūsų gautas įgyvendinimo trukmės įvertinimas, lygus 94 eksperimentams, yra labai artimas teoriniam, lygus 96. Tam tikras neatitikimas paaiškinamas tuo, kad, matyt, 10 realizacijų neužtenka. tikslus skaičiavimas N cr e . Jei nuspręsite, kad norite rezultato, kuriuo turėtumėte labiau pasitikėti, pakeiskite vertę pasitikėjimo tikimybė. Pavyzdžiui, teorija sako, kad jei yra 167 eksperimentai, tai tik 1-2 eilutės iš ansamblio nebus įtrauktos į siūlomą tikslumo vamzdelį. Tačiau atminkite, kad eksperimentų skaičius labai greitai didėja, didėjant tikslumui ir patikimumui.
Antrasis praktiškai naudojamas variantas yra atlikti vienasįgyvendinimas ir padidinti tai, ką ji gavo N cr e 2 kartus. Tai laikoma gera atsakymo tikslumo garantija (žr. 21.6 pav.).
Jei atidžiai pažvelgsite į atsitiktinių realizacijų ansamblis, tada galime pastebėti, kad dažnio konvergencija prie teorinės tikimybės reikšmės vyksta išilgai kreivės, atitinkančios atvirkštinę kvadratinę priklausomybę nuo eksperimentų skaičiaus (žr. 21.7 pav.).
iki teorinės tikimybės
Tai iš tikrųjų teoriškai veikia taip. Jei pakeisite nurodytą tikslumą ε ir ištirti, kiek eksperimentų reikia kiekvienam iš jų pateikti, gausite lentelę. 21.4.
Statykime pagal lentelę. 21.4 Priklausomybės grafikas N crt ( ε ) (žr. 21.8 pav.).
duotas tikslumas ε esant fiksuotam Q F = 0,95
Taigi, nagrinėjami grafikai patvirtina aukščiau pateiktą vertinimą:
Atminkite, kad gali būti keletas tikslumo įvertinimų. Kai kurie iš jų bus toliau aptariami 34 paskaitoje.
2 pavyzdys. Figūros ploto radimas Monte Karlo metodu. Monte Karlo metodu nustatykite penkiakampio plotą kampų koordinatėmis (0, 0), (0, 10), (5, 20), (10, 10), (7, 0).
Duotąjį penkiakampį nubrėžkime dvimatėmis koordinatėmis, įrašydami į stačiakampį, kurio plotas, kaip galima spėti, yra (10 0) · (20 0) = 200 (žr. 21.9 pav.).
figūros srityje Monte Karlo metodu
Atsitiktinių skaičių lentelės naudojimas skaičių poroms generuoti R, G, tolygiai pasiskirstę intervale nuo 0 iki 1. Skaičius RX (0 ≤ X≤ 10), todėl X= 10 · R. Skaičius G imituos koordinatę Y (0 ≤ Y≤ 20), todėl Y= 20 · G. Sugeneruokime 10 skaičių R Ir G ir parodyti 10 taškų ( X; Y) pav. 21.9 ir lentelėje. 21.5.
21.5 lentelė. Problemos sprendimas Monte Karlo metodu |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Taško numeris | R | G | X | Y | Ar taškas (X; Y) yra stačiakampyje? | Ar taškas (X; Y) patenka į penkiakampį? |
1 | 0.8109 | 0.3557 | 8.109 | 7.114 | Taip | Taip |
2 | 0.0333 | 0.5370 | 0.333 | 10.740 | Taip | Nr |
3 | 0.1958 | 0.2748 | 1.958 | 5.496 | Taip | Taip |
4 | 0.6982 | 0.1652 | 6.982 | 3.304 | Taip | Taip |
5 | 0.9499 | 0.1090 | 9.499 | 2.180 | Taip | Nr |
6 | 0.7644 | 0.2194 | 7.644 | 4.388 | Taip | Taip |
7 | 0.8395 | 0.4510 | 8.395 | 9.020 | Taip | Taip |
8 | 0.0415 | 0.6855 | 0.415 | 13.710 | Taip | Nr |
9 | 0.5997 | 0.1140 | 5.997 | 2.280 | Taip | Taip |
10 | 0.9595 | 0.9595 | 9.595 | 19.190 | Taip | Nr |
Iš viso: | 10 | 6 |
Statistinė hipotezė yra ta, kad taškų skaičius, įtrauktas į figūros kontūrą, yra proporcingas figūros plotui: 6:10 = S:200. Tai yra, pagal Monte Karlo metodo formulę nustatome, kad sritis S penkiakampis yra lygus: 200 · 6/10 = 120.
Pažiūrėkime, kaip pasikeitė vertė S iš patirties į patirtį (žr. 21.6 lentelę).
21.6 lentelė. Atsakymų tikslumo įvertinimas |
||||||||||||||||||||||||||||||||
Bandymų skaičius N | Atsitiktinio taško atsitrenkimo į bandymo sritį tikimybės įvertinimas | Ploto S įvertinimas Monte Karlo metodu |
1 | 1/1 = 1.00 | 200 |
2 | 1/2 = 0.50 | 100 |
3 | 2/3 = 0.67 | 133 |
4 | 3/4 = 0.75 | 150 |
5 | 3/5 = 0.60 | 120 |
6 | 4/6 = 0.67 | 133 |
7 | 5/7 = 0.71 | 143 |
8 | 5/8 = 0.63 | 125 |
9 | 6/9 = 0.67 | 133 |
10 | 6/10 = 0.60 | 120 |
Kadangi antrojo skaitmens reikšmė atsakyme vis dar keičiasi, galimas netikslumas vis dar yra didesnis nei 10%. Skaičiavimo tikslumas gali būti padidintas didėjant bandymų skaičiui (žr. 21.10 pav.).
eksperimentinis atsakymas į teorinį rezultatą
Statistinis modeliavimas yra skaitinis sprendimo būdas matematines problemas, kuriame reikalingi dydžiai pavaizduoti kokio nors atsitiktinio reiškinio tikimybinėmis charakteristikomis. Šis reiškinys yra modeliuojamas, po kurio reikiamos charakteristikos apytiksliai nustatomos statistiškai apdorojant modelio „stebėjimus“.
Tokių modelių kūrimas susideda iš statistinės analizės metodo pasirinkimo, duomenų gavimo proceso planavimo ir duomenų apie ekologinė sistema, algoritmizavimas ir skaičiavimas kompiuterinėmis priemonėmis statistinius ryšius. Keičiant ekologinės situacijos raidos dėsningumus, aprašytą procedūrą reikia pakartoti, tačiau naujais pajėgumais.
Statistinė matematinio modelio išvada apima modelio tipo pasirinkimas ir jo parametrų nustatymas. Be to, norima funkcija gali būti vieno nepriklausomo kintamojo (vieno veiksnio) arba daugelio kintamųjų (daugiafaktorių) funkcija. Užduotis pasirinkti modelio tipą yra neformali užduotis, nes ta pati priklausomybė gali būti apibūdinta su ta pačia klaida įvairiomis analitinėmis išraiškomis (regresijos lygtimis). Racionalų modelio tipo pasirinkimą galima pateisinti atsižvelgiant į daugybę kriterijų: kompaktiškumą (pavyzdžiui, apibūdinamas mononomu ar daugianariu), interpretuojamumą (gebėjimą modelio koeficientui suteikti prasmę) ir kt. Pasirinkto modelio parametrų skaičiavimas dažnai yra grynai formalus ir atliekamas kompiuteriu.
Formavimas statistinė hipotezė apie tam tikrą ekologinę sistemą, būtina turėti įvairių duomenų (duomenų bazės) masyvą, kuris gali būti neprotingai didelis. Tinkamas sistemos supratimas šiuo atveju siejamas su nesvarbios informacijos atskyrimu. Galima sumažinti ir duomenų sąrašą (tipą), ir duomenų kiekį. Vienas iš tokio aplinkos informacijos suspaudimo metodų (be a priori prielaidų apie stebimos ekosistemos struktūrą ir dinamiką) gali būti faktorinė analizė. Duomenų mažinimas atliekamas naudojant metodą mažiausių kvadratų, pagrindiniai komponentai ir kiti daugiamačiai statistiniais metodais ateityje naudojant, pavyzdžiui, klasterių analizę.
Atkreipkite dėmesį, kad turi pirminę informaciją apie aplinką skirtingu laipsniu šias funkcijas:
– duomenų daugiamatiškumas;
– santykių netiesiškumas ir dviprasmiškumas tiriamoje sistemoje;
– matavimo paklaida;
– neįvertintų veiksnių įtaka;
– erdvėlaikinė dinamika.
Sprendžiant pirmąjį modelio tipo pasirinkimo uždavinį, daroma prielaida, kad žinomi m įėjimo (x 1, x 2, ..., x m ir n išėjimo (y 1, y 2, ..., y) duomenys. Šiuo atveju matricos žymėjime galima naudoti šiuos du modelius:
kur X ir Y yra žinomi aplinkos objekto ("juodosios dėžės") įvesties (išvesties) ir išvesties (įvesties) parametrai vektorinio žymėjimo forma; A ir B yra norimos pastovių modelio koeficientų (modelio parametrų) matricos.
Kartu su nurodytais modeliais svarstė daugiau bendras vaizdas statistinis modeliavimas:
čia F yra paslėptų įtakos faktorių vektorius; C ir D yra būtinos koeficientų matricos.
Sprendžiant aplinkosaugos problemas Patartina naudoti tiek tiesinius, tiek netiesinius matematinius modelius, nes daugelis aplinkos modelių buvo mažai ištirti. Dėl to bus atsižvelgta į modeliuojamų ryšių daugiamatiškumą ir netiesiškumą.
Remiantis apibendrintu modeliu galima nustatyti vidinius paslėptus tiriamų aplinkos procesų veiksnius, kurie aplinkos inžinieriui nėra žinomi, tačiau jų pasireiškimas atsispindi vektorių X ir Y komponentuose. Ši procedūra tinkamiausia tuo atveju, kai nėra griežtas priežasties ir pasekmės ryšys tarp X ir Y reikšmių. Apibendrintas modelis, atsižvelgiant į paslėptų veiksnių įtaką, pašalina tam tikrą prieštaravimą tarp dviejų modelių su matricomis A ir B, nors iš tikrųjų tam pačiam aplinkos procesui apibūdinti galėtų būti naudojami du skirtingi modeliai. Šį prieštaravimą sukelia priešinga priežasties-pasekmės ryšio tarp dydžių A ir Y reikšmė (vienu atveju X yra įvestis, o Y yra išvestis, o kitu atveju atvirkščiai). Apibendrintas modelis, atsižvelgiant į reikšmę F, apibūdina sudėtingesnę sistemą, iš kurios išvedamos ir X, ir Y reikšmės, o įvestį veikia paslėpti faktoriai F.
Statistiniame modeliavime svarbu naudoti apriorinius duomenis, kai sprendimo proceso metu galima nustatyti kai kuriuos modelių dėsningumus ir susiaurinti potencialų jų skaičių.
Tarkime, reikia sukurti modelį, su kuriuo per 24 valandas būtų galima skaičiais nustatyti tam tikros rūšies dirvožemio derlingumą, atsižvelgiant į jo temperatūrą T ir drėgmę W. Nei kviečiai, nei obelis negali duoti derliaus per 24 val. valandų. Tačiau bandomajam sėjimui galite naudoti trumpo gyvavimo ciklo bakterijas, o kaip kiekybinį kriterijų jų gyvybinės veiklos intensyvumui naudoti per laiko vienetą išskiriamo P kiekį CO 2 . Tada matematinis tiriamo proceso modelis yra išraiška
kur P 0 yra skaitinis dirvožemio kokybės rodiklis.
Atrodo, kad neturime duomenų apie funkcijos f(T, W) formą, nes sistemų inžinierius neturi reikiamų agronominių žinių. Tačiau tai nėra visiškai tiesa. Kas gi nežino, kad esant T≈0°C vanduo užšąla, todėl CO 2 negali išsiskirti, o 80°C temperatūroje vyksta pasterizacija, t.y. dauguma bakterijų žūva. A priori duomenų jau pakanka, kad būtų galima teigti, kad norima funkcija yra beveik parabolinė, artima nuliui, kai T = 0 ir 80 °C, ir turi ekstremalumą šiame temperatūros diapazone. Panašūs samprotavimai dėl drėgmės veda prie to, kad maksimalus pageidaujamos funkcijos ekstremumas registruojamas, kai W=20%, o jos artėjimas prie nulio, kai W=0 ir 40%. Taigi apytikslio matematinio modelio forma buvo nustatyta a priori, o eksperimento užduotis yra tik išsiaiškinti funkcijos f(T, W) pobūdį, kai T = 20 ... 30 ir 50 ... 60 ° C, taip pat esant W = 10 ... 15 ir 25 ... 30% ir tiksliau nustatomos ekstremumo koordinatės (dėl to sumažėja tūris eksperimentinis darbas t.y. statistinių duomenų apimtis).