Aralıklı varyasyon serileri ve özellikleri örneklerdir. Tıbbi veri analizi hakkında MEDSTATISTIC gönderileri kitaplığı
değişken nicel bir temelde oluşturulmuş dağıtım serisi olarak adlandırılır. Nüfusun bireysel birimlerindeki nicel özelliklerin değerleri sabit değildir, az ya da çok birbirinden farklıdır.
varyasyon- popülasyonun birimlerinde özniteliğin değerinin dalgalanması, değişkenliği. İncelenen popülasyonda meydana gelen özelliğin ayrı sayısal değerlerine denir. seçenekler değerler. Nüfusun tam bir karakterizasyonu için ortalama değerin yetersizliği, ortalama değerleri, incelenen özelliğin dalgalanmasını (varyasyonunu) ölçerek bu ortalamaların tipikliğini değerlendirmeyi mümkün kılan göstergelerle tamamlamayı gerekli kılar.
Varyasyonun varlığı, özellik seviyesinin oluşumunda çok sayıda faktörün etkisinden kaynaklanmaktadır. Bu faktörler eşit olmayan bir kuvvetle ve farklı yönlerde hareket eder. Varyasyon göstergeleri, özellik değişkenliğinin ölçüsünü tanımlamak için kullanılır.
Varyasyonun istatistiksel çalışmasının görevleri:
- 1) nüfusun bireysel birimlerindeki işaretlerin çeşitliliğinin doğası ve derecesinin incelenmesi;
- 2) popülasyonun belirli özelliklerinin değişmesinde bireysel faktörlerin veya gruplarının rolünün belirlenmesi.
İstatistikler kullanılır özel yöntemler puan kartı kullanımına dayalı varyasyon çalışmaları, İle birlikte hangi varyasyon ile ölçülür.
Varyasyon çalışması esastır. Numune gözlemi, korelasyon ve varyans analizi vb. yapılırken varyasyonların ölçümü gereklidir. Ermolaev O.Yu. Psikologlar için matematiksel istatistikler: Ders Kitabı [Metin] / O.Yu. Yermolaev. - M.: Moskova Psikolojik ve Sosyal Enstitüsü Flint Yayınevi, 2012. - 335p.
Varyasyon derecesine göre, popülasyonun homojenliği, özelliklerin bireysel değerlerinin istikrarı ve ortalamanın tipikliği yargılanabilir. Temel olarak, işaretler arasındaki ilişkinin yakınlığının göstergeleri, seçici gözlemin doğruluğunu değerlendirmek için göstergeler geliştirilmiştir.
Uzayda çeşitlilik ve zamanda çeşitlilik vardır.
Uzaydaki varyasyon, ayrı bölgeleri temsil eden popülasyon birimlerindeki bir özelliğin değerlerinin dalgalanması olarak anlaşılır. Zamandaki değişimin altında, özniteliğin değerlerindeki farklı zaman dilimlerinde değişiklik kastedilmektedir.
Dağılım serisindeki varyasyonu incelemek için, nitelik değerlerinin tüm varyantları artan veya azalan düzende düzenlenmiştir. Bu işleme seri sıralaması denir.
En basit varyasyon belirtileri şunlardır: minimum ve maksimum- en küçük ve en yüksek değer toplu haldeki özellik. Özellik değerlerinin bireysel varyantlarının tekrar sayısı, tekrarlama sıklığı (fi) olarak adlandırılır. Frekansları frekanslarla değiştirmek uygundur - wi. Frekans - bir birimin kesirleri veya yüzde olarak ifade edilebilen ve varyasyon serilerini farklı sayıda gözlemle karşılaştırmanıza izin veren göreceli bir frekans göstergesi. Formül ile ifade edilir:
nerede Xmax, Xmin - toplamdaki özelliğin maksimum ve minimum değerleri; n grup sayısıdır.
Bir özelliğin varyasyonunu ölçmek için çeşitli mutlak ve göreli göstergeler kullanılır. Mutlak varyasyon göstergeleri, varyasyon aralığını, ortalama doğrusal sapmayı, varyansı, standart sapmayı içerir. Göreceli dalgalanma göstergeleri, salınım katsayısını, bağıl doğrusal sapmayı, varyasyon katsayısını içerir.
Bir varyasyon serisi bulma örneği
Egzersiz yapmak. Bu örnek için:
- a) Bir varyasyon serisi bulun;
- b) Dağıtım fonksiyonunu oluşturun;
Sayı=42. Örnek öğeler:
1 5 1 8 1 3 9 4 7 3 7 8 7 3 2 3 5 3 8 3 5 2 8 3 7 9 5 8 8 1 2 2 5 1 6 1 7 6 7 7 6 2
Çözüm.
- a) sıralanmış bir varyasyon serisinin oluşturulması:
- 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 5 5 5 5 5 6 6 6 7 7 7 7 7 7 7 8 8 8 8 8 8 9 9
- b) ayrık bir varyasyon serisinin oluşturulması.
Sturgess formülünü kullanarak varyasyon serisindeki grup sayısını hesaplayalım:
7'ye eşit grup sayısını alalım.
Grup sayısını bilerek, aralığın değerini hesaplarız:
Tabloyu oluşturma kolaylığı için 8'e eşit grup sayısı alacağız, aralık 1 olacaktır.
Pirinç. bir Mağazanın belirli bir süre için mal satış hacmi
Bu bölümde uzmanlaşmanın bir sonucu olarak, öğrenci şunları yapmalıdır: bilmek
- varyasyon göstergeleri ve ilişkileri;
- özelliklerin dağılımının temel yasaları;
- rıza kriterlerinin özü; yapabilmek
- varyasyon oranlarını ve uyum iyiliğini hesaplamak;
- dağılımların özelliklerini belirlemek;
- istatistiksel dağılım serilerinin temel sayısal özelliklerini değerlendirir;
sahip olmak
- yöntemler istatistiksel analiz dağıtım sıraları;
- dispersiyon analizinin temelleri;
- temel dağıtım yasalarına uygunluk açısından istatistiksel dağılım serilerini kontrol etme yöntemleri.
Varyasyon göstergeleri
saat istatistiksel çalışma Büyük ilgi çeken çeşitli istatistiksel popülasyonların işaretlerinin incelenmesi, popülasyonun bireysel istatistiksel birimlerinin işaretinin varyasyonunun yanı sıra bu işarete göre birimlerin dağılımının doğasının incelenmesidir. Varyasyon - bunlar, incelenen popülasyonun birimleri arasındaki özelliğin bireysel değerlerindeki farklılıklardır. Varyasyon çalışması büyük pratik öneme sahiptir. Varyasyon derecesine göre, özelliğin varyasyonunun sınırları, bu özellik için popülasyonun homojenliği, ortalamanın tipikliği, varyasyonu belirleyen faktörlerin ilişkisi yargılanabilir. Varyasyon göstergeleri, istatistiksel popülasyonları karakterize etmek ve sıralamak için kullanılır.
Özetin sonuçları ve malzemelerin gruplandırılması istatistiksel gözlem istatistiksel dağılım serisi şeklinde tasarlanmış, çalışılan popülasyonun birimlerinin gruplama (değişken) özelliğine göre gruplara sıralı bir dağılımını temsil eder. Gruplama için nitel bir özellik temel alınırsa, böyle bir dağıtım serisine denir. nitelik(mesleğe, cinsiyete, renge vb. göre dağılım). Dağılım serileri nicel bir temelde oluşturulmuşsa, böyle bir seriye denir. değişken(boy, kilo, ücret vb. bazında dağılım). Varyasyon dizisi oluşturmak, özniteliğin değerlerine göre popülasyon birimlerinin nicel dağılımını sıralamak, bu değerlerle popülasyon birimlerinin sayısını (sıklık) saymak, sonuçları bir tablo halinde düzenlemek anlamına gelir.
Bir varyantın frekansı yerine, frekans (göreceli frekans) olarak adlandırılan toplam gözlem hacmine oranını kullanmak mümkündür.
İki tür varyasyon serisi vardır: kesikli ve aralıklı. ayrık seri- bu, yapımı süreksiz bir değişime sahip işaretlere (ayrık işaretler) dayanan böyle bir varyasyon dizisidir. İkincisi, işletmedeki çalışan sayısını, ücret kategorisini, ailedeki çocuk sayısını vb. Ayrık bir varyasyon serisi, iki sütundan oluşan bir tablodur. İlk sütun, özniteliğin belirli değerini ve ikincisi - özniteliğin belirli bir değerine sahip nüfus birimlerinin sayısını gösterir. Bir işaretin sürekli bir değişimi varsa (belirli sınırlar içinde herhangi bir değeri alabilen gelir miktarı, hizmet süresi, bir işletmenin sabit varlıklarının maliyeti vb.), o zaman bu işaret için inşa etmek mümkündür. aralıklı varyasyon serisi. Bir aralık varyasyon serisi oluştururken tablonun da iki sütunu vardır. Birincisi, özelliğin "-den"e (seçenekler) aralığındaki değerini, ikincisi - aralığa dahil edilen birim sayısını (frekans) gösterir. Frekans (tekrar sıklığı) - öznitelik değerlerinin belirli bir varyantının tekrar sayısı. Aralıklar kapalı ve açık olabilir. Kapalı aralıklar her iki tarafta da sınırlıdır, yani. hem alt (“from”) hem de üst (“to”) bir sınırı vardır. Açık aralıkların herhangi bir sınırı vardır: üst veya alt. Seçenekler artan veya azalan sırada düzenlenirse, satırlar denir. sıralanmış.
Varyasyon serileri için iki tür frekans yanıtı seçeneği vardır: kümülatif frekans ve kümülatif frekans. Kümülatif frekans, özelliğin değerinin belirtilen değerden daha düşük değerlerde kaç gözlem aldığını gösterir. Kümülatif frekans, belirli bir grup için karakteristik frekans değerlerinin önceki grupların tüm frekanslarıyla toplanmasıyla belirlenir. Birikmiş frekans, özelliğin değerlerinin gün grubunun üst sınırını aşmadığı gözlem birimlerinin oranını karakterize eder. Böylece, birikmiş frekans, verilenden daha büyük olmayan bir değere sahip olan toplamdaki varyantın özgül ağırlığını gösterir. Frekans, frekans, mutlak ve bağıl yoğunluklar, kümülatif frekans ve frekans, varyantın büyüklüğünün özellikleridir.
Nüfusun istatistiksel birimlerinin işaretindeki varyasyonların yanı sıra dağılımın doğası, serinin ortalama seviyesini, ortalama doğrusal sapmayı, standart sapmayı, dağılımı içeren varyasyon serisinin göstergeleri ve özellikleri kullanılarak incelenir. , salınım katsayıları, varyasyon, asimetri, basıklık vb.
Dağıtım merkezini karakterize etmek için ortalama değerler kullanılır. Ortalama, aldığı genelleştirici istatistiksel bir özelliktir. nicel ifade incelenen popülasyonun üyelerinin sahip olduğu bir özelliğin tipik düzeyi. Ancak, aritmetik ortalamaların dağılımın farklı bir doğasıyla çakıştığı durumlar olabilir, bu nedenle, istatistiksel özellikler varyasyon serileri, sözde yapısal ortalamalar hesaplanır - mod, medyan ve dağılım serilerini eşit parçalara bölen nicelikler (çeyrekler, ondalıklar, yüzdelikler, vb.).
Moda - bu, dağıtım serisinde diğer değerlerden daha sık meydana gelen özelliğin değeridir. Ayrık seriler için bu, en yüksek frekansa sahip varyanttır. Aralık varyasyon serilerinde, modu belirlemek için öncelikle modal aralık olarak adlandırılan, bulunduğu aralığı belirlemek gerekir. Eşit aralıklı bir varyasyon dizisinde, mod aralığı en yüksek frekans tarafından, eşit olmayan aralıklı serilerde - ancak en yüksek dağılım yoğunluğu ile belirlenir. Ardından, eşit aralıklarla satırlarda modu belirlemek için formülü uygulayın.
Mo'nun modanın değeri olduğu yerde; x Mo - mod aralığının alt sınırı; h- mod aralığı genişliği; / Mo - modsal aralık frekansı; / Mo j - mod öncesi aralığın sıklığı; / Mo+1 post-modal aralığın frekansıdır ve bu hesaplama formülünde eşit olmayan aralıklı bir seri için frekanslar yerine / Mo, / Mo, / Mo, dağılım yoğunlukları kullanılmalıdır. Zihin 0 _| , Zihin 0> UMO+"
Tek bir mod varsa, rastgele değişkenin olasılık dağılımına tek modlu denir; birden fazla mod varsa, iki mod olması durumunda çok modlu (polimodal, çok modlu) olarak adlandırılır - iki modlu. Kural olarak, çok modluluk, incelenen dağılımın normal dağılım yasasına uymadığını gösterir. Homojen popülasyonlar, kural olarak, tek modlu dağılımlarla karakterize edilir. Multivertex ayrıca çalışılan popülasyonun heterojenliğini de gösterir. İki veya daha fazla tepe noktasının görünümü, daha homojen grupları izole etmek için verilerin yeniden gruplandırılmasını gerekli kılar.
Bir aralık varyasyon serisinde mod, bir histogram kullanılarak grafiksel olarak belirlenebilir. Bunu yapmak için, histogramın en yüksek sütununun üst noktalarından iki bitişik sütunun üst noktalarına kesişen iki çizgi çizilir. Ardından, kesişme noktalarından, apsis eksenine bir dik indirilir. Dikine karşılık gelen apsis üzerindeki özellik değeri moddur. Çoğu durumda, popülasyonu genelleştirilmiş bir gösterge olarak nitelendirirken, aritmetik ortalamadan ziyade mod tercih edilir.
ortanca - bu özelliğin merkezi değeridir; sıralı dağıtım serisinin merkezi üyesi tarafından ele geçirilir. Kesikli serilerde medyanın değerini bulmak için önce seri numarası belirlenir. Bunun için hiçbir çift sayı birimler, tüm frekansların toplamına bir eklenir, sayı ikiye bölünür. 1'lerin çift sayısı varsa, seride 2 ortanca 1 olacaktır, yani bu durumda ortanca, 2 ortanca 1'in değerlerinin ortalaması olarak tanımlanır. Dolayısıyla, kesikli bir varyasyon serisindeki medyan, seriyi aynı sayıda seçeneği içeren iki parçaya bölen değerdir.
Aralık serilerinde, medyanın sıra sayısını belirledikten sonra, medyan aralık, birikmiş frekanslar (frekanslar) tarafından bulunur ve ardından medyanı hesaplama formülü kullanılarak medyanın kendisinin değeri belirlenir:
Me, medyanın değeridir; x Ben - medyan aralığın alt sınırı; h- medyan aralık genişliği; - dağıtım serisinin frekanslarının toplamı; /D - medyan öncesi aralığın birikmiş frekansı; / Me - ortanca aralığın frekansı.
Medyan, kümülat kullanılarak grafiksel olarak bulunabilir. Bunu yapmak için, kümülatın birikmiş frekansları (frekansları) ölçeğinde, medyanın sıra sayısına karşılık gelen noktadan, kümülatla kesişene kadar apsis eksenine paralel düz bir çizgi çizilir. Ayrıca, belirtilen düz çizginin kümülat ile kesişme noktasından, apsis eksenine bir dik indirilir. Çizilen ordinata (dik) karşılık gelen x eksenindeki özelliğin değeri medyandır.
Medyan, aşağıdaki özelliklerle karakterize edilir.
- 1. Her iki yanında bulunan öznitelik değerlerine bağlı değildir.
- 2. Minimalite özelliğine sahiptir, yani öznitelik değerlerinin medyandan mutlak sapmalarının toplamı, öznitelik değerlerinin diğer herhangi bir değerden sapmasına kıyasla minimum değerdir.
- 3. İki dağılımı bilinen medyanlarla birleştirirken, yeni dağılımın medyan değerini önceden tahmin etmek imkansızdır.
Medyanın bu özellikleri, kamu hizmet noktalarının - okullar, klinikler, benzin istasyonları, su pompaları vb. - konumlarının tasarlanmasında yaygın olarak kullanılmaktadır. Örneğin, şehrin belirli bir mahallesine poliklinik yapılması planlanıyorsa, mahallenin uzunluğunu değil, sakinlerini ikiye bölen bir noktaya yerleştirilmesi daha uygundur.
Modun oranı, medyan ve aritmetik ortalama, özelliğin toplamdaki dağılımının doğasını gösterir, dağılımın simetrisini değerlendirmenize olanak tanır. Eğer bir x Me o zaman serinin sağ asimetrisi var. Normal dağılım ile X - Hafıza.
K. Pearson, çeşitli eğri türlerinin hizalanmasına dayanarak, orta derecede asimetrik dağılımlar için aritmetik ortalama, medyan ve mod arasında aşağıdaki yaklaşık ilişkilerin geçerli olduğunu belirledi:
burada Me, medyanın değeridir; Mo - moda değeri; x aritmi - aritmetik ortalamanın değeri.
Varyasyon serisinin yapısını daha ayrıntılı olarak incelemeye ihtiyaç varsa, medyana benzer şekilde karakteristik değerler hesaplanır. Bu tür özellik değerleri, tüm dağıtım birimlerini eşit sayılara böler, bunlara nicelik veya gradyan denir. Nicelikler çeyreklere, ondalıklara, yüzdeliklere vb. bölünür.
Çeyrekler nüfusu dört eşit parçaya böler. İlk çeyrek, daha önce ilk çeyrek aralığını belirledikten sonra, ilk çeyreği hesaplamak için formül kullanılarak medyana benzer şekilde hesaplanır:
burada Qi birinci çeyreğin değeridir; xQ^- birinci çeyrek aralığının alt sınırı; h- ilk üç aylık aralığın genişliği; /, - aralık serisinin frekansları;
İlk çeyrek aralığından önceki aralıkta birikmiş frekans; Jq ( - ilk çeyrek aralığın frekansı.
İlk çeyrek, nüfus birimlerinin %25'inin değerinden daha az ve %75'inin daha fazla olduğunu göstermektedir. İkinci çeyrek medyana eşittir, yani. Q2 = ben.
Benzetme yoluyla, daha önce üçüncü çeyrek aralığını bulmuş olan üçüncü çeyrek hesaplanır:
üçüncü çeyrek aralığının alt sınırı nerede; h- üçüncü çeyrek aralığının genişliği; /, - aralık serisinin frekansları; /X"-önceki aralıkta birikmiş frekans
G
üçüncü çeyrek aralığı; Jq - üçüncü çeyrek aralığının sıklığı.
Üçüncü çeyrek, nüfus birimlerinin %75'inin değerinden daha az, %25'inin ise daha fazla olduğunu göstermektedir.
Üçüncü ve birinci çeyrekler arasındaki fark, çeyrekler arası aralıktır:
burada Aq, çeyrekler arası aralığın değeridir; S 3 -üçüncü çeyreğin değeri; Q, - ilk çeyreğin değeri.
Ondalık, nüfusu 10'a böler eşit parçalar. Ondalık, bir dağılım serisindeki popülasyonun onda birine karşılık gelen bir özelliğin değeridir. Çeyreklere benzetme yaparak, ilk ondalık nüfus birimlerinin %10'unun değerinden daha az ve %90'ının daha fazla olduğunu, dokuzuncu ondalık ise nüfus birimlerinin %90'ının değerinden küçük, %10'unun ise değerden düşük olduğunu gösterir. daha fazla. Dokuzuncu ve birinci ondalıkların oranı, yani. Ondalık katsayısı, gelir farklılaşması çalışmasında en zenginlerin %10'unun ve en az varlıklı nüfusun %10'unun gelir düzeylerinin oranını ölçmek için yaygın olarak kullanılır. Yüzdelikler, sıralanan popülasyonu 100 eşit parçaya böler. Yüzdeliklerin hesaplanması, anlamı ve kullanımı ondalıklara benzer.
Çeyrekler, ondalıklar ve diğer yapısal özellikler, kümülat kullanılarak medyanla analoji yapılarak grafiksel olarak belirlenebilir.
Varyasyonun boyutunu ölçmek için şu göstergeler kullanılır: varyasyon aralığı, ortalama doğrusal sapma, standart sapma ve varyans. Varyasyon aralığının büyüklüğü tamamen serinin uç elemanlarının dağılımının rastgeleliğine bağlıdır. Bu gösterge, özniteliğin değerlerindeki dalgalanmaların genliğinin ne olduğunu bilmenin önemli olduğu durumlarda ilgi çekicidir:
nerede R- varyasyon aralığının değeri; x max - özelliğin maksimum değeri; x tt -özelliğin minimum değeri.
Varyasyon aralığı hesaplanırken, seri üyelerinin büyük çoğunluğunun değeri dikkate alınmazken, varyasyon seri üyesinin her bir değeri ile ilişkilendirilir. Bu eksiklik, bir özelliğin bireysel değerlerinin ortalama değerlerinden sapmalarından elde edilen ortalamalar olan göstergelerden yoksundur: ortalama doğrusal sapma ve standart sapma. Ortalamadan bireysel sapmalar ile belirli bir özelliğin dalgalanması arasında doğrudan bir ilişki vardır. Oynaklık ne kadar güçlü olursa, ortalamadan sapmaların mutlak boyutu o kadar büyük olur.
Ortalama doğrusal sapma, bireysel seçeneklerin ortalama değerlerinden sapmalarının mutlak değerlerinin aritmetik ortalamasıdır.
Gruplandırılmamış Veriler için Ortalama Doğrusal Sapma
nerede / pr - ortalama doğrusal sapmanın değeri; x, - - özelliğin değeri; X - P - nüfus birimlerinin sayısı.
Gruplandırılmış Seriler Ortalama Doğrusal Sapma
nerede / vz - ortalama doğrusal sapmanın değeri; x, - özelliğin değeri; X - incelenen popülasyon için özelliğin ortalama değeri; / - ayrı bir gruptaki nüfus birimlerinin sayısı.
Bu durumda sapma işaretleri yok sayılır, aksi takdirde tüm sapmaların toplamı sıfıra eşit olacaktır. Analiz edilen verilerin gruplandırılmasına bağlı olarak ortalama doğrusal sapma, farklı formüller kullanılarak hesaplanır: gruplandırılmış ve gruplanmamış veriler için. Koşulluluğu nedeniyle, diğer değişkenlik göstergelerinden ayrı olarak ortalama doğrusal sapma, uygulamada nispeten nadiren kullanılır (özellikle, arzın tekdüzeliği açısından sözleşme yükümlülüklerinin yerine getirilmesini karakterize etmek için; dış ticaret cirosunun analizinde, çalışanların bileşimi, üretimin ritmi, ürün kalitesi, üretimin teknolojik özelliklerinin dikkate alınması vb.).
Standart sapma, çalışılan özelliğin bireysel değerlerinin popülasyon için ortalama değerden ortalama olarak ne kadar saptığını karakterize eder ve çalışılan özelliğin birimlerinde ifade edilir. Ana varyasyon ölçütlerinden biri olan standart sapma, homojen bir popülasyondaki bir özelliğin varyasyon sınırlarının değerlendirilmesinde, normal dağılım eğrisinin koordinatlarının değerlerinin belirlenmesinde ve ayrıca Numune gözleminin organizasyonu ve numune özelliklerinin doğruluğunun belirlenmesi ile ilgili hesaplamalar. Gruplandırılmamış veriler için standart sapma aşağıdaki algoritmaya göre hesaplanır: ortalamadan her sapmanın karesi alınır, tüm kareler toplanır, ardından karelerin toplamı serideki terim sayısına bölünür ve karekök aşağıdakilerden alınır. bölüm:
burada bir Iip - standart sapmanın değeri; Xj-özellik değeri; X- incelenen popülasyon için özelliğin ortalama değeri; P - nüfus birimlerinin sayısı.
Gruplandırılmış analiz edilen veriler için verilerin standart sapması, ağırlıklı formül kullanılarak hesaplanır.
nerede - standart sapmanın değeri; Xj-özellik değeri; X - incelenen popülasyon için özelliğin ortalama değeri; fx belirli bir gruptaki nüfus birimlerinin sayısı.
Her iki durumda da kökün altındaki ifadeye varyans denir. Böylece varyans, özellik değerlerinin ortalama değerlerinden sapmalarının ortalama karesi olarak hesaplanır. Ağırlıksız (basit) özellik değerleri için varyans şu şekilde tanımlanır:
Ağırlıklı karakteristik değerler için
Varyansı hesaplamanın özel bir basitleştirilmiş yolu da vardır: Genel görünüm
ağırlıksız (basit) özellik değerleri için ağırlıklı karakteristik değerler için
koşullu sıfırdan sayma yöntemini kullanarak
burada 2 - dağılımın değeri; x, - - özelliğin değeri; X -özelliğin ortalama değeri, h- grup aralığı değeri, 1 - ağırlık (A =
Dağılım, istatistikte bağımsız bir ifadeye sahiptir ve varyasyonun en önemli göstergelerinden biridir. İncelenen özelliğin ölçü birimlerinin karesine karşılık gelen birimlerde ölçülür.
Dispersiyon aşağıdaki özelliklere sahiptir.
- 1. Sabit bir değerin dağılımı sıfırdır.
- 2. Özelliğin tüm değerlerinin aynı A değerine indirgenmesi, varyansın değerini değiştirmez. Bu, ortalama sapma karesinin, özniteliğin verilen değerlerinden değil, bazı sabit sayıdan sapmalarından hesaplanabileceği anlamına gelir.
- 3. Özelliğin tüm değerlerinin azaltılması k kez dağılımını azaltır k 2 kez ve standart sapma - k kez, yani tüm öznitelik değerleri bazı sabit sayılara bölünebilir (örneğin, seri aralığının değerine göre), standart sapma hesaplanabilir ve ardından sabit bir sayı ile çarpılabilir.
- 4. Herhangi bir değerden sapmaların ortalama karesini hesaplarsak ve aritmetik ortalamadan bir dereceye kadar farklıysa, her zaman aritmetik ortalamadan hesaplanan sapmaların ortalama karesinden daha büyük olacaktır. Bu durumda, ortalama sapma karesi, iyi tanımlanmış bir değerden daha büyük olacaktır - ortalama ile bu koşullu olarak alınan değer arasındaki farkın karesi.
varyasyon alternatif özellik popülasyon birimlerinde incelenen mülkün varlığından veya yokluğundan oluşur. Nicel olarak, alternatif bir özelliğin varyasyonu iki değerle ifade edilir: bir birimde incelenen özelliğin varlığı bir (1) ile gösterilir ve yokluğu sıfır (0) ile gösterilir. İncelenen özelliğe sahip birimlerin oranı P ile gösterilir ve bu özelliğe sahip olmayan birimlerin oranı ile gösterilir. G. Böylece, alternatif bir özelliğin varyansı, belirli bir özelliğe (P) sahip birimlerin oranı ile bu özelliğe sahip olmayan birimlerin oranının çarpımına eşittir. (G). Popülasyonun en büyük varyasyonu, popülasyonun toplam hacminin %50'si olan bir kısmının bir özelliğe sahip olduğu ve yine popülasyonun %50'ye eşit olan diğer kısmının da sahip olmadığı durumlarda elde edilir. bu özellik varyans maksimum 0,25 değerine ulaşırken, m.e. P = 0,5, G= 1 - P \u003d 1 - 0,5 \u003d 0,5 ve o 2 \u003d 0,5 0,5 \u003d 0,25. Bu göstergenin alt sınırı sıfıra eşittir ve bu, toplamda herhangi bir değişimin olmadığı bir duruma karşılık gelir. Alternatif bir özelliğin varyansının pratik uygulaması, güvenilirlik aralığıörnekleme sırasında.
Varyansın değeri ve standart sapma ne kadar küçükse, popülasyon o kadar homojen ve o kadar tipik olacaktır. ortalama değer. İstatistik pratiğinde, genellikle çeşitli özelliklerin varyasyonlarını karşılaştırmak gerekli hale gelir. Örneğin, işçilerin yaşı ve nitelikleri, hizmet süreleri ve ücretleri, maliyet ve kâr, hizmet süresi ve işgücü verimliliği vb.'deki farklılıkları karşılaştırmak ilginçtir. Bu tür karşılaştırmalar için, özelliklerin mutlak değişkenliğinin göstergeleri uygun değildir: yıl cinsinden ifade edilen iş deneyimi değişkenliğini, ruble cinsinden ifade edilen ücretlerin değişkenliği ile karşılaştırmak imkansızdır. Farklı aritmetik ortalamalara sahip birkaç popülasyonda aynı özelliğin dalgalanmasının karşılaştırılmasının yanı sıra, bu tür karşılaştırmaları gerçekleştirmek için varyasyon göstergeleri kullanılır - salınım katsayısı, doğrusal varyasyon katsayısı ve varyasyon katsayısı, bunun ölçüsünü gösterir. aşırı değerlerin ortalama etrafındaki dalgalanmaları.
salınım faktörü:
nerede VR - salınım katsayısının değeri; R- varyasyon aralığının değeri; X -
Doğrusal varyasyon katsayısı".
nerede vj- lineer varyasyon katsayısının değeri; BEN- ortalama doğrusal sapmanın değeri; X - incelenen popülasyon için özelliğin ortalama değeri.
varyasyon katsayısı:
nerede va- varyasyon katsayısının değeri; a - standart sapmanın değeri; X - incelenen popülasyon için özelliğin ortalama değeri.
Salınım katsayısı, çalışılan özelliğin ortalama değerine varyasyon aralığının yüzdesidir ve doğrusal varyasyon katsayısı, ortalama doğrusal sapmanın çalışılan özelliğin ortalama değerine oranıdır ve yüzde olarak ifade edilir. Varyasyon katsayısı, incelenen özelliğin ortalama değerine standart sapmanın yüzdesidir. Yüzde olarak ifade edilen nispi bir değer olarak, çeşitli özelliklerin varyasyon derecesini karşılaştırmak için varyasyon katsayısı kullanılır. Varyasyon katsayısı kullanılarak istatistiksel popülasyonun homojenliği tahmin edilir. Varyasyon katsayısı %33'ten küçükse, incelenen popülasyon homojendir ve varyasyon zayıftır. Varyasyon katsayısı %33'ten büyükse, incelenen popülasyon heterojendir, varyasyon güçlüdür ve ortalama değer atipiktir ve bu popülasyonun genelleştirici bir göstergesi olarak kullanılamaz. Ayrıca, farklı popülasyonlarda bir özelliğin dalgalanmasını karşılaştırmak için varyasyon katsayıları kullanılır. Örneğin, iki işletmede çalışanların hizmet sürelerindeki değişimi değerlendirmek için. Katsayının değeri ne kadar büyük olursa, özelliğin varyasyonu o kadar önemli olur.
Hesaplanan çeyreklere dayanarak, formülü kullanarak üç aylık değişimin nispi göstergesini hesaplamak da mümkündür.
nerede Q 2 ve
Çeyrekler arası aralık formülle belirlenir
Uç değerlerin kullanılmasıyla ilgili dezavantajlardan kaçınmak için varyasyon aralığı yerine çeyrek sapma kullanılır:
Eşit olmayan aralıklı varyasyon serileri için dağılım yoğunluğu da hesaplanır. İlgili frekansın veya frekansın aralık değerine bölümü olarak tanımlanır. Eşit olmayan aralık serilerinde mutlak ve bağıl dağılım yoğunlukları kullanılır. Mutlak dağılım yoğunluğu, aralığın birim uzunluğu başına frekanstır. Göreceli dağılım yoğunluğu - aralığın birim uzunluğu başına frekans.
Yukarıdakilerin tümü, dağıtım yasası iyi tanımlanmış olan dağıtım serileri için geçerlidir. normal hukuk dağıtım veya ona yakın.
Özellikle modern işlemler yaparken önemli olan büyük miktarda bilgiyi işlerken bilimsel gelişmeler, araştırmacı, ilk verileri doğru bir şekilde gruplamak gibi ciddi bir görevle karşı karşıyadır. Veriler ayrıysa, o zaman gördüğümüz gibi sorun yok - sadece her özelliğin sıklığını hesaplamanız gerekiyor. İncelenen özellik varsa sürekli karakter (pratikte daha yaygındır), o zaman bir özelliği gruplamak için en uygun aralık sayısının seçimi hiçbir şekilde önemsiz bir iş değildir.
Sürekli rastgele değişkenleri gruplamak için, özelliğin tüm varyasyon aralığı belirli sayıda aralığa bölünür. ile.
gruplandırılmış aralık (sürekli) varyasyon serisiözelliğin () değerine göre sıralanan aralıklar olarak adlandırılır, burada karşılık gelen frekanslarla () r "inci aralığa düşen gözlem sayısı veya göreceli frekanslar ():
Karakteristik değer aralıkları |
||||||
mi frekans |
grafik çubuğu ve kümülatif (ogiva), tarafımızca ayrıntılı olarak tartışılan, veri yapısını birincil olarak anlamanızı sağlayan mükemmel bir veri görselleştirme aracıdır. Bu tür grafikler (Şekil 1.15), sürekli veriler için, ayrık verilerle aynı şekilde, yalnızca sürekli verilerin, herhangi bir değeri alarak, olası değerlerinin alanını tamamen doldurduğu gerçeği dikkate alınarak oluşturulmuştur.
Pirinç. 1.15.
Bu yüzden histogramdaki ve kümülattaki sütunlar temas halinde olmalı, nitelik değerlerinin mümkün olan tüm değerlere düşmediği alanlara sahip olmamalıdır.(yani, histogram ve kümülat, apsis ekseni boyunca, incelenen değişkenin değerlerinin, Şekil 1.16'da olduğu gibi düşmediği "delikler" içermemelidir). Çubuğun yüksekliği frekansa - verilen aralığa düşen gözlemlerin sayısı veya göreceli frekans - gözlemlerin oranına karşılık gelir. Aralıklar geçmemeli ve genellikle aynı genişliktedir.
Pirinç. 1.16.
Histogram ve çokgen, olasılık yoğunluk eğrisinin yaklaşık değerleridir (diferansiyel fonksiyon) f(x) Olasılık teorisi dersinde ele alınan teorik dağılım. Bu nedenle, nicel sürekli verilerin birincil istatistiksel işlenmesinde yapıları çok önemlidir - biçimleriyle varsayımsal dağıtım yasasını yargılayabilir.
Kümülat - aralık varyasyon serisinin birikmiş frekanslarının (frekanslarının) eğrisi. İntegral dağılım fonksiyonunun grafiği, kümülat ile karşılaştırılır. F(x), olasılık teorisi sırasında da dikkate alınır.
Temel olarak, histogram ve kümülat kavramları, grafikleri sırasıyla olasılık yoğunluk fonksiyonunun ve dağılım fonksiyonunun ampirik tahminleri olduğundan, sürekli veriler ve bunların aralıklı varyasyon serileri ile tam olarak ilişkilidir.
Bir aralık varyasyon serisinin oluşturulması, aralık sayısının belirlenmesiyle başlar. k. Ve bu görev, incelenen konuda belki de en zor, önemli ve tartışmalıdır.
Histogram çok düzgün olacağından, aralık sayısı çok küçük olmamalıdır ( aşırı yumuşatılmış), ilk verilerin değişkenliğinin tüm özelliklerini kaybeder - Şek. 1.17, Şekil 2'deki grafiklerin aynı verilerin nasıl olduğunu görebilirsiniz. 1.15, daha az sayıda aralıklı bir histogram oluşturmak için kullanılır (soldaki grafik).
Aynı zamanda, aralık sayısı çok büyük olmamalıdır - aksi takdirde incelenen verilerin dağılım yoğunluğunu sayısal eksen boyunca tahmin edemeyiz: histogramın düzgün olmadığı ortaya çıkacaktır. (yetersiz) doldurulmamış aralıklarla, düzensiz (bkz. Şekil 1.17, sağdaki grafik).
Pirinç. 1.17.
En çok tercih edilen aralık sayısı nasıl belirlenir?
1926'da Herbert Sturges, incelenen özelliğin ilk değer kümesini bölmenin gerekli olduğu aralık sayısını hesaplamak için bir formül önerdi. Bu formül gerçekten süper popüler hale geldi - çoğu istatistiksel ders kitabı bunu sunuyor ve birçok istatistiksel paket varsayılan olarak onu kullanıyor. Bunun haklı olup olmadığı ve her durumda çok ciddi bir sorudur.
Peki Sturges formülü neye dayanıyor?
Düşünmek Binom dağılımı }