Оценка параметра находится доверительного интервала. Выборки и доверительные интервалы
Свои способности человек может узнать, только попытавшись приложить их. (Сенека)
Доверительные интервалы
Общий обзор
Взяв выборку из популяции, мы получим точечную оценку интересующего нас параметра и вычислим стандартную ошибку для того, чтобы указать точность оценки.
Однако, для большинства случаев стандартная ошибка как такова не приемлема. Гораздо полезнее объединить эту меру точности с интервальной оценкой для параметра популяции.
Это можно сделать, используя знания о теоретическом распределении вероятности выборочной статистики (параметра) для того, чтобы вычислить доверительный интервал (CI - Confidence Interval, ДИ - Доверительный интервал) для параметра.
Вообще, доверительный интервал расширяет оценки в обе стороны некоторой величиной, кратной стандартной ошибке (данного параметра); два значения (доверительные границы), определяющие интервал, обычно отделяют запятой и заключают в скобки.
Доверительный интервал для среднего
Использование нормального распределения
Выборочное среднее имеет нормальное распределение, если объем выборки большой, поэтому можно применить знания о нормальном распределении при рассмотрении выборочного среднего.
В частности, 95% распределения выборочных средних находится в пределах 1,96 стандартных отклонений (SD) среднего популяции.
Когда у нас есть только одна выборка, мы называем это стандартной ошибкой среднего (SEM) и вычисляем 95% доверительного интервала для среднего следующим образом:
Если повторить этот эксперимент несколько раз, то интервал будет содержать истинное среднее популяции в 95% случаев.
Обычно это доверительный интервал как, например, интервал значений, в пределах которого с доверительной вероятностью 95% находится истинное среднее популяции (генеральное среднее).
Хотя это не вполне строго (среднее в популяции есть фиксированное значение и поэтому не может иметь вероятность, отнесённую к нему) таким образом интерпретировать доверительный интервал, но концептуально это удобнее для понимания.
Использование t- распределения
Можно использовать нормальное распределение, если знать значение дисперсии в популяции. Кроме того, когда объем выборки небольшой, выборочное среднее отвечает нормальному распределению, если данные, лежащие в основе популяции, распределены нормально.
Если данные, лежащие в основе популяции, распределены ненормально и/или неизвестна генеральная дисперсия (дисперсия в популяции), выборочное среднее подчиняется t-распределению Стьюдента
.
Вычисляем 95% доверительный интервал для генерального среднего в популяции следующим образом:
Где - процентная точка (процентиль) t- распределения Стьюдента с (n-1) степенями свободы, которая даёт двухстороннюю вероятность 0,05.
Вообще, она обеспечивает более широкий интервал, чем при использовании нормального распределения, поскольку учитывает дополнительную неопределенность, которую вводят, оценивая стандартное отклонение популяции и/или из-за небольшого объёма выборки.
Когда объём выборки большой (порядка 100 и более), разница между двумя распределениями (t-Стьюдента и нормальным) незначительна. Тем не менее всегда используют t- распределение при вычислении доверительных интервалов, даже если объем выборки большой.
Обычно указывают 95% ДИ. Можно вычислить другие доверительные интервалы, например 99% ДИ для среднего.
Вместо произведения стандартной ошибки и табличного значения t- распределения, которое соответствует двусторонней вероятности 0,05, умножают её (стандартную ошибку) на значение, которое соответствует двусторонней вероятности 0,01. Это более широкий доверительный интервал, чем в случае 95%, поскольку он отражает увеличенное доверие к тому, что интервал действительно включает среднее популяции.
Доверительный интервал для пропорции
Выборочное распределение пропорций имеет биномиальное распределение. Однако если объём выборки n
разумно большой, тогда выборочное распределение пропорции приблизительно нормально со средним .
Оцениваем выборочным отношением p=r/n (где r - количество индивидуумов в выборке с интересующими нас характерными особенностями), и стандартная ошибка оценивается:
95% доверительный интервал для пропорции оценивается:
Если объём выборки небольшой (обычно когда np
или n(1-p)
меньше 5
), тогда необходимо использовать биномиальное распределение для того, чтобы вычислить точные доверительные интервалы.
Заметьте, что если p выражается в процентах, то (1-p) заменяют на (100-p) .
Интерпретация доверительных интервалов
При интерпретации доверительного интервала нас интересуют следующие вопросы:
Насколько широк доверительный интервал?
Широкий доверительный интервал указывает на то, что оценка неточна; узкий указывает на точную оценку.
Ширина доверительного интервала зависит от размера стандартной ошибки, которая, в свою очередь, зависит от объёма выборки и при рассмотрении числовой переменной от изменчивости данных дают более широкие доверительные интервалы, чем исследования многочисленного набора данных немногих переменных.
Включает ли ДИ какие-либо значения, представляющие особенный интерес?
Можно проверить, ложится ли вероятное значение для параметра популяции в пределы доверительного интервала. Если да, то результаты согласуются с этим вероятным значением. Если нет, тогда маловероятно (для 95% доверительного интервала шанс почти 5%), что параметр имеет это значение.
Оценка доверительных интервалов
Цели обучения
Статистика рассматривает следующие две основные задачи :
У нас есть некоторая оценка, построенная на выборочных данных, и мы хотим сделать некоторое вероятностное утверждение относительно того, где находится истинное значение оцениваемого параметра.
У нас есть конкретная гипотеза, которую необходимо проверить на основе выборочных данных.
В данной теме мы рассматриваем первую задачу. Введем также определение доверительного интервала.
Доверительный интервал - это интервал, который строится вокруг оценочного значения параметра и показывает, где находится истинное значение оцениваемого параметра с априори заданной вероятностью.
Изучив материал данной темы, Вы:
узнаете, что такое доверительный интервал оценки;
научитесь классифицировать статистические задачи;
освоите технику построения доверительных интервалов, как по статистическим формулам, так и с помощью программного инструментария;
научитесь определять необходимые размеры выборок для достижения определенных параметров точности статистических оценок.
Распределения выборочных характеристик
Т-распределение
Как обсуждали выше распределение случайной величины близко к стандартизованному нормальному распределению с параметрами 0 и 1. Поскольку нам не известна величина σ, мы заменяем ее на некоторую оценку s . Величина уже имеет другое распределение, а именно или Распределение Стьюдента , которое определяется параметром n -1 (число степеней свободы). Это распределение близко к нормальному распределению (чем больше n , тем распределения ближе).
На рис. 95
представлено распределение Стьюдента с 30 степенями свободы. Как видно, оно весьма близко к нормальному распределению.
Аналогично функциям для работы с нормальным распределением НОРМРАСП
и НОРМОБР
имеются функции для работы с t-распределением - СТЬЮДРАСП (TDIST)
и СТЬЮДРАСПОБР (TINV)
. Пример использования этих функций можно посмотреть в файле СТЬЮДРАСП.XLS (шаблон
и решение
) и на рис. 96
.
Распределения других характеристик
Как мы уже знаем, для определения точности оценивания математического ожидания нам необходимо t-распределение. Для оценивания других параметров, например, дисперсии, требуются другие распределения. Два из них - это F-распределение и x 2 -распределение .
Доверительный интервал для среднего значения
Доверительный интервал - это интервал, который строится вокруг оценочного значения параметра и показывает, где находится истинное значение оцениваемого параметра с априори заданной вероятностью.
Построение доверительного интервала для среднего значения происходит следующим образом :
Пример
В ресторане быстрого обслуживания планируется расширить ассортимент новым видом сэндвича. Для того чтобы оценить спрос на него, менеджер случайным образом планирует выбрать 40 посетителей из тех, кто уже попробовал его и предложить им оценить их отношение к новому продукту в баллах от 1 до 10. Менеджер хочет оценить ожидаемое количество баллов, которое получит новый продукт и построить 95%-й доверительный интервал этой оценки. Как это осуществить? (см. файл СЭНДВИЧ1.XLS (шаблон и решение ).
Решение
Для решения данной задачи можно воспользоваться . Результаты представлены на рис. 97
.
Доверительный интервал для суммарного значения
Иногда по выборочным данным требуется оценить не математическое ожидание, а общую сумму значений. Например, в ситуации с аудитором интерес может представлять оценка не средней величины счета, а суммы всех счетов.
Пусть N - общее количество элементов, n - размер выборки, T 3 - сумма значений в выборке, T" - оценка для суммы по всей совокупности, тогда , а доверительный интервал вычисляется по формуле , где s - оценка стандартного отклонения для выборки, - оценка среднего для выборки.
Пример
Допустим, некоторая налоговая служба хочет оценить размер суммарных налоговых возвратов для 10 000 налогоплательщиков. Налогоплательщик либо получает возврат, либо доплачивает налоги. Найдите 95%-й доверительный интервал для суммы возврата при условии, что размер выборки составляет 500 человек (см. файл СУММА ВОЗВРАТОВ.XLS (шаблон и решение ).
Решение
В StatPro
нет специальной процедуры для этого случая, однако можно заметить, что границы можно получить из границ для среднего исходя из вышеприведенных формул (рис. 98
).
Доверительный интервал для пропорции
Пусть p - математическое ожидание доли клиентов, а р в - оценка этой доли, полученная по выборке размера n. Можно показать, что для достаточно больших распределение оценки будет близко к нормальному с математическим ожиданием p и стандартным отклонением . Стандартная ошибка оценки в данном случае выражается как , а доверительный интервал как .
Пример
В ресторане быстрого обслуживания планируется расширить ассортимент новым видом сэндвича. Для того чтобы оценить спрос на него, менеджер случайным образом выбрал 40 посетителей из тех, кто уже попробовал его и предложил им оценить их отношение к новому продукту в баллах от 1 до 10. Менеджер хочет оценить ожидаемую долю клиентов, которые оценивают новый продукт не менее чем в 6 баллов (он ожидает, что именно эти клиенты и будут потребителями нового продукта).
Решение
Первоначально создаем новый столбец по признаку 1, если оценка клиента была больше 6 баллов и 0 иначе (см. файл СЭНДВИЧ2.XLS (шаблон и решение ).
Способ 1
Подсчитывая количество 1, оцениваем долю, а далее используем формулы.
Значение z кр берется из специальных таблиц нормального распределения (например, 1,96 для 95%-го доверительного интервала).
Используя данный подход и конкретные данные для построения 95%-го интервала, получим следующие результаты (рис. 99
). Критическое значение параметра z кр
равно 1,96. Стандартная ошибка оценки - 0,077. Нижняя граница доверительного интервала - 0,475. Верхняя граница доверительного интервала - 0,775. Таким образом, менеджер вправе полагать с 95%-й долей уверенности, что процент клиентов, оценивших новый продукт на 6 баллов и выше, будет между 47,5 и 77,5.
Способ 2
Данная задача допускает решение стандартными средствами StatPro . Для этого достаточно заметить, что доля в данном случае совпадает со средним значением столбца Тип . Далее применим StatPro/Statistical Inference/One-Sample Analysis для построения доверительного интервала среднего значения (оценки математического ожидания) для столбца Тип . Полученные в этом случае результат, будут весьма близок к результату 1-го способа (рис. 99).
Доверительный интервал для стандартного отклонения
В качестве оценки стандартного отклонения используется s (формула приведена в разделе 1). Функцией плотности распределения оценки s является функция хи-квадрат , которая, как и t-распределение, имеет n-1 степень свободы. Имеются специальные функции для работы с этим распределением ХИ2РАСП (CHIDIST) и ХИ2ОБР (CHIINV) .
Доверительный интервал в этом случае уже будет не симметричным. Условная схема границ представлена на рис. 100 .
Пример
Станок должен производить детали диаметром 10 см. Однако в силу различных обстоятельств происходят ошибки. Контролера по качеству волнуют два обстоятельства: во-первых, среднее значение должно равняться 10 см; во-вторых, даже в этом случае, если отклонения будут велики, то многие детали будут забракованы. Ежедневно он делает выборку из 50 деталей (см. файл КОНТРОЛЬ КАЧЕСТВА.XLS (шаблон и решение ). Какие выводы может дать такая выборка?
Решение
Построим 95%-й доверительные интервалы для среднего и для стандартного отклонения с помощью StatPro/Statistical Inference/ One-Sample Analysis
(рис. 101
).
Далее, используя предположение о нормальном распределении диаметров, рассчитаем долю бракованных изделий, задавшись предельным отклонением 0,065. Используя возможности таблицы подстановки (случай двух параметров), построим зависимость доли брака от среднего значения и стандартного отклонения (рис. 102
).
Доверительный интервал для разности двух средних значений
Это одно из наиболее важных применений статистических методов. Примеры ситуаций.
Менеджер магазина одежды хотел бы знать, на сколько больше или меньше тратит в магазине средняя женщина-покупатель, чем мужчина.
Две авиакомпании летают аналогичными маршрутами. Организация-потребитель хотела бы сравнить разницу между среднеожидаемыми временами задержек рейсов по обеим авиакомпаниям.
Компания рассылает купоны на отдельные виды товаров в одном городе и не рассылает в другом. Менеджеры хотят сравнить средние объемы покупок этих товаров в ближайшие два месяца.
Автомобильный дилер часто имеет дело на презентациях с замужними парами. Чтобы понять их персональную реакцию на презентацию, пары часто опрашивают отдельно. Менеджер хочет оценить разницу в рейтингах указываемых мужчинами и женщинами.
Случай независимых выборок
Разность средних значений будет иметь t-распределение с n 1 + n 2 - 2 степенями свободы. Доверительный интервал для μ 1 - μ 2 выражается соотношением:
Данная задача допускает решение не только по вышеприведенным формулам, но и стандартными средствами StatPro . Для этого достаточно применить
Доверительный интервал для разности между пропорциями
Пусть - математическое ожидание долей. Пусть - их выборочные оценки, построенные по выборкам размера n 1 и n 2 соответственно. Тогда является оценкой для разности . Следовательно, доверительный интервал этой разности выражается как:
Здесь z кр является значением, полученным из нормального распределения по специальным таблицам (например, 1,96 для 95%-й доверительного интервала).
Стандартная ошибка оценки выражается в данном случае соотношением:
.
Пример
Магазин, готовясь к большой распродаже, предпринял следующие маркетинговые исследования. Были выбраны 300 лучших покупателей, которые в свою очередь были случайным образом поделены на две группы по 150 членов в каждой. Всем из отобранных покупателей были разосланы приглашения для участия в распродаже, но только для членов первой группы был приложен купон, дающий право на скидку 5%. В ходе распродажи покупки всех 300 отобранных покупателей фиксировались. Каким образом менеджер может интерпретировать полученные результаты и сделать заключение об эффективности предоставления купонов? (см. файл КУПОНЫ.XLS (шаблон и решение )).
Решение
Для нашего конкретного случая из 150 покупателей, получивших купон на скидку, 55 сделали покупку на распродаже, а среди 150, не получивших купон, покупку сделали только 35 (рис. 103
). Тогда значения выборочных пропорций соответственно 0,3667 и 0,2333. А выборочная разность между ними равна соответственно 0,1333. Полагая доверительный интервал 95%-м, находим по таблице нормального распределения z кр
= 1,96. Вычисление стандартной ошибки выборочной разности равно 0,0524. Окончательно получаем, что нижняя граница 95%-го доверительного интервала равна 0,0307, а верхняя граница 0,2359 соответственно. Полученные результаты можно интерпретировать таким образом, что на каждых 100 покупателей, получивших купон со скидкой, можно ожидать от 3 до 23 новых покупателей. Однако надо иметь в виду, что этот вывод сам по себе еще не означает эффективности применения купонов (поскольку, предоставляя скидку, мы теряем в прибыли!). Продемонстрируем это на конкретных данных. Предположим, что средний размер покупки равен 400 руб., из которых 50 руб. есть прибыль магазина. Тогда ожидаемая прибыль на 100 покупателях, не получивших купон, равна:
50 0,2333 100 = 1166,50 руб.
Аналогичные вычисления для 100 покупателей получивших купон, дают:
30 0,3667 100 = 1100,10 руб.
Уменьшение средней прибыли до 30 объясняется тем, что, используя скидку, покупатели, получившие купон, в среднем будут делать покупку на 380 руб.
Таким образом, итоговый вывод говорит о неэффективности использования таких купонов в данной конкретной ситуации.
Замечание. Данная задача допускает решение стандартными средствами StatPro . Для этого достаточно свести данную задачу к задаче оценки разности двух средних способом, а далее применить StatPro/Statistical Inference/Two-Sample Analysis для построения доверительного интервала разности двух средних значений.
Управление длиной доверительного интервала
Длина доверительного интервала зависит от следующих условий :
непосредственно данных (стандартное отклонение);
уровня значимости;
размера выборки.
Размер выборки для оценки среднего значения
Сначала рассмотрим задачу в общем случае. Обозначим данное нам значение половины длины доверительного интервала за В
(рис. 104
). Нам известно, что доверительный интервал для среднего значения некоторой случайной величины X
выражается как , где . Полагая:
и выражая n , получим .
К сожалению, точное значение дисперсии случайной величины X нам не известно. Кроме этого, нам неизвестно и значение t кр , так как оно зависит от n через количество степеней свободы. В данной ситуации мы можем поступить следующим образом. Вместо дисперсии s используем какую-либо оценку дисперсии, по каким-либо имеющимся реализациям исследуемой случайной величины. Вместо значения t кр используем значение z кр для нормального распределения. Это вполне допустимо, поскольку функции плотности распределений для нормального и t-распределения очень близки (за исключением случая малых n ). Таким образом, искомая формула принимает вид:
.
Поскольку формула дает, вообще говоря, нецелочисленные результат, в качестве искомого размера выборки берется округление с избытком результата.
Пример
В ресторане быстрого обслуживания планируется расширить ассортимент новым видом сэндвича. Для того чтобы оценить спрос на него, менеджер случайным образом планирует выбрать некоторое количество посетителей из тех, кто уже попробовал его, и предложить им оценить их отношение к новому продукту в баллах от 1 до 10. Менеджер хочет оценить ожидаемое количество баллов, которое получит новый продукт и построить 95%-й доверительный интервал этой оценки. При этом он хочет, чтобы половина ширины доверительного интервала не превышала 0,3. Какое количество посетителей ему необходимо опросить?
выглядит следующим образом:
Здесь р оц - оценка доли p , а В есть заданная половина длины доверительного интервала. Завышенное значение для n можно получить, используя значение р оц = 0,5. В этом случае длина доверительного интервала не будет превосходить заданного значения В при любом истинном значении p .
Пример
Пусть менеджер из предыдущего примера планирует оценить долю клиентов, отдавших предпочтение новому виду продукции. Он хочет построить 90%-й доверительный интервал, половина длины которого не превосходила бы 0,05. Сколько клиентов должно войти в случайную выборку?
Решение
В нашем случае значение z кр = 1,645. Поэтому искомое количество вычисляется как .
Если бы менеджер имел основания полагать, что искомое значение p составляет, например, примерно 0,3, то, подставляя это значение в вышеприведенную формулу, мы получили бы меньшее значение величины случайной выборки, а именно 228.
Формула для определения размеров случайной выборки в случае разности между двумя средними значениями записывается как:
.
Пример
Некоторая компьютерная компания имеет сервисный центр по обслуживанию клиентов. В последнее время увеличилось количество жалоб клиентов на плохое качество обслуживания. В сервисном центре в основном работают сотрудники двух типов: не имеющие большого опыта, но закончившие специальные подготовительные курсы, и имеющие большой практический опыт, но не закончившие специальных курсов. Компания хочет проанализировать нарекания клиентов за последние полгода и сравнить их средние количества, приходящиеся на каждую из двух групп сотрудников. Предполагается, что количества в выборках по обеим группам будут одинаковые. Какое количество сотрудников необходимо включить в выборку, чтобы получить 95%-й интервал с половиной длины не более 2?
Решение
Здесь σ оц есть оценка стандартного отклонения обеих случайных переменных в предположении, что они близки. Таким образом, в нашей задаче нам необходимо каким-то образом получить эту оценку. Это можно сделать, например, следующим образом. Просмотрев данные по нареканиям клиентов за последние полгода, менеджер может заметить, что на каждого сотрудника в основном приходится от 6 до 36 нареканий. Зная, что для нормального распределения практически все значения удалены от среднего значения не более чем на три стандартных отклонения, он может с определенным основанием полагать, что:
Откуда σ оц = 5.
Подставляя это значение в формулу, получаем .
Формула для определения размера случайной выборки в случае оценки разности между долями имеет вид:
Пример
Некоторая компания имеет две фабрики по производству аналогичной продукции. Менеджер компании хочет сравнить доли бракованной продукции на обеих фабриках. По имеющейся информации процент брака на обеих фабриках составляет от 3 до 5%. Предполагается построить 99%-й доверительный интервал с половиной длины не более 0,005 (или 0,5%). Какое количество изделий необходимо отобрать с каждой фабрики?
Решение
Здесь р 1оц и р 2оц являются оценками двух неизвестных долей брака на 1-й и 2-й фабрике. Если положить р 1оц = р 2оц = 0,5, то мы получим завышенное значение для n . Но поскольку в нашем случае мы имеем некоторую априорную информацию об этих долях, то мы берем верхнюю оценку этих долей, а именно 0,05. Получаем
Когда делается оценка некоторых параметров совокупности по выборочным данным, полезно дать не только точечную оценку параметра, но и указать доверительный интервал, который показывает, где может находиться точное значение оцениваемого параметра.
В данной главе мы также познакомились с количественными соотношениями, позволяющими строить такие интервалы для различных параметров; узнали способы управления длиной доверительного интервала.
Отметим также, что задачу оценки размеров выборки (задача планирования эксперимента) можно решить, используя стандартные средства StatPro , а именно StatPro/Statistical Inference/Sample Size Selection .
Доверительный интервал – предельные значения статистической величины, которая с заданной доверительной вероятностью γ будет находится в этом интервале при выборке большего объема. Обозначается как P(θ - ε . На практике выбирают доверительную вероятность γ из достаточно близких к единице значений γ = 0.9 , γ = 0.95 , γ = 0.99 .Назначение сервиса . С помощью этого сервиса определяются:
- доверительный интервал для генерального среднего, доверительный интервал для дисперсии;
- доверительный интервал для среднего квадратического отклонения, доверительный интервал для генеральной доли;
Пример №1
. В колхозе из общего стада в 1000 голов овец выборочной контрольной стрижке подверглись 100 овец. В результате был установлен средний настриг шерсти 4,2 кг на одну овцу. Определить с вероятностью 0,99 среднюю квадратическую ошибку выборки при определении среднего настрига шерсти на одну овцу и пределы, в которых заключена величина настрига, если дисперсия равна 2,5 . Выборка бесповторная.
Пример №2
. Из партии импортируемой продукции на посту Московской Северной таможни было взято в порядке случайной повторной выборки 20 проб продукта «А». В результате проверки установлена средняя влажность продукта «А» в выборке, которая оказалась равной 6 % при среднем квадратическом отклонении 1 %.
Определите с вероятностью 0,683 пределы средней влажности продукта во всей партии импортируемой продукции.
Пример №3
. Опрос 36 студентов показал, что среднее количество учебников, прочитанных ими за учебный год, оказалось равным 6. Считая, что количество учебников, прочитанных студентом за семестр, имеет нормальный закон распределения со средним квадратическим отклонением, равным 6, найти:
А) с надежностью 0,99 интервальную оценку для математического ожидания этой случайной величины;
Б) с какой вероятностью можно утверждать, что среднее количество учебников, прочитанных студентом за семестр, вычисленное по данной выборке, отклонится от математического ожидания по абсолютной величине не больше, чем на 2.
Классификация доверительных интервалов
По виду оцениваемого параметра:По типу выборки:
- Доверительный интервал для бесконечной выборки;
- Доверительный интервал для конечной выборки;
Расчет средней ошибки выборки при случайном отборе
Расхождение между значениями показателей, полученных по выборке, и соответствующими параметрами генеральной совокупности называется ошибкой репрезентативности .Обозначения основных параметров генеральной и выборочной совокупности.
Формулы средней ошибки выборки | |||
повторный отбор | бесповторный отбор | ||
для средней | для доли | для средней | для доли |
Формулы расчета численности выборки при собственно-случайном способе отбора
Способ отбора | Формулы определения численности выборки | ||
для средней | для доли | ||
Повторный | |||
Бесповторный |
Метод доверительных интервалов
Алгоритм нахождения доверительного интервала включает следующие шаги:- задается доверительная вероятность γ (надежность).
- по выборке определяется оценка параметра a .
- из соотношения P(α 1 рассчитывается доверительный интервал (a - ε ; a + ε).
Пример №1
. При проверке годности партии таблеток (250 шт.) оказалось, что средний вес таблетки 0,3 г, а СКО веса 0,01 г. Найти доверительный интервал, в который с вероятностью 90% попадает норма веса таблетки.
Решение
.
Пример
. По результатам выборочного наблюдения (выборка В приложение) вычислите несмещенные оценки среднего значения, дисперсии и среднего квадратического отклонения генеральной совокупности.
Скачать решение
Пример
. Найдите доверительные интервалы для оценки среднего значения и среднего квадратического отклонения генеральных совокупностей при доверительной вероятности y, если из генеральных совокупностей сделана выборка В и y.
Скачать решение
Пример .
1. Используя результаты расчетов, выполненных в задании № 2 и полагая, что эти данные получены при помощи собственно-случайного 10-ти процентного бесповторного отбора, определить:
а) пределы, за которые с доверительной вероятностью 0,954 не выйдет среднее значение признака, рассчитанное по генеральной совокупности;
б) как нужно изменить объем выборки, чтобы снизить предельную ошибку средней величины на 50%.
2. Используя результаты расчетов, выполненных в задании № 2 и полагая, что эти данные получены при помощи повторного отбора, определить:
а) пределы, за которые в генеральной совокупности не выйдет значение доли предприятий, у которых индивидуальные значения признака превышают моду с доверительной вероятностью 0,954;
б) как изменить объем выборки, чтобы снизить предельную ошибку доли на 20 %.
Методические указания
Задание . Поточная линия по производству однотипных деталей подвергалась реконструкции Заданы две выборки отображающие процент брака в партиях деталей выпускаемых на данной линии до и после реконструкции Можно ли достоверно утверждать, что после реконструкции процент брака в партиях деталей снизился?
Пример . Ниже приведены данные по затратам на бурение (у.е.) для 49 скважин Западно-Сибирской нефтяной базы России:
129 | 142 | 132 | 61 | 96 | 96 | 142 | 17 | 135 | 32 |
77 | 58 | 37 | 132 | 79 | 15 | 145 | 64 | 83 | 120 |
11 | 54 | 48 | 100 | 43 | 25 | 67 | 25 | 140 | 130 |
48 | 124 | 29 | 107 | 135 | 101 | 93 | 147 | 112 | 121 |
89 | 97 | 60 | 84 | 46 | 139 | 43 | 145 | 29 |
- провести выборку собственно случайным способом объемом n=5;
- определить интервальные значения среднего генеральной совокупности (X) по рассчитанным выборочным показателям (X, s 2) с помощью функции t-распределения Стьюдента при уровне значимости α=0.05;
- определить точечное значение среднего генеральной совокупности (X) по исходным данным;
- оценить правильность интервальных расчетов, сравнивая точечное значение (X) с интервальным значением, рассчитанным по выборке;
1. Выбираем 5 значений из таблицы. Пусть это будет 3 столбец: 132, 37, 48, 29, 60.
В разделе «Вид статистического ряда»
выбираем Дискретный ряд. В поле Количество строк указываем 5.
2. Вводим исходные данные.
В поле Количество групп выбираем пункт «не делать группировку ».
Поле «Доверительный интервал генерального среднего, дисперсия и среднеквадратическое отклонения » указываем значение γ = 0.95 (что соответствует α=0.05).
В поле « Выборка » указываем значение 10 (поскольку из 49 значений выбрали 5, что соответствует 10,2% (5/49x100%)).
В разделе «Выводит в отчет» отмечаем первый пункт «Доверительный интервал для генерального среднего» .
3. Полученное решение сохраняется в формате Word (скачать).
Перед расчетами создается предварительная таблица, в которой подсчитывается количество повторений значений Х.
x | (x - x ср) 2 |
29 | 1036.84 |
37 | 585.64 |
48 | 174.24 |
60 | 1.44 |
132 | 5012.64 |
306 | 6810.8 |
Примечание : в данном случае в расчетах используется Оценка среднеквадратического отклонения.
Задание №2
: В целях изучения затрат времени на изготовление одной детали рабочими завода проведена 10% -ная случайная бесповторная выборка, в результате которой получено распределение деталей по затратам времени, представленное в прил. Б.
На основании этих данных вычислите:
а) средние затраты времени на изготовление одной детали;
б) средний квадрат отклонений (дисперсию) и среднее квадратическое отклонение;
в) коэффициент вариации;
г) с вероятностью 0,954 предельную ошибку выборочной средней и возможные границы, в которых ожидаются средние затраты времени на изготовление одной детали на заводе;
д) с вероятностью 0,954 предельную ошибку выборочной доли и границы удельного веса числа деталей с минимальными затратами времени на их изготовление. Перед тем как производить расчеты, необходимо записать условия задачи и заполнить табл. 2.1
Решение
.
Для получения решения указываем следующие параметры:
- Вид статистического ряда: Задан дискретный ряд;
- Количество групп: не делать группировку;
- Для построения доверительного интервала генерального среднего, дисперсии и среднеквадратического отклонения: y= 0.954 ;
- Для построения доверительного интервала генеральной доли: y= 0.954 ;
- Выборка: 10 ;
- Выводить в отчет: Доверительный интервал для генерального среднего, Доверительный интервал для генеральной доли;
Задание №3
: Используя результаты расчетов, выполненных в задании №2 и полагая, что эти данные получены при помощи повторного отбора, определить:
б) как изменить объем выборки, чтобы снизить предельную ошибку доли на 20% .
Решение
.
Используя результаты расчетов, выполненных в задании № 2 и полагая, что эти данные получены при помощи повторного отбора, определить:
а) пределы, за которые в генеральной совокупности не выйдет значение доли предприятий, у которых индивидуальные значения признака превышают моду с доверительной вероятностью 0.954 ;
б) как изменить объем выборки, чтобы снизить предельную ошибку доли на 20%.
Задание №4 : Из партии электроламп взята 20% -ная случайная бесповторная выборка для определения среднего веса спирали. Результаты выборки следующие. Вес, мг:38-40;40-42;42-44;44-46. Число спиралей:15;30;45;10. Определить с вероятностью 0.95 доверительные пределы, в которых лежит средний вес спирали, для всей партии электроламп.
Решение
.
Вводим следующие параметры:
- Вид статистический ряда: Задан интервальный ряд;
- Для построения доверительного интервала генерального среднего, дисперсии и среднеквадратического отклонения: y = 0.95 ;
- Выборка: 20 ;
- Выводить в отчет: Доверительный интервал для генерального среднего.
Задание №5 : На заводе электроламп из партии продукции в количестве 16000 шт. ламп взято на выборку 1600 шт. (случайный, бесповторный отбор), из которых 40 шт. оказались бракованными. Определить с вероятностью 0.997 пределы, в которых будет находиться процент брака для всей партии продукции.
Решение
.
Здесь N = 16000 , n = 1600 , w = d / n = 40/1600 = 0.025.
Методика оценки случайной погрешности основана на положениях теории вероятностей и математической статистики. Оценить случайную ошибку можно только в том случае, когда проведено неоднократное измерение одной и той же величины.
Пусть в результате проделанных измерений получено п значений величины х : х 1 , х 2 , …, х п . Обозначим через среднеарифметическое значение
В теории вероятностей доказано, что при увеличении числа измерений п среднеарифметическое значение измеряемой величины приближается к истинному:
При небольшом числе измерений (п £ 10) среднее значение может существенно отличаться от истинного. Для того, чтобы знать, насколько точно значение характеризует измеряемую величину, необходимо определить так называемый доверительный интервал полученного результата.
Поскольку абсолютно точное измерение невозможно, то вероятность правильности утверждения «величина х имеет значение, в точности равное » равна нулю. Вероятность же утверждения «величина х имеет какое-либо значение » равна единице (100%). Таким образом, вероятность правильности любого промежуточного утверждения лежит в пределах от 0 до 1. Цель измерения – найти такой интервал, в котором с наперед заданной вероятностью a (0 < a < 1) находится истинное значение измеряемой величины. Этот интервал называется доверительным интервалом , а неразрывно связанная с ним величина a – доверительной вероятностью (или коэффициентом надежности ). За середину интервала принимается среднее значение, рассчитанное по формуле (3). Половина ширины доверительного интервала представляет собой случайную погрешность D s x (рис. 1).
|
Очевидно, что ширина доверительного интервала (а следовательно, и ошибка D s x ) зависит от того, насколько сильно отличаются отдельные измерения величины х i от среднего значения . «Разброс» результатов измерений относительно среднего характеризуется среднеквадратичной ошибкой s , которую находят по формуле
, (4)
Ширина искомого доверительного интервала прямо пропорциональна среднеквадратичной ошибке:
. (5)
Коэффициент пропорциональности t n, a называется коэффициентом Стьюдента ; он зависит от числа опытов п и доверительной вероятности a .
На рис. 1, а, б наглядно показано, что при прочих равных условиях для увеличения вероятности попадания истинного значения в доверительный интервал необходимо увеличить ширину последнего (вероятность «накрывания» значения Х более широким интервалом выше). Следовательно, величина t n, a должна быть тем больше, чем выше доверительная вероятность a .
С увеличением количества опытов среднее значение приближается к истинному; поэтому при той же вероятности a доверительный интервал можно взять более узким (см. рис. 1, а,в ). Таким образом, с ростом п коэффициент Сьюдента должен уменьшаться. Таблица значений коэффи-циента Стьюдента в зависимости от п и a дана в приложениях к настоящему пособию.
Следует отметить, что доверительная вероятность никак не связана с точностью результата измерений. Величиной a задаются заранее, исходя из требований к их надежности. В большинстве технических экспериментов и в лабораторном практикуме значение a принимается равным 0,95.
Расчет случайной погрешности измерения величины х проводится в следующем порядке:
1) вычисляется сумма измеренных значений, а затем – среднее значение величины по формуле (3);
2) для каждого i -го опыта рассчитываются разность между измеренным и средним значениями , а также квадрат этой разности (отклонения) (D х i ) 2 ;
3) находится сумма квадратов отклонений, а затем – средне-квадратичная ошибка s по формуле (4);
4) по заданной доверительной вероятности a и числу проведенных опытов п из таблицы на с. 149 приложений выбирается соответствующее значение коэффициента Стьюдента t n, a и определяется случайная погрешность D s x по формуле (5).
Для удобства расчетов и проверки промежуточных результатов данные заносятся в таблицу, три последних столбца которой заполняются по образцу табл.1.
Таблица 1
Номер опыта | … | х | D х | (D х ) 2 |
… | ||||
… | ||||
… | … | |||
п | … | |||
S = | S = |
В каждом конкретном случае величина х имеет определенный физический смысл и соответствующие единицы измерения. Это может быть, например, ускорение свободного падения g (м/с 2), коэффициент вязкости жидкости h (Па×с ) и т.д. Пропущенные столбцы табл. 1 могут содержать промежуточные измеряемые величины, необходимые для расчета соответствующих значений х .
Пример 1. Для определения ускорения а движения тела измерялось время t прохождения им пути S без начальной скорости. Используя известное соотношение , получим расчетную формулу
Результаты измерений пути S и времени t приведены во втором и третьем столбцах табл. 2. Проведя вычисления по формуле (6), заполним
четвертый столбец значениями ускорения a i и найдем их сумму, которую запишем под этим столбцом в ячейку « S = ». Затем рассчитаем среднее значение по формуле (3)
.
Таблица 2
Номер опыта | S, м | t, c | а, м/с 2 | Dа, м/с 2 | (Dа ) 2 , (м/с 2) 2 |
2,20 | 2,07 | 0,04 | 0,0016 | ||
2,68 | 1,95 | -0,08 | 0,0064 | ||
2,91 | 2,13 | 0,10 | 0,0100 | ||
3,35 | 1,96 | -0,07 | 0,0049 | ||
S = | 8,11 | S = | 0,0229 |
Вычитая из каждого значения a i среднее, найдем разности D a i и занесем их в пятый столбец таблицы. Возводя эти разности в квадрат, заполним последний столбец. Затем рассчитаем сумму квадратов отклонений и запишем ее во вторую ячейку « S = ». По формуле (4) определим среднеквадратичную погрешность:
.
Задавшись величиной доверительной вероятности a = 0,95, для числа опытов п = 4 из таблицы в приложениях (с. 149) выбираем значение коэффициента Стьюдента t n, a = 3,18; с помощью формулы (5) оценим случайную погрешность измерения ускорения
D s а = 3,18×0,0437 » 0,139 (м/с 2) .
Часто оценщику приходится анализировать рынок недвижимости того сегмента, в котором располагается объект оценки. Если рынок развит, проанализировать всю совокупность представленных объектов бывает сложно, поэтому для анализа используется выборка объектов. Не всегда эта выборка получается однородной, иногда требуется очистить ее от экстремумов - слишком высоких или слишком низких предложений рынка. Для этой цели применяется доверительный интервал . Цель данного исследования - провести сравнительный анализ двух способов расчета доверительного интервала и выбрать оптимальный вариант расчета при работе с разными выборками в системе estimatica.pro.
Доверительный интервал - вычисленный на основе выборки интервал значений признака, который с известной вероятностью содержит оцениваемый параметр генеральной совокупности.
Смысл вычисления доверительного интервала заключается в построении по данным выборки такого интервала, чтобы можно было утверждать с заданной вероятностью, что значение оцениваемого параметра находится в этом интервале. Другими словами, доверительный интервал с определенной вероятностью содержит неизвестное значение оцениваемой величины. Чем шире интервал, тем выше неточность.
Существуют разные методы определения доверительного интервала. В этой статье рассмотрим 2 способа:
- через медиану и среднеквадратическое отклонение;
- через критическое значение t-статистики (коэффициент Стьюдента).
Этапы сравнительного анализа разных способов расчета ДИ:
1. формируем выборку данных;
2. обрабатываем ее статистическими методами: рассчитываем среднее значение, медиану, дисперсию и т.д.;
3. рассчитываем доверительный интервал двумя способами;
4. анализируем очищенные выборки и полученные доверительные интервалы.
Этап 1. Выборка данных
Выборка сформирована с помощью системы estimatica.pro. В выборку вошло 91 предложение о продаже 1 комнатных квартир в 3-ем ценовом поясе с типом планировки «Хрущевка».
Таблица 1. Исходная выборка
Цена 1 кв.м., д.е. |
|
Рис.1. Исходная выборка
Этап 2. Обработка исходной выборки
Обработка выборки методами статистики требует вычисления следующих значений:
1. Среднее арифметическое значение
2. Медиана - число, характеризующее выборку: ровно половина элементов выборки больше медианы, другая половина меньше медианы
(для выборки, имеющей нечетное число значений)
3. Размах - разница между максимальным и минимальным значениями в выборке
4. Дисперсия - используется для более точного оценивания вариации данных
5. Среднеквадратическое отклонение по выборке (далее - СКО) - наиболее распространённый показатель рассеивания значений корректировок вокруг среднего арифметического значения.
6. Коэффициент вариации - отражает степень разбросанности значений корректировок
7. коэффициент осцилляции - отражает относительное колебание крайних значений цен в выборке вокруг средней
Таблица 2. Статистические показатели исходной выборки
Коэффициент вариации, который характеризует однородность данных, составляет 12,29%, однако коэффициент осцилляции слишком велик. Таким образом, мы можем утверждать, что исходная выборка не является однородной, поэтому перейдем к расчету доверительного интервала.
Этап 3. Расчёт доверительного интервала
Способ 1. Расчёт через медиану и среднеквадратическое отклонение.
Доверительный интервал определяется следующим образом: минимальное значение - из медианы вычитается СКО; максимальное значение - к медиане прибавляется СКО.
Таким образом, доверительный интервал (47179 д.е.; 60689 д.е.)
Рис. 2. Значения, попавшие в доверительный интервал 1.
Способ 2. Построение доверительного интервала через критическое значение t-статистики (коэффициент Стьюдента)
С.В. Грибовский в книге «Математические методы оценки стоимости имущества» описывает способ вычисления доверительного интервала через коэффициент Стьюдента. При расчете этим методом оценщик должен сам задать уровень значимости ∝, определяющий вероятность, с которой будет построен доверительный интервал. Обычно используются уровни значимости 0,1; 0,05 и 0,01. Им соответствуют доверительные вероятности 0,9; 0,95 и 0,99. При таком методе полагают истинные значения математического ожидания и дисперсии практически неизвестными (что почти всегда верно при решении практических задач оценки).
Формула доверительного интервала:
n - объем выборки;
Критическое значение t- статистики (распределения Стьюдента) с уровнем значимости ∝,числом степеней свободы n-1,которое определяется по специальным статистическим таблицам либо с помощью MS Excel ( →"Статистические"→ СТЬЮДРАСПОБР);
∝ - уровень значимости, принимаем ∝=0,01.
Рис. 2. Значения, попавшие в доверительный интервал 2.
Этап 4. Анализ разных способов расчета доверительного интервала
Два способа расчета доверительного интервала - через медиану и коэффициент Стьюдента - привели к разным значениям интервалов. Соответственно, получилось две различные очищенные выборки.
Таблица 3. Статистические показатели по трем выборкам.
Показатель |
Исходная выборка |
1 вариант |
2 вариант |
Среднее значение |
|||
Дисперсия |
|||
Коэф. вариации |
|||
Коэф. осциляции |
|||
Количество выбывших объектов, шт. |
На основании выполненных расчетов можно сказать, что полученные разными методами значения доверительных интервалов пересекаются, поэтому можно использовать любой из способов расчета на усмотрение оценщика.
Однако мы считаем, что при работе в системе estimatica.pro целесообразно выбирать метод расчета доверительного интервала в зависимости от степени развитости рынка:
- если рынок неразвит, применять метод расчета через медиану и среднеквадратическое отклонение, так как количество выбывших объектов в этом случае невелико;
- если рынок развит, применять расчет через критическое значение t-статистики (коэффициент Стьюдента), так как есть возможность сформировать большую исходную выборку.
При подготовке статьи были использованы:
1. Грибовский С.В., Сивец С.А., Левыкина И.А. Математические методы оценки стоимости имущества. Москва, 2014 г.
2. Данные системы estimatica.pro