'

Тема 9. Проверка статистических гипотез

Понравилась презентация – покажи это...





Слайд 0

5 февраля 2016 г. Тема 9. Проверка статистических гипотез 9.1. Общий принцип проверки гипотез 9.2. Гипотеза о доли признака 9.3. Гипотеза о среднем 9.4. Гипотеза о дисперсии


Слайд 1

Проблемная ситуация Эксперты утверждают, что 29% всех преступлений совершаются несовершеннолетними. Чтобы проверить это утверждение, мы взяли случайную выборку из преступлений, произошедших в прошлом месяце. Оказалось, что из 83 преступлений, попавших в выборку, 17 приходится на несовершеннолетних. Правы ли эксперты?


Слайд 2

Еще одна проблемная ситуация В прошлом году компания АВС провела исследование и выяснила, что 5% покупателей заинтересованы в выпуске стирального порошка, который отстирывает чернильные пятна на белых рубашках. Компания начала выпуск такого порошка и спустя год после начала выпуска провела новое исследование, в ходе которого из 6000 опрошенных 335 положительно отнеслись к выпуску нового продукта. Можно ли с высокой долей уверенности утверждать, что интерес покупателей к новому продукту возрос? Как это проверить?


Слайд 3

Общий принцип проверки статистических гипотез Выделяем шесть основных этапов по проверке гипотез. Рассмотрим каждый из них подробнее.


Слайд 4

Основная и альтернативная гипотезы Статистической гипотезой называют любое предположение о виде или свойствах распределения генеральной совокупности. Мы будем рассматривать две гипотезы: нулевую и альтернативную. Нулевая гипотеза H0 подлежит проверке, по результатам которой ее можно принять либо отклонить. «Принять» означает «не получить убедительных аргументов для отклонения гипотезы». Альтернативная гипотеза H1 принимается только тогда, когда есть убедительное статистическое доказательство для отклонения основной гипотезы. Принять основную гипотезу H0 Отвергнуть H0 и принять H1


Слайд 5

Примеры основной и альтернативной гипотезы Основные гипотезы: Альтернативные гипотезы:


Слайд 6

Ошибки первого и второго рода Статистические гипотезы проверяются статистическими методами, на основании выборки, полученной из генеральной совокупности. Из-за случайности выборки в результате проверки могут возникать ошибки и приниматься неправильные решения. Назовем ошибкой первого рода ситуацию, в которой мы отвергаем верную гипотезу H0. При ошибке второго рода принимается гипотеза H0 в то время, как она неверна.


Слайд 7

Уровень значимости гипотезы Уровнем значимости гипотезы назовем допустимую вероятность совершить ошибку первого рода, то есть принять неверную гипотезу. Обозначим ?. Уровень значимости ? выбирается исследователем до того, как будет проверяться гипотеза. Значение обычно выбирается небольшим, например, 0,10; 0,05 или 0,01.


Слайд 8

Статистика - критерий проверки гипотезы Каким образом на основании выборки принимается решение? Для этого необходима специальная функция, называемая статистикой или критерием. Эта функция зависит от выборки и потому является случайной функцией. Множество значений статистики включает: область принятия гипотезы, то есть множество тех значений статистики, при которых гипотеза H0 принимается критическую область, то есть множество тех значений статистики, при которых гипотеза H0 отклоняется и принимается альтернативная гипотеза Область принятия гипотезы Критическая область Критическая область Возможные значения статистики


Слайд 9

Критическая область и ее границы Критическая область строится для каждой статистики, основываясь на ее свойствах, и зависит от: объема выборки уровня значимости, задаваемого исследователем вида альтернативной гипотезы Критическая область ограничена критическими значениями, или границами критической области, которые вычисляются для каждой статистики при помощи таблиц. Область принятия гипотезы Критическая область Критическая область Возможные значения статистики Критические значения


Слайд 10

Получение вывода После построения критической области вычисляется значение статистики по выборке. Затем сравнивается полученное значение статистики с критической областью. Если значение статистики попало в область принятия гипотезы, то гипотеза H0 принимается Если значение статистики попало в критическую область, то гипотеза H0 отклоняется и принимается альтернативная гипотеза H1


Слайд 11

5 февраля 2016 г. 9.2. Гипотеза о среднем Гипотеза Статистика Алгоритм Пример


Слайд 12

Гипотезы Требуется проверить предположение о значении среднего для нормально распределенной генеральной совокупности. Нулевая и альтернативная гипотезы могут быть трех разных видов: I II III Нулевая гипотеза: Нулевая гипотеза: Нулевая гипотеза: Альтернативная гипотеза: Альтернативная гипотеза: Альтернативная гипотеза:


Слайд 13

Статистика (? известно) В качестве статистики выбираем следующую случайную функцию: где - выборочное среднее - гипотетическое генеральное среднее - стандартное отклонение генеральной совокупности - размер выборки


Слайд 14

Распределение статистики Формула для статистики представляет собой следующее выражение: Используемая статистика имеет нормальное распределение. При проверке гипотезы пользуемся известными нам свойствами нормального распределения. Для каждого из трех вариантов гипотез построим критические области.


Слайд 15

Распределение статистики Используемая статистика имеет нормальное распределение. При проверке гипотезы пользуемся известными нам свойствами нормального распределения. Для каждого из трех вариантов гипотез построим критические области.


Слайд 16

I – Левосторонняя критическая область Альтернативная гипотеза: Уравнение критической области: Критическое значение находим по таблице z-значений


Слайд 17

II – Правосторонняя критическая область Альтернативная гипотеза: Уравнение критической области: Критическое значение находим по таблице z-значений


Слайд 18

III – Двусторонняя критическая область Альтернативная гипотеза: Уравнения критической области: Критическое значение находим по таблице z-значений:


Слайд 19

Получение выводов Построив критическую область, вычислим значение статистики по выборке. Для получения выводов мы должны проверить, попало ли выборочное значение статистики в критическую область. Мы отвергаем нулевую гипотезу, если: I II III Альтернативная гипотеза: Альтернативная гипотеза: Альтернативная гипотеза: Критическая область: Критическая область: Критическая область:


Слайд 20

Последовательность действий Шаг 1. Сформулировать основную и альтернативную гипотезы. Шаг 2. Задать уровень значимости ?. Шаг 3. По таблице найти критические значения и построить критическую область. Шаг 4. По выборке сосчитать значение статистики. Шаг 5. Сравнить полученное значение с критической областью. Если значение попало в критическую область – отклонить основную гипотезу, не попало – принять. Шаг 6. Написать ответ.


Слайд 21

Пример. Детали двигателя Для производства двигателей требуются детали диаметром 70 мм. Поставщик гарантирует: ?=70 мм при стандартном отклонении ?=0,01 мм. Вопрос. Как в этом случае сформулировать нулевую и альтернативную гипотезы? Ответ. Поскольку любое отклонение диаметра детали от заданного нас не устраивает, то при контроле поставки формулируем гипотезы так: Н0: ? = 70 Н1: ? ? 70


Слайд 22

Пример. Балтика-6 Мы хотим проверить, что содержание алкоголя в сорте 6 пива «Балтика» в соответствует указанному производителем на этикетке: «не менее 7,0% об.» Вопрос. Как в этом случае сформулировать нулевую и альтернативную гипотезы? Ответ. Поскольку мы контролируем лишь отклонение процента алкоголя в меньшую сторону от заданного, то гипотезы мы сформулируем следующим образом: Н0: ? ? 7 Н1: ? < 7


Слайд 23

Пример. Такие разные преподаватели Преподаватель N. немецкого языка хочет протестировать новый метод заучивания новых слов. По старой методике класс осваивал в неделю в среднем ? = 25 новых слов. Если новый метод не будет однозначно хуже, то преподаватель N. хочет использовать его в дальнейшем. Его коллега M. относится к новшествам N. с подозрением. Он ни за что не будет вводить новую методику, пока не убедится, что она лучше, чем старая. N.: Н0: ? ? 25 Н1: ? < 25 M.: Н0: ? ? 25 Н1: ? > 25


Слайд 24

Задача. Булочки для котлет Фабрика по производству полуфабрикатов закупает булочки на хлебозаводе, чтобы использовать их при изготовлении котлет. Хлебозавод гарантирует средний вес одной булочки ? = 45 г при стандартном отклонении в ? = 2 г. Фабрика проводит ежедневный контроль качества поставки. При проверке выборки из 25 булочек средний вес оказался равен 44 г. Будет ли принята партия? Уровень значимости ?=0,05.


Слайд 25

Решение Шаг 1. Основная и альтернативная гипотезы: Н0 : ? ? 45 Н1: ? < 45 Шаг 2. Задан уровень значимости ?=0,05. Шаг 3. По таблице находим критическое значение z = -1,65 и строим критическую область: Шаг 4. По выборке сосчитаем значение статистики:


Слайд 26

Решение Шаг 5. Сравним полученное значение с критической областью. Полученное значение статистики попало в критическую область. Мы отклоняем основную гипотезу. Шаг 6. Формулируем ответ: партия булочек не будет принята.


Слайд 27

Если ? неизвестно … Предыдущая проверка гипотезы о среднем проводилась при условии, что нам известно стандартное отклонение генеральной совокупности. Теперь рассмотрим проверку гипотезы, если стандартное отклонение неизвестно.


Слайд 28

Гипотезы – те же самые Требуется проверить предположение о значении среднего для нормально распределенной генеральной совокупности. Нулевая и альтернативная гипотезы могут быть трех разных видов: I II III Нулевая гипотеза: Нулевая гипотеза: Нулевая гипотеза: Альтернативная гипотеза: Альтернативная гипотеза: Альтернативная гипотеза:


Слайд 29

Статистика В качестве статистики выбираем следующую случайную функцию: где - выборочное среднее - гипотетическое генеральное среднее - стандартное отклонение выборки - размер выборки


Слайд 30

Распределение статистики Используемая статистика имеет t-распределение c количеством степеней свободы df = n - 1. Для каждого из трех вариантов гипотез построим критические области. Критические значения будем искать при помощи таблиц t-распределения.


Слайд 31

I – Левосторонняя критическая область Альтернативная гипотеза: Уравнение критической области: Критическое значение находим по таблице t-распределения


Слайд 32

II – Правосторонняя критическая область Альтернативная гипотеза: Уравнение критической области: Критическое значение находим по таблице t-распределения


Слайд 33

III – Двусторонняя критическая область Альтернативная гипотеза: Уравнения критической области: Критическое значение находим по таблице t-распределения


Слайд 34

Получение выводов Построив критическую область, вычислим значение статистики по выборке. Для получения выводов мы должны проверить, попало ли выборочное значение статистики t в критическую область. Мы отвергаем нулевую гипотезу, если: I II III Альтернативная гипотеза: Альтернативная гипотеза: Альтернативная гипотеза: Критическая область: Критическая область: Критическая область:


Слайд 35

Пример На семинарах.


Слайд 36

5 февраля 2016 г. 9.3. Гипотеза о доли Гипотеза о среднем Алгоритм Пример


Слайд 37

Гипотезы Требуется проверить предположение о значении доли генеральной совокупности. Нулевая и альтернативная гипотезы могут быть трех разных видов: I II III Нулевая гипотеза: Нулевая гипотеза: Нулевая гипотеза: Альтернативная гипотеза: Альтернативная гипотеза: Альтернативная гипотеза:


Слайд 38

Статистика В качестве статистики выбираем следующую случайную функцию: где - выборочная доля - гипотетическая доля генеральной совокупности - размер выборки


Слайд 39

Распределение статистики Используемая статистика имеет нормальное распределение. При проверке гипотезы пользуемся известными нам свойствами нормального распределения. Условия для применения нормального закона Для каждого из трех вариантов гипотез построим критические области.


Слайд 40

Получение выводов Построив критическую область, вычислим значение статистики по выборке. Для получения выводов мы должны проверить, попало ли выборочное значение статистики в критическую область. Мы отвергаем нулевую гипотезу, если: I II III Альтернативная гипотеза: Альтернативная гипотеза: Альтернативная гипотеза: Критическая область: Критическая область: Критическая область:


Слайд 41

Пример. Брак лампочек При поставке 10 тыс. лампочек доля брака не должна превышать 0,02. Покупателю будет только на руку, если на самом деле доля брака будет еще ниже, главное, чтобы она не превышала заданной. Вопрос. Как в этом случае сформулировать нулевую и альтернативную гипотезы? Ответ. Покупателя не устраивает только увеличение доли брака. Поэтому при контроле поставки формулируем гипотезы так: Н0: p ?0,02 Н1: p>0,02


Слайд 42

Пример. Новый продукт Компания год назад провела исследование и выяснила, что 5% покупателей заинтересованы в выпуске нового продукта. Спустя год после начала выпуска, компания провела новое исследование, в ходе которого из 6000 опрошенных 335 положительно отнеслись к выпуску нового продукта. На 2% уровне значимости определить, возрос ли интерес покупателей к новому продукту? Решение. Для начала проверим условия применения критерия. Необходимое условие выполнено.


Слайд 43

Решение Шаг 1. Основная и альтернативная гипотезы: Шаг 2. Задан уровень значимости ?=0,05. Шаг 3. По таблице находим критическое значение и строим критическую область: Шаг 4. По выборке сосчитаем значение статистики:


Слайд 44

Решение Шаг 5. Сравним полученное значение с критической областью. Полученное значение статистики попало в критическую область. Мы отклоняем основную гипотезу. Шаг 6. Формулируем ответ: Интерес покупателей к новой марке возрос.


Слайд 45

5 февраля 2016 г. 9.4. Гипотеза о дисперсии Постановка проблемы Гипотеза о среднем Алгоритм Пример


Слайд 46

Гипотезы Требуется проверить предположение о значении дисперсии для нормально распределенной генеральной совокупности. Нулевая и альтернативная гипотезы могут быть трех разных видов: I II III Нулевая гипотеза: Нулевая гипотеза: Нулевая гипотеза: Альтернативная гипотеза: Альтернативная гипотеза: Альтернативная гипотеза:


Слайд 47

Статистика В качестве статистики выбираем следующую случайную функцию: где - гипотетическая дисперсия генеральной совокупности - стандартное отклонение выборки - размер выборки


Слайд 48

Распределение статистики Используемая статистика имеет ?2-распределение c числом степеней свободы df = n - 1. Для каждого из трех вариантов гипотез построим критические области. Критические значения будем искать при помощи таблиц ?2-распределения.


Слайд 49

I – Левосторонняя критическая область Альтернативная гипотеза: Уравнение критической области: Критическое значение находим по таблице ?2-распределения, используя обратное уравнение:


Слайд 50

II – Правосторонняя критическая область Альтернативная гипотеза: Уравнение критической области: Критическое значение находим по таблице ?2-распределения


Слайд 51

III – Двусторонняя критическая область Альтернативная гипотеза: Уравнения критической области: Критические значения находим по таблице ?2-распределения. Используем:


Слайд 52

Получение выводов Построив критическую область, вычислим значение статистики по выборке. Для получения выводов мы должны проверить, попало ли выборочное значение статистики ?2 в критическую область. Мы отвергаем нулевую гипотезу, если: I II III Альтернативная гипотеза: Альтернативная гипотеза: Альтернативная гипотеза: Критическая область: Критическая область: Критическая область:


Слайд 53

Пример. На семинаре.


Слайд 54

Задание на 5 минут Ответьте своими словами, зачем, по вашему мнению, строят доверительные интервалы.


Слайд 55

Задачи 9.1. Эксперты утверждают, что 29% всех ограблений совершаются людьми, не достигшими 18-ти лет. Проверьте это утверждение на уровне значимости ? = 0,05, если из 83-х ограблений, попавших в выборку, 17 были совершены теми, кому не было еще 18 лет. 9.2. В одном недавнем исследовании предполагалось, что не меньше 15% всех восьмиклассников страдают от избыточного веса. В выборке из 80-ти учащихся избыточный вес оказался у 9 человек. Проверьте предположение исследования при ? = 0,05. 9.3. Телефонная компания хочет сказать в рекламном объявлении, что более 30% ее абонентов имеют, по крайней мере, два телефонных аппарата. Чтобы подтвердить эту информацию, компания делает выборку из 200 своих абонентов и обнаруживает, что у 72-х из них есть два или более телефонных аппаратов. Подтверждают ли эти данные рекламную информацию? Возьмите ? = 0,05.


Слайд 56

Задачи 9.4. Менеджер банка утверждает, что размер ссуды, выдаваемой клиентам банка, составляет в среднем 4800$. Стандартное отклонение 800$. В выборке из 25 клиентов, бравших ссуду, ее средний размер оказался равен 4235$. При ? = 0,10, есть ли достаточные основания опровергать утверждение менеджера? 9.5. Изготовитель утверждает, что в среднем его лампочки служат три года, или 36 месяцев. Стандартное отклонение 8 месяцев. Выбрали 50 лампочек, и средний срок службы оказался равен 32 месяцам. Следует ли признать утверждение производителя ложным на уровне значимости ? = 0,01?


Слайд 57

Задачи 9.6. Водитель утверждает, что ГИБДД города выписывает в среднем 60 штрафов за превышение скорости в день. Приведенные ниже данные показывают, сколько штрафов было выписано в каждый из дней одного месяца. Пусть ? = 13,42. Проверьте утверждение водителя при ? = 0,05. 72 45 36 68 69 71 57 60 83 26 60 72 58 87 48 59 60 56 64 68 42 57 57 58 63 49 73 75 42 63 9.7. Менеджер утверждает, что на его заводе среднее количество дней, пропущенных работниками по болезни меньше, чем в среднем по стране, где оно равно 10. Следующие данные показывают, сколько дней пропустили по болезни 40 работников этого завода в прошлом году. Есть ли достаточно оснований, чтобы считать утверждение менеджера истинным, при ? = 0,05? Используйте s для того, чтобы оценить величину ?. 0 6 12 3 3 5 4 1 3 9 6 0 7 6 3 4 7 4 7 1 0 8 12 3 2 5 10 5 15 3 2 5 3 11 8 2 2 4 1 9


Слайд 58

Задачи 9.8. Основываясь на своем прошлом опыте, преподаватель полагает, что средний балл за экзамен равен 75. Выборка из результатов экзаменов 20 студентов выглядит следующим образом: 80, 68, 72, 73, 76, 81, 71, 71, 65, 50, 63, 71, 70, 70, 76, 75, 69, 70, 72, 74 Проверьте гипотезу о том, что средний балл студентов в этом году всё ещё равен 75. Возьмите ? = 0,01. 9.9. Инженер компьютерного класса прочитал в отчете, что компьютерным классом пользуются в среднем 16 студентов в час. Чтобы проверить данную гипотезу, он случайным образом выбрал день и отследил количество студентов, пользовавшихся компьютерным классом в течение 8 часов. Были получены следующие результаты: 20, 24, 18, 16, 16, 19, 21, 23 При ? = 0,05 может ли инженер сделать вывод, что среднее действительно равно 16?


Слайд 59

Задачи 9.10. Крупная больница ввела программу физической подготовки, чтобы уменьшить количество пропусков работы по причине болезни. Главный врач сообщил, что служащие пропускают по причине болезни в среднем 48 часов в год. По прошествии года выборка из 18 служащих показала, что они пропустили в среднем 41 час рабочего времени; стандартное отклонение выборки равно 5. Уменьшила ли программа количество пропусков? Возьмите ? = 0,10. 9.11. Для того чтобы привлечь клиентов, мастерская ремонта глушителей утверждает, что её механики могут заменить глушитель менее чем за 12 минут. Менеджер, ответственный за скорость работы, обнаружил, что среднее время выполнения данной операции по результатам 6 случаев равно 11,6 минуты. Выборочное стандартное отклонение 2,1 минуты. При ? = 0,025, есть ли достаточно оснований считать утверждение верным? 9.12. Туристическая фирма утверждает, что отправляет в среднем по 45 человек в групповую поездку в Америку. Выборка из 15 поездок показала, что в каждой из них участвовали в среднем 41 человек, а стандартное отклонение равно 5. При ? = 0,05 проверьте утверждение фирмы.


Слайд 60

Задачи из Гмурмана В книжке Гмурмана на все виды гипотез есть задачи: Для среднего (дисперсия известна) 574, 575 а,б,в Для среднего (дисперсия неизвестна) 579, 580 Для доли: 590, 591 Для дисперсии: 560, 561, 564, 565 Подчеркнутые задачи – это задачи со смысловой нагрузкой.


×

HTML:





Ссылка: