'

Тема 10. Сравнение двух выборок

Понравилась презентация – покажи это...





Слайд 0

11 февраля 2016 г. Тема 10. Сравнение двух выборок 10.1. Гипотеза о равенстве средних. Независимые выборки 10.2. Доверительный интервал для разности средних 10.3. Гипотеза о равенстве средних. Парные выборки 10.4. Доверительный интервал для разности средних. Парные выборки 10.5. Гипотеза о равенстве дисперсий 10.6. Гипотеза о равенстве долей 10.7. Доверительный интервал для разности долей


Слайд 1

1. Независимые выборки Генеральная совокупность 1 Генеральная совокупность 2 Выборка 1 Выборка 2 1.1. Две генеральные совокупности, две независимые выборки Сравнение Случайный отбор


Слайд 2

1. Независимые выборки Генеральная совокупность Выборка 1 Экспериментальная группа Выборка 2 Контрольная группа 1.2. Одна генеральная совокупность, две независимые выборки Сравнение Большая выборка Случайное разделение


Слайд 3

2. Зависимые выборки Генеральная совокупность 1 Генеральная совокупность 2 Выборка 1 Выборка 2 2.1. Две генеральные совокупности, две зависимые выборки Сравнение Парный отбор


Слайд 4

2. Зависимые выборки Генеральная совокупность Выборка 1 Выборка 2 2.2. Одна генеральная совокупность, две зависимые выборки Сравнение Парный отбор


Слайд 5

2. Зависимые выборки Генеральная совокупность Группа до теста Группа после теста 2.3. Одна генеральная совокупность, две зависимые выборки до и после теста Сравнение Выборка Экспериментальная группа


Слайд 6

11 февраля 2016 г. 10.1. Гипотеза о равенстве средних. Независимые выборки


Слайд 7

Независимые выборки. Описание проблемы Что мы имеем 1. Две простые случайные выборки, полученные из двух генеральных совокупностей 2. Выборки являются независимыми. Это значит, что между субъектами в каждой из выборок нет связи. 3. Обе выборки имеют объем n ? 30. Если нет, то обе выборки взяты из нормально распределенных генеральных совокупностей. Что мы хотим Проверить гипотезу о равенстве средних двух генеральных совокупностей:


Слайд 8

Гипотеза Нулевая гипотеза: Это равносильно гипотезе: Альтернативная гипотеза:


Слайд 9

Односторонние гипотезы Нулевая гипотеза: Или, что равносильно: Альтернативная гипотеза: Правосторонний критерий Левосторонний критерий


Слайд 10

1. Статистика (?1 и ?2 известны) Для проверки гипотезы используется статистика: где - выборочные средние - известные дисперсии генеральных совокупностей - объемы выборок


Слайд 11

Почему выбирает этот критерий? В качестве критерия мы выбираем: Наблюдаемое значение: Ожидаемое значение: Стандартная ошибка: Это следует из формулы для дисперсии разности выборочных средних:


Слайд 12

Последовательность действий Шаг 1. Сформулировать основную и альтернативную гипотезы. Шаг 2. Задать уровень значимости ?. Шаг 3. По таблице найти критические значения и построить критическую область. Шаг 4. По выборке сосчитать значение статистики. Шаг 5. Сравнить полученное значение с критической областью. Если значение попало в критическую область – отклонить основную гипотезу, не попало – принять. Шаг 6. Написать ответ.


Слайд 13

Задача. Стоимость ремонта Частная исследовательская фирма тестировала две различных марки автомобиля, с целью определить, есть ли различие в ущербе, получаемом машиной, если она попадает в аварию на скорости 10 миль в час. Ниже представлен средний ущерб в долларовом эквиваленте для каждой марки. Предполагается, что генеральная совокупность распределена нормально. На уровне значимости ? = 0,05 проверьте утверждение о том, что различия в долларовом эквиваленте понесенного каждым типом автомобиля ущерба не существует.


Слайд 14

Решение Шаг 1. Основная и альтернативная гипотезы: Шаг 2. Задан уровень значимости ?=0,05. Шаг 3. По таблице находим критическое значение z = 1,96 и строим критическую область: Шаг 4. По выборке сосчитаем значение статистики:


Слайд 15

Решение Шаг 5. Сравним полученное значение с критической областью. Полученное значение статистики не попало в критическую область. Мы принимаем основную гипотезу. Шаг 6. Формулируем вывод: мы не имеем достаточных оснований, чтобы отвергнуть утверждение о равенстве средних.


Слайд 16

Если дисперсии не известны… Как проверить гипотезу о равенстве средних, если дисперсии генеральной совокупности не известны? Z-критерий не подойдет. Вместо него используем t-критерий. Существует два варианта. Первый, когда мы ничего не знаем о дисперсиях. Второй, когда мы не знаем значения дисперсий генеральных совокупностей, но у нас есть основания полагать их равными. В этих случаях статистика строится по разному. Разберем подробнее.


Слайд 17

2. Статистика (?1 и ?2 не известны и не равны) Для проверки гипотезы используется статистика: где - выборочные средние - выборочные дисперсии - объемы выборок


Слайд 18

3. Статистика (предполагаем ?1 = ?2) Для проверки гипотезы используется статистика: где - выборочные средние - объединенная дисперсия двух выборок - объемы выборок


Слайд 19

Объединенная дисперсия (Pooled variance) Если нам известно, что дисперсии генеральных совокупностей равны, или мы проверяем гипотезу, что случайные выборки получены из одной совокупности, нам следует вычислить для начала объединенную дисперсию для двух выборок:


Слайд 20

Выводы о средних (независимые выборки) ?1 и ?2 известны? Считаем, что ?1 = ?2? Используем нормальное распределение со стандартной ошибкой: Редкий случай! Да Да Используем t- распределение со стандартной ошибкой: Используем t-распределение с объединенной дисперсией и ошибкой: Наиболее часто! Нет Нет


Слайд 21

11 февраля 2016 г. 10.2. Доверительный интервал для разности средних


Слайд 22

Описание проблемы Что мы имеем Имеем две простые случайные, независимые выборки объема n1 и n2 из двух генеральных совокупностей. Генеральные совокупности имеют нормальный закон распределения с параметрами ?1,?1 и ?2,?2 либо объемы обеих выборок ? 30. Что мы хотим Оценить разницу (?1 - ?2) между средними двух генеральных совокупностей. Для этого построить доверительный интервал для разности средних в виде:


Слайд 23

Доверительный интервал для разности средних (1) Среднее генеральной совокупности с надежностью 1-?/2 находится в доверительном интервале: Стандартные отклонения ?1 и ?2 известны. Тогда:


Слайд 24

Доверительный интервал для разности средних (2) Среднее генеральной совокупности с надежностью 1-?/2 находится в доверительном интервале: Стандартные отклонения ?1 и ?2 неизвестны и не подразумеваются равными. Тогда:


Слайд 25

Доверительный интервал для разности средних (3) Среднее генеральной совокупности с надежностью 1-?/2 находится в доверительном интервале: Стандартные отклонения ?1 и ?2 неизвестны, но подразумеваются равными. Тогда:


Слайд 26

Пример Преподаватель хочет оценить различия в оценках студентов-вечерников и студентов-дневников. Ниже приведены результаты экзамена. Построить 95% доверительный интервал для разности средних баллов. Дневники Вечерники Решение. На семинаре


Слайд 27

11 февраля 2016 г. 10.3. Гипотеза о равенстве средних. Парные выборки


Слайд 28

Парные выборки. Описание проблемы Что мы имеем 1. Две простые случайные выборки, полученные из двух генеральных совокупностей 2. Выборки являются парными (зависимыми) 3. Обе выборки имеют объем n ? 30. Если нет, то обе выборки взяты из нормально распределенных генеральных совокупностей. Что мы хотим Проверить гипотезу о разности средних двух генеральных совокупностей:


Слайд 29

Статистика для парных выборок Для проверки гипотезы используется статистика: где - разность между двумя значениями x – y в одной паре - среднее для парных разностей генеральной совокупности - среднее для парных разностей для выборки - стандартное отклонение разностей для выборки - количество пар


Слайд 30

Пример. Тренинг студентов Группа из 15 студентов прошла тест до тренинга и после. Результаты теста в таблице. Проверим гипотезу для парных выборок на отсутствие влияния тренинга на подготовку студентов на уровне значимости 0,05. Решение. Подсчитаем разности и их квадраты.


Слайд 31

Решение Шаг 1. Основная и альтернативная гипотезы: Шаг 2. Задан уровень значимости ?=0,05. Шаг 3. По таблице для df = 15 – 1=14 находим критическое значение t = 2,145 и строим критическую область: Шаг 4. По выборке сосчитаем значение статистики.


Слайд 32

Решение Статистика принимает значение: Среднее значение разностей получено делением 21 на 15 и равно 1,4.


Слайд 33

Решение Шаг 5. Сравним полученное значение с критической областью. Полученное значение статистики не попало в критическую область. Шаг 6. Формулируем вывод. Мы не имеем достаточных оснований, чтобы отвергнуть нулевую гипотезу. Это означает, что влияние тренинга не значимо на уровне значимости 0,05.


Слайд 34

11 февраля 2016 г. 10.4. Доверительный интервал для разности средних. Парные выборки


Слайд 35

Зависимые выборки. Описание проблемы Что мы имеем Имеем две случайные парные (зависимые) выборки объема n из двух генеральных совокупностей. Генеральные совокупности имеют нормальный закон распределения с параметрами ?1,?1 и ?2,?2 либо объемы обеих выборок ? 30. Что мы хотим Оценить среднее значение парных разностей для двух генеральных совокупностей. Для этого построить доверительный интервал для среднего в виде:


Слайд 36

Доверительный интервал Среднее разности парных значений между двумя генеральными совокупностями с надежностью 1-?/2 находится в доверительном интервале: Точность оценки находится по формуле:


Слайд 37

Пример построения доверительного интервала Выборка включает 15 студентов, следовательно df = 15 – 1 = 14. Находим t-значение по таблице для доверительной вероятности 95% (?/2 = 2,5): Точность оценки: Доверительный интервал:


Слайд 38

11 февраля 2016 г. 10.5. Гипотеза о равенстве дисперсий


Слайд 39

В ходе исследования… Исследователю может понадобиться проверить предположение, о равенстве дисперсий двух изучаемых генеральных совокупностей. В случае, когда эти генеральные совокупности имеют нормальное распределение, для этого существует F-критерий, называемый также критерием Фишера. В отличие от Стьюдента, Фишер не работал на пивном заводе.


Слайд 40

Описание проблемы Что мы имеем 1. Две простые случайные выборки, полученные из двух нормально распределенных генеральных совокупностей. 2. Выборки являются независимыми. Это значит, что между субъектами выборок нет связи. Что мы хотим Проверить гипотезу о равенстве дисперсий генеральных совокупностей:


Слайд 41

Обозначения Дисперсии генеральных совокупностей: Дисперсии двух выборок: Объемы двух выборок: Подбираем, чтобы обязательно:


Слайд 42

Гипотеза Нулевая гипотеза: Альтернативная гипотеза: Других альтернативных гипотез в этом критерии не рассматривается.


Слайд 43

Статистика Для проверки гипотезы используется статистика: Если гипотеза верна, эта статистика имеет F-распределение (распределение Фишера) с количеством степеней свободы: числителя знаменателя


Слайд 44

Критическая область Альтернативная гипотеза: Уравнение критической области: Критическое значение находим по таблице F-распределения


Слайд 45

Таблицы F-распределения Критические значения находим по таблице F-распределения. Например, критическое значение для двух выборок объема 14 и 10 равно 2,71. Таблицы «трехмерные». Учитесь пользоваться!


Слайд 46

Пример. Исследователь-медик хочет проверить, есть ли различие между частотой биения сердца курящих и некурящих пациентов (кол-во ударов в минуту). Результаты двух случайно отобранных групп приведены ниже. Используя ? = 0,05, выясните, прав ли медик. Курящие Не курящие


Слайд 47

Решение Шаг 1. Основная и альтернативная гипотезы: Шаг 2. Задан уровень значимости ?=0,05. Шаг 3. По таблице для количества степеней свободы числителя 25 и знаменателя 17 находим критическое значение f = 3,08 и строим критическую область: Шаг 4. По выборке сосчитаем значение статистики.


Слайд 48

Решение Шаг 5. Сравним полученное значение с критической областью. Полученное значение статистики попало в критическую область. Шаг 6. Формулируем вывод. Различие дисперсий двух генеральных совокупностей значимо.


Слайд 49

11 февраля 2016 г. 10.6. Гипотеза о равенстве долей


Слайд 50

Вопрос Из 100 случайно отобранных студентов социологического факультета 43 посещают спецкурсы. Из 200 случайно отобранных студентов-экономистов 90 посещают спецкурсы. Отличается ли доля студентов, посещающих спецкурсы, на социологическом и экономическом факультетах? Похоже, что существенно не отличается. Как это проверить? Доля посещающих спецкурсы – доля признака. 43 – количество «успехов». 43/100 – доля успехов. Терминология такая же, как в схеме Бернулли.


Слайд 51

Описание проблемы Что мы имеем 1. Две простые случайные выборки, полученные из двух нормально распределенных генеральных совокупностей. 2. Выборки являются независимыми. Это значит, что между субъектами выборок нет связи. 3. Для выборок выполнено np ? 5 и nq ? 5. Это означает, что, по крайней мере, 5 элементов выборки имеют изучаемое значение признака, и, по крайней мере, 5 не имеют. Что мы хотим Проверить гипотезу о равенстве долей признака в двух генеральных совокупностях:


Слайд 52

Обозначения - объемы выборок - количество «успехов» в каждой выборке - доля «успехов» в первой выборке - доля «успехов» во второй выборке - общая доля «успехов» в обеих выборках


Слайд 53

Статистика В качестве статистики выбираем следующую случайную функцию: Для проверки гипотезы пользуемся таблицей нормального распределения.


Слайд 54

Пример. Из 100 случайно отобранных студентов социологического факультета 43 посещают спецкурсы. Из 200 студентов-экономистов 90 человек посещают спецкурсы. На уровне значимости ? = 0,05, проверьте гипотезу о том, что нет различия между долей посещающих спецкурсы на двух этих факультетах.


Слайд 55

Решение Вычислим необходимые значения:


Слайд 56

Решение Шаг 1. Основная и альтернативная гипотезы: Шаг 2. Задан уровень значимости ?=0,05. Шаг 3. По таблице нормального распределения находим критические значения z = - 1,96 и z = 1,96 строим критическую область: Шаг 4. По выборке сосчитаем значение статистики.


Слайд 57

Решение Шаг 5. Сравним полученное значение с критической областью. Полученное значение статистики не попало в критическую область. Шаг 6. Формулируем вывод. Нет оснований отвергнуть основную гипотезу. Доля посещающих спецкурсы не отличается.


Слайд 58

11 февраля 2016 г. 10.7. Доверительный интервал для разности долей


Слайд 59

Доверительный интервал для разности долей Доля значений признака в генеральной совокупности с надежностью 1-?/2 находится в доверительном интервале: где


Слайд 60

Пример Предположим, по результатам исследования 40% из 200 мужчин и 56% из 100 женщин высказались против смертной казни. Найдите 95%-ый доверительный интервал для действительной разности долей. Решение. На семинаре.


Слайд 61

Понятия и термины


Слайд 62

Задание на 5 минут От чего и каким образом зависит критическая область?


Слайд 63

Задачи 10.1. Преподаватель хочет понять, действительно ли студенты-вечерники получают более высокие баллы по сравнению с учащимися дневного отделения. Ниже приведены результаты экзамена. Может ли преподаватель на их основе заключить, что балл вечерников выше? Используйте ? = 0,02. Дневники Вечерники


Слайд 64

Задачи 10.2. Исследователь хочет сравнить скорость реакции таксистов и полицейских. Полученные им результаты представлены ниже. Может ли он при ? = 0,02 сделать вывод о том, что таксисты обладают меньшей скоростью реакции, чем полицейские. Предполагается, что генеральные совокупности распределены нормально. Таксисты Полицейские


Слайд 65

Задачи 10.3. Исследователь предполагает, что среди учеников средней школы девочки чаще, чем мальчики, прогуливают занятия. Выборочное исследование 16-ти девочек показало, что их не бывает в школе примерно 3,9 дня в году, а мальчиков (22 человека) 3,6 дня. Стандартные отклонения 0,6 и 0,8 дня соответственно. Проверьте предположение исследователя на уровне значимости ? =0,01. Предполагается, что дисперсии равны.


Слайд 66

Задачи 10.4. Налоговый инспектор желает проверить, есть ли различие в тарифных ставках на частную собственность в двух больших городах. Величина налогов в обоих городах представлена ниже (млн $). При ? = 0,05 проверьте, действительно ли налоги в двух городах различны?


Слайд 67

Задачи 10.5. Преподаватель считает, что студенты, специализация которых – математика, могут написать компьютерную программу быстрее, чем те, чья специализация – экономика. Двенадцать студентов-математиков, попавшие в выборку, потратили в среднем по 36 минут на то, чтобы написать и отладить определенную программу. Восемнадцать студентов-экономистов справились с тем же заданием в среднем за 39 минут каждый. Стандартное отклонение каждой группы равно 4 и 9 минут соответственно. При ? = 0,10 проверьте предположение преподавателя, считая, что дисперсии не равны.


Слайд 68

Задачи 10.6. Местное отделение налоговой инспекции потратило примерно по 21 минуте на то, чтобы помочь каждому из 10-ти человек заполнить их налоговую декларацию. Стандартное отклонение равно 5,6 минуты. Независимая служба подготовки налоговых деклараций потратила на каждого из 14 человек по 27 минут. Стандартное отклонение равно 4,3 минуты. При ? =0,02 найдите, есть ли разница во времени, которое тратят две этих службы. Предполагается, что дисперсии равны.


Слайд 69

Задачи 10.7. Преподаватель утверждает, что когда преподавание курса идет с использованием лекций, то дисперсия успеваемости больше, чем когда курс идет без лекций. Случайным образом были выбраны две группы студентов. Дисперсия успеваемости первой группы (с лекциями) равна 103, а дисперсия второй группы (без лекций) равна 73. В каждой группе учатся 20 студентов. При ? = 0,05 проверить предположение преподавателя.


Слайд 70

Задачи 10.8. Преподаватель физкультуры утверждает, что тяжелоатлеты, принимающие витамин Е, могут увеличить свою силу, то есть поднимать более тяжелый вес. Было отобрано восемь атлетов, и была измерена их сила с помощью выжимания штанги. После двух недель регулярных тренировок и приема витамина Е, их силу измерили еще раз. Проверьте эффективность такого режима, считая, что ? = 0,05. Значения, которые даны ниже, – это максимальный вес, который может поднять спортсмен (в фунтах). Предполагается, что переменные распределены нормально.


Слайд 71

Задачи 10.9. Социологу интересно узнать, повлияет ли показ фильма об управлении стрессом, на установки двенадцати человек, участвующих в исследовании. Результаты в таблице. Здесь большим числовым значениям соответствует более позитивное отношение к управлению стрессом. При ? = 0,05 проверьте утверждение, что просмотр данного фильма изменит установки испытуемых.


Слайд 72

Задачи 10.10. Офис-менеджер хочет узнать, можно ли увеличить скорость печатания десяти секретарей, заменив печатные машинки компьютерами. В таблице число слов в минуту. На уровне значимости ? =0,10 проверьте утверждение, что, используя компьютер, секретари могут печатать большее количество слов в минуту.


Слайд 73

Задачи 10-11. В результате исследования выяснилось, из 100 опрошенных мужчин 83% предпочитают лекциям обучение с помощью компьютера, а из 100 женщин 75%. При ? = 0,05 проверьте утверждение о равенстве долей мужчин и женщин, предпочитающих лекциям компьютерное обучение. 10-12. Из 200 хирургов 15% считают, что государство должно контролировать здравоохранение. А из 200 терапевтов так думает 21%. Существует ли различие в долях на уровне значимости ? = 0,05? 10-13. Из 80 американцев 55% хотели бы разбогатеть. Из 90 европейцев, хотели бы разбогатеть 45%. При ? = 0,01 есть ли различие в долях? 10-14. Из 200 мужчин 130 сказали, что пользуются ремнями безопасности. Из 300 женщин отметили, что пользуются ремнями безопасности, 63 человека. При ? = 0,01 проверьте утверждение, что мужчины более осторожны, нежели женщины.


Слайд 74

Задачи 10-15. В первой выборке из 100 человек 30% были в Диснейленде, а во второй (тоже 100 человек опрошенных) 24% посещали Диснейуолд. Отличаются ли доли людей, посетивших каждый из двух парков? Возьмите ? = 0,02. 10-16. Из 200 подростков 59 считают, что война неизбежна. А из 300 человек старше 60-ти, так думают 93. Отличается ли доля подростков, считающих войну неизбежной, от доли людей старше 60-ти лет? Возьмите ? = 0,01? 10-17. В выборке из 59 старшеклассников у восьми оказался свой собственный автомобиль, а среди 75 первокурсников колледжа свои машины есть у 20 человек. Можно ли на уровне значимости ? = 0,05 сделать вывод, что доля первокурсников с собственными автомобилями выше?


Слайд 75

Задачи 10-18. Найдите 95%-ый доверительный интервал для действительной разности долей по результатам исследования, в котором 40% из 200 мужчин и 56% из 100 женщин высказались против смертной казни. 10-19. Найдите 99%-ый доверительный интервал для разности генеральных долей по результатам исследования, в котором 80% из 150-ти республиканцев и 60% из 200 демократов одобрили закон о повышении зарплаты.


×

HTML:





Ссылка: