'

Тема 11. Критерий согласия и таблицы сопряженности

Понравилась презентация – покажи это...





Слайд 0

19 февраля 2016 г. Тема 11. Критерий согласия и таблицы сопряженности 11.1. Критерий согласия 11.2. Проверка нормальности 11.3. Таблицы сопряженности 11.4. Проверка независимости признаков 11.5. Проверка однородности 11.6. Коэффициенты связи


Слайд 1

Горошины Менделя Австрийский монах, Грегор Мендель (1822-1884), изучал генетику, и его принципы являются основой для современной генетики. Мендель использовал свободное время, выращивая горох в монастыре. В одном из своих экспериментов он скрестил разные виды гороха – с гладкими желтыми горошинками и со сморщенными зелеными горошинками. Он заметил, что результаты были систематическими, то есть некоторые из них имели гладкие желтые горошины, другие – гладкие зеленые горошины, третьи – сморщенные желтые горошины, а четвертые – сморщенные зеленые горошины. Более того, после нескольких экспериментов процентное соотношение каждого вида оставалось практически неизменным. Мендель сформулировал свою теорию, основанную на предположении доминантных и рецессивных признаков, и попытался предсказать результат. Тогда он скрестил свой горох и исследовал 556 горошин следующего поколения. Наконец, он сравнил полученные им результаты с теоретическими результатами, что бы узнать, правдива ли теория. Для этого он использовал «простой» тест хи-квадрат, который мы сейчас рассмотрим. Источник: J.Hodges, Jr.D.Krech и R.Crutchfield, Stat Lab, An Empirical Introduction to Statistics (New York: McGraw-Hill, 1975), pp.228-229.


Слайд 2

19 февраля 2016 г. 11.1. Критерий согласия


Слайд 3

Пример. Вкусовые предпочтения Маркетолог хочет узнать, какому из пяти вкусов нового напитка отдают предпочтение покупатели. Ниже приведены данные, полученные из опроса 100 человек: Если нет каких-либо особых вкусовых предпочтений, то каждый вид напитка покупают с одинаковой частотой. В таком случае каждая частота должна быть равна 100/5 = 20, то есть приблизительно по 20 человек выберут каждый вид сока. Наблюдаем Ожидаем


Слайд 4

Наблюдаемые и ожидаемые частоты Наблюдаемые частоты - частоты полученные по выборке. Ожидаемые частоты - частоты, полученные путем вычисления на основе теоретических представлений о предполагаемом распределении. Наблюдаемые частоты Ожидаемые частоты


Слайд 5

Что проверяет критерий согласия Критерий согласия позволяет выяснить, насколько согласуются между собой наблюдаемые частоты и ожидаемые, иными словами, существенны или нет различия между ними. Гипотезы для примера с предпочтениями запишутся так: Н0: У покупателей нет предпочтений по поводу вкусов сока. Н1: У покупателей есть предпочтения. Необходимые условия 1. Выборка случайна. 2. Наблюдаемая частота должна быть не меньше 5.


Слайд 6

Статистика Для проверки гипотезы используется ?2-критерий с числом степеней свободы df = n – 1: Н – наблюдаемая частота О – ожидаемая частота


Слайд 7

?2 распределение Следующая случайная величина имеет распределение хи-квадрат: z1 z2 z3 … zn - набор из n независимых случайных величин, имеющих стандартное нормальное распределение. Свойства: 1. Всегда неотрицательно. 2. Зависит от n – числа степеней свободы. 3. Среднее значение = n. 4. Стандартное отклонение = 2n.


Слайд 8

Вид ?2 распределения В зависимости от числа степеней свободы n вид распределения изменяется. При увеличении n распределение приближается к нормальному. n = 4 n = 6 n = 15


Слайд 9

Критическая область Этот критерий имеет только правостороннюю критическую область. Критическая область соответствует значениям статистики, для которых значение ?2 велико. Это означает, что данные плохо согласуются. 1 - ? = 0,95 ? = 0,05


Слайд 10

Что значит «частоты согласуются» Если наблюдаемые и ожидаемые значения близки друг к другу, значение ?2-критерия будет небольшим. Гипотеза Н0 не будет отвергнута. Имеется хорошее соответствие наблюдаемых данных и исследовательской модели. Хорошее соответствие Плохое соответствие


Слайд 11

Решение задачи Шаг 1. Нулевая и альтернативная гипотезы: Н0: У покупателей нет предпочтений по поводу вкусов сока. Н1: У покупателей есть предпочтения. Шаг 2. Уровень значимости ?=0,05. Шаг 3. Критическое значение равно 9,488 (по таблице ?2-распределения, df = 5 – 1 = 4 и ? = 0,05). Шаг 4. По выборке находим значение статистики: Шаг 5. Сравним полученное значение с критической областью: 18 > 9,488. Значение попало в критическую область. Шаг 6. Формулируем ответ. Существуют значимые предпочтения покупателей по поводу вида напитка.


Слайд 12

Применение критерия согласия 1. Для проверки гипотезы о согласовании наблюдаемого распределения и теоретического. Это было в примере с напитками. 2. Для проверки гипотезы о совпадении законов распределения двух генеральных совокупностей. Предположение о виде теоретического распределения (теоретическая модель данных) в этом случае не требуется. Критерий дает нам представление о «расстоянии между двумя наборами данных» и на основе значения этого расстояния позволяет делать вывод о «согласии» между двумя распределениями.


Слайд 13

19 февраля 2016 г. 11.2. Проверка нормальности


Слайд 14

Гипотезы Критерий согласия часто используется для проверки гипотез о виде распределения генеральной совокупности. По имеющейся случайной выборке можно проверить, имеет ли исследуемый признак нормальное распределение. Гипотезы выглядят так: Н0 : признак имеет нормальное распределение. Н1 : признак не имеет нормального распределения.


Слайд 15

Статистика Для проверки гипотезы используется ?2-критерий с числом степеней свободы df = n – 1: Н – наблюдаемая частота О – ожидаемая частота


Слайд 16

Задача Используя критерий согласия, определить, нормально ли распределен признак, значения которого приведены в виде частотной таблицы. Принять ? = 0,05.


Слайд 17

Шаг 1. Среднее и стандартное отклонение выборки


Слайд 18

Шаг 2. Ожидаемые (теоретические) частоты 0,3332 = 0,7422 - 0,4090 Теоретические частоты


Слайд 19

Шаг 3. Значение статистики по выборке Нужно объединить с предыдущим интервалом


Слайд 20

Шаг 3. Значение статистики по выборке


Слайд 21

Шаги 4-5. Критическая область и выводы Критическое значение при df = 4 и ? = 0,05 равно 9,488. Поскольку полученное значение статистики не попало в критическую область, нулевую гипотезу мы не отвергаем. Ответ. Распределение можно считать нормальным.


Слайд 22

19 февраля 2016 г. 11.3. Таблицы сопряженности


Слайд 23

Обработка данных Данные эксперимента Таблица сопряженности Таблица сопряженности составляется для двух признаков и содержит частоты для каждого набора значений.


Слайд 24

Таблица сопряженности В общем виде таблица сопряженности состоит из r рядов и c столбцов. Будем называть ее R?C таблица. Каждая клетка таблицы определяется номером ее ряда (Row) и столбца (Column). Данная таблица имеет два ряда и три столбца: r = 2, c = 3.


Слайд 25

Исследуемые признаки Признак 2. Отношение к новому препарату Признак 1. Категория персонала


Слайд 26

19 февраля 2016 г. 11.4. Проверка независимости признаков


Слайд 27

Наблюдаемые частоты (Observed frequencies) В результате эксперимента мы получаем наблюдаемые частоты. Подсчитаем суммы по срокам и столбцам.


Слайд 28

Ожидаемые частоты (Expected frequencies) Вычислим теоретические частоты. В первую клетку надо поставить частоту:


Слайд 29

Ожидаемые частоты (Expected frequencies) Вычислим теоретические частоты. В первую клетку надо поставить частоту:


Слайд 30

Независимость признаков Признаки независимы, если распределение значений одного признака не зависит от значений, принимаемых другим признаком. Отношение к препарату не отличается Отношение к препарату сильно отличается Признаки независимы Признаки зависимы


Слайд 31

Шаг 1. Гипотезы Критерий согласия используется для проверки гипотезы о независимости признаков. Гипотезы выглядят так: Н0 : признаки независимы. Н1 : признаки зависимы.


Слайд 32

Критерий проверки гипотезы Если бы признаки независимыми, то частоты должны быть распределены так, как показано в таблице ожидаемых частот. Критерий согласия позволяет оценить, насколько сильно различаются наблюдаемые частоты от ожидаемых. Если сильно, тогда мы признаем наличие зависимости признаков. Наблюдаемые частоты Ожидаемые частоты


Слайд 33

Шаги 2-3. Уровень значимости и критическая область Критерий имеет правостороннюю критическую область. Число степеней свободы определяется по формуле: df = (r – 1)(c – 1) = (2 – 1)(3 – 1) = 2. Зададим ? = 0,05, критическое значение равно 5,991. 1 - ? = 0,95 ? = 0,05 5,991 26,67


Слайд 34

Шаг 4. Вычисление статистики Наблюдаемые частоты Ожидаемые частоты


Слайд 35

Шаг 5-6. Получение выводов Поскольку значение статистики попало в критическую область, 26,67 > 5,991, мы отклоняем гипотезу о независимости признаков. Вывод. Признаки зависимы. Отношение к новому лекарству существенно зависит от категории персонала. 5,991 26,67


Слайд 36

19 февраля 2016 г. 11.5. Проверка однородности


Слайд 37

Критерий однородности Второй ?2-критерий, который использует таблицу сопряженности, называется критерий однородности долей. В данной ситуации выборки делаются из разных совокупностей, и исследователю интересно узнать, одинаковы ли доли признака для каждой совокупности. Размеры выборки устанавливаются заранее, до того, как становится известной сама выборка. Например, исследователь может опросить 50 первокурсников, 50 второкурсников, 50 третьекурсников и 50 выпускников, а потом найти соотношение курящих в каждой группе. Потом исследователь сравнивает доли курящих в каждой группе, чтобы посмотреть, одинаковы ли они.


Слайд 38

Гипотезы Гипотезы имеют вид: Н0: р1 = р2 = р3 = р4 Н1: по крайней мере, одна доля отличается от других Если принимаем нулевую гипотезу, то тем самым мы допускаем, что доли равны, и различия случайны. Это будет означать, что доли курящих студентов одинаковы в каждой группе. Если нулевая гипотеза не принимается, это означает, что доли не равны друг другу. Процесс проверки гипотезы тот же, что и для критерия независимости.


Слайд 39

19 февраля 2016 г. 11.6. Коэффициенты связи Коэффициент фи Коэффициент Крамера Коэффициент сопряженности Пирсона


Слайд 40

Зависимость ?2 от объема выборки Использование ?2 в качестве меры связи двух признаков имеет недостатки. Главный - величина ?2 зависит от объема выборки для таблиц с одинаковыми пропорциями. Поскольку таблицы имеют одинаковые пропорции, то сила связи между признаками постоянна для всех трех таблиц, а значения ?2 при этом различны. Рассмотрим других «кандидатов» на роль коэффициента связи между признаками.


Слайд 41

Коэффициент фи Свойства: Используется для таблиц 2х2 Равен нулю для независимых переменных Равен +1 или -1 для полностью зависимых переменных:


Слайд 42

Вычисление коэффициента фи Для вычисления коэффициента ? используют следующую формулу: Главное, коэффициент для всех трех таблиц, рассмотренных выше, одинаковый:


Слайд 43

Коэффициент Крамера Свойства: Используется для таблиц любого размера Для таблиц 2х2 совпадает с коэффициентом фи Равен нулю для независимых переменных Равен 1 для полностью зависимых переменных где r – количество строк, c – количество столбцов


Слайд 44

Коэффициент сопряженности Пирсона Свойства: Используется для таблиц любого размера Равен нулю для независимых переменных Максимум коэффициента меньше 1 Чтобы изменялся от 0 до 1 используется корректировка:


Слайд 45

Коэффициент лямбда


Слайд 46

Коэффициент Юла


Слайд 47

Пример 25 респондентов исследовали на связь между двумя признаками: пол и отношение к курению. Таблица сопряженности и коэффициенты представлены по отчету SPSS.


Слайд 48

Какой коэффициент «лучше»? Каждый коэффициент отражает своё понятие силы связи, степени зависимости. За каждым из них стоит своя модель изучаемого явления. Их не следует интерпретировать в отрыве от этой модели. Так, хотя коэффициент лямбда и может быть равен нулю, несмотря на то, что переменные зависимы, но в рамках модели прогноза, значение ноль совершенно справедливо указывает на то, что знание значения переменной X не позволяет улучшить прогноз значения переменной Y. В большинстве случаев, если при сравнении степени связи в 2х2 таблицах один из коэффициентов связи для одной из таблиц больше, тогда то же самое будет верно и для всех остальных коэффициентов.


Слайд 49

Понятия и термины


Слайд 50

Задание на 5 минут Приведите пример парных (зависимых) выборок.


Слайд 51

Задачи 11.1. Опрос, проведенный совместно USA Today, CNN, Gallup, показал, что 74% респондентов считает, что автомобилисты ездят агрессивнее, чем 5 лет назад, 23% считает, что они ездят точно так же, 3% считает, что автомобилисты ездят менее агрессивно, чем 5 лет назад. Опрос 180 опытных водителей показал, что 125 из них считают, что автомобилисты ездят агрессивнее, чем 5 лет назад, 36 – примерно одинаково, 19 человек считают, что автомобилист ездят менее агрессивно, чем 5 лет назад. При ? = 0,10 проверьте утверждение, что мнение опытных водителей совпадает с мнением опрошенных USA Today, CNN, Gallup. Источник: Основано на информации из USA Today, August 29, 1997. 11.2. USA Today Snapshot утверждает, что 53% покупателей предпочитает расплачиваться за покупки наличными, 30% использует – чек, 16% – кредитки, а у 1% нет особых предпочтений. Владелец большого супермаркета опросил 800 покупателей относительно того, каким образом они предпочитают оплачивать покупки. Результаты показали, что 400 покупателей платили наличными, 210 – чеком, 170 – кредиткой, и 20 – не отдает определенного предпочтения. При ? = 0,01 проверьте утверждение, что у покупателей данного супермаркета и у опрошенных одинаковые предпочтения. Источник: USA Today, July 19, 1995.


Слайд 52

Задачи 11.3. Штатный сотрудник службы неотложной помощи желает определить, одинаково ли распределено количество несчастных случаев в течение недели. Была выбрана наугад неделя, и получены следующие данные. Достаточно ли оснований, чтобы отвергнуть гипотезу, доказывающую, что количество несчастных случаев распределено равномерно в течение недели, при ? = 0,05? День Пн Вт Ср Чт Пт Сб Вс Частота 28 32 15 14 38 43 19 11.4. Владелец спортивного инвентаря желает узнать, отдается ли предпочтение какому-то конкретному месяцу при покупке охотничьего ружья. Результаты продаж приведены ниже. При ? = 0,05 проверьте утверждение, что покупка оружия не зависит от конкретного месяца. Месяц Сентябрь Октябрь Ноябрь Декабрь Частота 18 23 28 15


Слайд 53

Задачи 11-5. Американский филиал Красного Креста сообщает о том, что 42% американцев имеют кровь типа О, 44% – типа А, 10% – типа В и 4% – типа АВ. Районный медицинский исследователь говорит о том, что распределение типов крови в его регионе соответствует общим показателям в стране. Делается наугад выборка из 200 человек. Данные приведены ниже. При ? = 0,10, проверьте гипотезу исследователя. Тип крови А О В АВ Частота 58 65 55 22 Источник: Robert D.Shook and Michael L.Shook, The Book of Odds (New York: Penguin Putnam, Inc., 1961), p.161.


Слайд 54

Задачи 11-6. Исследователю интересно узнать, есть ли связь между возрастом респондента и количеством потребляемого кофе. Было опрошено 152 человека, данные приведены ниже в таблице. При ? = 0,01 определите, есть ли связь между возрастом и количеством потребляемого человеком кофе.


Слайд 55

Задачи 11-7. Производитель автомобилей желает узнать, есть ли связь между возрастом покупателей и ценой купленной машины. Было опрошено 222 водителя. Данные приведены ниже в таблице. При ? = 0,05 определите, есть ли зависимость между ценой машины и возрастом водителя?


Слайд 56

Задачи 11-8. Преподавателю высшего учебного заведения интересно узнать, зависит ли способ получения информации от образования людей. Опрос 400 студентов ВУЗов и школ показал результаты, приведенные в таблице. При ? = 0,05 проверьте утверждение, что способ получения информации не зависит от их образования.


Слайд 57

Задачи 11-9. Служащий университета хочет определить наличие связи между ученой степенью преподавателя и тем, как студенты оценивают получаемые от него знания. Опрошенным студентам было предложено оценить разных преподавателей. Данные опроса приведены ниже. При ? = 0,10 выясните, может ли служащий заключить, что есть связь между ученой степенью преподавателя и мнением студентов о способностях преподавателя.


Слайд 58

Задачи 11-10. Страховая компания хочет узнать, как влияет возраст водителя на количество водителей в нетрезвом состоянии. Компания опросила 86 водителей четырех возрастных категорий, чтобы узнать, водят ли они машину в нетрезвом состоянии. При ? = 0,05 проверьте утверждение о том, что доля водителей, ответивших утвердительно, одинакова в каждой возрастной группе.


×

HTML:





Ссылка: