'

Тема 7. Основания для статистических выводов

Понравилась презентация – покажи это...





Слайд 0

12 февраля 2016 г. Тема 7. Основания для статистических выводов 7.1. Выборочное наблюдение 7.2. Логика статистических выводов


Слайд 1

12 февраля 2016 г. 7.1. Выборочное наблюдение План выборочного наблюдения Методы получения выборок Простая случайная выборка


Слайд 2

Генеральная совокупность и выборка Генеральная совокупность, популяция (population) – вся интересующая исследователя совокупность изучаемых объектов. Выборка (sample) – некоторая, обычно небольшая, часть генеральной совокупности, отбираемая специальным образом и исследуемая с целью получения выводов о свойствах генеральной совокупности. Репрезентативная выборка хорошо представляет генеральную совокупность. Это означает, что каждое свойство (или комбинация свойств) наблюдается в выборке с той же частотой, что и в генеральной совокупности. Выборка, которая не является репрезентативной, имеет смещение. Например, если в выборке доля мужчин значительно больше, чем в генеральной совокупности, говорят, что выборка смещена по половому признаку в сторону мужчин.


Слайд 3

План выборочного наблюдения На первом этапе следует определить целевую генеральную совокупность (target population) – совокупность объектов, обладающих информацией, которую желает получить исследователь и о которой требуется сделать заключение. Какие объекты попадут в эту совокупность, как правильно очертить границы целевой совокупности? Пример с покупателями магазина игрушек. Кто может оказаться в числе покупателей? Все ли жители этого города? А жители других городов?


Слайд 4

Объем генеральной совокупности и выборки N объем генеральной совокупности n объем выборки Если изучается вся генеральная совокупность (N = n), то выборка называется переписью (census). Теоретически предполагают, что объем генеральной совокупности бесконечен (N = ?). Однако, только теоретически можно считать, например, что население планеты бесконечно. В действительности оно измеряется конечными числами в млрд.человек. Мы будем считать, что изучаемая исследователем, целевая генеральная совокупность (target population) всегда конечна, хотя объем совокупности велик и часто можно считать, что:


Слайд 5

Определение основы выборки Основа выборочного наблюдения (sampling frame) есть представление элементов изучаемой генеральной совокупности. Обычно это список всех объектов или перечень инструкций для определения границ и объектов изучаемой совокупности. Примерами основы выборочного наблюдения могут служить телефонные справочники, отраслевые справочники предприятий, список адресатов и т.п. Если исследователь не может составить подробный перечень элементов, следует, по крайней мере, установить правила для отбора изучаемой генеральной совокупности, например процедуру случайного набора номеров при проведении опроса по телефону. Ошибки при формировании основы выборочного наблюдения состоят в пропуске некоторых объектов или включении в основу объектов, не относящихся к изучаемой генеральной совокупности. Имеются методы, позволяющие устранить такие ошибки или свести их действие к минимуму.


Слайд 6

Определение метода получения выборки Детерминированные методы: Нерепрезентативная выборка Поверхностная выборка Квотная выборка Выборка по принципу «снежного кома» Вероятностные методы: Простая случайная выборка Систематическая выборка Стратифицированная выборка Кластерная выборка За подробностями можно обратиться в эту книгу.


Слайд 7

Выборка с возвращением и без возвращения После того, как объект извлечен из генеральной совокупности для включения в выборку, его либо возвращают в генеральную совокупность, либо нет. Если его возвратили, он может попасть в выборку повторно. Выборка без возвращения – любой объект не может попасть в выборку больше одного раза. Выборка с возвращением – любой объект может оказаться в выборке более одного раза. Например, корреспондент не обратится дважды за интервью к одному и тому же участнику митинга, а выберет несколько различных человек. Мы будем рассматривать далее выборки без возвращения, если не будет оговариваться иное.


Слайд 8

Простая случайная выборка Простая случайная выборка отбирается при помощи методов случайного отбора или случайных чисел. Один из таких методов заключается в нумерации каждого объекта генеральной совокупности и выборе номеров объектов при помощи генератора случайных чисел в компьютере или калькуляторе. До применения компьютеров случайные числа были получены и сведены в таблицу случайных чисел.


Слайд 9

Таблица случайных чисел


Слайд 10

Как составить случайную выборку


Слайд 11

Стратифицированная выборка Стратифицированная выборка получается путем разбиения генеральной совокупности на группы или страты в зависимости от характеристик, важных для изучения. Преимуществом стратифицированной выборки является наличие представителей каждой страты в выборке в соотношении, сходном с генеральной совокупностью. Недостатком является сложность организации процесса при наличии нескольких признаков, скажем, возраста, дохода, социального статуса и т.п.


Слайд 12

Пример стратифицированной выборки Пример. На младших курсах обучается 2000 студентов, среди которых 60% первокурсников и 40% второкурсников. Соотношение мужчин и женщин 30/70. Тогда все они могут быть разделены на страты первокурсники-второкурсники и мужчины-женщины. Генеральная совокупность Выборочная совокупность 1 курс 2 курс 1 курс 2 курс мужчины 360 240 мужчины 18 12 женщины 840 560 женщины 42 28 Всего 2000 человек Всего 100 человек


Слайд 13

Систематическая выборка Систематическая выборка получается путем нумерации каждого члена генеральной совокупности и затем выбором каждого k-ого номера. Пример. Генеральная совокупность включает 2000 единиц, требуется отобрать 50. Поскольку 2000/50=40, то будем выбирать каждый 40-й элемент. Для начала случайным образом выберем первый элемент выборки среди первых сорока элементов генеральной совокупности. Если первым оказался номер 12, тогда выборка будет включать объекты с номерами 12, 52, 92 и так далее, всего 50 объектов.


Слайд 14

Кластерная выборка Кластерная выборка образуется при выделении отдельных групп, которые называются кластерами. Пример. Исследователю необходимо опросить жителей, проживающих в квартирах небольшого города. Если в городе 10 жилых домов, исследователь может выбрать любые два и опросить всех жителей этих домов.


Слайд 15

Постановка проблемы. Требуется изучить поведение в туристических поездках жителей штата Флорида. Для этого требуется составить план выборочного наблюдения. Составление плана. Семьи стратифицировали на три района Флориды: северный, центральный и южный. Для отбора семей воспользовались случайным компьютерным набором телефонных номеров. Из каждой семьи отбираются кандидаты, соответствующие четырем критериям: 1. Возраст 25 лет и старше. 2. Проживает во Флориде как минимум 7 месяцев в году. 3. Прожил во Флориде как минимум 2 года. 4. Получал водительские права во Флориде. Для отбора респондента из каждой семьи требуется перечислить всех членов семьи, удовлетворяющих четырем критериям и из них выбрать того, кто следующим отпразднует свой день рождения. Пример плана выборочного наблюдения


Слайд 16

Пример плана выборочного наблюдения (2) План выборочного наблюдения 1. Изучаемая совокупность: Элементы совокупности - люди, отвечающие четырем критериям Единицы выборки - в семье с телефоном Территория - в штате Флорида Время - в период проведения опроса 2. Основа выборки: Компьютерная программа, случайным образом генерирующая номера телефонов. 3. Метод получения выборки: Стратифицированная выборка. Три района Флориды: северный, центральный и южный.


Слайд 17

Пример плана выборочного наблюдения (3) 4. Единица выборки: Номера работающих телефонов. 5. Объем выборки: 868. 6. Получение выборки: Поделите выборку на страты. С помощью компьютера наберите произвольные телефонные номера. Перечислите всех членов семьи, отвечающих четырем критериям. Выберите одного члена семьи методом следующего дня рождения.


Слайд 18

12 февраля 2016 г. 7.2. Логика статистических выводов Параметры и статистики Выборочное распределение среднего Центральная предельная теорема Стандартные ошибки среднего и доли


Слайд 19

Параметры и статистики Параметр – показатель (число), вычисленное для всей генеральной совокупности. Параметр генеральной совокупности есть фиксированное число, которое нам не известно. При его вычислении случайность отсутствует. Параметр есть неизвестная и фиксированная величина. Статистика – показатель (число), вычисленное на основе данных выборки. Поэтому статистика является случайной величиной, так как в ее основе лежат данные, полученные в результате случайного отбора. Статистика является известной и случайной величиной. Статистики являются оценочными функциями параметров генеральной совокупности. Фактическое значение статистики, рассчитанное по данным выборки, назовем оценкой параметра совокупности.


Слайд 20

Проведем учебный расчет Рассмотрим генеральную совокупность, состоящую из чисел 1, 2, 5. Наблюдаемый признак может принимать одно из трех значений с вероятностью 1/3. Параметры генеральной совокупности: Среднее значение = 2,7 Медиана = 2 Размах = 4 Дисперсия = 2,9 Стандартное отклонение = 1,7 Доля нечетных чисел = 0,67 Какие значения принимают соответствующие статистики выборки?


Слайд 21

Средние значения шести статистик Только для трех статистик их средние значения совпадают с соответствующими значениями параметров генеральной совокупности.


Слайд 22

Какие статистики дают оценку параметров Статистики, которые служат оценками параметров генеральной совокупности: Среднее значение (Mean) Дисперсия (Variation) Доля (Proportion) Статистики, которые не могут служить оценками параметров генеральной совокупности: Медиана (Median) Размах (Range) Стандартное отклонение (Standard Deviation)


Слайд 23

Выборочное распределение статистики Генеральная совокупность Статистика Выборка Статистика Выборка Статистика Выборка Случайные выборки Значения статистики, полученные на основе выборки Выборочное распределение статистики


Слайд 24

Распределение выборочных средних Распределение выборочного среднего есть вероятностное распределение среднего значения выборки при условии, что рассматриваемые выборки имеют одинаковый объем n. Для распределения можно вычислить среднее значение, дисперсию и стандартное отклонение. Распределение выборочных средних для рассмотренного примера.


Слайд 25

Три ключевых распределения Логика статистических заключений (или статистический вывод, statistical inference) основывается на трех ключевых распределениях: распределении генеральной совокупности, распределении выборочных средних и распределении выборки.


Слайд 26

Центральная предельная теорема Для случайной выборки объема n из генеральной совокупности справедливы утверждения. 1. С ростом объема выборки n распределение выборочного среднего стремится к нормальному распределению. 2. Среднее значение всех выборочных средних есть среднее значение генеральной совокупности ?. 3. Стандартное отклонение всех выборочных средних равно . Итак:


Слайд 27

Пример. Пассажиры лифта Предположим, пассажир лифта имеет средний вес 80 кг и стандартное отклонение 20 кг. Средний вес одного пассажира 80 80 Стандартное отклонение 20 20


Слайд 28

Распределение общей суммы значений Кроме распределения выборочного среднего, приведенные утверждения также верны и для распределения общей суммы значений выборки. С ростом объема выборки n распределение общей суммы также стремится к нормальному распределению. Среднее Общая сумма Среднее Стандартное отклонение


Слайд 29

Пример. Пассажиры лифта (2) Предположим, пассажир лифта имеет средний вес 80 кг и стандартное отклонение 20 кг. Средний вес общей суммы 80 800 Стандартное отклонение 20 200


Слайд 30

Особенности применения теоремы 1. Распределение выборочных средних стремится к нормальному вне зависимости от вида распределения генеральной совокупности. Это означает, что оно будет нормальным и в том случае, когда генеральная совокупность имеет ассиметричное или равномерное распределение. 2. Чем сильнее распределение генеральной совокупности отличается от нормального, тем большее влияние оказывает увеличение объема выборки на точность результата. Считается, что центральная предельная теорема дает для статистических заключений приемлемые результаты, если объем выборки больше 30. 3. Если генеральная совокупность имеет нормальное распределение, тогда выборочная средняя будет распределена нормально для выборок любого объема.


Слайд 31

Стандартная ошибка среднего Любое распределение характеризуется стандартным отклонением. Точное его значение для генеральной совокупности не известно. Поэтому для оценок рассматривают стандартную ошибку среднего. Стандартная ошибка среднего оценивает выборочную изменчивость выборочного среднего, приближенно показывая, насколько выборочное среднее отличается от среднего генеральной совокупности. Стандартное отклонение среднего Стандартная ошибка среднего


Слайд 32

Отличия стандартного отклонения от ошибки Показывает, насколько отдельные элементы выборки отличаются от среднего выборки Показывает, насколько выборочные средние отличаются от среднего генеральной совокупности Отдельные элементы Выборочные средние


Слайд 33

Поправка для малой совокупности Если объем генеральной совокупности небольшой и выборка составляет значительную часть совокупности, стандартную ошибку можно уменьшить, введя поправочный коэффициент для конечной генеральной совокупности. Скорректированная стандартная ошибка запишется в виде: Если размер выборки приближается к размеру генеральной совокупности, значение N – n уменьшается, значение скорректированной ошибки также уменьшается, что отражает высокое качество оценки, полученной почти по генеральной совокупности. Если N большое, то поправочный коэффициент близок к 1 и не оказывает влияния на величину ошибки.


Слайд 34

Стандартная ошибка доли признака В случае биномиального распределения имеют место две ошибки: для частоты m и для доли m/n. Неизвестная доля признака в генеральной совокупности обозначена ?. Частота событий, m Доля, Стандартное отклонение (для генеральной совокупности) Стандартная ошибка (оценка по выборке)


Слайд 35

Пример. Стандартная ошибка для доли признака Обследовано 50 индивидуумов. У 8 обнаружены отклонения по здоровью. Это означает, что 16% обследованных имеют отклонения. Расчет: Выводы. Доля равна 16% с неопределенностью 5,18%. Наблюдаемая частота равна 8 с неопределенностью 2,59.


Слайд 36

Понятия и термины План выборочного наблюдения Целевая генеральная совокупность Основа выборочного наблюдения Простая случайная выборка Систематическая выборка Стратифицированная выборка Кластерная выборка Параметр генеральной совокупности Статистика, оценочная функция Выборочное распределение статистики Выборочное распределение средней, стандартного отклонения, доли Выборочное распределение Стандартная ошибка среднего


Слайд 37

Задание на 5 минут Назовите разделы исследовательского анализа данных (EDA).


Слайд 38

Задание. IQ тест для 25 студентов Результаты IQ теста имеют среднее значение 100 и стандартное отклонение 15. Планируется протестировать 25 студентов и получить результаты теста для каждого. Какова вероятность, что выборочное среднее: 1. Окажется больше 105? 2. Окажется меньше 97? 3 Окажется между 95 и 105? Решение. По условию: ? = 100, ? = 15, n = 25


Слайд 39

Решение задания по п. 1. По таблице для z=1,67 находим, что площадь равна 0,0475. Ответ по п.1. Выборочное среднее результатов теста 25 студентов окажется выше 105 с вероятностью 0,0475. Площадь 0,0475


Слайд 40

Решение задания по п. 2. По таблице для z= -1 находим, что площадь равна 0,1587. Ответ по п.2. Выборочное среднее результатов теста 25 студентов окажется ниже 97 с вероятностью 0,1587. Площадь 0,1587


Слайд 41

Решение задания по п. 3. Пользуемся таблицей. Находим, что площадь равна 0,9050. Ответ по п.3. Выборочное среднее результатов теста 25 студентов окажется в пределах от 95 до 105 с вероятностью 0,9050.


Слайд 42

Задачи 1. Имеется перечень из 20 компаний. Получите случайную выборку объема 5. 2. Задача на ошибку для доли признака. 3. Среднее 100, стандартное отклонение 20. Оценить, что 12 объектов окажутся …


Слайд 43

Задача. Стратификация счетов в аудите Счета компании сгруппированы следующим образом: 56 крупных, 956 средних, 16246 мелких. Счета имеют балансовый и фактической остатки, которые могут различаться. Решено в ходе аудита проверить все крупные счета, 15% средних и 2% мелких счетов. Совокупная ошибка (разность между балансовой и фактической стоимостью) составила: $ 15 018 для крупных, $ 1165 для средних, $ 792 для мелких счетов. Стандартные отклонения ошибок составили соответственно: $ 968,62 для крупных, $ 7,12 для средних, $ 5,14 для мелких. 1. Найдите выборочное среднее ошибки на один счет в каждой из страт. 2. Объедините эти три ошибки, чтобы найти стратифицированную выборочную среднюю оценку средней ошибки на один счет в генеральной совокупности. 3. Определите стандартную ошибку своей оценки с учетом и без учета поправки на конечность генеральной совокупности. 4. Объясните значение стандартной ошибки в терминах значения среней ошибки на один счет, дл генеральной совокупности.


×

HTML:





Ссылка: