'

Построение регрессионных моделей и решение задачи предсказания

Понравилась презентация – покажи это...





Слайд 0

1 Построение регрессионных моделей и решение задачи предсказания


Слайд 1

2 Два класса решаемых задач


Слайд 2

3 Постановка задачи. Исходные данные


Слайд 3

4 Цель исследования Построить модель для известных наборов X и Y Оценить возможности модели для предсказания неизвестных значений Y по новым значениям X.


Слайд 4

5 Множественная регрессия. Проверка основных статистических гипотез об уравнении регрессии, его коэффициентах и прогнозируемых значениях откликов.


Слайд 5

6 Коллинеарность Коллинеарность означает, что между переменными, составляющими матрицу X, существует взаимная корреляция, т.е. они в некоторой степени линейно зависимы между собой, например X1=f (X2, X3, …, Xn)


Слайд 6

7 Двухэтапная процедура РГК Регрессия на главные компоненты (РГК)


Слайд 7

8 Моделирование – хемометрический подход


Слайд 8

9 Обучающий набор данных Набор должен быть достаточно большим Должны охватывать всю будущую совокупность Измерения X, по возможности, должны быть несложными


Слайд 9

10 Построение модели


Слайд 10

11 Оценка антиоксидантов методом ДСК Объект Антиоксиданты в ПП Цель Оценка эффективности АО Эксперимент Длительное термостарение Обработка Регрессия на главные компоненты Y- измерения Дифференц. калориметрия X- измерения Температура начала окисления


Слайд 11

12 ДСК эксперимент Оценка температуры начала окисления (ТНО) при разных скоростях нагрева v


Слайд 12

13 ДСК данные и референтные данные


Слайд 13

14 Предварительная обработка данных.


Слайд 14

15 Метод главных компонент в примере с АО График счетов (ГК1-ГК2) ГК1-ГК2: объясняют 96% структуры X и 97 % структуры Y Стандартная ошибка калибровки


Слайд 15

16 Тестовый набор данных Набор должен быть достаточно большим Должны охватывать всю будущую совокупность Не должны быть «слишком» похож на калибровочный набор


Слайд 16

17 Моделирование – стадия проверки


Слайд 17

18 Способы проверки Проверка на тестовом наборе Перекрестная проверка Проверка корректировкой размахом


Слайд 18

19 Перекрестная проверка Моделируют тестовый набор используя калибровочный (ycal , Xcal) Самый медленный способ проверки и не всегда надежный


Слайд 19

20 Полная перекрестная проверка Модель


Слайд 20

21 Проверка корректировкой размахом Ошибка предсказания всегда оценивается слишком оптимистично Требует построения лишь одной модели


Слайд 21

22 Сколько выбрать главных компонент


Слайд 22

23 Ошибка моделирования и ошибка предсказания


Слайд 23

24 Количество ГК для АО примера 2 главные компоненты


Слайд 24

25 Прогноз эффективности АО RMSEP = 0.253 Yпред=Y?2*RMSEP


Слайд 25

26 Слабость РГК РГК – мощное средство борьбы с мультиколлинеарностью в матрице X РГК –двухэтапный метод Декомпозиция X по МГК МЛР = + Эта декомпозиция не учитывает связи между X и Y


Слайд 26

27 Регрессия на латентные структуры (ПЛС - регрессия)


Слайд 27

28 Интерпретация ПЛС-модели T - матрица счетов Q - матрица нагрузок Для X Для Y W –матрица взвешенных (эффективных) нагрузок U - матрица счетов P - матрица нагрузок


Слайд 28

29 Графике зависимости X-Y U - T


Слайд 29

30 График остаточной дисперсии Для ПЛС-моделей дисперсия должна падать Остаточная дисперсия Y – количества ГК


Слайд 30

31 Заключительный график Предсказанные значения Y - измеренные значения Y


Слайд 31

32 Определение октанового числа бензина по данным ИК-спектроскопии Исходные данные Обучающий массив = 26 образца Прогнозный массив = 13 образцов Количество переменных (длин волн) = 226 (1100 – 1550 nm)


Слайд 32

33 Выводы Два основных проекционных регрессионных метода. Регрессия на главные компоненты Регрессия на латентные структуры. Уменьшают размерность исследуемых данных Позволяют проанализировать скрытые в данных закономерности Выбор меньшего числа ГК дает более устойчивую модель Проверка с помощью представительного тестового набора наиболее надежный способ оценки ошибки прогнозирования


×

HTML:





Ссылка: