'

Проекционные методы в линейном регрессионном анализе: РГК/ПЛС

Понравилась презентация – покажи это...





Слайд 0

Проекционные методы в линейном регрессионном анализе: РГК/ПЛС Андрей Юрьевич Богомолов Российское хемометрическое общество European Molecular Biology Laboratory (EMBL) «Введение в анализ многомерных данных» (школа WSC-5), 16 февраля 2006, Самара


Слайд 1

Андрей Юрьевич Богомолов Российское хемометрическое общество European Molecular Biology Laboratory (EMBL) «Введение в анализ многомерных данных» (школа WSC-5), 16 февраля 2006, Самара Методы многомерной калибровки


Слайд 2

Тема лекции Многомерная калибровка Multivariate Calibration Анализ многомерных данных (Хемометрика) Multivariate Data Analysis (Chemometrics)


Слайд 3

К вопросу о русской терминологии родной язык хемометрики - английский терминология за 30 лет устоялась: статьи, учебники, книги, конференции привычные аббревиатуры: PCA, PCR, PLS, SIMCA, RMSEP, etc. - не нуждаются в расшифровке русская терминология создается сейчас нужен ли перевод? – да! например: “scores and loadings” (!?) нужно время, чтобы русские термины вошли в обиход в настоящей лекции - параллельная терминология


Слайд 4

Калибровка или градуировка? в русском языке – два сходных термина: «КАЛИБРОВКА (средств измерений) – совокупность операций, выполняемых с целью определения и подтверждения действительных значений метрологических характеристик и (или) пригодности к применению средств измерений…» «ГРАДУИРОВКА – метрологическая операция, при помощи которой устанавливается значение меры или делениям шкалы измерительного прибора придаются значения...» на английский оба переводятся как calibration «градуировка» – официальный термин в лекции будет использоваться некорректный термин «калибровка»


Слайд 5

Регрессия & Калибровка “Regression is an approach for relating two sets of variables to each other” Kim Esbensen “Calibration is a process of constructing a mathematical model to relate the output of an instrument to properties of samples” Kenneth Beebe Калибровка ~ Регрессия


Слайд 6

Регрессионный анализ линейная регрессия Y = XB + E МГК (PCA) – моделирование (X) регрессия – моделирование (X,Y)


Слайд 7

Спектральные данные Спектры (X) Концентрации (Y)


Слайд 8

Для чего нужна калибровка? замена прямого измерения интересующего свойства, измерением другого, коррелирующего с первым такая потребность возникает если прямое измерение интересующего свойства нежелательно: дорого трудоемко занимает много времени этически нежелательно эксперимент невозможен, и т. п. в подавляющем числе практических ситуаций такая замена оправдана!


Слайд 9

Примеры из различных областей ХИМИЯ: калибровка – инструмент №1 количественного анализа БИОЛОГИЯ: непосредственный анализ может быть губителен для живых существ МЕДИЦИНА: неинвазивный анализ, например, определение сахара в крови спектроскопически (ближний ИК) ПСИХОЛОГИЯ: анализ личности может потребовать длительных наблюдений, желательно использовать косвенные данные СОЦИОЛОГИЯ и ФИНАНСЫ: предсказание может быть основано только на исторических данных


Слайд 10

Одномерная калибровка: один компонент univariate calibration


Слайд 11

двухкомпонентная смесь Одномерная калибровка: многокомпонентная смесь компоненты


Слайд 12

Многомерная калибровка y=xb+e Y=XB+E


Слайд 13

Преимущества многомерной калибровки возможность анализировать несколько компонентов одновременно выигрыш в точности от усреднения при использования «избыточных», в т.ч. сильно коррелирующих измерений (спектры) возможность диагностики «плохих» образцов в процессе предсказания «парадигматический сдвиг» в подходах к решению проблем с появлением ПЛС регрессии (PLS-R) спектроскопия ближнего ИК стала одним из наиболее популярных методов анализа


Слайд 14

Калибровка и предсказание


Слайд 15

Классические и инверсные методы Два основных подхода в многомерной калибровке: Классический МНК (Classical Least Squares, CLS) основан на прямом решении уравнения Бугера-Ламберта-Бера A = C? | X = Y? Инверсный МНК (Inverse Least Squares, ILS) решают уравнение вида С = Ab | Y = Xb В настоящей лекции – только ILS


Слайд 16

Множественная линейная регрессия (МЛР) Multiple Linear Regression (MLR) Решение: b = (XT X)-1 XT y y=b0 + b1x1 + b2x2+…+bpxp+e


Слайд 17

Недостатки МЛР МЛР может не сработать, если: высока коллинеарность в X (спектры) неустойчивое решение для коллинеарных даных обусловлено преобразованием (XT X)-1 XT высокий уровень шума, ошибки в X переменных больше, чем образцов (типично для спектральных данных) есть линейная зависимость между переменными внутри X визуальная интерпретация МЛР-моделей затруднительна


Слайд 18

Пример спектральных данных: полиароматические углеводороды


Слайд 19

Полиароматические углеводороды: обучающий и тестовый наборы «simdata»


Слайд 20

МЛР-калибровка (Simdata) точность МЛР-модели для [С3] (3-го компонента смеси ПАУ) неудовлетворительна


Слайд 21

МГК (Principle Component Analysis) - преобразование: X = TPT + E счета T (scores) и нагрузки P (loadings) определяют пространство клавных компонент T ортогональны и содержит проекции данных на ГК Метод Главных Компонент (МГК) - оружие против коллинеарности T можно использовать вместо X для анализа (!)


Слайд 22

Концепция PCA «на пальцах» X=A(522 nm) Y=A(644 nm) Z=A(714 nm) X=A(430 nm) Y=A(550 nm) Z=A(750 nm)


Слайд 23

МГК + МЛР = РГК! (PCA + MLR = PCR) МГК-счета (PCA scores) T можно использовать вместо X для построения МЛР-модели (MLR): MLR: y=Xb+e | b=[XXT]-1XTy | ynew =Xnewb (I) PCR: y=Tb+e | b=[TTT]-1TTy | ynew =Tnewb (II) Метод называется: регрессия на главные компоненты, РГК (Principal Component Regression, PCR)


Слайд 24

Схема РГК (PCR) – подробнее PCA: MLR:


Слайд 25

Интерпретация РГК-модели интерпретация модели служит для изучения внутренней структуры данных: группы выбросы связь между X и Y инструменты диагностики МГК (PCA) работают в РГК (PCR): график счетов (scores) график нагрузок (loadings) график счетов и нагрузок вместе (bi-plot) график остатков (residuals) инструменты диагностики РГК: совместный график нагрузок X и Y


Слайд 26

Строим РГК-модель (Simdata)


Слайд 27

Строим РГК-модель (simdata)


Слайд 28

Проверка (валидация) модели проверка (validation) модели служит для: определения размерности модели (числа ГК) оценки предсказательной способности модели проверка модели производится с помощью тестовых данных: того же диапазона и того же качества что обущающие данные (та же генеральная выборка) достаточно представительные или кросс-валидации (cross-validation) полная (leave-one-out, LOO) сегментная (например, Venetian blind)


Слайд 29

Среднеквадратичная ошибка предсказания (RMSEP) RMSEС = Root Mean Square Error of Calibration RMSEP = Root Mean Square Error of Prediction минимум на кривой RMSEP – основной индикатор числа ГК RMSEP – оценка точности в единицах измерения (!) RMSEP используется для сравнения моделей


Слайд 30

Число компонент: почему минимум на кривой RMSEP? включенная ошибка остаточная информация


Слайд 31

Оценка числа компонент в РГК правильный выбор числа главных компонент (principle components, PC) - ключевая проблема многомерной калибровки модель с недостаточным числом ГК (underfitting) не использует всей полезной информации из данных модель с избыточным числом ГК (overfitting) начинает моделировать шум (ошибку) найти оптимальную размерность помогают тестовые данные (validation set)


Слайд 32

Число компонент: РГК - simdata


Слайд 33

Число компонент: РГК - simdata


Слайд 34

Оценка числа ГК в РГК: особенности число главных компонент (размерность модели) определяется в РГК (PCR) нуждами калибровки, и не обязательно совпадает с результатом МГК (PCA) Особенности: в РГК есть RMSEP активно используется тестовые данные (test set) минимум на кривой RMSEP - основной индикатор числа ГК для спектральных данных показательной может быть форма X-нагрузок (X-loadings) решение всегда за экспертом!


Слайд 35

Несовершенства РГК РГК (PCR) – мощный метод многомерной калибровки имеет безусловные преимущества перед MLR однако, не вполне оптимизирован для калибровки пространство ГК не учитывает структуры Y и связи между X и Y можно ли учесть эту связь при построении проекционной модели? да, это делает PLS!


Слайд 36

Факторные пространства уравнение PCA имеет универсальный смысл: X = TPT + E преобразование называется факторной компрессией, проекцией данных на факторное пространство (factor space) парные вектора в T и P называются факторами (factors) главные компоненты – важный пример факторного пространства, но не единственный факторное пространство можно оптимизировать для решения конкретной задачи ГК (PC) оптимальны для исследования структуры X как оптимизировать пространство для калибровки?


Слайд 37

PLS – мощная альтернатива PCR Метод проекции на латентные структуры (ПЛС) и ПЛС-регрессия (ПЛС-Р) PLS = Partial Least Squares -> = Projection on Latent Structures ПЛС-пространство создается при участии двух переменных X и Y одновременно критерий – моделирование той структуры (информации) в X, которая коррелирует с Y например, спектральные полосы (X), которые отвечают за концентрацию компонента(ов), заданные в Y, получат в подели больший вес метод ПЛС оптимизирован для регрессионного анализа


Слайд 38

ПЛС-регрессия: схематическое представление участвуют обе матрицы X и Y факторы рассчитываются по очереди – алгоритм NIPALS => 2 набора счетов (scores) T, U и нагрузок (loadings) P, Q плюс матрица W взвешенных нагрузок (loading-weights) итерационное улучшение модели, чтобы максимизировать cov(T,U) Предсказание: Y = Tnew Bt Y = Xnew B B = W(PTW)-1QT X = TPT + Ex Y = UQT + Ey [1] S. Wold, H. Martens, H. Wold, Lecture Notes Math. 973 (1983) 286–293


Слайд 39

Две разновидности ПЛС: ПЛС1 и ПЛС2 существуют две популярных разновидности ПЛС: ПЛС1 (PLS1) и ПЛС2 (PLS2) ПЛС1 модель строится для единственной переменной y (свойства), например, для концентрации одного компонента смеси если нужна калибровка по нескольким свойствам, строится несколько независимых моделей ПЛС2 рассчитывается для нескольких свойств одновременно расчетные алгоритмы методов отличаются соответственно


Слайд 40

Основы алгоритма ПЛС ПЛС-декомпозиция производится алгоримом NIPALS NIPALS = Non-linear Iterative Partial Least Squares факторы находятся по очереди, один за другим, расчет всех факторов (как в SVD) не обязателен итерационная замена векторов uf -> tf и uf -> tf для нахождения текущего фактора f - алгоритмическая основа ПЛС2 алгоритм работает до выполнения критерия сходимости ознакомимся с принципиальной схемой, начиная с более общего ПЛС2


Слайд 41

NIPALS алгоритм для ПЛС2


Слайд 42

NIPALS алгоритм для ПЛС1


Слайд 43

NIPALS алгоритм для ПЛС1


Слайд 44

ПЛС1 и ПЛС2 ПЛС1 моделирует только одну переменную y «за раз» ПЛС2 позволяет моделировать любую комбинацию переменных Y без их разделения – совместно он кажется более подходящим при калибровке нескольких свойств… однако, ПЛС1 дает по отдельной модели на каждое из интересующих свойств, возможно, с различным числом факторов не будет ли набор независимых моделей всегда лучшим решением? однозначного ответа нет… сравним методы на практике!


Слайд 45

Строим ПЛС2-модель (Simdata)


Слайд 46

Интерпретация модели служит для изучения внутренней структуры данных группы выбросы взаимовсвязи Сходство с РГК (PCR): X-счета и нагрузки (scores & loadings) Особенности: график t – u : метод обнаружения выбросов (outliers) графики нагрузок w – w : карта переменных cравнение двух X-нагрузок p – w : насколько Y повлияла на декомпозицию X график w – q Интерпретация ПЛС-моделей


Слайд 47

Интерпретация моделей: ПЛС2 против РГК PLS2


Слайд 48

Интерпретация моделей: ПЛС1 против ПЛС2


Слайд 49

Интерпретация ПЛС-моделей: связь X и Y (Simdata)


Слайд 50

Интерпретация ПЛС-модели: выбросы (Octane)


Слайд 51

Проверка регрессионных моделей Проверка (validation) модели преследует две основные цели: Определение оптимального числа компонент Меньше факторов чем в РГК Минимум RMSEP Оценка предсказательной способности модели: График “предсказанние относительно измерения” (predicted vs measured) RMSEP


Слайд 52

Проверка регрессионных моделей: simdata – ПЛС1


Слайд 53

Сравнение моделей: Simdata Сравнение моделей калибровки трехкомпонентной смеси ПАУ (simdata) вывод: модели РГК, ПЛС1-Р, ПЛС2-Р примерно одинково хороши для калибровки этих данных (без осложнений) результаты МЛР значительно хуже, для [C3] - неудовлетворительные


Слайд 54

Сравнение методов калибровки МЛР (MLR) плохо пригоден для спектроскопических данных РГК (PCR) имеет недостатки, но хорошо работает при отсутствии осложнений ПЛС регрессия (PLS-R) является лучшим решением для большинства практических задач PLS1 или PLS2? Как выбрать метод? – пробовать! Как сравнивать разные модели? RMSEP


Слайд 55

Линейная регрессия и нелинейность X: 100x351 r=0.999


Слайд 56

Предсказание: диагностика соответствия новых образцов не все проблемы заканчиваются с построением калибровочной модели! возможность выявления образцов, не соответствующих данной регрессионной модели является одним из преимуществ проекционного подхода Deviation - эмпирический параметр, характеризующий меру соответствия нового образца калибровочной модели рассмотрим наш пример…


Слайд 57

Диагностика предсказания (Simdata)


Слайд 58

Диагностика предсказания: ПЛС1 - Simdata [C1] = 0 – 1 M [C2] = 0 – 0.5 M [C3] = 0 – 0.05 M


Слайд 59

Правила построения «хорошей» калибровки правильно приготовить (собрать) образцы визуально изучить данные, если необходимо, применить предварительную обработку данных (pre-processing) если необходимо применить шкалирование/ взвешивание (scaling/weighting) интерпретировать модель, изучить структуру данных, выявить и удалить возможные выбросы тщательно оценить размерность модели, диагностировать модель диагностировать предсказание


Слайд 60

План семинара Пример 1. Концентрационная калибровка трехкомпонентной смеси ПАУ по спектрам в УФ-видимой области (искусственные данные). общие навыки калибровки, интерпретации и диагностики модели, предсказания на «идеальных» данных Пример 2. Определение октанового числа топлива по спектрам ближнего ИК. калибровка на реальных данных, обнаружение и удаление выбросов Пример 3. Качество пшеницы (факультативно). самостоятельное построение калибровки, MSC, выбор переменных


Слайд 61

Рекомендуемая литература Richard Kramer Chemometric Tchniques for Quantitative Analysis * Kim H. Esbensen Multivariate Data Analysis - in Practice ** Kenneth R. Beebee et al. Chemometrics: a Practical Guide ** Harald Martens, Tormod Naes Multivariate Calibration ** Richard G. Brereton Chemometrics: Data Analysis for the Laboratory and Chemical Plant *** Edmund R. Malinowski Factor Analysis in Chemistry ****


Слайд 62

Пример 1: Калибровка смеси ПАУ Файл Simdata Цель: выработка навыков калибровки с программой Unscrambler изучить наборы данные: обучающий, тестовый, «unknown» - в таблице, как серии спектров построить калибровки: РГК, ПЛС2 - сравнить модели построить ПЛС1 для каждого из 3-х компонентов, определить размерность моделей изучить графики scores, loadings, T-U, predicted vs measured, RMSEP, Variance для [С1] - [С3] с разным количеством факторов предсказать «неизвестные» образцы


Слайд 63

Пример 2: Определение октанового числа бензина стр. 139, файл Octane Цель: работа с реальными данными, диагностика и устранение выбросов преимущественно по книге: построить калибровку ПЛС1, диагностировать определить выбросы, удалить, обновить модель проверить модель различными способами, включая тестовый набор построить РГК, сравнить модели предсказать «неизвестные» образцы


Слайд 64

Пример 3: Качество пшеницы стр. 150, файл Wheat Цель: самостоятельное построение калибровочной модели построение моделей ПЛС1/2, сравнение моделей определение и удаление выбросов применение MSC попробовать удаление переменных для улучшения модели


×

HTML:





Ссылка: