'

ДИНАМИЧЕСКАЯ СЕГМЕНТАЦИЯ ПРОСТРАНСТВА ПРИЗНАКОВ ДЛЯ СИСТЕМ АВТОНОМНОГО АДАПТИВНОГО УПРАВЛЕНИЯ И СИСТЕМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ

Понравилась презентация – покажи это...





Слайд 0

1 ДИНАМИЧЕСКАЯ СЕГМЕНТАЦИЯ ПРОСТРАНСТВА ПРИЗНАКОВ ДЛЯ СИСТЕМ АВТОНОМНОГО АДАПТИВНОГО УПРАВЛЕНИЯ И СИСТЕМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ А. Е. Лебедев, А. А. Жданов Институт точной механики и вычислительной техники имени С.А. Лебедева, Москва Autonomous Adaptive Control Lab (AAC Lab) http://www.ipmce.ru http://www.aac-lab.com


Слайд 1

2 Структура и функции «нервной системы» Автономного Адаптивного управления (ААУ)


Слайд 2

3 Соотношение методов ААУ и обучения с подкреплением Образы - условия Эмоциональная оценка результата действия ААУ Reinforcement Learning Состояния Подкрепление (вознаграждение)


Слайд 3

4 Аппроксимация vs. Дискретизация Набор входных параметров: p1 … pn Множество состояний {si} Набор доступных действий a1 …. ak Оценка ожидаемого подкрепления Q(si, ai) Аппроксимация Est(p1 … pn, ai): {(p1 … pn)} x ai > R Дискретизация {(p1 … pn)} -> {si}, Est(s,a): {si} x {ai} > R


Слайд 4

5 Проблема дискретизации пространства признаков - При малом числе состояний низкая точность, при большом – долгое обучение. - Кроме того, при любом фиксированном числе градаций для каждого из параметров число состояний растет экспоненциально при линейном росте числа параметров. («комбинаторный взрыв») параметр2 параметр1 ? Мало состояний Много состояний параметр N


Слайд 5

6 Предлагаемое решение последовательная сегментация пространства признаков в процессе обучения систем В результате образуется дерево вложенных состояний обучение обучение


Слайд 6

7 Основные подзадачи Производить ли разделение очередного состояния на более мелкие и когда? Dev(Est(sold, ab0) >= min( Dev( Est(snew1, ab1) , Dev( Est(snew2, ab2) ) Sold – исходное состояние, snew1, snew2 – дочерние состояния ab0, ab1, ab2 – лучшие действия для соответсвующих состояний Если да, то какой вариант разбиения выбрать? (как определить направление и пропорции?) max( Est(snew1, ab1) , Est(snew2, ab2) ) > max ?


Слайд 7

8 Свойства разработанного метода Итоговое разбиение пространства признаков на состояния неравномерно и отвечает специфике конкретной задачи. Определенное улучшение качества работы возможно в самом начале обучения без накопления большой статистики Накопление статистики для различных состояний происходит независимо (отсутствует «катастрофическое забывание») Получившийся в результате обучения закон управления может быть представлен в виде дерева решений и проанализирован человеком


Слайд 8

9 Экспериментальное исследование Экспериментальное исследование разработанного метода проводилось на компьютерной и на физической модели наноспутника с адаптивной системой управления


Слайд 9

10 Результаты экспериментального исследования Пример графика изменения качества управления при обучении с фиксированным набором состояний… И с использованием алгоритма динамической сегментации состояний


Слайд 10

11 Спасибо за внимание! А. Е. Лебедев, А. А. Жданов ИТМиВТ им. С.А. Лебедева, Москва AAC Lab http://www.ipmce.ru http://www.aac-lab.com aazhdanov@ipmce.ru


×

HTML:





Ссылка: