'

АВТОСТРУКТУРИЗАЦИЯ НЕПРЕРЫВНОГО ТЕКСТОВОГО ПОТОКА

Понравилась презентация – покажи это...





Слайд 0

Бодякин В.И. к.ф.-м.н. с.н.с. Институт проблем управления РАН им. В.А. Трапезникова, Москва E-mail: body@ipu.ru , http://www.informograd.narod.ru , служ.тел.:334-92-39 АВТОСТРУКТУРИЗАЦИЯ НЕПРЕРЫВНОГО ТЕКСТОВОГО ПОТОКА (Априорно неопределенной предметной области)


Слайд 1

010101010101001001001110110101010101010101010101010100101010101010101010101010000010101010101001010101010101010101001010100101010101010101010100101010101010101001010100101010101010101010010101010100100110101010101010101010101010101010101010101010101010100110010101010101010101010101010101010100101010101010101010101010010101010101010100110101010101010101001010 ПОЧЕМУ ВСЕ ОРГАНИЗМЫ "ЕДИНОДУШНЫ" В КЛАСТЕРИЗАЦИИ ОКРУЖАЮЩЕГО НАС МИРА НА ОТДЕЛЬНЫЕ ОБРАЗЫ ? …0100101… …0100101… …1010010… …0100101… Предметная область ..1010010… 2


Слайд 2

Традиционный способ структуризации в системах ИИ Програм-мист систем ИИ Предметная область 3


Слайд 3

Предметная область (ПО) – причинно-связанная совокупность физических процессов. Процесс – независимое от времени и пространства детерминированное изменение некоторого физического параметра во времени. Любой процесс может быть преобразован в текстовую форму. многомерный физический процесс <-> текстовая форма 4


Слайд 4

Задача: в непрерывном потоке ТФ необходимо выделить образы, соответствующие процессам любой ПО ПО ИС … АКРИСМКД УБЛЕНД … Цель: Минимальный словарь ИС (гомоморфен процессам ПО) Метод: построение в ИС множества различных словарей и выбор минимального (Ri) Инструментарий: нейросемантические структуры R1 МАКРИС ЛЕН ДУБ 5


Слайд 5

Демонстрационный пример (четыре равновероятных процесса формируют непрерывный поток ТФ) СМАКРИСРИСМАКДУБЛЕН Необходимо построить словарь в N образов, полностью покрывающий ТФ. Примем что: Энергетические затраты на обработку одного образа в ИС равна 1Е-. Время обработки символа и образа ? один такт Т, Энергетические затраты на хранение одного образа в памяти 1/24 Е-. Энергетика каждого прогнозируемого ИС символа равна 1Е+, Усредненный на 12 тактов энергетический баланс ИС = -N(обработка) -1/2N(хранение) + (12-N)(прогнозирование) = (12 - 5/2N)*E Текстовой поток Закрашенный поток 6


Слайд 6

Результаты эксперимента Первая структуризация словаря ИС Форма словаря: (наибольший размер образа один символ): <М><А><К><Р><И><С><Л><Е><Н><Д><У><Б>, R(ИС)=12R*(0,5Е-/R) = 6E-, прогнозирование (Т) = 0Т (т.к. у образа только один символ), затраты энергии на распознавание = 12E- контролирование потенциальной энергии ТФ = 0E+. Итог: для односимвольного словаря усредненный энергетический баланс = 18E- . Усредненный энергетический баланс ИС назовем эволюционным потенциалом ИС 7


Слайд 7

Вторая структуризация словаря ИС а) Минимальная форма словаря: <МА><К><РИ><С><ЛЕ><Н><ДУ><Б>: R(ИС)=8R =4Е-, прогнозирование = 0,5Т (на образ), затраты энергии на распознавание = 8E-, контролирование потенциальной энергии ТФ = 4E+. Итог а) 4Е- + (0,5Т * 8(образов на ТФ=12) = 4E+) + 8E- = 8E- . б) Максимальная форма (без полного пересечения): <МА><КЛ><КР><КД><КМ> <ЛЕ>…<БД>: R(ИС)= 20R=10Е-, прогнозирование = 0,2Т (на образ), затраты энергии на распознавание = 20E-, контролирование потенциальной энергии ТФ = 4E+. Итог б) 10Е- + (0,2Т * 20(образов на ТФ=12) = 4E+) + 20E- = 26E- . Итоговый лучший эволюционный потенциал = 8E- . (наибольший размер образа два символа): 8


Слайд 8

Третья структуризация словаря (наибольший размер образа в три символа). а) Минимальная форма словаря: <МАК><РИС><ЛЕН><ДУБ>: R(ИС)=4R =2Е-, прогнозирование = 2Т (на образ), затраты энергии на распознавание = 4E-, контролирование потенциальной энергии ТФ = 8E+. Итог а) 2Е- + (2Т * 4(образов на ТФ=12) = 8E+) + 4E- = 2E+. б) Максимальная форма (без дублирования, т.е. без полного пересечения): <АКР><ИСР><ИСМ><АКД> <УБЛ><ЕНД> … <АКМ>: R(ИС)= 36R=18Е-, прогнозирование (Т) = +4E, затраты энергии на распознавание = 36E-, контролирование потенциальной энергии ТФ = 0E+. Итог б) = 50E- . Лучший итоговый эволюционный потенциал = 2E+ , 50E- ? 2E+(!!). 9


Слайд 9

Четвертая структуризация словаря (наибольший размер образа в четыре символа) а) Минимальная форма словаря: <МАК><РИС><ЛЕН><ДУБ>: R(ИС)=4R =2Е-, прогнозирование = 2Т (на образ), затраты энергии на распознавание = 4E-, контролирование потенциальной энергии ТФ = 8E+. Итог а) 2Е- + (2Т * 4(образов на ТФ=12) = 8E+) + 4E- = 2E+. б) Максимальная форма (без дублирования): <АКРИ><ИСРИ><ИСМА> <АКДУ><УБЛЕ><ЕНДУ> … <АКМА>: R(ИС)= 48R=24Е-, прогнозирование (Т) = 0Т (на образ), затраты энергии на распознавание = 48E-, контролирование потенциальной энергии ТФ = 0,5E+. Итог б) = 78E- . Лучший итоговый эволюционный потенциал = 2E+ , 78E- ? 2E+ 10


Слайд 10

Пятая и другие структуризации словаря Лучший итоговый эволюционный потенциал = 2E+ , 204E- ? 2E+ Шестая структуризация словаря, седьмая … и т.д. ? 2E+ !!! Худший - ?E- Теоретический анализ результатов эксперимента показывает, что эволюционный потенциал ИС обратно пропорционален размеру словаря, Размеры минимальных и максимальных словарей ИС соотносятся как: o(N) и o(N3) !!! где: N – максимальный размер образа словаря 11


Слайд 11

МАКРИС ЛЕН ДУБ N Автоструктуризация информации в ИС ИС АКРИСРИСМАКДУБЛЕНД … АКМ РИС ДУБ МАКЛЕН N=4 СN[L/?] = N2+ [L/?] o(N3) >> o(N) !!! max min Минимальный словарь ИС -----> ! ! ! Образы ИС = процессам ПО N2(L-1)=32 min max 12


Слайд 12

Автоструктуризация иерархических процессов …ДА КОЛЯ ЛОВИТ РЫБУ СА… ИС При минимизации словаря на нейросемантических структурах, его топология гомоморфна структуре исходных процессов ПО Подл. Сказ. Обст. {…}{…}{…} иерархическая структура словарей образов Подл. Сказ. Обст. {…}{…}{…} иерархические процессы 13


Слайд 13

Нейросемантическая форма представления информации НСС Автоматическое выделение образов-процессов из предметной области в нейроподобные элементы НСС при минимизации ресурсных затрат (памяти) N?элемент (образ НСС) ? процесс предметной области 14


Слайд 14

Автоструктуризация на нейросемантических структурах RИС = f(число N-элементов, число связей)в битах 1/P (компрессия) = --------------------------------------------------------- ? 0 при t ? ? TФИС = объем текстовой информации в ИС в битах или ?RИС / ?TФИС ? 0 и ?RИС ? const, при t ? M при t ? ? Примеры: а) <RISMAKDUBLENLENDUBMAKMAKLENRISRISLENMAKRISDUBRIS> правильно выделяются все процессы: <MAK><RIS><MAK><DUB>; б)<ДОМЗЕБРЫСКИТНАДОМДОМВНАДОМВСКИТВНАСКИТВВЗЕБРЫНАВНА>, правильно выделяются все процессы:<ЗЕБРЫ><СКИТ><ДОМ><НА> <В>. сдвиг алфавита А в кодах ASCII в примере б) <ЕПНИЖВСЬТЛЙУОБЕПНЕПНГОБЕПНГТЛЙУГОБТЛЙУГЖВСЬОБГОБ> на +1 <?IGB@<KVLECMH;?IG?IG=H;?IG=LECM =H;LECM==B<KVH;=H;{> на -133. 15


Слайд 15

НСС – это пример 1-го формального преобразования количественной текстовой формы представления информации в качественно новую форму – структуру образов ИС Критерии достаточности: а) все пространство состояний; б) если человек может правильно структурировать данный тексто- вой материал в непривычной, но взаимнооднозначной нотации, в) наличие характерных особенностей динамического процесса при минимизации ресурса RИС 16


Слайд 16

По минимальной функции затрат ресурсов ИС Rис можно объективно определять процессы ПО Автомат "животн." ИС-человек При TИС = const (t) линейная; логарифмическая; const; функции затрат Rис f = (RИС (t)) : t RИС t RИС t RИС ИС Информация – знаковая последовательность на языке системы, соответствующая целому числу причинно-связанных процессов ПО … Определения: 17


Слайд 17

Теорема: минимальная форма словаря ИС может достигаться только при ее изоморфности исходной структуре процессов ПО Доказательство: Если представить формирование текстовой формы двумя независимыми и непересекающимися процессами А и Б, то становится очевидным, проц. А проц. Б 010010 УКЛОН ЭРМИТАЖ 101010010 образ А образ Б что минимальным словарем образов закрашивающим эти два процесса могут быть только образы совпадающие по текстовой форме с генерирующих их процессами. На вопрос: "Почему все организмы 'единодушны' в класте- ризации окружающего нас мира на отдельные образы ?" Вытекает ответ: "Т.к. минимальный словарь, дает эволюци- онные преимущества, то все ИС данной ПО выбирают его, а соответственно, и его образы". 18 ИС ПО


×

HTML:





Ссылка: