'

Компьютерный анализ естественно-языкового текста

Понравилась презентация – покажи это...





Слайд 0

Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках


Слайд 1

Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА Введение в дисциплину Автоматический анализ текста на морфологическом уровне Автоматический анализ текста на синтаксическом уровне Семантический компонент в системах автоматического анализа текста


Слайд 2

Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА Автоматический анализ текста на морфологическом уровне Морфологический уровень в ЛИТ Основные понятия морфологии в компьютерной морфологии Основные процедуры компьютерной морфологии Компьютерная морфология русского языка Технологии морфологического анализа «Предсказание» (типизация) Вопросы, смежные с синтаксисом


Слайд 3

ФОРМАЛЬНО-ЛИНГВИСТИЧЕСКИЙ СМЫСЛ КОНЕЧНОГО ПРЕОБРАЗОВАТЕЛЯ Конечный автомат – язык Конечный преобразователь – отношение Язык: L? V* Отношение: R? Vв* x Vн*


Слайд 4

ФРАГМЕНТ АНГЛИЙСКОЙ ГЛАГОЛЬНОЙ СИСТЕМЫ sing+Inf:sing; sing+3pSg:sings; sing+Past:sang; sing+PP:sung; spring+Inf:spring; spring+3pSg:springs; spring+Past:sprang; spring+PP:sprung;


Слайд 5

ФРАГМЕНТ АНГЛИЙСКОЙ ГЛАГОЛЬНОЙ СИСТЕМЫ: КОНЕЧНЫЙ ПРЕОБРАЗОВАТЕЛЬ s O p r i n g Inf: O 3PSg: s i:a i:u n n g Past:O g PP: O


Слайд 6

ЛЕКСИКОН В ФОРМАТЕ Xerox Tools Multichar_Symbols +Inf +3pSg +Past +PP LEXICON Root sing+Inf:sing # ; sing+3pSg:sings # ; sing+Past:sang # ; sing+PP:sung # ; spring+Inf:spring # ; spring+3pSg:springs # ; spring+Past:sprang # ; spring+PP:sprung # ;


Слайд 7

ЛИСТИНГ РАБОТЫ С XFST (1) >xfst


Слайд 8

ЛИСТИНГ РАБОТЫ С XFST (2) >xfst Copyright й Palo Alto Research Center 2001-2007 Xerox Finite-State Tool, version 2.6.2 Type "help" to list all commands available or "help help" for further help. xfst[0]:


Слайд 9

ЛИСТИНГ РАБОТЫ С XFST (3) >xfst Copyright й Palo Alto Research Center 2001-2007 Xerox Finite-State Tool, version 2.6.2 Type "help" to list all commands available or "help help" for further help. xfst[0]: read lexc ex3c.txt


Слайд 10

ЛИСТИНГ РАБОТЫ С XFST (4) Copyright й Palo Alto Research Center 2001-2007 Xerox Finite-State Tool, version 2.6.2 Type "help" to list all commands available or "help help" for further help. xfst[0]: read lexc ex3c.txt Reading ISO-8859-1 text from 's-lex.txt' Root...2 Building lexicon...Minimizing...Done! 1.5 Kb. 14 states, 19 arcs, 8 paths. Label Map: Default Closing 's-lex.txt' xfst[1]:


Слайд 11

ЛИСТИНГ РАБОТЫ С XFST (5) Copyright й Palo Alto Research Center 2001-2007 Xerox Finite-State Tool, version 2.6.2 Type "help" to list all commands available or "help help" for further help. xfst[0]: read lexc ex3c.txt Reading ISO-8859-1 text from 's-lex.txt' Root...2 Building lexicon...Minimizing...Done! 1.5 Kb. 14 states, 19 arcs, 8 paths. Label Map: Default Closing 's-lex.txt' xfst[1]: print words


Слайд 12

ЛИСТИНГ РАБОТЫ С XFST (6) Closing 's-lex.txt' xfst[1]: print words sing+3pSg:s sing+Inf:0 si:ang+Past:0 si:ung+PP:0 spring+3pSg:s spring+Inf:0 spri:ang+Past:0 spri:ung+PP:0 xfst[1]:


Слайд 13

ЛИСТИНГ РАБОТЫ С XFST (7) Closing 's-lex.txt' xfst[1]: print words sing+3pSg:s sing+Inf:0 si:ang+Past:0 si:ung+PP:0 spring+3pSg:s spring+Inf:0 spri:ang+Past:0 spri:ung+PP:0 xfst[1]: print net


Слайд 14

ЛИСТИНГ РАБОТЫ С XFST (8) xfst[1]: print net Sigma: a g i n p r s u +Inf +PP +Past +3pSg Size: 12, Label Map: Default Net: Flags: deterministic, pruned, minimized, epsilon_free, loop_free Arity: 2 s0: s -> s1. s1: i -> s2, p -> s3, i:a -> s4, i:u -> s5. s2: n -> s6. s3: r -> s7. s4: n -> s8.


Слайд 15

ЛИСТИНГ РАБОТЫ С XFST (9) s0: s -> s1. s1: i -> s2, p -> s3, i:a -> s4, i:u -> s5. s2: n -> s6. s3: r -> s7. s4: n -> s8. s5: n -> s9. s6: g -> s10. s7: i -> s2, i:a -> s4, i:u -> s5. s8: g -> s11. s9: g -> s12. s10: +Inf:0 -> fs13, +3pSg:s -> fs13.


Слайд 16

ЛИСТИНГ РАБОТЫ С XFST (10) s4: n -> s8. s5: n -> s9. s6: g -> s10. s7: i -> s2, i:a -> s4, i:u -> s5. s8: g -> s11. s9: g -> s12. s10: +Inf:0 -> fs13, +3pSg:s -> fs13. s11: +Past:0 -> fs13. s12: +PP:0 -> fs13. fs13: (no arcs) xfst[1]:


Слайд 17

ФРАГМЕНТ АНГЛ. ГЛАГОЛЬНОЙ СИСТЕМЫ: КОНЕЧ. ПРЕОБРАЗОВАТЕЛЬ (версия Xerox) s0: s -> s1. s1: i -> s2, p -> s3, i:a -> s4, i:u -> s5. s2: n -> s6. s3: r -> s7. s4: n -> s8. s5: n -> s9. s6: g -> s10. s7: i -> s2, i:a -> s4, i:u -> s5. s8: g -> s11. s9: g -> s12. s10: +Inf:0 -> fs13, +3pSg:s -> fs13. s11: +Past:0 -> fs13. s12: +PP:0 -> fs13. fs13: (no arcs)


Слайд 18

ФРАГМЕНТ АНГЛ. ГЛАГОЛЬНОЙ СИСТЕМЫ: КОНЕЧ. ПРЕОБРАЗОВАТЕЛЬ (версия Xerox) s p r i n g Inf: O 3PSg: s i:a i:u n n g Past:O g PP: O i i:a i:u


Слайд 19

КОНЕЧНЫЙ ПРЕОБРАЗОВАТЕЛЬ КАК СРЕДСТВО МОРФ. АНАЛИЗА И СИНТЕЗА xfst[1]: up spring spring+Inf xfst[1]: up sprang spring+Past xfst[1]: up sung sing+PP xfst[1]: down sing+3pSg sings xfst[1]:


Слайд 20

ЛЕКСИКОН В ФОРМАТЕ Xerox Tools Multichar_Symbols +Inf +3pSg +Past +PP LEXICON Root sing+Inf:sing # ; sing+3pSg:sings # ; sing+Past:sang # ; sing+PP:sung # ; spring+Inf:spring # ; spring+3pSg:springs # ; spring+Past:sprang # ; spring+PP:sprung # ;


Слайд 21

РАСШИРЕНИЕ ЛЕКСИКОНА LEXICON Root sing+Inf:sing # ; sing+3pSg:sings # ; spring+Inf:spring # ; spring+3pSg:springs # ; sprint+Inf:sprint #; sprint+3pSg:sprints #; sprout+Inf:sprout #; sprout+3pSg:sprouts # spruce+Inf:spruce #; spruce+3pSg:spruces # spud+Inf:spud #;


Слайд 22

РАСШИРЕНИЕ ЛЕКСИКОНА на ЯЗЫКЕ LEXC LEXICON Root sing Ending ; spring Ending ; sprint Ending ; sprout Ending ; spruce Ending ; spud Ending ; LEXICON Ending +Inf:0 #; +3pSg:s #;


Слайд 23

РЕЗУЛЬТАТ РАСШИРЕНИЯ ЛЕКСИКОНА xfst[1]: print words sing+Inf:0 sing+3pSg:s sprint+Inf:0 sprint+3pSg:s spring+Inf:0 spring+3pSg:s sprout+Inf:0 sprout+3pSg:s spruce+Inf:0 spruce+3pSg:s spud+Inf:0 spud+3pSg:s


Слайд 24

ОБЩИЕ СВЕДЕНИЯ О ЗАПИСИ ЛЕКСИКОНОВ НА ЯЗЫКЕ LEXC (1)


Слайд 25

ОБЩИЕ СВЕДЕНИЯ О ЗАПИСИ ЛЕКСИКОНОВ НА ЯЗЫКЕ LEXC (2)


Слайд 26

ТИПЫ СЛОВАРНЫХ СТАТЕЙ В ЛЕКСИКОНАХ LEXC LEXICON Root go # ; go:went #; < d o:i 0:d > # ; <a b c* (d) e+ > # ;


Слайд 27

РЕГУЛЯРНЫЕ ВЫРАЖЕНИЯ Обобщающий термин для средств записи регулярных языков и регулярных отношений Конечный автомат соответствует регулярному языку Конечный преобразователь соответствует регулярному отношению


Слайд 28

ФОРМАЛЬНО-МАТЕМАТИЧЕСКИЙ СМЫСЛ РЕГУЛЯРНОГО ЯЗЫКА Регулярный язык - формальный язык, специфика которого заключается в способе определения: определяется по образцу алгебраического исчисления, т.е. через исходный алфавит и набор операций, которые могут быть применены к символам этого алфавита, образуя цепочки определяемого языка. Множество всех возможных регулярных языков над заданным алфавитом - результат всех возможных применений операций определенного класса


Слайд 29

РАЗГРАНИЧЕНИЕ ПОНЯТИЙ (1) Символ a Цепочка “a” Язык {“a”} Язык {“a”} Регулярное выражение a Конечный автомат (задается диаграммой или таблицей) Автоматная грамматика (задается набором правил)


Слайд 30

РАЗГРАНИЧЕНИЕ ПОНЯТИЙ (2) Регулярным выражением обозначается язык Регулярное выражение компилируется в виде конечного автомата Язык представляется в виде конечного автомата


Слайд 31

ОСНОВНЫЕ ОПЕРАЦИИ РЕГУЛЯРНЫХ ЯЗЫКОВ конкатенация (a b или {ab}) итерация (* и +) факультативность (заключение в круглые скобки) объединение (|) отрицание/дополнение (~) и термовое отрицание/дополнение (\) пересечение (&)


Слайд 32

ФОРМАЛЬНО-МАТЕМАТИЧЕСКИЙ СМЫСЛ КОНЕЧНОГО ПРЕОБРАЗОВАТЕЛЯ Конечный автомат – регулярный язык Конечный преобразователь – регулярное отношение Регулярное отношение: Результат объединения произведений регулярных языков


Слайд 33

РАЗГРАНИЧЕНИЕ ПОНЯТИЙ Символ a Цепочка “a” Язык {“a”} Пара символов a:a Пара цепочек “a:a” Отношение {“a:a”}


×

HTML:





Ссылка: