'

Автоматический поиск переводных словосочетаний

Понравилась презентация – покажи это...





Слайд 0

Автоматический поиск переводных словосочетаний Новицкий Валерий, компания ABBYY


Слайд 1

2 Цели и задачи Задача: Поиск переводных словосочетаний (словосочетаний и их переводов на другой язык) по корпусу выровненных параллельных текстов Цели: Разработка алгоритма получения словосочетаний (с учётом ряда специфических требований) Получение статистических данных для улучшения работы синтаксического анализатора Расширение переводного словаря


Слайд 2

3 Дополнительные требования и исходные данные Требования к получаемым словосочетаниям: Синтаксическая связанность Размер от 1 до 5 слов Устойчивый перевод Целостность (словосочетание не является частью другого, более полного словосочетания) И т.д. Исходные данные и внешние механизмы Корпус выровненных параллельных текстов Синтаксический анализатор Механизм пословного сопоставления синтаксических структур


Слайд 3

4 Схема алгоритма Корпус параллельных синтаксических структур (размеченный параллельный корпус) Генерация одноязычных словосочетаний Пословное выравнивание синтаксический структур Генерация переводных словосочетаний Фильтрация и сортировка полученного результата


Слайд 4

5 Фильтрация Задача: убрать случайные словосочетания Этапы фильтрации: Предварительное удаление низкочастотных словосочетаний Удаление вложенных/«внешних» словосочетаний Разрешение неоднозначности перевода Удаление известных (словарных) переводов Финишная фильтрация по частоте Сортировка результатов на новые словарные статьи и собственно переводные словосочетания


Слайд 5

6 Результаты Корпус: ~4,2 млн. фрагментов На выходе: ~62 млн. уникальных словосочетаний После фильтрации: ~42 тыс. переводных словосочетаний Оценку полноты произвести затруднительно Оценка точности полученных результатов экспертом по выборке 100 случайных словосочетаний: Хорошие – 67 Недостатки описания – 4 Недоработки алгоритма – 16 Другие – 12


×

HTML:





Ссылка: