'

Машинный перевод

Понравилась презентация – покажи это...





Слайд 0

Машинный перевод Лидия Михайловна Пивоварова Системы понимания текста


Слайд 1

Введенние Машинный перевод – автоматический (без участия человека) перевод с одного языка на другой Сферы применения: большие объемы информации и/или высокие требования к скорости перевода: Документация Новости Военные сводки Интернет-сайты, многоязычный поиск Справочная информация (рецепты, объявления, адреса) Основная цель: быстро понять основное содержание сообщения на иностранном языке Не замена ручному переводу; можно даже сказать – другая задача


Слайд 2

Сожержание Основные подходы Перевод, основанный на правилах Перевод, основанный на машинном обучении Оценка машинного перевода


Слайд 3

Правила vs. статистика Информационное сообщение: Документ:


Слайд 4

Перевод по правилам Морфологический анализ Синтез групп (именные, глагольные и др.) Синтаксический анализ Синтез предложений Недостатки: Принципиальная сложность используемых алгоритмов Для достижения удовлетворительного качества перевода необходимо огромное количество правил, выводимых вручную Представляет собой «классический» подход к МП, реализован в большинстве современных систем автоматического или автоматизированного перевода, в т.ч. в ПРОМТ, SYSTRAN, Linguatec. Достоинства: При наличии необходимых для перевода правил – высокое качество перевода. Правила должны быть отлично выверены. Возможность настройки словарей с учетом предметной области


Слайд 5

Статистический МП Использует большие параллельные двуязычные корпуса N-грамм Поиск наиболее подходящего перевода реализован специальной вероятностной моделью Недостатки: Отсутствие каких-либо механизмов анализа грамматических правил Требует больших вычислительных мощностей Для удовлетворительной работы необходимы огромные объемы данных (сотни миллионов N-грамм) На данный момент статистический МП реализован только в некоммерческой системе on-line перевода Google translate Достоинства: для улучшения качества перевода достаточно добавлять массивы параллельных текстов, дополнительная работа лингвистов или программистов не требуется


Слайд 6

Сожержание Основные подходы Перевод, основанный на правилах прямой перевод трансфер интерлингва Перевод, основанный на машинном обучении Оценка машинного перевода


Слайд 7

Основные подходы Direct, transfer, interlingua


Слайд 8

Сожержание Основные подходы Перевод, основанный на правилах прямой перевод трансфер интерлингва Перевод, основанный на машинном обучении Оценка машинного перевода


Слайд 9

Прямой перевод Текст на исходном языке Морфологический анализ Перевод лексики (двуязычный словарь) Переупорядочивание Синтез морфологии Текст на целевом языке Пословный перевод (word-by-word) Никаких промежуточных структур помимо морфологии После перевода слов – простое переупорядочивание в соответствии со знанием о языке (например, в английском прилагательное идет до существительного, во французском и испанском – после) Используемое знание: морфологическая структура языка и локальные правила перевода слов


Слайд 10

Правила


Слайд 11

Прямой перевод Нет сложных лингвистических теорий и синтаксического анализа Использование синтаксической и лексической похожести между двумя языками «Надежность» - можно переводить даже неполные предложения Словари – наиболее важный компонент


Слайд 12

Слишком простая модель


Слайд 13

Содержание Основные подходы Перевод, основанный на правилах прямой перевод трансфер интерлингва Перевод, основанный на машинном обучении Оценка машинного перевода


Слайд 14

Система типа TRANSFER Предложение на языке входа Структура для языка входа Структура для языка выхода Предложение на языке выхода анализ TRANSFER синтез


Слайд 15

Основные идеи Применяются знания о различиях между языками Этапы: Синтаксический анализ Трансфер: синтаксическая структура исходного языка трансформируется в синтаксическую структуру целевого языка Синтез текста на целевом языке по синтаксической структуре


Слайд 16

Правила


Слайд 17

Трансфер лексики Лексические правила Двуязычные словари Т.е. сложность по сравнению с прямым переводом возрастает


Слайд 18

Пример: SYSTRAN SYSTRAN = PROMT in the world in Russia Более 90% рынка Доход в 2007 году ~13 млн евро Акции торгуются на бирже


Слайд 19

SYSTRAN: комбинация прямого перевода и трансфера Анализ Морфологический анализ, части речи Сборка словосочетаний Поверхностный синтаксис Трансфер Перевод идиом Снятие неоднозначности (word sense disambiguation) Выбор предлогов по глаголу Синтез Большой двуязычный словарь Переупорядочивание Синтез морфологии


Слайд 20

Система типа TRANSFER, но вместо последовательного TRANSFER’a – иерархически взаимосвязанные TRANSFER’ы для разных единиц перевода: Уровень лексических единиц Уровень групп Уровень простых предложений Уровень сложных предложений Пример: ПРОМТ


Слайд 21

TRANSFER на морфологическом уровне входная морф. инф. ? выходная морф. инф. TRANSFER на уровне групп Основа – формальные сетевые грамматики При анализе соединение синтаксических единиц в группы ? структура в терминах непосредственных составляющих ? синтез лексических единиц с наследуемыми значениями морф. признаков TRANSFER на уровне предложений Основа – фреймовые предикатные структуры Глагол – главный элемент Валентности глагола определяют заполнение фрейма Каждому типу фреймов соответствует некоторый закон преобразования в выходной фрейм и оформление актантов + Анализ сложных предложений – в случае формирования согласования времен и правильного перевода союзов. Промт: трансфер на разных уронях


Слайд 22

Словари Генеральный словарь Специализированные словари Пользовательские словари Чем уже тематика, тем лучше качество перевода


Слайд 23

Трансфер Глубокое лингвистическое знание – лучше качество перевода Компоненты анализа и синтеза могут использоваться для других языковых пар (теоретически) Тем не менее, создание систем машинного перевода очень сложно и трудоемко, сами системы громоздкие и сильно завязанные на конкретную пару языков


Слайд 24

Содержание Основные подходы Перевод, основанный на правилах прямой перевод трансфер интерлингва Перевод, основанный на машинном обучении Оценка машинного перевода


Слайд 25

Система типа INTERLINGUA Предложение на языке входа Метаструктура для языка входа == Метаструктура для языка выхода Предложение на языке выхода анализ синтез Пока ни одной подобной системы не создано Причина: сложность создания семантического представления приемлемого качества


Слайд 26

Transfer vs. interlingua


Слайд 27

Сожержание Основные подходы Перевод, основанный на правилах Перевод, основанный на машинном обучении Оценка машинного перевода


Слайд 28

Статистический перевод Основа - параллельный корпус Вероятности назначаются подсчетом наиболее вероятного варианта перевода Оценки вероятности зависят от объема и качества обучающего корпуса Лингвистическая информация: разбиение на предложения, графематический анализ, морфология При наличии корпуса простейшая система перевода может быть сделана на 2 недели


Слайд 29

Вероятностная модель Исходная цепочка S преобразуется в такую цепочку T целевого языка, что: T = argmaxp(T|S) Теорема Байеса: T = argmaxp(S|T)p(T) Содержательная интерпретация: хороший перевод – это сочетание точности передачи информации и правильности целевого языка; нужна модель перевода p(S|T) (вычисляется по пераллельному корпусу) и модель целевого языка p(T) (вычисляется по одноязычному корпусу)


Слайд 30

Языковая модель Правильный порядок слов Некоторые идеи грамматики Вычисляется с помощью n-грамм:


Слайд 31

Модель перевода p(f|e) – вероятность перевода строки (в идеале – предложения) f строкой e. Выравнивание, т.е. нахождение соответствия между f строкой e – отдельная задача. a – показатель качества выравнивания (alignment)


Слайд 32

Содержание Основные подходы Перевод, основанный на правилах Перевод, основанный на машинном обучении Оценка машинного перевода


Слайд 33

Bilingual Evaluation Understudy (BLEU) Требуется тестовое множество, переведенное человеком Оценивается близость между машинным и человеческим переводом Взвешенное среднее числа совпадений N-грамм машинного перевода с переводом человека


Слайд 34

Источники D. Jurafsky, J. H. Martin Speech and Language Processing – 2009 – Chapter 25 A. Ittycheriah Statistical Machine Translation // Handbook of natural language processing, Second Edition Editor(s): Nitin Indurkhya; Fred J. Damerau, Goshen, Connecticut, USA – 2010 – pp. 409-422 Dan Jurafsky From Languages to Information. Lecture 16-17: Machine Translation - http://www.stanford.edu/class/cs124/ Дмитрий Кан Введение в машинный перевод - http://www.slideshare.net/dmitrykan/introduction-to-machine-translation-2911038 Денис Столяров Автоматический перевод на основе шаблонов -http://mathlingvo.ru/nlpseminar/archive/s_23 Елена Уфлянд Работа автоматического переводчика ПроМТ - http://mathlingvo.ru/nlpseminar/archive/s_3 Александр Гребеньков Работа автоматического переводчика - http://mathlingvo.ru/nlpseminar/archive/s_10


×

HTML:





Ссылка: