'

Измерение частотности синтаксических молекул (на материале Генерального корпуса русского языка)

Понравилась презентация – покажи это...





Слайд 0

Измерение частотности синтаксических молекул (на материале Генерального корпуса русского языка) С. А. Крылов (krylov-58@mail.ru)


Слайд 1

понятие синтаксической молекулы 1. Для грамматического и лексического анализа русского языка оказывается весьма полезным понятие синтаксической молекулы (СМ). СМ есть минимальная синтаксически автономная единица членения речи, то есть минимальный отрезок, способный функционировать в качестве отдельной (быть может и эллиптичной) реплики, отвечающей на какой-либо вопрос. СМ обычно содержит не более одного полнозначного знаменательного слова; при этом в её состав может входить одно или несколько служебных (или полуслужебных) слов.


Слайд 2

«синтаксическая молекула» и «фонетическое слово» 2. Единица, близкая синтаксической молекуле, выделяется во многих фонетических работах под названием «фонетического слова» (ФС) или «морфемного комплекса». Особенности предлагаемого подхода к ФС, предполагающего составление частотного словаря фонетических слов – такие: (а) ФС рассматривается не только в синтагматическом, но и в парадигматическом аспекте; (б) ФС трактуется как двусторонняя (знаковая) единица; (в) в центре внимания находится именно инвентарный (словарный, лексикологический, лексикографический) аспект ФС 


Слайд 3

3.0. Три ранга СМ: макротакты, мезотакты и микротакты 3.1. Макротакт – морфемный комплекс между двумя местами потенциальных пауз (в отличие от более крупной единицы - фонетической синтагмы, границы которой отмечены реальными паузами). 3.2. Мезотакт – морфемный комплекс, включающий не более одного «полноударного» ФС. Мезотакт может включать в себя один или несколько «клитикоидов» (то есть «слабоударяемых» ФС и «относительных клитик») – постпозитивных («энклитикоидов») или препозитивных («проклитикоидов»). 3.3. Микротакт – морфемный комплекс, содержащий ровно 1 автономный (характеризуемый единством главного словесного ударения) словесный сегмент. Микротакты бывают простыми и составными. Составные микротакты включают, помимо автономного сегмента, также одну или несколько клитик – единиц, не несущих самостоятельного словесного ударения. Клитики подразделяются на энклитики (постпозитивные) и проклитики (препозитивные).


Слайд 4

способы выявления инвентаря «ментальных СМ» 4.0. Инвентарь ментальных СМ выявляется путём измерения их встречаемости в крупном корпусе текстов и создания частотного инвентаря реальных СМ . 4.1. Эта задача может решаться по-разному. Источником данных был корпус текстов, представленных в орфографической записи -- Генеральный корпус русского языка (ГКРЯ), созданный на основе «Уппсальского корпуса» русского языка (УпКРЯ), составленного под руководством Л. Лённгрена (http://www.slaviska.uu.se/ryska/index.html). В 1995 гг. автором настоящей работы под руководством С. А. Старостина (1953-2005) материалы УпКРЯ были преобразованы в формат текстовой базы данных, получившей название ГКРЯ.


Слайд 5

принципы «грубой» разметкой тактовой делимитации 5.0. В 2005-2008 гг. ГКРЯ был снабжён «грубой» разметкой тактовой делимитации. Она устроена так. 5.1. Пробелы письменного текста бывают паузальные (соответствующие границам макротактов в устной речи) и беспаузальные (для транскрибирования которых использован создан набор из 6 искусственных делимитаторов: { после проклитик; } перед энклитикой; < после проклитикоида; > перед энклитикоидом; <> между частями мезотакта с «неустойчивым» центром (то есть сочетания, допускающего двоякую акцентуацию: либо как «клитикоид + полноударное», либо как «полноударное + клитикоид»); + между мезотактами, образующими один макротакт.


Слайд 6

таблица «Частотность мезотактов с проклитиками в ЧС макротактов» 6.0. В таблице столбец (А) указывает на инвентаризуемую СМ (макротакт), (Б) - на её относительную частотность по числу текстов (%), (В) - на её абсолютную частотность по числу текстов, (Г) - на её ранг в ЧС, упорядоченном по числу текстов (этот параметр в таблице является ключевым), (Д) - на её относительную частотность по числу вхождений при измерении общего числа вхождений СМ в корпус (в числе вхождений данной единицы на 10 тыс., (Е) - на её абсолютную частотность по числу вхождений (этот параметр в таблице является побочным), (Ж) - на её ранг в ЧС, упорядоченном по числу вхождений.


Слайд 7

В результате разметки ГКРЯ оказалось возможным извлечь из него сведения о частотах СМ. Сосредоточим внимание на одном из классов СМ – а именно, на СМ, начинающихся с проклитики. Для наглядности ниже дана лишь частотная «верхушка» одного из полученных словарей 


Слайд 8

Частотность мезотактов с проклитиками в ЧС макротактов


Слайд 9


Слайд 10


Слайд 11


Слайд 12


Слайд 13


Слайд 14


Слайд 15


×

HTML:





Ссылка: