'

Статистическая оценка функциональных свойств лексики по материалам Интернета

Понравилась презентация – покажи это...





Слайд 0

Статистическая оценка функциональных свойств лексики по материалам Интернета Владимир Иванович Беликов, ИРЯ им. В. В. Виноградова РАН Мария Вячеславовна Ахметова, журнал «Живая старина», Москва


Слайд 1

функциональные свойства лексики — любые нетривиальные грамматические и стилистические особенности слова или фразеологизма, упоминание которых ока-залась бы полезным в словарной статье


Слайд 2

Статистический анализ того типа, который будет демонстрироваться ниже, позволяет подтвердить, уточнить, иногда опровергнуть то, что говорится о словах и фразеологических единицах в стандартном толковом словаре, а также выявлять совсем «новые» свойства такого рода


Слайд 3

Задачи доклада Показать, что в настоящее время существуют легко-доступные и достаточно простые способы объективного выявления разнородных функциональных свойств лексики. Нетрудно убедиться, что многие частные ошибки в лексикологии и лексикографии — результат ориентации на интроспекцию, а также малые и непоказательные для языка в целом текстовые выборки. От критики таких частных решений пора переходить к созданию система-тической «стратегии обработки лексики», ориентирован-ной на современные информационные технологии, использующей всё многообразие языкового материала, которое мы получили в результате информационной революции.


Слайд 4

Материал и инструмент Типы текстов; Некоторые релевантные свойства Яндекса.


Слайд 5

Типы оцифрованных русскоязычных текстовых материалов Закрытые, в первую очередь базы СМИ. Очень полезны, но в силу ограничений на доступ не могут использоваться всегда и всеми (о них ниже речь пойдет минимально). Интернет-материалы «общего пользования»: Корпуса, в первую очередь НКРЯ. Задуманы как собрание текстов языка-объекта, пополняются целенаправленно по определенной программе. Текстовые массивы Интернета, корпусами их можно называть лишь метафорически. Создаются с разными целями, наполняются во многом стихийно.


Слайд 6

Интернет-материалы «общего пользования»: Корпуса, в первую очередь НКРЯ. параметры задаются и контролируются; поиск изначально рассчитан на лингвиста, технические затруднения носят случайный характер, поисковые возможности при развитии корпуса совершенствуются; объем ограничен, некоторые задачи невыполнимы. Текстовые массивы Интернета, корпусами их можно называть лишь метафорически. известны лишь самые общие характеристики (однако и их часто вполне достаточно); поиск не рассчитан на лингвистические задачи, со временем поисковые возможности могут существенно ухудшаться; объем неограничен.


Слайд 7

Важнейшие текстовые массивы Библиотека Максима Мошкова (БМ) с подмассивами: «Собрание классики», «Современная русская проза», [часть текстов раздела БМ «Современная литература» (lit.lib.ru) могла бы оказаться здесь, но там есть и сетевая литература] «Самиздат», •  •  •  •  •  •  •  •   Другие собрания литературных и стили-стически близких к ним текстов, в первую очередь «Журнальный зал». Русскоязычная блогосфера.


Слайд 8

В Библиотеке Мошкова граница между «Классикой» и «Современной русской прозой» достаточно условна, «сов-ременность» охватывает значительную часть советского периода. Собранием собственно современного профессиональ-ного литературного творчества является «Журнальный зал» (magazines.russ.ru), где сосредоточены журнальные публикации с 1990-х гг. «Самиздат» БМ — очень большое собрание самодеятель-ных текстов разного жанра; многие авторы имеют достаточно смутные представления о литературной норме, высока доля разговорной и просторечной лексики в авторском тексте, в целом лексикон «Самиздата» близок к разговорному узусу.


Слайд 9

Инструмент: Весь ли народ против Яндекса? С и л ь н о против только интернет-зависимые граждане в составе следующих категорий: нижегородцы, новгородцы, производители КАМазов, газовики Ямала, металлурги Нижнего Тагила и Старого Оскола, ряд менее значимых обиженных Яндексом групп. Лингвисты — «за», но с оговорками. Больше всего оговорок у «лексикологов нетрадиционной ориентации».


Слайд 10

Язык блогов во многом является отражением повседневного молодежного словоупотребления. Теоретически Яндекс допускает поиск в блогах с заданием отдельных параметров и их комбинаций: региона, пола и возраста (3 когорты) блоггеров, а также с выделением конкретного фрагмента блогосферы (livejournal.com, liveinternet.ru, diary.ru). На практике же Яндексу не удаются поиски в блогах одного из крупнейших городов России, Нижнего Новгорода (1313689 чел. по переписи 2002, 1275 тыс. чел. на начало 2008).


Слайд 11

Общий поиск возможен и по региону (например, Омская область), и по городу (например, Омск), поиск по блогам — только по городам. Потеря большая: Нижегородская область оказывается представленной только Дзержинском (248 тыс. чел.), Арзамасом (106 тыс. чел.) и более мелкими городами.


Слайд 12

Как видим, общий поиск в Нижнем Новгороде возможен. В поиске по блогам «теряются»: В Новгородской обл. — Великий Новгород и Старая Русса; крупнейший городом оказываются Боровичи (58 тыс. чел.). В ЯНАО — крупнейший город Новый Уренгой (118 т. ч.). Вторые по величине города Татарстана (Набережные Челны, 506 т. ч.), Свердловской обл. (Нижний Тагил, 376 т. ч.), Белгородской обл. (Старый Оскол, 220 т. ч.), Псковской обл. (Великие Луки, 100 т. ч.). И многое другое …


Слайд 13

Специфика отношения Яндекса к «лексикологам нетрадиционной ориентации» Не особенно дружественная политика Яндекса по отношению к любителям лексической статистики постоянно ужесточается. С самого начала появления поиска по блогам Яндекс вынуждал пользователей получать информацию блоками по 10 записей*, уже года два, как он отказывается показывать 1001-ю и последующие найденные единицы, а с лета 2008 г. поиск с разделением по возрасту стал невозможен — со второй страницы результатов Яндекс сбивается с ограничения по возрасту и выдает лишь общий результат. *Совет: если надо «скакнуть» на дальнюю страницу, можно не листать страницы выдачи, а в адресной строке заменить последнюю цифру на 99 (это сотая страница выдачи по блогам).


Слайд 14

Несмотря на технологические недостатки, при анализе лексики Яндекс позволяет верифицировать многое известное и вы-явить кое-что новое, иногда неожиданное. Продемонстрируем отдельные типологически разнородные наблюдения над лексикой и фразеологией.


Слайд 15

корректив (м. р.) или корректива (ж. р.)? «… Справочники устаревают и требуют корректив» (А. Н. Рыбаков, «Тяжелый песок», 1975—1977) Редкий случай, где материалов НКРЯ достаточно для доказательного анализа:


Слайд 16

Глаголы лазить (лажу, лазишь,…) и лазать (лазаю, лазаешь,…) признаются синонимичными и описываются обычно в одной статье; в московском словаре Шведовой [2007] второй снабжается пометой разг., что имеет естественное объяснение: «на слух» лазать в Москве говорят заметно реже, чем в Петербурге. Но в действительности положение с отдельными словоформами этих глаголов различно. Судя по блогам (2007—2008), в петербургском узусе преобладают личные формы «от лазать», соотношение: лазаешь/лазишь — 52/30, лазает/лазит — 204/112; но с заметно более частотными инфинитивами положение обратное: лазать: 797, лазить: 1120. В московских блогах преобладание «строго нормативного» инфинитива выражено очень явственно: за IV квартал 2008 соотношение: лазить/лазать составило 696/167, но с личными формами происходят странные вещи, за 2007—2008 гг. лазаешь/лазишь — 115/140, а лазает/лазит — 647/590.


Слайд 17

Попытка отыскать «правильную форму» 1 лица ед. ч. глагола лазить почти безнадежна: Яндекс находит только лажу именную. Глагольная форма лажу быстро устаревает и не всегда используется даже в старшем поколении; показательна реакция одного известного ученого (не русиста), чл.-корр. РАН: «Говорю лазию, пишу лазаю». «А лажу?» «Ну, это какое-то вульгарное просторечие. Из кичмана не вылажу». Не здесь ли разгадка письменной частотности лазаешь [устное лазиешь?] и лазает [устное лазиет?]


Слайд 18

определиться2 : Ушаков: Определить своё местонахождение, положение (спец.). Лётчик определился с помощью компаса. ОШ [практически то же]: ... с помощью приборов. ТСРЯ (Шведова, 2007) — без помет и дополнено: Определить своё местонахождение, положение; вообще установить, решить что-н. для себя. Лётчик определился с помощью приборов. О. в своих планах, целях, намерениях. М. С. Горбачев определялся по планам, целям, намерениям. После него определялись самым разным образом.


Слайд 19

Государству российскому необходимо четко определиться по своим внешнеполитическим целям и задачам («Время новостей»; 2006) Руководящий состав союза [РСПП] должен обновиться, а сама организация — определиться в своих целях и задачах («Ведомости»; 2005). В Пентагоне пока не определились относительно планов долгосрочного присутствия в Центральной Азии (Sobkor.Ru; 2002). Отвечая на вопрос корр. ИТАР-ТАСС, он [Аленичев] сказал, что пока не определился в отношении своих ближайших планов, отложив все до окончания чемпионата Европы по футболу (ИТАР-ТАСС; 2004). Правительство России на своем сегодняшнем заседании намерено определиться с вопросом о целях и принципах реформирования железнодорожного транспорта в стране (РИА «Новости»; 2000).


Слайд 20

Субъективное ощущение, что чаще всего так: К этому времени правительство должно определиться с планами налоговой реформы на 2004 год («Известия»; 12.04.2003). И если местные фирмы [Красноярские IT-компании] не сумеют выработать общий подход, определиться с целями, эти средства уйдут другим («Российская газета»; 28.06.2007). Правозащитники, уже убедившиеся, что приговор будет сугубо обвинительным, окончательно определились с намерением подавать жалобу в Европейский суд по правам человека («Новые Известия»; 31.05.2005).


Слайд 21

Анализ базы СМИ «Интегрум» показывает, что в самом начале 1990-х на смену определиться по чему-л. пришла модель определиться в чём-л. К середине 1990-х она стала вытесняться моделью определиться с чем-л., которая к настоящему времени оказалась вне конкуренции. Оборот в разговорном узусе не частый, но используемый. В блогосфере та же ситуация, что и в СМИ: поиск на определиться /+4 (планы | цели | намерения) по 2008 г. включительно выявил 25 случаев определиться в и 157 определиться с. «Исконное» определиться по с этими словами в блогах не встретилось.


Слайд 22

С другими управляемыми словами соотношение оказывается несколько иным, но там, где возможна конкуренция*, «с-управление» заведомо преобладает. При аналогичном поиске с наборами понятиями | терминами | определениями (мн. ч.) соотношение с- и в-управления — 56/23, понятие | термин | определение (ед. ч.) соотношение с- и в-управления — 22/2. * Определиться в несовместимо, например, с временными отрезками, ср. определиться с отпуском (*определиться в отпуске).


Слайд 23

Обращение к интернет-массивам позволяет довольно точно определить время и темпы конкретных словарных изменений. Изменения эти могут иметь разный характер: лексическая единица может «просто» устареть и выйти из употребления, может, наоборот, проявить территориальную или социальную экспансию, а может замениться другой, внешне сходной. В конце опубликованного текста доклада написано: Приведенные выше примеры можно легко умножить. Чтобы не быть голословными, в докладе мы будем упоминать и такие примеры, которых нет в напеча-танной версии, а кое-что из напечатанного опустим.


Слайд 24

От пешедрала к пешкодралу


Слайд 25

От мне это пофигу к мне на это пофиг


Слайд 26

Пятьдесят лет назад шофёры (и шоферa) заправлялись на бензоколонках, сейчас водители все чаще делают это на автозаправках.


Слайд 27


Слайд 28

Переход в литературных текстах и повседневном узусе от бензоколонок к автозаправкам — результат влияния языка СМИ. Лексикографическая справка: БТС (1998): автозаправка -и; ж. 1. Заправка топливом, смазочными маслами и т.п. транспортных средств. ‹…› 2. Разг. Автозаправочная станция; бензоколонка. ‹…› Новый БАС (т. 1, 2004. А—Бишь): Нет слова. No comments


Слайд 29

Соотношение текстов с бензоколонкой/автозаправкой в газетах


Слайд 30

Результаты за вычетом сочетаний королева бензоколонки и …японец — человек, а японка — автозаправка…


Слайд 31

Считается, что в Петербурге преобладает студень. Так в прессе, так в узусе старших возрастов холодец vs. студень МАС (2 изд.): студень — б/п, холодец — разг. БТС (1998): студень — б/п, холодец — нар.-разг. В Москве равно используются оба слова (Шведова-2007: оба слова б/п), но растущее предпочтение за холодцом. В Петербурге в младших возрастах побеждает холодец. Воронеж: Для воспитания «интереса и уважения к родному языку» ученики составлялся диалектный словарик «примерно из ста слов», куда вошли: «задорга (жердь или доска по краю русской печи), студень (холодец), жичина (хворостина), жужель (мелкая картошка)» [Голубева Г. Л. Что такое диалектные слова? // Русский язык; 2003, № 35].


Слайд 32

Любопытны региональные отличия в использовании этих слов в переносном значении: Студень дизелю не по зубам [«Автовитрина», СПб, заголовок]. Дизельный холодец [«МК-мобиль», Москва, заголовок]. Большая часть пассажирских автобусов работает на так называемом «летнем» дизельном топливе, которое при температуре ниже 12 превращается в холодец [«КП в Воронеже»].


Слайд 33

Блоги СПб по окт. 2008: студень/холодец: 1330/1026, но около половины студней в блогах несъедобны


Слайд 34

Соотношение «слов» студень/холодец по окт. 2008 в Москве — 1772/4634, в Петербурге — 1330/1026. В «октябрьских» материалах в Петербурге 55 кулинарных студней, в Москве 135. Студень ‘студент’ и особенно ‘студенческий билет’ явно петербургские жаргонные единицы.


Слайд 35

Интернет-блоги во многих случаях являются наиболее эффективным инструментом выявления ареалов распространения регионально маркированных единиц чойс ‘любая лапша быстрого приготовления’ и оптарь ‘оптовый рынок’ находятся только в Омске; садоогород ‘садово-огородное товарищество или участок в нем; используется и в официальных контекстах — почти исключительно в Удмуртии ; ссобойка (также собойка) ‘набор продуктов на работу, в дорогу; школьный завтрак, взятый из дома’ — практически только в Белоруссии.


Слайд 36

Эффективность анализа блогов зависит от типа лексики. Один «неблоговый» полюс — канцеляризмы. Простой случай: слово редкое и легко локализуется по месту издания документа: На период временного отсутствия прибора учета (ремонт, поверка) по заявке потребителя жилищно-эксплуатационная организация ‹…› устанавливает на место прибора трубный вставыш (Пермский край). Вставыш в словарях отсутствует, в ГОСТе Р 50193.2-92 фигурирует трубная вставка.


Слайд 37

Ареал недавнего «канцелярского» фразеологизма мокрая печать (поставленная непосредственно на документ, не ксерокопированная) вполне успешно определяется по доменам первого уровня при общем поиске в Интернете: преимущественно Украина, распространяется в России. Вот статистика числа сайтов с релевантными документами за отдельные годы:


Слайд 38

Другой полюс, плохо выявляемый в блогах: детская лексика Блоггеры редко пишут про игру в салочки, прятки, жмурки и т. п. Между тем региональные именования таких игр различны. По блогам ареал распространения выявляется очень примерно. Помогает опрос в Интернете, который выявляет и новые региональные именования. В нашей практике, например, так выявилось смоленское именование игры «в вышибалы» (устар. круговая лапта): высекалы.


Слайд 39

Временное ограничение: слабое региональное развитие блогосферы Чебэшка с орфографическими вариантами ‘дом, не полностью обеспеченный коммунальными удобствами; квартира в таком доме’ (от сокр. ч/б = частично благоустроенный) встретилось в пяти газетах (30 текстов), причем только из Якутии [Ахметова, «Диалог-2008»]. Анализ блогов практически ничего не дает: за 2007—2008 гг. слово чебэшка (чэбэшка, чебешка и т. п.) встретилось у 17 блоггеров в значении ‘черно-белая фотография, черно-белая фотопленка’ и лишь однажды в значении жилища — про якутский поселок Багатай, но у московского блоггера.


Слайд 40

Выводы В настоящее время материала для объективного описания лексики и фразеологии достаточно, будет еще больше. Инструментарий для работы с ним есть, будет совершенствоваться. Продемонстрированные способы обработки имеющегося материала существующим инструментарием достаточно просты. «Простые» способы пока не автоматизированы, значит трудоемки, но во-первых, стоит различать объектив-ные выводы и доказательные выводы. Выше — в силу специфики жанра доклада — мы стремились достичь не только объективности, но и высокого уровня доказательности. Во-вторых, можно надеяться на автоматизацию того, что пока делается вручную.


Слайд 41

Спасибо за внимание! Всех интересующихся методикой описания современного состояния русского лексикона приглашаем заходить на форумы «Городские диалекты» и «Как это будет по-русски?»


×

HTML:





Ссылка: