Задачи нового корпуса русского языка

О современной компьютерной лингвистике, проблемах, стоящих перед ней, и путях ее дальнейшего развития рассказал директор по лингвистическим исследованиям компании ABBYY, заведующий кафедрами компьютерной лингвистики МФТИ и РГГУ Владимир Павлович Селегей.

- На прошедшей летом этого года конференции «Диалог» вы с коллегами сделали доклад, посвященный проекту нового языкового корпуса – Генерального интернет-корпуса русского языка (ГИКРЯ). Каковы цели ГИКРЯ, в чем его отличия от Национального корпуса русского языка?

- Многие лингвисты, работающие с Национальным корпусом, обнаруживают, что содержащихся в нем данных недостаточно для проводимого ими исследования. Из-за этого, как это было показано, например, в докладе на той же конференции Анны Зализняк и Ирины Микаэлян, лингвистам приходится обращаться к интернету. В противном случае, опираясь только на данные НКРЯ, можно сделать неверный вывод о приемлемости или особенности употребления того или иного слова или языковой конструкции. Особенно это заметно в случае, когда имеет место вариативность в ее употреблении: зависимость от региональных, жанровых, социолингвистических параметров. Такие явления требуют существенно большего объема данных для исследования, чем есть в существующих корпусах (нужны не сотни миллионов, а десятки миллиардов словоупотреблений).

- Выручит ли исследователей интернет?

- Для решения многих задач лингвисты вынуждены пользоваться интернетом. Беда тут в том, что обращаться за данными интернета лингвист сегодня может только с помощью поисковой системы, такой как Google или Яндекс. А эти системы вовсе не предназначены для лингвистических исследований: алгоритмы поиска ориентированы прежде всего на информационный и бизнес-поиск: их лингвистические возможности и выдаваемая ими статистика не позволяют получать результаты той степени надежности, которая нужна лингвисту. Сами создатели поисковых систем неоднократно объясняли это. Например, в организованном Институтом Лингвистики РГГУ цикле научных лекций по компьютерной лингвистике в Политехническом музее в прошлом году выступал Андрей Плахов, руководитель отдела поиска Яндекса. Он объяснял лингвистам, что статистике Яндекса, в особенности большим цифрам (больше тысячи), доверять нельзя. На нашем докладе на конференции «Диалог» мы продемонстрировали, как колоссально пляшут эти цифры в зависимости от различных параметров, учитываемых системой поиска (например, географического расположения пользователя, истории его запросов и многого другого).

Таким образом, приходится констатировать, что у лингвиста сегодня нет адекватного инструмента анализа актуальных языковых процессов и что достаточно часто имеет место некритичное пользование теми инструментами, которыми мы все же располагаем, будь то Нацкорпус или Google-Яндекс.

На самом деле, когда вы работаете с каким-то инструментом, будь то измерительный прибор, языковой корпус или система поиска в интернете, вы должны хорошо понимать принципы его работы и границы его применения.

Например, если говорить о НКРЯ или о сопоставимых по объему национальных корпусах других языков, то оказывается, что на таких объемах и при таких методах отбора корпусного материала (ручных и часто достаточно случайных), корпус оказывается чрезмерно чувствительным к тому, что в него заложено.

Чем ближе исследуемый вопрос к ядру грамматической системы или универсальному лексическому ядру языка, тем с большей вероятностью вы получите адекватный ответ. Как только вы переходите к чему-то периферийному, неоднородно распределенному, исчезающему или же, наоборот, возникающему в языке, такие корпуса дают случайные, ненадежные результаты.

- Как это проявляется?

Мы провели много экспериментов, например, сравнили НКРЯ с полученными из интернета корпусами близкого объема и состава. Например, мы брали тексты из популярного ресурса «Журнальный зал», в котором представлен современный литературный русский язык, и сравнили некоторые данные в полученном корпусе с данными НКРЯ. Выяснилось, что есть заметные расхождения в лексическом составе, связанные с тем, какие конкретно тексты из потенциально подпадающих под принципы отбора реально попали в корпус. Например, сравнили данные по паре вариантов переадресация и переадресовка. Слово переадресовка, которое уходит из активного словоупотребления, показало по данным НКРЯ примерно ту же частотность, что и переадресация. При внимательном анализе данных выяснилось, что в НКРЯ вошел большой объем текстов из журнала «Наука и жизнь», в котором слово переадресовка постоянно использовалось в повторявшемся из номера в номер разделе журнала, где речь шла об условиях подписки. Он и дал статистику, скрывающую процесс практически полного ухода этого варианта из живого языка. Если бы в корпус попал другой журнал: например, «Химия и жизнь», статистика по этим вариантам оказалась бы другой. То есть, результат оказался слишком чувствителен к процедуре отбора данных.

Или еще пример со словом виртуальный. Реальная динамика употребления слова виртуальный в русском довольно очевидна: слово стало широко употребляться в результате развития программирования, компьютерных технологий, интернета. Если же вы посмотрите данные НКРЯ, то обнаружите неожиданный всплеск частоты употребления слова виртуальный в середине XIX века. Причина проста: в НКРЯ попало непропорционально большое количество текстов математика М. В. Остроградского. Он очень любил слово виртуальный, употребляя его в некотором специфическом значении. И труды этого математика повлияли на историческую статистику.

Конечно, неустойчивость корпуса к процедуре и источнику отбора данных особенно заметна в сфере лексики, но и в исследовании грамматики, особенно лексикализованной ее части, может заметно сбить исследовательский прицел.

Разумеется, эти соображения ни в коей мере не умаляют той огромной роли в объективизации результатов лингвистических исследований, которую сыграл и продолжает играть Национальный корпус. Просто проблема состоит в том, чтобы научиться определять и границы его применения.

- Что же будет представлять собой ГИКРЯ?

Если существующие корпуса дают честные результаты поиска, но малы, а интернет велик, но при этом ненадежен, то наша задача состоит в том, чтобы соединить достоинства этих инструментов, постаравшись избавиться от недостатков. Нужен такой корпус текстов, чтобы в нем была и критическая масса нужных данных, и возможность задать запрос с учетом лингвистических параметров и получить по нему надежные статистические результаты.

Для создания такого корпуса мы пользуемся интернетом, но выкачиваем из него не все подряд, а только нужные тексты в необходимом количестве. Собранные тексты обрабатываются, очищаются от всякой служебной информации, дублирования и автоматически размечаются (здесь нам очень важны достигнутые компьютерной лингвистикой результаты в автоматическом анализе языка). Помимо языковой разметки вносится и т.н. метатекстовая: жанровые характеристики текста, характеристики авторов, например, пол (гендер), возраст, географическое расположение. В нашем докладе мы продемонстрировали, какие интересные результаты можно получить, если давать статистику не усредненную по корпусу, а с учетом, например, географии авторов и других различительных параметров.

Имея в корпусе несколько миллиардов слов, собранных по источникам, которые позволяют идентифицировать регион автора (прежде всего из блогосферы), мы получили материал, в котором замечательно видны региональные языковые особенности.

Создание словарей, фиксирующих различия в языковой норме разных регионов России, является целью отдельного проекта «Языки русских городов». Он возник намного раньше, чем появилась первая версия ГИКРЯ, и долгое время участники проекта вынуждены были использовать те инструменты поиска, которые были доступны. Очень помогала, в частности, база региональных СМИ «Интегрум», которая позволяла частично проверить наши данные. Теперь же, имея в корпусе необходимые для сравнительного исследования объемы текстов из разных регионов, гораздо легче решать такие задачи, как, например, мониторинг изменений в русском языке с учетом лингвогеографии.

- В докладе были перечислены самые разные признаки, которые должна отражать металингвистическая разметка ГИКРЯ: от возраста пишущего, территориальной привязки, вплоть до того, насколько пишущий ставит своей целью развлечь аудиторию. Полная разметка огромного массива текстов по всем этим параметрам представляется задачей такого масштаба, что непонятно, как ее реализовать. Реально ли выполнить разметку автоматически?

В создании языкового корпуса есть две проблемы: собрать корпус и разметить его. Параметры социолингвистической разметки более или менее ясны: возраст, гендер, уровень образования. Но и тут возможны сложные случаи. К какому гендеру следует отнести корпоративные тексты, скажем, от компании «Майкрософт»? По идее, такой текст должен быть гендерно нейтрален, но часто у него есть автор, который бессознательно гендерно окрашивает его.

Как организуется автоматическая разметка? Для этого вам надо иметь достаточно большой, так называемый обучающий корпус, который надежно размечен по той характеристике, которую мы хотим научиться определять автоматически. Например, для гендера это не очень сложно, так как легко найти и в блогах, и в «Журнальном зале» авторизованные тексты. На обучающем корпусе проводятся исследования, связывающие интересующие нас новые характеристики с другими, уже имеющимися в разметке параметрами, прежде всего с лексическими и грамматическими признаками. Сегодня такие исследования проводятся с помощью хорошо развитых методов т.н. машинного обучения. Нельзя сказать, что тут все обстоит идеально, есть множество проблем, которые нужно научиться решать. Но автоматическая языковая разметка текста (части речи, грамматические, синтаксические характеристики) становится надежнее с каждым годом, что позволяет добавлять в разметку текста все большее число коррелирующих с ними метатекстовых параметров.

Для гендерной разметки, например, разные исследователи на разных корпусах получают точность атрибуции от 80 до 95 процентов. С географической разметкой ситуация сложнее, но и здесь удается автоматически атрибутировать достаточный для региональных исследований объем текстов.

Серьезной проблемой является то, что имеется большое количество интуитивно очевидных параметров текстов, связанных с их функционированием в культуре, которые до сих пор изучены не настолько хорошо, чтобы использовать их для разметки.

Например, в первый день конференции «Диалог» был доклад А. А. Кибрика о состоянии современной дискурсивной таксономии, то есть науки о типах текста. Лингвисты, филологи, переводчики активно пользуются термином «жанр», но сама система категорий, связанная с жанрами, очень плохо определена. Мы в своем докладе приводили примеры того, насколько отличаются применяемые жанровые классификаторы (в разных корпусах, словарях, в библиотечных каталогах, и т. п.). Установить соответствие между текстовыми типами, используемыми в разных классификаторах, очень и очень сложно, если вообще возможно.

В таких случаях нам приходится решать не только задачу автоматического определения жанра, но и объективного исследования самого жанра как категории, выделение в ней независимых значений, статус которых подтверждается языковыми данными в корпусе.

Такой работой на материале русскоязычных текстов никто еще всерьез не занимался.

Здесь и приходится использовать специальные базовые дифференциальные признаки, связанные с функционированием текста, например, упомянутый Вами признак, связанный с задачей развлечь читателя.

Сейчас мы используем в экспериментах по жанровой классификации систему из 18 независимых признаков, которую предложил один из участников проекта, профессор университета Лидса и РГГУ Сергей Шаров (кстати, один из создателей Национального корпуса русского языка).

Используя такие системы признаков для разметки обучающих корпусов, мы пытаемся группировать жанрово близкие тексты и решать задачу поиска лингвистических коррелятов их жанровых особенностей.

Результатом такого эксперимента, в котором активно участвуют магистранты кафедр компьютерной лингвистики РГГУ и МФТИ, должна стать система «объективных» жанровых типов, которую мы и будем применять при автоматической разметке ГИКРЯ.

Мы рассчитываем, что на Диалоге-2014 сможем показать наш корпус, работающий в режиме, приближенном к боевому. Хотя для создания массового интернет-ресурса с доступом большого числа исследователей предстоит еще немало поработать. Мы надеемся, что создание такого уникального ресурса для лингвистического анализа современного состояния русского языка будет важным не только для лингвистов, но и вызовет интерес у тех, кто полагает нужным поддерживать проекты, связанные с изучением русского языка.

Максим Руссо

Источники:

polit.ru

ПОИСК:

© GENLING.RU, 2001-2021
При использовании материалов сайта активная ссылка обязательна:
http://genling.ru/ 'Общее языкознание'