НОВОСТИ   БИБЛИОТЕКА   ЭНЦИКЛОПЕДИЯ   КАРТА САЙТА   ССЫЛКИ   О САЙТЕ  






13.02.2014

Новый инструмент лингвистических исследований

Сотрудниками и аспирантами отдела Севера и Сибири Института этнологии и антропологии РАН создан и пополняется электронный корпус текстов на четырех языках малочисленных народов Сибири — ненецком, телеутском, шорском и эвенкийском. Проект осуществляется в рамках программы Президиума РАН «Корпусная лингвистика» (2012-2014 гг.).

Лингвисты, антропологи и фольклористы, специализирующиеся на языках Сибири, получили доступ к еще одному инструменту, при помощи которого они могут создавать выборку важнейших сопряженностей для каждого слова, собирать статистику употребления лексем/словоформ, анализировать контекст словоупотребления в заданном тексте и во всем корпусе, сравнивать списки словоформ из всех представленных в корпусе текстов (по текстам, сказителям, или, на языке лингвистики, по говорам, диалектам и языкам).

Языки описываемого Корпуса относятся к тюркской (шорский и телеутский) и тунгусо-манчжурской (эвенкийский) ветвям алтайской макросемьи, а также к самодийской ветви уральской семьи языков (ненецкий).

На сайте проекта хранятся как исходные (включая рукописи, аудио- и видеозаписи), так и нормализованные (т.е. приведенные к орфографической норме соответствующего языка или диалекта) варианты записи текстов. Самые ранние тексты на шорском языке были записаны В. В. Радловым в 1861 году. База постоянно пополняется, так в книжном подкорпусе ненецкого языка недавно появились переводы Евангелия от Луки и Евангелия от Марка. Кроме того, есть современные газетные тексты на ненецком и эвенкийском, записи 1930-х — 1950-х из книг Г. М. Василевич (эвенкийский), архивные записи Н. П. Дыренковой (шорский), нескольких сборников ненецкого фольклора разных лет.

«Наш корпус — не единственный из числа тех, что имеют дело с языками малочисленных народов Сибири, но самый открытый, самый большой и с массой опций, которых нет в корпусах у профессиональных лингвистов, в чем целиком и полностью заслуга нынешнего руководителя проекта Кирилла Шаховцова», — рассказал идейный вдохновитель и первый руководитель проекта Дмитрий Анатольевич Функ, профессор, д.и.н., заведующий кафедрой этнологии МГУ.

«Система позволяет идентифицировать пары похожих предложений в заданных текстах и искать предложения, похожие на заданное по всему корпусу или набору текстов. Это очень нравится фольклористам, так как можно легко выявлять различные устойчивые выражения и прочие «формулы», они давно говорят о сотрудничестве», - уточняет Кирилл Шаховцов, к.и.н., научный сотрудник отдела Севера и Сибири ИЭА РАН, нынешний руководитель проекта.

Мысли о создании корпуса текстов на языках малочисленных народов Сибири появились у Дмитрия Анатольевича еще в 2007—2008 годах, когда он заведовал отделом Севера и Сибири Института этнологии и антропологии РАН. Оформить проектную заявку помог утренний звонок директора института: «В начале 2011 г. Валерий Александрович Тишков обратился ко мне с вопросом: «Мы что-нибудь знаем о корпусной лингвистике?». Разумеется, я ответил: «Да!». Через полчаса после звонка заявка на грант была отправлена директору. Так был получен первый грант на этот проект» (подробнее о корпусной лингвистике – см. лекцию Владимира Плунгяна «Почему современная лингвистика должна быть лингвистикой корпусов»).

Основой корпуса стали архивные материалы профессора Д. А. Функа по шорскому языку, пополняемые в ходе проекта новыми сборами в поле. «Наполнять корпус планировалось в основном шорскими материалами — это мои записи фольклора, которые я вел, начиная с 1983 г. Этих записей столько, что даже введенное сейчас в корпус — это в лучшем случае четверть имеющегося у меня. Эвенкийские тексты во многом являются результатом реализации данного проекта, позволившего совершать дополнительные полевые выезды для записи и расшифровки текстов», — поясняет профессор.

В прошлом году проект получил поддержку от двух фондов: РГНФ выделил грант на анализ эвенкийских и ненецких текстов, а Фонд фундаментальных лингвистических исследований — на расшифровку части записей Дмитрия Анатольевича 1983—85 гг.

Среди участников проекта – Александра Терехина, занимающаяся наполнением ненецкого корпуса, который был добавлен в 2012 году. Часть ненецкого материала записывалась в поле специально для проекта. Надежда Мамонтова, защитившая в прошлом году кандидатскую диссертацию по языку и идентичности эвенков, сейчас отвечает за наполнение эвенкийского корпуса и руководит проектом РГНФ.

Что касается самих представителей малочисленных народов Сибири, то некоторые из них (в частности, шорцы) участвуют в этом проекте, другие же, воодушевившись реализацией идеи, лишь демонстрируют готовность принять в нем участие. «Это на мониторе картинка красивая и все легко и быстро находится, сравнивается и т. п., но чтобы этой картинки добиться, надо элементарно часами, сутками, месяцами сидеть не вылезая из-за компьютера и вбивать по определенной методе эти самые тексты, а если это звук, то сначала его расшифровывать и т. д. и т. п.», — сетует Дмитрий Анатольевич.

Пока уровень финансирования не вполне соответствует затрачиваемым усилиям, что не позволяет ни быстро расширить круг охвата языков, ни интенсифицировать обработку имеющихся материалов, а архивных записей по всей России крайне много.

* * *

В тексте использованы фотографии из экспедиции к эвенкам «Информационно-прикладная миссия в Эвенкийском муниципальном районе Красноярского края по сбору информации для подготовки рекомендаций по поддержке языков, находящихся под угрозой исчезновения», организованной в июне 2011.


Источники:

  1. polit.ru










© GENLING.RU, 2001-2021
При использовании материалов сайта активная ссылка обязательна:
http://genling.ru/ 'Общее языкознание'
Рейтинг@Mail.ru
Поможем с курсовой, контрольной, дипломной
1500+ квалифицированных специалистов готовы вам помочь