Лингвистические базы данных

Развитие лингвистической типологии заставляет ученых все чаще прибегать к такому удобному инструменту, как базы данных. О некоторых подобных проектах, таких как база данных «Языки мира» или «Типологическая база данных адъективной лексики», СМИ уже писали. Мы сосредоточимся на лингвистической типологии и не будем рассматривать этимологические базы данных и языковые корпуса.

Начнем мы с двух проектов, которые появились в виде доступных онлайн баз данных совсем недавно, в ноябре этого года. Один из них – Atlas of Pidgin and Creole Language Structures (APiCS), ранее выпущенный в виде книги издательством Oxford University Press. APiCS Online позволяет выяснить, какие лингвистические характеристики имеют различные языки контактного происхождения, то есть пиджины, креольские и смешенные языки. В базе на данный момент описано 76 языков, каждый из которых охарактеризован по 130 параметрам. Среди этих параметров есть фонетические (наличие носовых гласных, тонов, губно-зубных щелевых согласных), лексические (различаются ли обозначения синего и зеленого цвета, одним словом или разными обозначают рука и палец, синий и зеленый цвет, как обозначается различие пола у животных), грамматические (порядок слов, есть или нет двойственное число у местоимений, противопоставлены ли формы инклюзива и эксклюзива, какая система вида и времени глаголов). Можно даже узнать, где распространены языки, в которых слезы называются сложным словом со структурой типа «глаз + вода». Карты, которыми снабжена база APiCS Online, позволяют оценить географическое распространение интересующих пользователя явлений.

Есть в числе параметров APiCS Online такие, которые специфически именно для пиджинов и креольских языков. Например, во многих таких языках слово со значением ‘ребенок’ или ‘маленький’ восходит к португальскому прилагательному pequeno. Оно может иметь вид, например, piccaninny, pikin или pickney. Аналогичная история с глаголом ‘знать’, который в ряде креольских языков выглядит, как save, savvy или sabi. Эти слова происходят от португальского или испанского saber или французского savoir. Распространение этих слов в контактных языках мира помогает восстановить историю формирования этих языков.

К сожалению, в APiCS Online пока очень мало данных из пиджинов и креольских языков на основе русского. В базу вошло описание лишь одного – дальневосточного китайско-русского пиджина. Его подготовила Е. В. Перехвальская, работающая в Институте лингвистический исследований РАН.

Также недавно была открыта база AfBo («A world-wide survey of affix borrowing»), посвященная случаям заимствования, но не лексики, а словообразовательных и грамматических показателей – аффиксов. Над ее созданием семь лет работал Франк Сейфарт из Института эволюционной антропологии Общества Макса Планка (Лейпциг). На данный момент в AfBo описаны 657 заимствованных аффиксов. Обратившись к этой базе, можно, например, узнать, что из русского языка в карельский были заимствованы 6 аффиксов, в язык алеутов острова Медный – 15, в кильдинский саамский – 5, в язык литовских цыган – 5, в идиш – 13, в иврит – 6. Заимствования из русского в иврит представлены суффиксами -ник- (например, в слове kibucnik), -ист-, -чик-, -ер-, -изм-, а также встречающимся, правда, только в шуточном словообразовании формантом -ология-. База позволяет искать не только по языкам, но и по значениям аффиксов. Можно узнать, какие аффиксы заимствуются наиболее часто, или выяснить, в каких языках встречаются, например, заимствованные показатели множественного числа.

Если речь идет о языковых заимствованиях, нельзя не упомянуть о проекте The World Loanword Database (WOLD), существующем с 2009 года. Он посвящен как раз лексическим заимствованиям и охватывает данные по 369 языкам-источникам заимствований и 41 языку, принимающему заимствования. Возможен поиск по значениям, например, мы узнаем, какие языки заимствовали слово «свадьба», а какие – слово «развод». Можно только пожалеть, что эта интересная база данных не пополняется.

В перечне типологических баз данных обязательного упоминания заслуживает «Всемирный атлас языковых структур» (The World Atlas of Language Structures, WALS). В виде книги он появился в 2005 году, а в 2008 стал доступен в интернете. В базе данных представлены 192 различных языковых характеристики. В основном это грамматические и синтаксические характеристики, но присутствуют также фонетические и даже лексические. В качестве отдельного параметра есть и тип системы письма. Обратившись к WALS, можно выяснить даже, насколько верно предположение, что в языках местоимения первого лица часто содержат звук [м], а местоимения второго лица – звук [т]. База снабжена краткими статьями работавших над ней лингвистов, где описываются и комментируются включенные в WALS языковые явления. Возможно составление пользовательских карт, где комбинируются данные по нескольким характеристикам. Всего в WALS используются данные более чем двух тысяч языков, но не для всех из них описаны все параметры, однако репрезентативность WALS достигается наличием 100 языков, обязательно присутствующих в описании любого из признаков.

Сразу много независимо созданных типологических баз данных объединены в The Typological Database System (TDS), расположенную на сайте университета Утрехта. Другая система типологических баз (AUTOTYP) поддерживается учеными из Лейпцигского университета и Калифорнийского университета в Беркли. Свои типологические базы ведутся также лингвистами из университетов города Кан (Франция) и Павии (Италия). Несколько небольших баз доступны на сайте группы по изучению морфологии университета Суррея. Среди них есть посвященные, например, согласованию, синкретизму в выражении категории лица, супплетивизму, дефектным парадигмам. Ученые из Утрехта и Берлина собрали базу данных по показателям реципрока («взаимного залога»).

Архив языковых универсалий (The Universals Archive), доступный на сайте университета Констанца (Германия), содержит комментированный список из 2029 характеристик, которые свойственны всем или, по крайней мере, многим языкам мира. На том же сайте есть и коллекция явлений, которые претендуют на то, чтобы считаться уникальными или крайне редкими.

Если вы интересуетесь фонетическими системами языков мира, можно обратиться к специализированной базе данных UCLA Phonological Segment Inventory Database. Там можно сравнить фонетический инвентарь разных языков, увидеть, в каких языках он наиболее богат, а в каких – крайне невелик, посмотреть, насколько широко представлен в языках мира тот или иной звук. Также будут полезны база данных Лейденского университета, посвященная типам ударения, или база тональных систем, которую создали в Беркли.

Есть и базы данных, относящиеся к лексической типологии. Тот же Калифорнийский университет в Беркли поддерживает базу данных, посвященную цветообозначениям в различных языках. В университете Граца (Австрия) создана база данных, посвященная интересному явлению – редупликации. В специализированной базе можно даже сравнить числительные от одного до десяти в более чем пяти тысячах языков.

Максим Руссо

Источники:

polit.ru

ПОИСК:

© GENLING.RU, 2001-2021
При использовании материалов сайта активная ссылка обязательна:
http://genling.ru/ 'Общее языкознание'