НОВОСТИ   БИБЛИОТЕКА   ЭНЦИКЛОПЕДИЯ   КАРТА САЙТА   ССЫЛКИ   О САЙТЕ  







Успехи старшеклассников можно предсказать еще до того, как они пойдут в школу

Российские университеты вошли в топ-3 лучших вузов Восточной Европы

Как правильно делать домашние задания с ребенком

Госдума приняла закон о зачислении братьев и сестер в одну школу или детсад

Бизнес-тренинги как часть обучения

В Минобрнауки рассказали о возможных изменениях в сдаче ЕГЭ

Проект о праве братьев и сестер учиться в одной школе внесен в Госдуму

предыдущая главасодержаниеследующая глава

Методом отгадывания

Каким образом удалось определить эту величину? Ведь учет даже трехбуквенных сочетаний, частоты их употребления в текстах того или иного языка требует работы огромного объема. Между тем статистические связи между буквами, конечно, не ограничиваются триграммами, учетом частот всех этих тся, сть, щий и т. п. Надо знать частоты сочетаний четырех, пяти и более букв.

Однако на этом пути мы заходим в тупик. Число возможных комбинаций из девяти букв, например, измеряется триллионами. Сколько же текстов мы должны исследовать, чтобы получить достоверную статистику! А ведь и девять букв - не предел. Мы пишем и говорим предложениями, значит, в пределах этого предложения будут существовать статистические связи между буквами, задаваемые лексикой, грамматикой, синтаксисом. Длина же предложения измеряется десятками букв.

Задача, казалось бы, неразрешимая... Однако Клод Шеннон, одним из первых занявшийся изучением языка как кода, предложил остроумный способ решения этой задачи с помощью так называемого метода отгадывания. Метод этот был усовершенствован крупнейшим математиком нашей страны А. Н. Колмогоровым. С помощью этого метода была определена величина информации, приходящаяся на одну букву русского, английского, французского, польского, румынского, азербайджанского и других языков мира. (Первоначально опыты проводились в МГУ, а затем были продолжены ленинградским лингвистом Р. Г. Пиотровским, описавшим их в книге "Информационные измерения языка".)

Мы уже говорили о том, что информация - это то, что снимает неопределенность, уничтожает незнание... Где существует неопределенность, которую снимают буквы того или иного языка? Разумеется, в голове читателя осмысленного текста на этом языке. Вот этого-то читателя и надо использовать в качестве своеобразного измерителя величины информации, которую несет одна буква алфавита.

На одном полюсе будет человек, который не знает языка. Для него все буквы равновероятны, избыточность алфавита равна нулю, и один знак несет максимальную информацию кода (и никакой осмысленной информации не дает!). На другом полюсе - носитель языка, превосходно знающий его, интуитивно чувствующий вероятность появления того или иного слова в тексте. Такому человеку дается определенный текст, он прочитывает несколько страниц, вникает в стиль, сюжет, манеру повествования. Затем текст закрывается, и далее начинается процедура отгадывания. Предлагается найти продолжение этого текста: какая буква должна появиться?

Например, в опытах Пиотровского предлагался отрывок из статьи, опубликованной в газете "Известия": "И вот, приехав в тот город, где друг мой в свое время справлял свадьбу, я встретил его жену и сына, который учится уже в пятом классе. И сын его меня расспрашивает, правда ли, что я служил с его отцом, на каких кораблях плавали, где бывали. Я отвечаю на эти как будто нехитрые на первый взгляд..."

Дальше текст закрывался и предлагалось угадать букву, которая должна последовать. Отгадчик мог отказаться от ответа (в самом деле, мало ли какое слово может последовать после слов "на первый взгляд") или мог предложить какую-либо букву (например, в, считая, что следующим словом будет вопросы). Вслед за тем отгадчику называлась эта буква (в данном случае ею была буква р). Процедура вновь повторялась, причем отгадчик мог называть предполагаемую букву с малой или большой степенью уверенности, назвать две возможные в данном контексте буквы, имеющие, по его мнению, равную вероятность, или же отказаться от угадывания (в нашем примере требовалось угадать слово ребячьи - угадывание его шло безошибочно, когда известны стали три первые буквы; вероятно, столь же нетрудно угадать и дальнейшее продолжение - слово вопросы).

Полученные результаты обрабатывались математически. В итоге можно было получить величину информации, приходящуюся на одну букву осмысленного русского текста. Опыты, проведенные в МГУ, показали, что для классической русской прозы (отгадывались "Детские годы Багрова-внука" Аксакова и "Литературные вечера" Гончарова) она равна примерно одному биту. Сходную величину дали и опыты Р. Г. Пиотровского. Если сравнить эту величину в пятью "исходными" битами, мы увидим, что избыточность литературного русского языка классической прозы равна восьмидесяти процентам. Иными словами, четыре из пяти букв - "лишние"!

В пределах семидесяти-восьмидесяти процентов оказалась величина избыточности и для английского, французского, румынского, польского, азербайджанского, казахского языков. Весьма вероятно, что и во всех других языках мира избыточность, которую называют еще своеобразным запасом прочности языка, находится в этих пределах. Если бы в языке не было избыточности, то любое сочетание кодовых знаков, букв, образовало бы осмысленное слово, и тогда почти невозможно было бы исправить ошибку в написании. Не существовало бы и правил грамматики, и сочетаний смыслов слов... Так что избыточность это не излишество, не показатель несовершенства языка по сравнению с техническими кодами, а его важное и нужное свойство, которое возникло многие тысячи лет назад, но лишь сейчас начинает нами осознаваться благодаря теории информации.

предыдущая главасодержаниеследующая глава
top.mail.ru







Какие слова из японского языка прижились в нашей речи?

В немецком алфавите появилась новая буква

Карта сложности изучения иностранных языков

Что такое врожденная грамотность? Дело в хорошей зрительной памяти?

Ещё почти за 10 лет до Эсперанто, был придуман 'всемирный язык' - 'волапюк'

Оксфордский словарь попросил у подростков помощи в изучении сленга

«Маленький принц» был переведен на клингонский



10 малоизвестных фактов из жизни Рэя Брэдбери

Новые книги о вселенной Гарри Поттера выйдут осенью

Нобелевская премия по литературе в 2019 году будет вручена дважды

В Швеции вручили альтернативную Нобелевскую премию по литературе

Появился новый портал о детском и юношеском чтении «Хочу читать»

Авторам предложили разместить их книги для вечного хранения

Французский писатель Жюль Верн писал стихи!



Российские ученые нашли способ прочитать утраченные рукописи

Записи Леонардо да Винчи выложены в свободный доступ

Как в старинных книгах биологи ищут ДНК

В Москве откроют библиотеку комиксов

Письмо Толкина раскрыло, почему писатель не стал создавать продолжение «Властелина колец»

Найден экземпляр Первого фолио Шекспира, принадлежавший Джону Мильтону

Полные собрания сочинений русских классиков, изданные ИРЛИ РАН, в свободном доступе



© GENLING.RU, 2001-2021
При использовании материалов сайта активная ссылка обязательна:
http://genling.ru/ 'Общее языкознание'
Рейтинг@Mail.ru
Поможем с курсовой, контрольной, дипломной
1500+ квалифицированных специалистов готовы вам помочь