Для чего мы говорим? Что является целью всякого общения? Зачем в человеческом обществе существуют такие мощные и дальнобойные средства связи, как телевидение, радио, телеграф?
Очевидно, для передачи сведений. Или, говоря другими словами, для передачи информации. Слово информация имеет много значений. Но связистам, инженерам, техникам, математикам необходимо одно значение - точное и четкое. "Быстрое усовершенствование техники связи, рост потребностей в передаче информации, "кризис эфира", в котором "не умещается" информация, передаваемая в форме электромагнитных волн,- все это поставило очень остро проблему создания более экономных методов передачи информации",- пишет доктор физико-математических наук Р. Л. Добрушин в статье "Математические методы в лингвистике".
А прежде всего необходимо было ввести точную меру, единицу измерения информации. Еще в 1928 году американский инженер Хартли предложил оценивать количество информации логарифмом числа возможных событий.
Когда мы бросаем вверх монету, ясно, что она может упасть либо гербом, либо решеткой. Если мы бросаем игральный кубик, то неопределенность (или, как говорят математики, энтропия) исхода возрастает. Ведь с одинаковой вероятностью может выпасть любая из граней кубика, желанная шестерка столь же часта, как единица, двойка, тройка и т. д. Понятно, что сообщение о том, какой стороной упала монета, несет меньше информации, чем сообщение о том, сколько очков выпало при бросании кубика. Ибо информация - это то, что снимает неопределенность, то есть, попросту говоря, снимает незнание.
Общепринятой единицей измерения информации считается бит или "да - нет" единица. Слово бит происходит от сокращенных английских слов binary digest - двоичный разряд, так как для измерения информации в битах берутся не привычные нам со школьной скамьи десятичные логарифмы, а двоичные, основанием которых служит число 2.
Известие о том, что подброшенная в воздух монета упала гербом, принесет нам информацию ровно в один бит. Ведь log2 2 ("орел" или "решка"?) равен 1, то есть одному биту. Известие о том, что выпала игральная карта трефовой, пиковой или другой из четырех мастей, принесет нам информацию в два бита, ибо log2 4 = 2. Сообщение об исходе ситуации, где были возможны (и равновероятны!) восемь вариантов, даст информацию в три бита (log2 8 = 3, или 23 = 8, а число битов и есть показатель степени числа два).
Но эта мера удобна и верна лишь при условии, если все наши "выборы" равноправны, имеют одинаковую вероятность появления. И масть игральной карты, и любая грань кубика, и герб или решетка монеты выпадают с равной вероятностью. А как быть, если вероятности не равны?
Хартли понимал, что вероятности исходов влияют на количество информации, которое несет сообщение. Почти невероятному исходу нельзя придавать такое же значение, как и самому правдоподобному. Но он считал, что различия между этими исходами нельзя выразить в числах. Они определяются психологическими (если речь идет о людях), метеорологическими (если речь идет о погоде) или другими факторами, неподведомственными математике.
Однако в 1948 году американский математик и инженер Клод Шеннон показал, что эта точка зрения ошибочна. Любые факторы - психологические, метеорологические и т. д.- можно учесть, привлекая теорию вероятностей. Он предложил формулу, с помощью которой можно измерять количество информации о событиях, происходящих с разной вероятностью.
Вот эта формула Шеннона:
H1 = -(P1log2P1 + P2Iog2P2+ . . . + Pnlog2Pn).
Н1 - эта величина неопределенности, которую снимает сообщение, и, значит, мера количества информации (ведь информация уничтожает неопределенность); n - число "выборов", а Р1, Р2, ..., Рn - вероятности появления этих "выборов".
Благодаря этой формуле ученые получили возможность измерять информацию, содержащуюся в кодовых знаках самого различного содержания. Более того, благодаря тому, что мы избираем в качестве "меры" информации логарифмы, мы можем складывать информацию, содержащуюся в каждом кодовом знаке, составляющем сообщение, и таким образом измерить количество информации, содержащееся во всем сообщении.
Действительно, как учит теория вероятностей, вероятность появления двух событий равна произведению вероятностей этих событий. И сумма информации, которую несут кодовые знаки, равна информации всего текста, из этих знаков состоящего. Не будь логарифмов, нам пришлось бы умножать вероятности появления этих знаков. "Логарифмическая" формула Шеннона тем и удобна, что согласно ей информация двух страниц книги - это сумма информации первой страницы и информации второй страницы; информация всей книги - это сумма информации всех ее страниц.
Впрочем, здесь мы переходим уже не в область математики, а в область другой научной дисциплины - математической лингвистики.