АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА - преобразование текста на искусственном или естественном языке с помощью ЭВМ. Прикладные системы и теория А. о. т. начали создаваться в кон. 50-х гг. 20 в. (США, СССР, Франция, ФРГ и др.) и развивались в неск. разл. приложениях: в системном программировании, издат. деле и в вычислит, лингвистике. В системном программировании, предметом к-рого является создание программного обеспечения функционирования ЭВМ и работы пользователей, развивались инструментальные средства разработки программ, т. е. текстов на алгоритмич. языках (см. Искусственные языки). В издат. деле А. о. т.- одно из направлений автоматизации редакционно-издат. процессов. В этих областях термин "А. о. т." употребляется, как правило, в относительно узком смысле как преобразование формы. В вычислит, лингвистике, предметом к-рой является автоматич. лингвистич. анализ и синтез текста, а также лингвистич. аспекты общения с ЭВМ на естеств. языке, термин "А. о. т." понимается в более широком смысле, охватывающем и процедуры анализа содержания и синтеза (по заданному содержанию понятного человеку) текста.
В зависимости от целей различают неск. видов А. о. т. Преобразование текста при автоматизированном редактировании заключается во внесении в текст, находящийся в памяти ЭВМ, исправлений и дополнений; форматирование текста заключается в выделении заголовков, формировании строк и страниц нужного формата, выделении и оформлении разделов и подразделов текста для его воспроизведения на устройствах печати ЭВМ. В процессе автоматич. набора и верстки текст, введенный в ЭВМ, преобразуется в представление (код), воспроизводимое полиграфич. оборудованием (напр., фотонаборным автоматом). При лексикографич. обработке текст преобразуется в лексикографич. представление, в к-ром каждому словоупотреблению соответствует определ. информация в формируемом к этому тексту словаре. В автоматич. лингвистич. анализе текст последовательно преобразуется в его лексемно-морфологич., синтаксич. и семантич. представления. В процессе автоматич. синтеза производятся обратные преобразования: от семантич. представления через синтаксическое и лексемно-морфологическое к собственно текстовому.
Системы автоматизиров. редактирования (текстовые редакторы) и автоматич. форматирования (форматеры), наз. вместе системами А. о. т. в узком смысле (англ, text processing или word processing systems), с кон. 70-х гг. входят в состав системного программного обеспечения практически всех типов ЭВМ. Управление текстовыми редакторами и форматерами осуществляется через дисплей (устройство для ввода с помощью алфавитно-цифровой клавиатуры и отображения на экране электронно-лучевой трубки обрабатываемого текста). Изменения и дополнения в обрабатываемый текст могут быть внесены непосредственно с помощью указателя позиции в тексте (курсора), с помощью алфавитно-цифровой клавиатуры дисплея, а также с помощью спец. команд, воспринимаемых системой редактирования. В последнем случае одно и то же изменение может быть внесено одновременно во все места текста, где оно небходимо (напр., изменение написания собств. имени, расшифровка сокращения или, наоборот, сокращение определ. словосочетания). Текстовые редакторы и форматеры широко используются как средства подготовки и ввода в ЭВМ программ, программной документации, науч. отчетов и др. данных.
В издат. практике системы автоматизиров. редактирования используются, как правило, совместно с системами автоматич. набора и верстки. В качестве составных частей в такие системы входят и нек-рые лингвистич. программы, напр/ программы переноса слов в соответствии с орфографией данного языка, проверки и исправления орфографии, транслитерации и транскрибирования, выделения имен собственных и ключевых слов для автоматич. составления именных и предметных указателей (в последнем случае используются также программы лемматизации, т. е. преобразования текстовых форм слов в словарные).
Автоматизиров. лексикографич. системы, т. е. системы автоматизации подготовки и использования словарей, включают в себя программы и справочные данные, необходимые для лексикографич. обработки текстов. В них используются текстовые редакторы для ввода и коррекции программ, данных и запросов к системе, программы контроля орфографии и разметки входного текста, программы сегментации текста на слова, словосочетания, предложения и фрагменты словарных статей, программы лемматизации и подсчета статистики словоупотреблений, программы загрузки, поиска и коррекции данных и др. Введенные в систему тексты и/или словари размещаются в базах данных и снабжаются словоуказателями и др. индексами, позволяющими по слову или его характеристикам находить его контексты или словарные статьи, в к-рых оно описано. Результатом А. о. т. в автоматизиров. лексикографич. системах являются частотные словари, конкордансы (словоуказатели с контекстами), автоматич. моно- и многоязычные словари, размещаемые в базах данных и используемые программами лексикографич. систем в качестве справочного материала при обработке новых данных. Поэтому такие системы являются развивающимися системами. Автоматич. словари используются в системах автоматического перевода, а также в информационных системах и системах общения с ЭВМ на естеств. языке в качестве справочников при подготовке и расширении словарей и уточнении грамматик этих систем.
В составе лингвистич. обеспечения автоматизиров. информационных систем различают три группы функций А. о. т.: автоматич. индексирование входных документов, автоматич. составление поисковых предписаний по тексту запросов и автоматизиров. ведение словарей системы. Ядром лингвистич. обеспечения автоматизиров. информационных систем являются информационно-поисковые тезаурусы, в терминах к-рых производится индексирование вводимых в систему текстов. Индексирование текста заключается в составлении к нему поискового "образа", в к-ром указываются понятия, описываемые в тексте, и отношения между ними. Аналогично обрабатываются и запросы к системе. Сравнением поисковых предписаний с поисковыми образами документов осуществляется выбор текстов запрашиваемой тематики. Существуют и бестезаурусные системы, способные осуществлять поиск текстов по любым сочетаниям слов, встречающихся в них. В таких системах автоматически строятся словоуказатели к вводимым текстам.
Наиболее полно функции А. о. т. развиты в системах автоматич. перевода и системах человеко-машинного общения, где основным является синтаксич., а в системах общения с ЭВМ - семантич. анализ. Эти наиболее сложные формы А. о. т. целиком опираются на формальный аппарат, развитый в рамках математической лингвистики и вычислит. лингвистики. Здесь А. о. т. осуществляется сложными программами, наз. языковыми, или лингвистическими, процессорами (NLP - Natural Language Processor). Центр. функцией языковых процессоров является грамматич. разбор (parsing). Программы грамматич. разбора (parser) используют в качестве справочных данных формальные грамматики и словари того языка, тексты к-рого служат объектом анализа или синтеза. В качестве формальных грамматик используются расширенные грамматики непосредственны составляющих (контекстно-свободные грамматики), трансформационные грамматики, грамматики расширенных сетей переходов, являющиеся системами грамматик непосредственных составляющих, и др. В качестве формальных словарей используются прикладные (инженерные) варианты толково-комбинаторных словарей, т. е. спец. форм семантико-синтаксич. словарей, имеющих подробную информацию о вариантных формах слов, об их семантике и о сочетаемостных возможностях на лексич., семантич. и синтаксич. уровнях с учетом морфологич. ограничений. В нек-рых языковых процессорах систем автоматич. перевода и систем общения с ЭВМ такие словари могут быть использованы как для анализа, так и для синтеза текстов. Обычно языковые процессоры содержат морфологич., синтаксич., семантич. (или синтактико-семантич.) и словарную компоненты (подсистемы программ и данных), каждая из к-рых реализует динамич. модель языка на соотв. уровне. Языковые процессоры систем общения с ЭВМ опираются, как правило, на нек-рую систему представления знаний и взаимодействуют с ней, осуществляя функции логич. (дедуктивного) вывода. Знания часто представляются в виде т. наз. фреймов - языковых моделей определ. фрагментов действительности или семантич. сетей и образуют т. наз. базы знаний, хранимые в ЭВМ. Эти функции используются также и как средство раскрытия неоднозначностей (разрешения омонимии), восстановления эллипсисов, установления анафорических связей в тексте и в др. сложных случаях лингвистического анализа.
С 70-х гг. наблюдается тенденция к интеграции всех подходов к конструированию систем А. о. т. в рамках искусств, интеллекта - направления в информатике (computer science), связанного с созданием сложных человеко-машинных и робототехнич. систем, моделирующих человеческую деятельность в разл. сферах и предметных областях. В таких системах текст на естеств. или искусств. языке является как источником накопления знаний системы, так и источником данных для выбора ее поведения, а также средством взаимодействия системы с человеком. Здесь функции редактирования все больше сливаются с функциями содержат. обработки, образуя единый аппарат понимания текста. Это открывает возможности для автоматизации наиболее сложных областей человеческой деятельности, требующих затрат прежде всего интеллектуального труда, таких, как редакционно-издат. процессы, извлечение информации из текстов, медицинская и технич. диагностика, экспертная деятельность, проектирование машин и сооружений, изготовление проектной документации, управление социально-экономич. системами. Во всех этих случаях А. о. т. играет первостепенную роль. Однако в таких массовых, "промышленных" применениях А. о. т. должна опираться на мощную информационную поддержку в виде автоматизиров. словарных картотек, автоматич. словарей, грамматик и др. форм представления лингвистич. данных в ЭВМ. Разработка таких систем приобретает форму машинных фондов нац. языков, нац. автоматизиров. лексикографич. служб и т. п.
Лингвистич. обеспечение в системе автоматич. перевода третьего поколения. Предварит, публикация, М., 1978; Xисамутдинов В. Р., Авраменко В. С., Легоньков В. И., Автоматизиров. система информационного обеспечения разработок, М., 1980; Андрющенко В. М., Автоматизиров. лексикографич. системы, в кн.: Теоретич. и прикладные аспекты вычислит, лингвистики, М., 1981, с. 71 - 88; Попов Э. В., Общение с ЭВМ на естеств. языке, М., 1982; Белоногое Г. Г., Кузнецов Б. А., Языковые средства автоматизиров. информационных систем, М., 1983; Модели общения и лингвистич. процессоры, в кн.: Представление знаний в человеко-машинных и робототехнич. системах. Том А.- Фундаментальные исследования в области представления знаний, М., 1984, с. 183 - 210; Борковский А., Xельбиг Г., Системы подготовки текста, там же, том В.- Инструментальные средства разработки систем, ориентированных на знания, М., 1984, с. 73 - 87; Системы общения с ЭВМ на естеств. языке, там же, том С.- Прикладные человеко-машинные системы, ориентированные на знания, М., 1984, с. 36 - 69; Андрющенко В. М., Машинный фонд рус. языка: постановка задачи и практич. шаги, ВЯ, 1985, № 2; Hays D. G., Introduction to tcomputational linguistics, N. Y., [1967]; Вatоri I. S., Linguistische Datenverarbeitung, "Sprache und Datenverarbeitung", 1977, № 1, p. 2-11; Кnuth D. E.. Tau Epsilon Chi, a system for technical test, Providence, 1979, "SIGART Newsletter", 1982, № 79; Meyrowitz N., Dam A. van, Interactive editing systems, pt 1 - 2, "Computing Surveys", 1982, v. 14, № 3; Furuta R., Scofield J., Shaw A., Document formatting systems, там же.
В. М. Андрющенко.
Источники:
Лингвистический энциклопедический словарь/Глав. ред. В. Н. Ярцева - М.: Советская энциклопедия, 1990.- 685 с.: ил.