Значение АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА в Лингвистическом энциклопедическом словаре

Что такое АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА

— преобразование текста на искусственном или естественном языке с помощью ЭВМ. Прикладные системы и теория А. о. т. начали создаваться в кон. 50-х гг. 20 в. (США, СССР, Франция, ФРГ и др.) и развивались в иеск. разл. приложениях: в системном программировании, издат. деле и в вычислит, лингвистике. В системном программировании, предметом к-рого является создание программного обеспечения функционирования ЭВМ и работы пользователей, развивались инструментальные средства разработки программ, т. е. текстов на алгорит-мнч. языках (см. Искусственные языки). В издат. деле А. о. т.— одно из направлений автоматизации редакциоиио-издат. процессов. В этих областях термин «А. о. 14 АВТОМАТИЧЕСКАЯ т.» употребляется, как правило, в относительно узком смысле как преобразование формы. В вычислит, лингвистике, предметом к-рой является автоматич. линг-вистич. анализ и синтез текста, а также лингвистич. аспекты общения с ЭВМ на естеств. языке, термин <А. о. т.» понимается в более широком смысле, охватывающем и процедуры анализа содержания и синтеза (по заданному содержанию понятного человеку) текста. В зависимости от целей различают неск. видов А. о. т. Преобразование текста при автоматизированном ре- дактировании заключается во внесении в текст, находящийся в памяти ЭВМ, исправлений и дополнений; форматирование текста заключается в выделении заголовков, формировании строк и страниц нужного формата, выделении и оформлении разделов и подразделов текста для его воспроизведения на устройствах печати ЭВМ. В процессе автоматич. набора и верстки текст, введенный в ЭВМ, преобразуется в представление (код), воспроизводимое полиграфия, оборудованием (напр., фотонаборным автоматом). При л е к с и-к о г р афич. обработке текст преобразуется в лексикография, представление, в к-ром каждому словоупотреблению соответствует определ. информация в формируемом к этому тексту словаре. В автоматич. лингвистич. анализе текст последовательно преобразуется в его лексемио-морфологич., синтаксич. и семантич. представления. В процессе автоматич. синте-з а производятся обратные преобразования: от семантич. представления через синтаксическое и лексемно-морфологиче-ское к собственно текстовому. Системы автоматизиров. редактирования (текстовые редакторы) и автоматич. форматирования (форматер ы), наз. вместе системами А. о. т. в узком смысле (англ. text processing или word processing systems), с кон. 70-х гг. входят в состав системного программного обеспечения практически всех типов ЭВМ. Управление текстовыми редакторами и форматерами осуществляется через дисплей (устройство для ввода с помощью алфавитно-цифровой клавиатуры и отображения иа экране электронно-лучевой трубки обрабатываемого текста). Изменения и дополнения в обрабатываемый текст могут быть внесены непосредственно с помощью указателя позиции в тексте (курсора), с помощью алфавитно-цифровой клавиатуры дисплея, а также с помощью спец. команд, воспринимаемых системой редактирования. В последнем случае одно и то же изменение может быть внесено одновременно во все места текста, где оно небхо-димо (напр., изменение написания собств. имени, расшифровка сокращения или, наоборот, сокращение определ. словосочетания). Текстовые редакторы и форматеры широко используются как средства подготовки и ввода в ЭВМ программ, программной документации, науч. отчетов и др. данных. В издат. практике системы автоматизиров. редактирования используются, как правило, совместно с системами автоматич. набора и верстки. В качестве составных частей в такие системы входят и нек-рые лингвистич. программы, напр. программы переноса слов в соответствии с орфографией данного языка, проверки и исправления орфографии, транслитерации и транскрибирования, выделения имей собственных и ключевых слов для автоматич. составления именных и пред- метных указателей (в последнем случае используются также программы леммати-зации, т. е. преобразования текстовых форм слов в словарные). Автоматизиров. лексикографич. системы, т. е. системы автоматизации подготовки и использования словарей, включают в себя программы и справочные данные, необходимые для лексикографич. обработки текстов. В них используются текстовые редакторы для ввода и коррекции программ, данных и запросов к системе, программы контроля орфографии и разметки входного текста, программы сегментации текста иа слова, словосочетания, предложения и фрагменты словарных статей, программы лемматизации и подсчета статистики словоупотреблений, программы загрузки, поиска и коррекции данных и др. Введенные в систему тексты и/или словари размещаются в базах данных и снабжаются словоуказателями и др. индексами, позволяющими по слову или его характеристикам находить его контексты или словарные статьи, в к-рых оно описано. Результатом А. о. т. в автоматизиров. лексикографич. системах являются частотные словари, конкордансы (словоуказатели с контекстами), автоматич. моио- и многоязычные словари, размещаемые в базах данных н используемые программами лексикографич. систем в качестве справочного материала при обработке новых данных. Поэтому такие системы являются развивающимися системами. Автоматич. слова-р и используются в системах автоматического перевода, а также в информационных системах и системах общения с ЭВМ на естеств. языке в качестве справочников при подготовке и расширении словарей и уточнении грамматик этих систем. В составе лингвистич. обеспечения автоматизиров. информационных систем различают три группы функций А. о. т.: автоматич. индексирование входных документов, автоматич. составление поисковых предписаний по тексту запросов и автоматизиров. ведение словарей системы. Ядром лингвистич. обеспечения автоматизиров. информационных систем являются информационно-поисковые тезаурусы, в терминах к-рых производится индексирование вводимых в систему текстов. Индексирование текста заключается в составлении к нему поискового «образа», в к-ром указываются понятия, описываемые в тексте, и отношения между ними. Аналогично обрабатываются и запросы к системе. Сравнением поисковых предписаний с поисковыми образами документов осуществляется выбор текстов запрашиваемой тематики. Существуют и бестезаурусные системы, способные осуществлять поиск текстов по любым сочетаниям слов, встречающихся в них. В таких системах автоматически строятся словоуказатели к вводимым текстам. Наиболее полно функции А. о. т. развиты в системах автоматич. перевода и системах человеко-машинного общения, где основным является синтаксич., а в системах общения с ЭВМ — семантич. анализ. Эти наиболее сложные формы А. о. т. целиком опираются на формальный аппарат, развитый в рамках математической лингвистики и вычислит, лиигви-отики. Здесь А. о. т. осуществляется сложными программами, наз. языковыми, или лингвистическими, процессорами (NLP— Natural Language Processor). Центр, функцией языковых процессоров является грам-матич. разбор (parsing). Программы грам-матич. разбора (parser) используют в качестве справочных данных формальные грамматики и словари то- го языка, тексты к-рого служат объектом анализа или синтеза. В качестве формальных грамматик используются расширенные грамматики непосредственных составляющих (контекстно-свободные грамматики), трансформационные грамматики, грамматики расширенных сетей переходов, являющиеся системами грамматик непосредственных составляющих, и др. В качестве формальных словарей используются прикладные (инженерные) варианты толково-комбинаторных словарей, т. е. спец. форм семантико-син-таксич. словарей, имеющих подробную информацию о вариантных формах слов, об их семантике и о сочетаемостных возможностях на лексич., семантич. и синтак-сич. уровнях с учетом морфологич. ограничений. В иек-рых языковых процессорах систем автоматич. перевода и систем общения с ЭВМ такие словари могут быть использованы как для анализа, так и для синтеза текстов. Обычно языковые процессоры содержат морфологич., синтаксич., семантич. (или синтактико-семантич.) и словарную компоненты (подсистемы программ и данных), каждая из к-рых реализует динамич. модель языка на соотв. уровне. Языковые процессоры систем общения с ЭВМ опираются, как правило, на нек-рую систему представления знаний и взаимодействуют с ней, осуществляя функции логич. (дедуктивного) вывода. Знания часто представляются в виде т. наз. фреймов — языковых моделей определ. фрагментов действительности или семантич. сетей и образуют т. иаз. базы знаний, хранимые в ЭВМ. Эти функции используются также и как средство раскрытия неоднозначностей (разрешения омонимии), восстановления эллипсисов, установления анафорических связей в тексте и в др. сложных случаях лингвистического анализа. С 70-х гг. наблюдается тенденция к интеграции всех подходов к конструированию систем А. о. т. в рамках искусств, интеллекта — направления в информатике (computer science), связанного с созданием сложных человеко-машинных и робототехнич. систем, моделирующих человеческую деятельность в разл. сферах и предметных областях. В таких системах текст иа естеств. или искусств, языке является как источником накопления знание системы, так и источником данных для выбора ее поведения, а также средством взаимодействия системы с человеком. Здесь функции редактирования все больше сливаются с функциями содержат, обработки, образуя единый аппарат понимания текста. Это открывает возможности для автоматизации наиболее сложных областей человеческой деятельности, требующих затрат прежде всего интеллектуального труда, таких, как ре-дакционио-издат. процессы, извлечение информации из текстов, медицинская и техиич. диагностика, экспертная деятельность, проектирование машин и сооружений, изготовление проектной документации, управление социально-экономич. системами. Во всех этих случаях А. о. т. играет первостепенную роль. Однако в таких массовых, «промышленных» применениях А. о. т. должна опираться на мощную информационную поддержку в виде автоматизиров. словарных картотек, автоматич. словарей, грамматик и др. форм представления лингвистич. данных в ЭВМ. Разработка таких систем приобретает форму машинных фондов нац. языков, нац. автоматизиров. лекснкографич. служб и т. п. 9 Лингвистич. обеспечение в системе автоматич. перевода третьего поколения. Предварит, публикация, М., 1978; X и с а м у т-дииов В. Р., Авраменко В. С, Легоньков В. И., Автоматизиров. система информационного обеспечения разработок, М., 1980; Аидрющеико В. М., Автоматизиров. лекснкографич. системы, в кн.: Теоретич. и прикладные аспекты вычислит, лингвистики, М., 1981, с. 71—88; П о-пов Э. В., Общение с ЭВМ на естеств. языке, М., 1982; Б е л о ного в Г. Г., Кузнецов Б. А., Языковые средства автоматизиров. информационных систем, М., 1983; Модели общения и лингвистич. процессоры, в кн.: Представление знаний в человеко-машинных и робототехнич. системах. Том А.— Фундаментальные исследования в области представления знаний, М., 1984, с. 183— 210; Борковский А., X е л ь б и г Г., Системы подготовки текста, там же, том В.— Инструментальные средства разработки систем, ориентированных на знания, М., 1984, с. 73—87; Системы общения с ЭВМ на естеств. языке, там же, том С— Прикладные человеко-машинные системы, ориентированные на знания, М.. 1984, с. 36—69; А н д-рющенко В. М., Машинный фонд рус. языка: постановка задачи и практич. шаги, ВЯ, 1985. Jsfe 2; Н а у s D. С, Introduction to computational linguistics, N. Y., [1967]; Bator i I. S., Linguistische Datenverarbei-tung, «Sprache und Datenverarbeitung», 1977, Jsfe 1, p. 2—11; К n u t h D. E., Tau Epsilon Chi, a system for technical test, Providence, 1979, «SIGART Newsletter», 1982, Jsfe 79; Meyrowitz N.. Dam A. van, Interactive editing systems, pt 1—2, «Computing Surveys», 1982, v. 14, Jsfe 3; Furuta R., Sc о fie Id J., Shaw A., Document formatting systems, там же. В. М. Андрющенко.

Лингвистический энциклопедический словарь.