авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 || 3 | 4 |   ...   | 7 |

«Каменистые тропы науки - это горы литературы, уступы книг, которые нужно прочесть, усвоить. Но книги - это путеводитель, по которому можно ориентироваться на дорогах науки. ...»

-- [ Страница 2 ] --

4) «количество» + «объект» + «действие» + «инструмент» + « время».

Пусть была выбрана третья из возможных схем (как пра­ вило выбирается наиболее употребительная в проблемной области семантико-синтаксическая структура).

Наконец, необходимо определить те лексемы, которые будут «выполнять» эти семантико-синтаксические функции.

В данном случае их можно взять из того же семантического графа5 (рис. 1.12, рис. 1.13):

«инструмент» (железнодорожн# транспорт#) + «время» (1999 год#) + + «действие» (перев#) + «количество» (50 О Отонн#) + «объект»

О (каменн# уг#).

Второй этап процесса генерации высказывания связан с построением фразы на естественном (в данном случае рус­ ском) языке. Здесь решаются следующие задачи [287, с. 308]:

5 В словаре системы ИИ лексемы заданы в виде квазиоснов.

Глава 1.Определения и понятия • построение синтаксической структуры будущей фра­ зы (синтаксический синтез);

• определение морфологической информации для вхо­ дящих в составные части фразы слов;

• м орф ологический синтез всех словоф орм русской фразы.

Отобранное выше семантическое представление будущей фразы «инструмент» (железнодорожн#транспорт#) + «время»

(1999 год#) + «действие» (перев#) + «количество» (50 О ОО тонн#) + «объект» (каменн# уг#) называется еще внутренним представлением будущего высказывания. Оно может быть вы­ ражено различными поверхностными синтаксическими струк­ турами6:

1. Д, + Ов + Спасс+ Д 2 («Железнодорожным транспортом в 1999 году перевезено 50 О О тонн каменного угля»).

О 2. П + Ов + Сакг + Д («Железнодорожный транспорт в 1999 году перевез 50 О О тонн каменного угля»).

О Допустим, что для последующего порождения выбрана поверхностная структура № 2. На этом шаг синтаксическо­ го синтеза заканчивается.

В зависимости от синтаксических функций членов пред­ ложения в отобранной синтаксической структуре входящим в семантическое представление лексемам даются далее на­ боры лексико-грамматических значений (слова в словаре сис­ темы представлены в виде квазиоснов):

«транспорт#» - ед. число, муж. род, им. падеж (так как «транс­ порт#» -подлежащее);

«железнодорожн#» - ед. число, муж. род, им. падеж (определяет слово «транспорт#»);

«в#» —управляет винительным и предложным падежами;

в функ­ ции обстоятельства времени используется предложный падеж;

«год#» —ед. число, муж. род, предл. падеж (от предлога «в#»);

«перев#» - ед. число, муж. род (от подлежащего «транспорт#»), третье лицо, прошедшее время (1999 год уже прошел);

6 Здесь Д - дополнение;

Ов - обстоятельство времени;

Ста - сказуемое в пассивном залоге;

П - подлежащее, Саи. - сказуемое в активном залоге.

1)2 ( )iЮ искусственного интеллекта для лингвистов НЫ «ТОНН#» “ мн. ЧИ О (от 50 ООО вин. падеж (глагол «перевозить»

СЛ ), требует винительного и творительного падежей. Но творительный падеж используется в том случае, если за глаголом следует семан­ тическая функция «инструмент» (самолетом, поездом ). В данном примере - обычный «объект» («тонн угля»));

«уг#» - число, м. род, род. падеж («тонн угля» - отношение комп летивности7, выражаемое родительным падежом [102, 506]);

«каменн#» - ед. число, м. род, род. падеж (от «угля»).

В этом - суть второго шага в построении лингвистиче­ ского высказывания.

И, наконец, третий шаг - морфологический синтез - за­ ключается в поиске по специальным таблицам в зависимо­ сти от типа формообразования слов и набора грамматиче­ ских признаков соответствующих машинных окончаний и подсоединении их к квазиосновам всех слов высказывания8.

В итоге системой И И будет сгенерировано следующее вы­ сказывание: «Железнодорожный транспорт в 1999 году пе­ ревез 50 О Отонн угля». Более подробно перечисленные эта­ О пы порождения высказывания приведены в работе [287, 307-329].

Во многих случаях (при выдаче диагностирующих сооб­ щений или однотипных заданий, при генерации простого или альтернативного вопроса и т.п.) процесс генерации вы­ сказывания значительно упрощается путем использования заранее заготовленных шаблонов. Они представляют собой готовые фразы на естественном языке и некоторые пере­ менные, вместо которых подставляются конкретные данные решаемой задачи. Например, при наборе ответа пользова­ тель допустил орфографическую ошибку в каком-то слове.

Реакция компьютера в такой ситуации может быть оформ­ лена на основе следующего шаблона: «Вы допустили орфо­ графическую ошибку в слове X. Повторите ответ». Каждый 7 При комплетивных отношениях двух слов зависимое слово является необходимым смысловым добавлением, восполняющим информативную недостаточность главенствующего слова: два дома, слыть чудаком, тонн угля и т.п. [102, с. 487].

8 Этот вопрос будет подробно рассмотрен в §4.2.

Глава 1.Определения и понятия раз вместо X подставляется какое-то конкретное слово, в котором была допущена ошибка. Если система И И служит, например, для обучения грамматике английского языка, то в ней может быть заложен такой шаблон задания: «Обра­ зуйте, пожалуйста, множественное число от существитель­ ного X». Вместо X поочередно подставляются слова PEN, CLASS, LOVE и т.д.

Компонент «обработка» - основной компонент системы И И. Именно в нем с помощью базы данных и некоторого способа ее использования решается основная задача, ради которой и была создана система И И (выдача справок о пе­ ревозках народно-хозяйственных грузов, распознавание, зна­ чения многозначного слова или типа самолета, постановка диагноза болезни, поиск ископаемых, выбор конфигурации вычислительной системы при покупке и т.п.). Этот блок си­ стемы И И осуществляет пополнение базы знаний новыми сведениями. П о запросу пользователя он долж ен также объяснить, почему система И И решила задачу именно так, а не каким-либо иным способом.

1.4.2. Основные типы систем Существуют различные подходы к классификации систем искусственного интеллекта [18, с. 249-254;

88, с. 41-45]. В зависимости от типа базы данных и способа ее применения в процессе решения связанной с использованием естествен­ ного языка задачи различают 4 типа систем И И [298, с. 32]:

• интеллектуальные вопросно-ответные системы;

• системы общения с базами данных;

• диалоговые системы решения задач или экспертные си­ стемы;

• системы обработки связных текстов.

Интеллектуальные вопросно-ответные системы представ­ ляют собой справочные системы с жесткой структурой диа­ лога, позволяющие получить ответы на естественном языке 54 Основы искусственного интеллекта для лингвистов на вопросы, относящиеся к ограниченной предметной об­ ласти, также задаваемые на естественном языке. Например, русская система ПОЭТ [287, с. 330-348] отвечала на вопро­ сы о перевозках по территории бывшего СССР различных народно-хозяйственных грузов. Система ДИ СП У Т (Россия) [55;

148, с. 87-94] - на вопросы об обслуживании контей­ нерных перевозок в морском порту. Система LU NAR (СШ А [298]) отвечала на вопросы о свойствах образцов лунных по­ род и т.п. [108, с. 410-525;

88, с. 256-335].

Диалог в системе «ПОЭТ», например, осуществлялся так:

П. (пользователь): Чему равен в 1970 году объем перевозок железно­ дорожного транспорта?

С. (система): В 1970 году железнодорожный транспорт перевез 1882 млн тонн грузов.

П Чему равен в 1975 году удельный вес перевозок железнодорож­ ным транспортом в общем объеме перевозок всеми видами транс­ порта?

С.: 18% П.: Какие организации поставляли в 1-м квартале 1970 года токар­ ные станки в Московскую область?

С.: В 1-м квартале 1970 года токарные станка в Московскую об­ ласть поставляли заводы «Заря» и «Рубин».

П.: Осуществлял ли завод «Заря» в 1970 году поставки токарных станков в область?

С.: Да, осуществлял.

Такие системы И И играют пассивную роль - они лишь отвечают на вопросы или выдают сообщения о неудачах, ког­ да в базе знаний нет соответствующих данных или когда воп­ рос задан с синтаксической или орфографической ошибкой.

Работа с базой знаний в данном случае заключается лишь в вызове одной из имеющихся в системе специализированных программ (поиск организаций, поставлявших в 1-м квартале 1970 года токарные станки в Московскую область;

подсчет удельного веса перевозок;

подсчет (суммирование) перево­ зок железнодорожным транспортом и т.п.), передаче этим Глава 1.Определения и понятия программам конкретных объектов («организаций», «тонн», «речной транспорт», «железнодорожный транспорт» и т.д.) и выполнении этих программ по имеющейся базе данных (БД)9.

Еще одной особенностью таких систем является то, что пос­ ледовательность диалогических высказываний не представ­ ляет собой связный текст: каждое последующее высказыва­ ние никак не сказано с предыдущим.

Системы общения с базами данных позволяют получать хранящуюся в базе данных информацию по запросу, сфор­ мулированному на естественном языке. Чтобы понять суть таких систем и их отличие от интеллектуальных вопросно ответных систем, рассмотрим фрагмент диалога пользова­ теля (П) и системы (С) в системе общения IRUS (США, [148, с. 43-51]):

П1: Сколько сотрудников 45 отд не проживают в Кембридже или Бостоне С1: П2: Перечислите их фамилии С2: фамилия имя Бейтс Мэдэлин Бобров Роберт ПЗ: Есть у кого-либо из них публикации по синтаксису ?

СЗ: Да, у 1 из П4: У кого?

С4: фамилия имя Бейтс Мэдэлин П5: Кто из 45 отт живет в Арлингтоне?

С5: отг = отд?

Ж -Д а С6: фамилия имя Ларкин Кэтти 9 База знаний в таких системах включает семантическую сеть и базу данных [287, с. 333-337].

56 Основы искусственного интеллекта для лингвистов Как видно, общение здесь происходит в форме связного диалога, т.е. ответы на вопросы пользователя выдаются с уче­ том его предыдущих вопросов и /и ли предыдущих ответов системы (С2, СЗ, С4). Инициатива в ведении диалога в та­ ких системах, как и в предыдущих, принадлежит обычно пользователю. Перехват инициативы допускается лишь для уточнения незнакомых системе слов и исправления орфог­ рафических ош ибок (С5). В вы сказывании пользователь может применять различные синтаксические конструкции.

Допускаются и различные отклонения: орфографические ошибки (П1, П5), ошибки в пунктуации (например, отсут­ ствие вопросительного знака в конце П 1), неправильное употребление строчных и прописных букв, употребление эллипсиса (пропуск слов в предложении), анафорические ссылки (П2, ПЗ, П4). Как видно из сказанного, такие систе­ мы позволяют вести диалог очень близкий к естественному.

Систем общения с базами данных создано достаточно мно­ го [148, с. 44-87;

109, с. 158-211). Из отечественных систем наиболее известна система АИСТ [148, с. 65-75]. Это - уни­ версальная система. В зависимости от содержания базы дан­ ных она может быть использована при решении управлен­ ческих задач и задач информационно-справочного обслужи­ вания в экономике, медицине, бухгалтерском учете, библио­ течном деле и т.д.

В диалоговых системах решения задач или экспертных сис­ темах по сравнению с двумя предыдущими системами пользо­ ватель и система как бы меняются ролями. Система И И ре­ шает задачу на основе применения как собственных знаний, так и данных, полученных из ответов пользователя и из при­ кладных программ, которые могут вызываться системой И И из базы знаний. Иными словами, компьютер задает вопросы пользователю и, понимая его ответы, использует их для ре­ шения задачи. Большинство систем этого типа реализовано в так называемых экспертных системах1. Как правило, вместо жесткой структуры диалога здесь используется альтернатив­ ная структура с произвольным перехватом инициатив.

1 Подробнее об экпертных системах см. гл. 2.

Глава 1. Определения и понятия Специфику общения в рамках такой системы можно про­ иллюстрировать с помощью следующего фрагмента диалога системы, созданной в СШ А [148, с, 52]:

/77: Я хочу направить 4 самолета из 707 истребительной эскадри­ льи для удара по Бостону между 11.40 и полуднем.

С1: Какие самолеты вы хотите послать?

П2: Какие самолеты имеются в эскадрильи?

С2: В 707 истребительной эскадрилье есть F-4S.

СЗ: Вы хотите использовать F-4S?

ПЗ: Нет, лучше F-16S из 606 истребительной эскадрильи.

С4: В 606 истребительной эскадрилье нет F-16S.

П4: Где имеются F-16S?

С5: F— имеются на аэродромах Кеннеди и Лагардия.

16S /75: В каких эскадрильях Лагардии они имеются?

С6: F-16S имеются в 808 и 809 истребительных эскадрильях.

П6: Возьмите их из 808 истребительной эскадрильи на Лагардии.

С7: Какая система вооружения должна быть на F-16S?

П7: Какие возможны?

С8: На F-16S могут быть системы D l, D2 и D4.

П8: Ударьте по цели системой D4 и спланируйте остальное.

С9: Время достижения цели: 11.50, время вылета 11.20, позывной РЕАСЕ-7.

Как видно из приведенного фрагмента диалога, если в задании пользователя отсутствуют или неправильно заданы (с точки зрения системы) какие-то параметры (например, не указан тип самолета или система вооружения), то ком ­ пьютер перехватывает инициативу и ведет альтернативный диалог по уточнению этих параметров (C l, С7). Однако и пользователь может легко перехватить инициативу, задавая системе необходимые вопросы (П2, П4, П5, П7) и исполь­ зуя полученные на них ответы (С2, С5, С6, С8) при форми­ ровании ответов (ПЗ, П6, П8) на предыдущие вопросы сис­ темы.

Системы обработки связных текстов моделируют процесс понимания законченных описаний определенных фрагмен­ 5ё Oewofliii искусственного интеллекта для лингвистов тов действительности (статей, рассказов, историй, эпизо­ дов и т.п.), выраженных в виде текста на естественном язы ­ ке. Понимание в данном случае - это извлечение из текста наиболее существенной (с точки зрения системы) инфор­ мации и присоединение ее к собственной базе знаний или передача ее пользователю. Такая передача может осуществ­ ляться в виде ответов на вопросы к системе по описанным в тексте фрагментам, событиям, явлениям или в виде связ­ ного текста, передающего основное содержание исходного текста (как, например, в системах диалогового рефериро­ вания, аннотирования и индексирования).

Задачи понимания и синтеза связных текстов по слож­ ности значительно превосходят те, которые решаются в трех предыдущих системах И И. Они требуют вложения в систе­ му громадного объема знаний о мире, разработки совершен­ ных механизмов вывода и текстообразования и т.п. Все это будет реализовано в будущем. А пока в существующих сис­ темах применяется человеко-машинный подход к решению задачи. Так, подобный метод использован при разработке системы ТАСС для автоматизированной обработки газет­ ных сообщений на русском языке [296;

148, с. 59-64] и вы­ деления из них основной информации по различным темам («визит», «совещание», «переговоры» и т.п.). Некоторые из зарубежных систем И И анализируемого типа кратко опи­ саны в [148, с. 59-64].

С чисто лингвистической точки зрения особый интерес представляют диалоговые системы решения задач и систе­ мы обработки связных текстов. Именно в них естественный язык находит наиболее полную реализацию. Поэтому рас­ смотрим более детально конкретные системы, относящие­ ся к перечисленным двум типам ЕЯ-систем.

Глава Экспертные системы 2.1. Определение и основные понятия Одним из типов ЕЯ-систем решения задач являются экс­ пертные системы (ЭС). Компьютерная система, которая мо­ делирует рассуждения человека-эксперта в некоторой пред­ метной области и использует для этого базу знаний, назы­ вается экспертной системой [389;

388, с. 15-17;

248, с. 9;

200, с. 25;

352, с. 12-15;

18, с. 271;

88, с. 39-40;

108, с. 18-22].

Появление большого числа экспертных систем в послед­ ние годы можно объяснить тремя причинами [148, с. 261;

200, с. 270]:

1. Компактность современной вычислительной техники, ее большое быстродействие и память позволяют применять компьютеры для решения широкого круга задач в нефор­ мализованных творческих областях (принятие решений, по­ иск неисправностей, порождение текста, поиск ископаемых и т.д.).

2. С помощью экспертных систем с компьютером легко общаются люди, совершенно незнакомые с программиро­ ванием. При этом они пользуются привычным им естествен­ ным языком, что, в свою очередь, позволяет значительно расширить сферы применения современных компьютеров.

3. Оказалось, что в ходе реш ения задач экспертные сис­ темы достигают результатов, не уступающих возможностям 60 Основы искусственного интеллекта для лингвистов лю дей-экспертов, не оснащенных экспертными система­ ми.

Чаще всего экспертные системы применяются при реше­ нии таких задач, как: проектирование интегральных микро­ схем, поиск неисправностей в различных устройствах, в во­ енном деле (распознавание кораблей и самолетов, управле­ ние взлетом и посадкой самолетов, определение типа радара, пославшего перехваченный сигнал, оценка ситуации на поле боя и т.п.), в медицине (постановка диагноза различных за­ болеваний, подсказка пути лечения и необходимых лекарств и т.д.), поиск полезных ископаемых в геологии, предсказа­ ние отдельных природных явлений (появление гроз и т.д.), составление структур разных химических соединений, оцен­ ка финансовых возможностей клиентов и кредиторов, урегу­ лирование исков о возмещении убытков в юриспруденции и т. д. [148, с. 261-342;

352, с. 236-301;

18, с. 272;

88, с. 41-45].

В начале 1990-х годов ежегодный доход от продажи средств создания экспертных систем составлял примерно 400 млн долл., а доход от их применения - 80-90 млн долл. Крупней­ шие фирмы мира широко используют ЭС в своей работе [148, с. 262;

88, с. 34-38]. Так, у фирмы IBM в 1987 г. было 70 ЭС.

Создание ЭС стоит достаточно дорого (от десятков тысяч до нескольких миллионов долларов). Тем не менее такие ЭС при­ носят использующим их фирмам значительный доход. Напри­ мер, ЭС DEFT, проверявшая качество больших дисководов для электронно-вычислительных машин серии IBM, ежегод­ но давала доход в 12 млн долларов (создание этой ЭС стоило 100 000 долл.). ЭС XCON помогает продавцам компьютеров серии VAX 11/780 фирмы DEC составлять конфигурацию про­ даваемого компьютера в зависимости от заявок покупателей (объем памяти, тип процессора, тип устройств ввода и выво­ да, дополнительные устройства и т.д.). Ежегодно ЭС прино­ сит доход в 25 млн долл., а ее разработка обошлась в 3 млн долл. Доход от этих и подобных систем получают за счет:

• повышения производительности труда (при проекти­ ровании микросхем, программировании, постановке диаг­ ноза и т.п.) в 3-15 раз;

Глава 2. Экспертные системы • уменьшения времени поиска неисправностей в разных устройствах (например, в компьютерах, телевизорах, теле­ фонной сети и т.п.) в 5-10 раз;

• уменьшения времени профессиональной подготовки студентов-медиков, программистов, электронщиков, сту­ дентов других специальностей в 8-12 раз [148, с.261].

Особенность экспертных систем как систем И И состоит в том, что они обычно используют логические правила вы­ вода и применяются для решения задач в диалоге с пользо­ вателем. Причем чаще всего диалог ведет система. В ЭС ярко проявляются способности систем И И (см. рис. 1.11):

• постоянно пополнять свои знания через блок «попол­ нение знаний»;

• объяснять причины, по которым система И И решила задачу именно так, а не иначе. Это делает блок «объяснение пути решения задачи».

Экспертная система может работать в двух режимах: ре­ жиме приобретения или пополнения знаний и в режиме ис­ пользования или консультаций. В режиме приобретения или пополнения знаний с ЭС работает эксперт и инженер знаний.

В результате их предварительного общения выявляются фак­ ты и правила, которые через диалоговый блок вводятся в базу знаний (рис. 2.1). В режиме использования или консуль­ таций с ЭС работает пользователь, т.е. человек, ставивший Диалоговый ком понент Ком понент «обработка»

К ом понент Компонент Базы данны х и механизм понимания генерации вывода высказывания высказывания Пополнение Объяснение пути знаний реш ения задачи Рис. 2.1. Базовая структура экспертной системы 62 Основы искусственного интеллекта для лингвистов и решающий задачу в диалоге с ЭС. Он может обратиться за советом или попросить ЭС пояснить, почему она пришла к тому или иному выводу.

В принципе одна и та же ЭС может быть использована для решения различных задач. Для этого у такой системы надо заменить одну базу знаний на другую. ЭС без базы зна­ ний стали называть «пустыми» системами или оболочками (перевод на русский английского слова shell) экспертных си­ стем [389, с. 110-112]. Наполняя такую оболочку разными базами знаний, получают разные ЭС. Такой подход позво­ ляет экономить деньги и время при создании ЭС.

Экспертные системы, как любой достаточно сложный объект, можно описать с помощью ряда взаимосвязанных характеристик: назначение, проблемная область, тип ис­ пользуемых знаний и методов вывода, применяемые языки программирования (инструментальные средства) и т.д. П о­ этому единой и общепринятой классификации ЭС нет [148, с. 265-268;

389, с. 112-118;

352, с. 236-304;

108, с. 247-283;

88, с. 41-45]. Так, с точки зрения назначения различают ЭС для обучения специалистов, ЭС для решения задач, ЭС для автоматизации рутинных работ и т.п. С учетом конкретной проблемной области выделяют следующие виды ЭС: пред­ сказывающие (погоду и пр.), диагностирующие (заболева­ ния, неисправности и т.п.), конструирующие (например, м икросхемы), планирующие (например, порядок сборки какой-то системы), следящие (за самолетом, кораблем) и т.д.

В работах [352, с. 237-304;

148, с. 294-417;

88, с. 36-38;

108, с. 218-522] перечислены более 200 конкретных экспертных систем, использующихся в 26 предметных областях (меди­ цине, электронике, военном деле, промышленности, вычис­ лительной технике, финансовом деле, юриспруденции, ав­ томобилестроении, химии, информатике, геологии, космонав­ тике, авиации, нефтедобыче и нефтепереработке, экономике, управлении, программировании, математике, строительстве, технике, генетике, метеорологии, сельском хозяйстве, изда­ тельском деле, ядерной энергетике, биологии). Приведем примеры некоторых ЭС.

Глава 2. Экспертные системы Система PROSPECTOR предназначена для выдачи гео­ логам сведений о наличии в определенной местности зале­ жей ископаемых, оценке геологических ресурсов района, выбора мест, благоприятных для бурения. База знаний вклю­ чает более 1000 геологических понятий и свыше 1000 пра­ вил. Система создавалась с 1974 по 1983 г. ф ирмой SRI International.

Система ЭС M YCIN оказывает помощь лечащим врачам при постановке диагноза и назначении лечения в сложных случаях инфекционных заболеваний крови. Система содер­ жит свыше 800 правил.

Система AIRPLAN помогает офицерам управлять взле­ том и посадкой самолетов на авианосце. Система анализи­ рует текущую информацию (запас топлива в баках самоле­ та, погодные условия и т.д.) и предупреждает воздушного диспетчера о возможных осложнениях.

Система CARGuide помогает водителям автотранспорта определять маршруты и ориентироваться на улицах города.

Найденный маршрут выводится на дисплей, изображающий карту города (разработана в университете Корнеги-М еллон, США).

Система PLA N T/ds дает консультации по диагностике заболеваний сои, используя вложенные в нее знания о сим­ птомах заболеваний и условиях произрастания (температу­ ре, состоянии листьев, месяце года и т.п.).

Среди российских ЭС можно отметить следующие [148, с. 388-417]:

ЭС «М О Д И С -2» служит для диагностики различных форм гипертонии.

Система «ОБЕЗБОЛИВАНИЕ» используется для обучения выбору методов и средств обезболивания в стоматологии.

Система «ПЛОТИНА» предназначена для определения состояния отдельных элементов гидросооружения и всего комплекса, а также для разработки методики профилакти­ ческих и ремонтно-восстановительных работ.

Система «СОНЭТ» служит для обнаружения и локализации неисправностей в цифровых схемах электронной техники.

64 Основы искусственного интеллекта для лингвистов 2.2. Основные этапы создания экспертных систем Процесс создания экспертной системы - задача сложная.

В общем виде она состоит из следующих взаимосвязанных этапов [352, с. 142-182;

389, с. 28-32;

148, с. 271-282]:

• идентификации задачи;

• концептуализации задачи;

• формализации знаний;

• реализации или выполнения системы;

• тестирования системы.

Этап идентификации задачи заключается в составлении неформального (вербального, словесного) описания реш а­ емой задачи. При этом указываются общие цели всей про­ блемы, подзадачи, которые можно выделить в общей зада­ че, ключевые объекты (понятия) и отношения между ними, выясняются те знания, которые необходимы для решения задачи. Данный этап выполняется в тесном взаимодействии инженера знаний и эксперта. Методы взаимодействия опи­ саны выше. При этом дополнительно используются знания, содержащиеся в разных справочниках, книгах и т.д.

Основная цель этапа концептуализации задачи - выде­ ление в виде конкретных определений, таблиц, перечней и т.п. основных понятий и связей, необходимых для решения поставленной задачи. Этот этап также реализуется в ходе д и ­ алога инженера знаний и эксперта. У инженера знаний по­ являются соображения о том, в каком виде следует пред­ ставлять знания в будущей ЭС.

В общем случае этап формализации знаний состоит в выражении определенных на предыдущем шаге основных понятий и отношений некоторым формальным способом.

Последний зависит от многих факторов [389, с. 30-31;

352, с. 176-177] и, в частности, от того, какой язык будет исполь­ зоваться для построения экспертной системы (точнее, для представления знаний). Для одних из этих языков удобно представлять знания в виде правил (языки РЕФАЛ, СНОБОЛ, ROSIE или EM YCIN), для других - в виде фреймов (языки Глава 2. Экспертные системы AIMDS, CSRL, KANDOR), для третьих - в виде семантичес­ ких сетей. Вполне допустим и такой подход, когда эксперт­ ная система будет создаваться с помощью обычного универ­ сального алгоритмического языка типа ПРОЛОГ, Л И С П, СИ, ПЛ/1, Б Е Й С И К и т д. В этом случае выбор способа пред­ ставления знаний зависит от их сложности, умения и опыта инженера знаний. Эволюция средств формального представ­ ления знаний подробно представлена в работе [88, с. 270-317].

Выше были описаны три метода формализованного пред­ ставления знаний в виде правил вывода, семантических се­ тей и фреймов. В итоге этап формализации знаний заканчи­ вается некоторой формальной моделью процесса решения задачи с полной характеристикой используемых данных.

Этап реализации или выполнения ЭС заключается в преоб­ разовании формализованных знаний в работающую компь­ ютерную программу. Такая программа, как уже отмечалось, может быть написана на обычном универсальном алгорит­ мическом языке или специальном языке инженерии знаний.

Как правило, при составлении программы не думают об ее эффективности. Главное на этом этапе - создание хоть и про­ стейшего, но работающего прототипа ЭС, позволяющего на следующем этапе оценить знания, заложенные в экспертную систему, и метод их использования.

Суть этапа тестирования системы заключается в оценке выбранного способа представления знаний и ЭС в целом. Сна­ чала на нескольких примерах необходимо убедиться, что экс­ пертная система в состоянии обработать их от начала до кон­ ца. Затем, чтобы выявить недостатки базы знаний и выбран­ ного механизма вывода, с помощ ью ЭС обрабатывается большое число примеров. Такая проверка дает возможность ответить на вопросы типа:

1. Принимает ли система реш ения, которые экспертом признаются верными?

2. Являются ли правила вывода не противоречивыми, бе­ зошибочными и полными?

3. Адекватны ли объяснения системы о том, как и поче­ му она Пришла к конкретному заключению?

3 О сн о в ы и с к у с с т в е н н о го интеллекта для л и н гв и ст о в 66 Основы искусственного интеллекта для лингвистов 4. Есть ли среди тестовых примеров такие, которые не укладываются в разработанную базу знаний, и т.п.

Таким образом, на этапе тестирования может быть вы ­ явлена неполнота базы знаний или противоречивость пра­ вил вывода. В таких случаях в экспертную систему вносят определенные дополнения, работа системы проверяется на новых примерах, идет ее опытная эксплуатация.

Рассмотрим детально содержание перечисленных выше этапов на примере построения экспертной системы, распоз­ нающей значение многозначного русского слова «коса».

2.3, Построение экспертной системы «Определение лексического значения слова "коса" в русском предложении»

2.3.1. Этап идентификации Как отмечалось выше, этап идентификации задачи за­ ключается в определении существенных особенностей ре­ шаемой проблемы. К ним относятся: сама задача, участни­ ки процесса разработки, требуемые ресурсы, цели и задачи создания экспертной системы.

Первым шагом является знакомство с проблемой, раз­ деление ее на отдельные задачи, выявление основных по­ нятий и их взаимосвязи.

Пусть предметной областью в нашем примере будет об­ ласть «Обучение иностранного студента русскому языку».

При обучении иностранцев русскому языку выяснилось, что для них очень труден процесс распознавания значений м но­ гозначных слов1, таких как «лук», «брак», «рейд», «свет», 1 В данном пособии не различаются понятия «полисемия» и «омони­ мия» («омография»). Под многозначным словом понимается слово пись­ менного текста, которое может иметь несколько значений.

Глава 2. Экспертные системы «приемник», «коса», «мука» и т.п. Обычно принятые разъяс­ нения о том, что конкретное значение такого слова распоз­ нается по контексту, ничего не дают. Нужен какой-то дру­ гой подход, который бы моделировал действия человека, распознающего значения подобных слов. Попытаемся смо­ делировать интуитивные действия специалиста по русско­ му язы ку при распознавании им лексического значения многозначного (6 значений) слова «коса».

Главными участниками процесса поиска правил, кото­ рыми руководствуется человек при распознавании значе­ ни я м ногозначного слова, являю тся инж енер знаний и предметный эксперт. Первый - получатель знаний, кото­ рыми владеет второй. Причем знания, получаемые от экс­ перта, инж енер знаний м ногократно переформулирует, проверяет с помощью других экспертов или отрабатывает на примерах.

На данном этапе беседа с экспертом приводит инженера знаний к выводу, что конкретное значение слова «коса» за­ висит от того, какие слова в предложении стоят от него сле­ ва и/или справа. При этом, по утверждению эксперта, сло­ во «коса» может иметь следующие значения (табл. 2.1).

Таблица 2. Значения2 слова «коса» в русском предложении Код Значение слова «коса»

№ п/п значения Ml Сплетенные вместе пряди волос М2 Сельскохозяйственное орудие - длинный изогнутый нож на длинной рукоятке для резки травы, злаков и т.д.

М3 Идущая от берега узкая полоса земли, отмель М4 Название народа в ЮАР М5 Язык народа «коса», относящийся к семье языков банту Мб Узкая полоса леса 1 Формулировки значений слова «коса» взяты из словарей [347, с. 1481;

99, с. 195-196;

6, с. 201].

68 Основы искусственного интеллекта для лингвистов 2.3.2. Этап концептуализации.

Получение информации для базы знаний Основная цель этапа концептуализации заключается в выделении в явном виде основных понятий и связей, необ­ ходимых для нахождения решения поставленной задачи. На этом этапе продолжается детальный диалог инженера зна­ ний и эксперта. Приводя конкретные примеры употребле­ ния слова «коса» в разных предложениях, инженер знаний пытается выяснить, от каких диагностирующих признаков (конкретных слов и групп слов с определенным семанти­ ческим значением) зависит значение слова «коса» в конк­ ретном предложении. Далее инженер знаний таким же об­ разом выясняет у эксперта то расстояние (количество слов), которое в том или ином предложении отделяет диагности­ рующие единицы от слова «коса». В результате бесед с экс­ пертом и проверки его утверждений на многочисленных предложениях, содержащих слово «коса» в различных зна­ чениях, были выделены следующие диагностирующие при­ знаки и их расстояния до слова «коса» (табл. 2.2):

Таблица 2. Диагностирующие признаки д м определения Диагностирующий Расстояние признака значения д слова признак «коса»

«коса»

слова Код Код о 1 2 3 Ml W С лова «голова», «волосы», «китаец» М енее Слово со значением «женский головной W убор» («шляпа», «косынка» и т.п.) Слово со значением «украш ение на воло­ W сах»

Слово со значением резкого физического W действия(«дернуть», «рвануть», «схва­ тить», «оттаскать» и т.п.) Глава 2. Экспертные системы Продолжение табл. 2. 1 М енее W значением физических действий с Ml С лово со волосами («заплести», «расплести», «рас­ трепать», «завить», «завязать» и т.п.) W Слово со значением формы, густоты, мяг­ кости женской косы («волнистая», «гу­ стая», «жидкая», «тощ ая», «тугая», «пуш и­ стая», «пыш ная», «роскош ная», «толстая», «мягкая» и т.п.) W Слово со значением цвета, специфичного для волос человека («белокурая», «льня­ ная», «русая», «черная» и т.п.) W Слово со значением редких признаков, ис­ пользуемых для характеристики женской косы («змеевидная», «разлетная», «тучная»

и т.п.) С лова «косить», «затупиться», «скелет», W М «смерть»

W Слово, обозначаю щ ее название инстру­ мента, используемого для заточки косы («точило», «оселок», «напильник» и т.п.) W Слово со значением действий по заточке инструмента («заточить», «отбить» и т.п.) W Слово со значением перемещ ения предмета («бросить», «положить», «опустить», «пе­ рекинуть» и т.п.) ( W Слово со значением «характеристика металлического или деревянного пред­ мета»

W Слово, обозначаю щ ее место хранения ин­ струмента («сарай», «чулан», «подвал» и т.п.) W Слово со значением «средство передви­ М ж ения по воде» («лодка», «корабль» и т.п.) W Слово со значением «пристанищ е средств передвиж ения по воде» («бухта», «залив», «берег» и т.п.) W Слово, обозначаю щ ее название водного пространства («море», «озеро», «река» и т.п.) W Слово, выражаю щ ее объединение людей по М национальному признаку («народ», «нацио­ нальность» и т.п.) 70 Основы искусственного интеллекта для лингвистов Окончание табл. 2. 1 С лова «язык», «речь» W19 М енее М Слово, выражаю щ ее действия, производи­ W мые с участием язы ка («говорить», «петь»

и т.п.) С лова «лес», «полоса» W Мб W Слова, обозначаю щ ие травы и растения, произрастающ ие в лесу 2.3.3. Этап формализации.

Построение базы знаний В общем случае этап формализации состоит в выражении найденных на предыдущем этапе основных понятий и отно­ шений некоторым формальным способом. Выберем способ представления знаний для нашей задачи в виде логических правил. Приведенные в табл. 2.2 сведения на этапе формали­ зации могут быть преобразованы в следующую базу знаний3:

№ Правила правил 10 ЕС ЛИ R= W 1 ИЛИ R=W3 ИЛИ R= W 4 ИЛИ R=W 5 ИЛИ R= W ИЛИ R=W 7 И Л И R=W 8 И D5 TO S=M 20 ЕС ЛИ R= « »4 И L =W 1 ИЛИ L=W 2 ИЛИ L=W 3 ИЛИ L=W ИЛИ L=W 5 ИЛИ L=W 6 ИЛИ L=W 7 ИЛИ L=W 8 И D5 ТО S=M 30 ЕСЛИ R=W 9 ИЛИ R=W 10 ИЛИ R =W 11 ИЛИ R=W 12 ИЛИ R=W 13 ИЛИ R=W 14 И ЛИ R=W 14 И D5 ТО S=M 40 ЕСЛИ R= « » И L=W 9 И ЛИ L=W 10 ИЛИ L =W 11 ИЛИ L=W И Л И L=W 13 ИЛИ L=W 14 И D5 ТО S=M 3 В этой базе знаний использованы следующие обозначения: R (RIGHT) слово, стоящее в предложении справа от слова «коса»;

(LEFT) - слово, стоящее в предложении слева от слова «коса»;

S (SENSE) - значение слова «коса»;

W l, W 2,... - коды семантических признаков из табл. 2.2;

D - рас­ стояние в предложении между словом «коса» и диагностирующим при­ знаком.

4 Запись R=« » означает, что в предложении справа от слова «коса» нет диагностирующего признака.

Глава 2. Экспертные системы Правила № правил ЕСЛИ R=W 15 ИЛИ R=W 16 ИЛИ R=W 17 И D5 ТО S=M ЕСЛИ R= « » И L=W 15 ИЛИ L=W 16 ИЛИ L=W 17 И D5 ТО S=M ЕСЛИ R=W 18 И D5 ТО S=M ЕСЛИ R= « » И L=W 18 И D5 ТО S=M ЕСЛИ R=W 19 ИЛИ R=W 20 И ЕК5 ТО S=M 100 ЕСЛИ R= « » И L=W 19 И Л И L=W 20 И D5 ТО S=M ЕСЛИ R=W21 ИЛИ R=W 22 И D5 ТО S=M ЕСЛИ R= « » И L=W21 ИЛИ L=W 22 И D5 ТО S=M 2.3.4. Этап реализации.

Создание компьютерной программы Описанная выше база знаний преобразована в компью­ терную программу с помощью алгоритм ического язы ка QBASIC и в полном виде представлена в [137, с. 128-130].

Ниже приводится пример диалога обучаемого (Об) с экс­ пертной системой (К):

К: Введите предложение, содержащее слово «коса» в лю­ бой грамматической форме. Если хотите закончить работу, введите слово «конец».

Об: Из-под шляпы виднелась большая коса.

К: В предложении слово «коса» употреблено в уменьши­ тельном значении («косичка»)?

Об: Нет.

К: В предложении есть слово «голова»?

Об: Нет.

К: В предложении есть слово «волосы»?

Об: Нет.

К: В предложении есть слово со значением «резкое ф и­ зическое действие»? Например: «дернуть», «рвануть», «схва­ тить», «оттаскать» и т.п. Если несколько слов с таким зна­ чением встречаются слева и/или справа от слова «коса», для анализа выберите ближайшее к ней.

Об: Нет.

72 Основы искусственного интеллекта для лингвистов К: В предложении есть слово со значением «женский го­ ловной убор» или «украшение на голове»? Если несколько слов с таким значением встречаются слева и/или справа от слова «коса», для анализа выберите ближайшее к ней.

Об: Да.

К: Оно стоит слева или справа от слова «коса»?

Об: Слева.

К: Сколько слов отделяют это слово от слова «коса»?

Об: 2.

К: В предложении есть слово со значением «перемеще­ ние предмета»? Например: «бросить», «положить», «опус­ тить», «перекинуть» и т.п. Если несколько слов с таким зна­ чением встречаются слева и/или справа от слова «коса», для анализа выберите ближайшее к ней.

Об: Нет.

К: В данном предложении слово «коса» употреблено в значении «сплетенные вместе пряди волос». Хотите узнать, почему система пришла к такому выводу?

Об: Да.

К: Указанное значение слова «коса» выбрано потому, что слева от нее на расстоянии двух единиц находится слово со значением «женский головной убор».

2.3.5. Этап тестирования экспертной системы Основная задача данного этапа - проверка системы на большом числе самых разных примеров. При этом могут обнаружиться недостатки в определении некоторых поня­ тий, установлении неверных отношений между ними. Про­ верка дает возможность ответить на вопросы типа:

1. Принимает ли система решения, которые экспертом признаются верными?

2. Являются ли правила вывода непротиворечивыми, бе­ зошибочными и полными?

3. Адекватны ли объяснения системы о том, как и поче­ му она пришла к конкретному заключению?

Глава 2. Экспертные системы 4. Есть ли среди тестовых примеров такие, которые не укладываются в разработанную базу знаний, и т.п.

В итоге этап тестирования выявляет неполноту базы зна­ ний или противоречивость правил вывода. Тогда в нее вно­ сятся определенные дополнения, система работает на но­ вых примерах, и, таким образом, идет ее «доводка» до опыт­ ной эксплуатации.

Продемонстрируем вышеизложенное на примере тести­ рования созданной экспертной системы. Когда на вход экс­ пертной системы поступило предложение «Она, устав, села и положила шляпу на косу», то система, в соответствии с правилом 10 определила для слова «коса» значение «спле­ тенные вместе пряди волос». Ответ был неверным. Анализ данного случая экспертом позволил ввести в базу знаний новый диагностирующий признак W12 «слово со значени­ ем перемещение предмета», а непосредственно в програм­ му - команды, которые после первого диагностирующего признака W2 анализируют окружение слова «коса» на вто­ рой диагностирующий признак W12.

П редлож ения «Он взял косу из сарая и отправился в поле» и «Он взял косу с дубовой рукояткой» экспертная система проанализировать не смогла и выдала следующее сообщение: «Системе недостаточно имеющейся базы зна­ ний. Она запоминает ваше предложение для ее пополне­ ния». Анализ этих и подобных примеров позволил ввести в базу знаний, соответственно, следующие диагностичес­ кие признаки:

W14 - слово, обозначающее место хранения инструмента;

W13 - слово со значением «характеристика металличе­ ского или деревянного предмета».

Несколько иной подход был найден для корректировки базы знаний в результате анализа предложения «Катя поло­ жила косу на плечо и остановилась, всматриваясь в даль». В соответствии с правилом 40 базы знаний система найдет сле­ ва от слова «коса» диагностирующий признак «положила» и сообщит: «Ситуация неоднозначна. Введите, пожалуйста, это предложение еще раз с каким-либо определителем для 74 Основы искусственного интеллекта для лингвистов слова “коса”». От обучаемого требуется выполнение указан­ ной просьбы.

Данная экспертная система выводит на принтер те пред­ ложения, для которых она не может принять однозначных решений. Эти предложения анализируюет эксперт, а инже­ нер знаний вносит в базу знаний соответствующие измене­ ния (как это было показано выше). В последующем такие изменения экспертная система будет делать сама, ориенти­ руясь на ответы сидящего за дисплеем эксперта.

Глава СИСТЕМЫ ОБРАБОТКИ СВЯЗНЫХ ТЕКСТОВ 3.1. Особенности систем обработки связных текстов Системы обработки связных текстов (COCT), как уже от­ мечалось, являются четвертым типом ЕЯ-систем. Обработ­ ка в таких системах предполагает два основных вида действий с текстом: его понимание и передачу понятого пользователю {генерацию ответа в виде текста). Под текстом в обоих слу­ чаях понимаются законченные описания каких-то фрагмен­ тов действительности в виде последовательности связанных друг с другом предложений, представленных в виде историй, рассказов, описаний, эпизодов и т.п. [148, с. 59]. Понимание в таких системах трактуется как извлечение из текста наи­ более существенной с точки зрения ЕЯ-системы информа­ ции. Если такая ЕЯ-система имеет блок «пополнение зна­ ний», полученная в результате понимания информация по­ полняет имеющуюся в ЕЯ-системе базу знаний.

Под передачей понятого пользователю имеют в виду воз­ можность ЕЯ-систем отвечать на его вопросы относитель­ но фактов, событий, явлений и прочих сущностей, которые явно или косвенно описаны в исходных текстах, введенных в ЕЯ-систему [148, с. 59]. Одной из основных особенностей систем обработки связных текстов является то, что ответы 76 Основы искусственного интеллекта для лингвистов на вопросы пользователя осуществляются также в виде тек­ ста, а не отдельных, экстрагированных из текста предложе­ ний или слов.

Общая структура ЕЯ-системы обработки связных текстов представлена на рис. 3.1.

Диалоговый компонент Компонент Компонент Компонент «обработка»

генерации понимания ответа в виде высказывания База знаний текста П они­ Пони­ мание мание Пополнение Объяснение исход­ выска­ пути решения знаний ного зы ва­ задачи текс­ ния та запроса Рис. 3.1. Общая структура ЕЯ-системы обработки связных текстов В принципе такую систему И И можно рассматривать как комплексную систему, состоящую из двух самостоятельных частей - системы понимания текста и системы порождения текста. Общим для них является база знаний. Первая из двух указанных систем строит и пополняет базу знаний, а вто­ рая, опираясь на нее, порождает новый текст.

Проблема понимания текста человеком еще находится на начальной стадии изучения [290;

65, с. 184-248;

39;

51;

121;

181]. Существуют разные точки зрения на проблему машинного понимания, выделяют различные уровни пони­ мания, построены разные системы, способные понимать текст [39;

327;

290]. Как показывает небольшой опыт созда­ ния таких систем [148, с. 39-64], наиболее сложными для понимания являются тексты, описывающие взаимоотноше­ ния и поступки активных действующих лиц. В этом случае в памяти ЕЯ-системы должны храниться большие базы зна­ Глава 3. Системы обработки связных текстов ний о мире. Такие системы должны иметь совершенные ме­ ханизмы вывода из имеющихся знаний, позволяющие оп­ ределять не только отдельные объекты, их свойства, дей­ ствия и поступки действующих лиц, но и мотивы таких поступков, предвидеть намерения действующих лиц, их цели и т.д. Более простыми являются тексты, содержащие опи­ сания фрагментов статического мира и имеющие неболь­ шое число отношений между объектами этого мира.

Не менее сложны и проблемы порождения текста. В этом направлении успехи даже не так значительны, как в пони­ мании. Здесь гораздо меньше теорий и еще меньше практи­ ческих компьютерных систем, способных порождать связ­ ные тексты [132;

140;

329;

330;

331;

332].

В целом необходимо сказать, что «системы обработки связных текстов находятся на стадии разработки экспери­ ментальных образцов, которые используются для исследо­ вания и оценки методов решения этой крайне сложной и многогранной задачи» [298, с. 39].

3.2. Необходимость создания систем обработки связных текстов Необходимость создания систем обработки связных тек­ стов объясняется целым рядом причин [148, с. 33;

239, с. 163;

105, с. 386-387;

132, с. 4 -8 ;

83, с. 127]:

1. Ш ирокое внедрение вычислительной техники во все сферы человеческой жизни привело к возрастанию объема хранимой в компьютере текстовой информации (научные и газетные статьи, книги, доклады, патенты, рефераты, ав­ торские свидетельства и т.д.) и необходимости оперативно­ го извлечения из компьютерной памяти содержащихся в этих текстах разнообразных сведений.

2. Познание закономерностей организации текстов и их понимания, происходящее в процессе создания таких сис­ тем, способствует выявлению алгоритмов, которыми пользу­ 78 Основы искусственного интеллекта для лингвистов ется человек при написании и понимании различных тек­ стов, что позволяет глубже изучить самого человека как часть окружающего мира.

3. Знание законов текстообразования дает возможность автоматизировать процесс создания технических докумен­ тов - текстов деловой прозы (описаний на продукцию, ин­ струкций, справочных систем и т.п.).

4. Знание законов организации текстов, умение выделить в них «главное» и «второстепенное» поможет человеку, с од­ ной стороны, в процессе обучения правильно и быстро по­ стичь содержание текстов, а с другой - станет руководством для педагогов при создании принципиально новых учебни­ ков и учебных пособий.

5. Знание законов построения художественных текстов, которое можно получить, строя системы обработки таких тек­ стов, приблизит человека к познанию природы творчества.

6. Умение выявлять в художественном тексте «главное»

и «второстепенное», общечеловеческое и индивидуальное будет способствовать созданию искусствометрии - науки о количественной оценке произведений искусства (художе­ ственных произведений).

Порядок разработки системы обработки связных текстов, как и всякой другой ЕЯ-системы, включает 5 этапов:

• этап идентификации задачи;

• этап концептуализации задачи;

• этап формализации знаний системы;

• этап реализации системы;

• этап тестирования системы.

Прежде чем проанализировать суть этих этапов на при­ мере создания системы порождения русского прозаическо­ го текста, рассмотрим детально вопрос о тексте и его ос­ новных характеристиках.

Глава 3. Системы обработки связных текстов 3.3. Текст и его основные характеристики 3.3.1. Подходы к определению понятия «текст»

С признанием текста как основной единицы коммуни­ кации в последние годы значительно усложнились подходы к его интерпретации, определению и классификации. Текст стал основным объектом не только лингвистики, но и ин­ форматики, логики, семиотики, речеведения, теории ком­ муникации, лингвокультурологии и ряда других наук.

Как и большинство лингвистических понятий, понятие «текст» не имеет однозначного определения. 20-30 лет на­ зад это понятие принималось без определений или интер­ претировалось с помощью примеров. Лингвистические сло­ вари до последнего времени определяют текст как речевое произведение (или его часть), закрепленное в письменной форме [186, с. 470].

С развитием лингвистики текста понятие «текст» или «связный текст» все более уточняется. Несмотря на прагма­ тическую природу понятия «текст», в текстах всегда можно выделить некоторые общие признаки. Принципиальные ха­ рактеристики текста в лингвистике выявляются по-разно­ му, в зависимости от направлений исследования текста.

М ожно выделить следующие подходы [155, с. 270-271;

370, с. 8-69]:

• структурный или лингвистический;

• коммуникативный;

• информационный;

• семиотический;

• лингвокультурологический.

Структурный или лингвистический подход наиболее чет­ ко проявился в рамках грамматики текста. Ее основная за­ дача - систематизировать знания о структурах, выходящих за пределы предложения и высказывания. При таком под­ ходе определения понятия «текст» очень вариативны. П ри­ 80 Основы искусственного интеллекта для лингвистов ведем примеры следующих определений: «Текст - это два или несколько предложений, находящихся друг с другом в смысловой связи» [126, с. 170] или текст - это «длинное предложение, части которого, представляющие собой «пред­ ложения-ядра», связаны между собой прономинально и с помощью связующих слов» [421, с. 232]. Сюда можно отнес­ ти и определение: «текст - это последовательность языковых единиц, образованная непрерывной цепочкой субститутов, имеющих два измерения (парадигматическое и синтагмати­ ческое)» [411, с. 148] или текст - «объединение языковых средств, используемых в речи, которое обеспечивается их следованием друг за другом и их отношением к суммарно­ му смыслу» [93, с. 63-64].


Следует выделить еще одну группу определений понятия «текст». Такие определения можно назвать логико-семанти­ ческими. Основными признаками текста в данном случае счи­ тают линейную последовательность предложений, наличие лево- и правосторонних границ, относительную закончен­ ность и связность. Более строго это определение сформули­ ровано в работе [255, с. 172]: текст - это «такая последова­ тельность высказываний Sp..., Sn, в которой семантическая интерпретация каждого высказывания S( при 2 / и зависит.

от интерпретации высказываний в последовательности Sp...

S(1. Семантическая интерпретация каждого высказывания это совокупность следствий или выводов, которые можно сде­ лать на основании данного высказывания».

Специалисты по структурной, прикладной и математи­ ческой лингвистике шире рассматривают понятие «текст».

Так, В.И. Перебейнос отмечает, что «порождение текста это результат взаимодействия нескольких систем: языка, не­ которой подсистемы объективной действительности, опи­ сываемой в тексте, системы взглядов автора текста, имею­ щейся в его сознании модели мира и описываемого явле­ ния...» [268, с. 170].

Роль субъективной картины мира в построении текста определенного содержания подчеркивают и другие авторы [90, с. 24]. При этом отмечается, что такая субъективная Глава 3. Системы обработки связных текстов картина мира создается некоторой ситуацией, под которой понимается определенным образом организованная или по­ нимаемая совокупность элементов реального или вообража­ емого мира, преобразованная сознанием автора [341, с. 22 31]. Ситуация создает атмосферу словесных и физических действий, проявляющуюся в определенном ритуале говоре­ ния в виде некоторых речевых клише.

При коммуникативном подходе текст рассматривается как процесс с учетом обстоятельств общения и характеристик говорящего (адресанта) и слушающего (адресата). Такое изу­ чение текста осуществляется в рамках лингвистики текста.

При этом впервые проводится разграничение дискурса как текста, рассматриваемого в ситуации реального общения, и текста, рассматриваемого вне такой ситуации. Здесь диапа­ зон определений понятия «текст» также достаточно велик.

Простейшим из них можно считать следующее: «Текст объединение языковых средств, используемых в речи, ко­ торое обеспечивается их следованием друг за другом и их отношением к суммарному смыслу» [93, с. 63-64]. Или текст понимается как продукт речевой деятельности, как некото­ рое коммуникативное единство [79, с. 151].

Среди определений понятия «связный текст», данных с информационной точки зрения, можно отметить определения Р. Барта и 3. Шмидта.

Р. Барт: «Назовем объект транслингвистики (связным) текстом... и определим его... как любой конечный отрезок речи, представляющий собой некоторое единство с точки зрения содержания, передаваемый со вторичными комму­ никативными целями и имеющий соответствующую этим целям внутреннюю организацию, причем связанный ины­ ми культурными факторами, нежели те, которые относятся к собственному языку» [21, с. 443-444].

3. Шмидт: «Можно сказать, что текст возникает благо­ даря упорядоченной комбинаторике наделенных информа­ цией элементов по правилам синтаксиса и грамматики, че­ рез преобразование элементов, наделенных способностью к комбинированию, присоединение и совместимость друг с 82 Основы искусственного интеллекта для лингвистов другом в информационно значимые множественные связи»

[383, с. 98].

Вплотную к этим определениям текста примыкают се­ миотические (и уже - семантические) толкования понятия «текст». Некоторые из них трактуют понятие «текст» как фундаментальное понятие семиотики [436, с. 13]. С этой точки зрения текстом считается «всякая знаковая структу­ ра, передающая определенное целостное значение...» [433, с. 154] или «любая семантически организованная последо­ вательность знаков» [353, с. 443]. Несколько конкретнее зву­ чат такие определения, как «... текст - это требующая пост­ роения, информативно успешная последовательная связь между уже упомянутыми и еще не упомянутыми семанте­ мами...» [410, с. 118] или «чтобы какой-то текст стал тек­ стом, он должен располагать хотя бы одной изотопной плос­ костью» [160, с. 121]. Причем под изотопией понимается наличие семантически близких элементов у членов цепоч­ ки связного текста [255, с. 468].

Лингвокультурологический подход к понятию «текст» име­ ет целью освещение особенностей менталитета народа, го­ ворящего на конкретном язы ке, и находящего отражение в разных типах текстов. Здесь понятие «текст» переходит в понятие «дискурс». Основная идея такого подхода связана с тем, что воспринимаемые человеком явления реальной действительности отображаются в его сознании так, что это отображение ф иксирует причинны е, пространственны е связи явлений и эмоций, вызываемых-восприятием этих явлений, и образ мира меняется от одной культуры к дру­ гой [370, с. 62].

В данной книге принято определение понятия «текст», объединяющее по своей сути логико-лингвистический, и н ­ формационный и семиотический подходы. Текст - это со­ общение, «объективированное в виде письменного докумен­ та, литературно обработанное в соответствии с типом этого документа, состоящее из названия (заголовка) и ряда осо­ бых единиц (сверхфразовых единств), объединенных раз­ ными типами лексической, грамматической, логической, Глава 3. Системы обработки связных текстов стилистической связи, имеющее определенную целенаправ­ ленность и прагматическую установку» [91, с. 18].

Как видно из сказанного, подход к тексту, как к некото­ рой имманентной структуре постепенно меняется на дина­ мический подход, предполагающий изучение функциональ­ ного и когнитивного аспектов текста и его семантики.

Исследователи, рассматривая текст как некоторую им­ манентную структуру, как некоторую «упакованную» ком­ муникацию, включающую в свернутом виде не только все элементы ком муникативного акта, но и сигналы для их расшифровки [112, с. 15], выделяют в нем до нескольких десятков различных категорий. Среди них такие категории как «когезия», «когерентность», «интеграция», «цельность», «тематичность», «завершенность», «коммуникативность», «информативность», «эмотивность», «континуальность», «объемность», «ситуативная обусловленность», «воспроиз­ водимость» и т.п. [282, с. 70;

376, с. 237;

217;

437;

445]. Пред­ принимаемые попытки выделить среди этих категорий ве­ дущие и второстепенные, содержательные и формальные не дали положительных результатов, так как до сих пор не най­ дены принципы, позволяющие разграничить категориаль­ ные и некатегориальные признаки текста [282, с. 70;

349;

217]. Все эти признаки в тексте тесно взаимодействуют друг с другом.

Ориентируясь на обработку текстов с помощью компью­ теров, выделим среди большого числа характеристик тек­ ста те, которые могут быть формализованы1:

• наличие единого содержания;

• наличие определенных единиц, из которых образуется текст;

• наличие семантической, грамматической и логической связи между единицам и текста;

' В число этих характеристик мы не включаем такие отмеченные мно­ гими исследователями [91;

242;

253;

301] особенности текста, как «цель­ ность», «завершенность», «правильность», «развернутость», «последователь­ ность» ввиду того, что все они являются, по существу, категориями психо­ логическими, а не лингвистическими [301, с. 42].

84 Основы искусственного интеллекта для лингвистов • наличие определенного модального характера и праг­ матической установки;

• неоднозначность связей между единицами текста.

3.3.2. Основные единицы текста Всякое научное исследование, имеющее целью изучение структуры текста, предполагает решение трех основных задач:

• установление основных единиц текста;

• выявление правил их синтагматики;

• нахождение правил организации основных единиц в более крупные текстовые единицы.

При поверхностном взгляде в письменных текстах можно выделить следующие составляющие [111, с. 125;

280, с. 9-10;

333, с. 8-11]: слова, словосочетания, предложения, абзацы, параграфы, главы, части (разделы), тома. В сели они семан­ тически значимы для определения содержания всего тек­ ста? Рассмотрим этот вопрос подробнее.

Слово, являясь языковым знаком, не является простым мысленным отражением какого-либо объекта. Значение слова представляет собой сложную структуру, определяемую спецификой знаковой ситуации [221, с. 34;

231, с. 221-258].

Как отмечал В.В. Виноградов, значение слова «зависит от свойства той части речи, той грамматической категории, к которой принадлежит слово, от общественно опознанных и отстоявшихся контекстов его употребления, от конкрет­ ных лексических связей его с другими словами, обусловлен­ ными присущими данному языку законами сочетания сло­ весных знаний, от семантического соотношения этого сло­ ва с синоним ам и и вообще с близким и по значению и оттенкам словами, от экспрессивной и стилистической ок­ раски слова» [73, с. 7]. Именно знаковая ситуация диалек­ тически разрешает противоречия общего и индивидуально­ го, возможного и действительного, сущности и явления [221, с. 35]. При этом «общее индивидуализируется, многознач­ ность переходит в однозначность, семантическое значение Глава 3. Системы обработки связных текстов языка трансформируется в прагматическое, объективное субъективируется» [92, с. 139].


Все эти особенности знаковой ситуации детально учтены в разработанной Р.Г. Пиотровским теории знака [278, с. 35 85]. В соответствии с этой теорией слово-знак рассматри­ вается как элемент динамической системы. Остановимся лишь на некоторых, важных для нас особенностях этой те­ ории. В соответствии с ней в означаемом референта (неко­ торого реального или мнимого объекта, предмета) содержит­ ся по крайней мере два самостоятельных компонента. Пер­ вы й ко м п о н е н т - денот ат, п р и с о е д и н я я с ь к и м ен и, является целостным, неделимым отражением референта. В этом случае имя отражает некоторый единичны й объект внешнего мира. Второй - десигнат (или сигнификат) пред­ ставляет собой смысловую единицу, выражающую концепт2, общую сущность всех предметов, принадлежащих к классу, обозначаем ом у д анны м имя конкретным именем. При этом имя воплощает по­ нятие о группе объектов, о б о зн ач аем ы х д ан н ы м и м енем [384, с. 153]. С опорой на исследования других ученых [339, с. 9 1 95] в структуру знака вво­ Рис. 3.2. Схема слова-знака дится коннотат как такая его составляющая, которая над денотатом и десигнатом каж­ дого знака надстраивает вторичные смысловые оттенки и оценки [278, с. 42].

Таким образом, вместо знакового треугольника Г. Фреге [407, с. 192], соотношение между именем и референтом в теории знака Р.Г. Пиотровского может быть представлено в виде следующей схемы (рис. 3.2).

2 При этом отмечается, что содержание десигната гораздо богаче содер­ жания концепта, который является лишь одним из признаков, содержа­ щихся в понятии.

86 Основы искусственного интеллекта для лингвистов Ориентируясь на эту схему, под значением слова-знака бу­ дем понимать отношение, сложившееся в сознании чело­ века между именем соответствующего знака и компонента­ ми означаемого этого знака.

При использовании слова-знака в компьютере происхо­ дит постепенное упрощение и «вырождение» языкового зна­ ка, которое выражается в первую очередь в последователь­ ном ослаблении его психичности [281, с. 186]. Реализуемые в компьютере языковые и речевые модели базируются на моделях словесных знаков, включающих лишь коды имени и коды денотата.

Проблемы выяснения роли предложения в системе язы ­ ка и речи, семантической и синтаксической организации предложений были и остаются важнейшими задачами язы ­ кознания, логики, психолингвистики. Существуют иссле­ дования, раскрывающие разные подходы к решению всех этих проблем (например, [5;

16, с. 5-20;

73;

90;

126, с. 112— 204]), и мы не будем подробно на них останавливаться. От­ метим лишь, что в качестве основы предложения чаще все­ го рассматривают:

• внеязыковую ситуацию (референтная концепция);

• структуру мысли в виде предметно-атрибутивного суж­ дения или в виде пропозициональной функции (логичес­ кая концепция);

• verbum finitum и его грамматические категории (мор­ фологическая концепция).

Опираясь на знаковую природу единиц языка, рассмот­ рим референтную концепцию семантической основы пред­ ложения. В соответствии с ней под смыслом предложения понимается отражение и обобщение в сознании человека некоторого фрагмента действительности, представленного в виде некоторой простейшей ситуации или события3 [90;

159, с. 141-142;

190, с. 52;

341, с. 15]. Такую ситуацию назы­ вают «психической» [204, с. 44], а в «смысле» при этом вы­ 3 Ср. в связи с этим высказывание В.В.-Виноградова «... в предложении отражается и выражается «отрезок», «кусочек» действительности» [73, с. 12].

Глава 3. Системы обработки связных текстов деляют денотативную и десигнативную составляющие4. Д е ­ нотат - это представление об определенном классе ситуа­ ций, которое формируется в человеческом сознании путем отвлечения от множества однотипных ситуаций [89, с. 232;

341, с. 9]. Н о согласно теории познания движение мысля­ щей материи при отражении ситуаций реальной действи­ тельности покоится на органическом единстве двух проти­ воположных сторон: чувственного созерцания и рациональ­ ного (логического) м ы ш ления, и направлено от живого созерцания к абстрактному мыш лению [182, с. 94-100].

Поэтому автор, воспроизводящий конкретное предложение, непроизвольно выражает в нем не только конкретное собы­ тие, но и нечто общее, что есть в однотипных событиях дей­ ствительности. Помимо этого, в содержательном аспекте предложений выражаются также разные эмоциональные, экспрессивные и оценочные оттенки [184, с. 5;

218, с. 4 5 48]. Иными словами, в структуре предложения-знака обяза­ тельным компонентом, кроме отмеченных, является прагма­ тический аспект, который можно считать шире коннотатив ного аспекта знака-слова, потому что прагматический аспект, кроме коннотативной, включает еще и информативную или коммуникативную составляющую [184, с. 5]. Прй этом ин­ формативность понимается здесь не в смысле истинности предложения и соответствия мира истинным условиям пред­ ложения [146], а в русле проблем актуального членения.

Учитывая также то, что между входящими в предложе­ ние словами существуют определенные синтаксические от­ нош ения, семиотическую структуру знака-предложения в речи можно представить в виде рис. 3.3, где - денотат предложения;

Сл - десигнат предложения;

К л- коннотат предложения;

Рл - информационный аспект предложения;

Вл - синтаксический аспект предложения.

Опираясь на предложенную семиотическую структуру предложения, уточним понятие смысла предложения. Смыс­ 4Термины «референт», «денотат», «десигнат», «коннотат» понимаются в том смысле, как они заданы выше.

88 Основы искусственного интеллекта для лингвистов лом предложения или мыслью, Цепочка имен залож енной в предлож ении, предложения назовем отражение в сознании человека отношения линейной последовательности имен пред­ ложения к отраженному в со­ знании событию (как совокуп­ ности отмеченных выше пяти компонентов означаемого).

Вопрос о том, относится ли Рис. 3.3. Семиотическая структура знака-предложения предложение к числу основных сем антических ком понентов текста, решается неоднозначно. Одни ученые считают, что предложение является основной смысловой единицей тек­ ста, так как оно отражает определенный фрагмент реаль­ ной действительности и не имеет самостоятельного значе­ ния вне текста [242, с. 16;

404, с. 64]. Другие исследователи, основываясь на том, что предложение - это основная еди­ ница языка, полагают, что оно не может быть основной еди­ ницей текста [92;

301, с. 18]. Мы считаем, что событие как простейший фрагмент некоторой ситуации может входить в качестве составляющей в различные относительно закончен­ ные микроситуации, элементы которых связаны определен­ ными временными, пространственными или функциональ­ ными отношениями. Поэтому и предложение как отражение в тексте такого события также является несамостоятельной частью различных более крупных текстовых (речевых) еди­ ниц, т.е. предложение не относится к числу основных се­ мантических компонентов текста [124, с. 16;

173, с. 30;

301, с. 34-35].

Много споров вызывает до сих пор вопрос о сущности абзаца. Его относят то к композиционной, то к логической, то к семантической единице текста [233, с. 23;

251, с. 206;

269, с. 9;

322, с. 208]. Выделяются различные признаки, объе­ диняющие предложение в более крупные текстовые едини­ цы [194]. Наибольшее распространение получил семанти ко-синтаксический подход, при котором основной едини­ Глава 3. Системы обработки связных текстов цей текста, объединяющей несколько предложений, явля­ ется сверхфразовое единство или сложное синтаксическое це­ лое [91, с. 67-73;

209, с. 61-84;

242, с. 16-42;

283]. Суще­ ствует более двух десятков определений этого понятия. Все они предъявляют к такому объединению предложений по существу одни и те же требования: наличие смысловой и синтаксической (формальной) связи между предложения­ ми в пределах данной единицы текста. Однако формальная связь во многих из таких определений понимается по-раз­ ному. Для одних авторов «сложное синтаксическое целое»

совпадает с абзацем [318;

322], для других оно может быть и менее абзаца, а может включать и несколько абзацев [124;

251;

333].

Переходя к обоснованию выбора абзаца в качестве ос­ новного семантического ком понента текста, необходимо прежде всего отметить следующее. Несмотря на то, что ок­ ружающая нас материя существует в виде бесконечного раз­ нообразия конкретных объектов и систем, обладающих дви­ жением, структурностью, связями и взаимодействиями про­ странственно-временных и других общих и частных свойств, познание этой материи осуществляется путем квантования действительности и отражения этих квантов в виде опреде­ ленных спаянных единством словесных блоков. Исследо­ вания лингвистов, психологов, логиков, методистов позво­ ляют принять для письменного текста в качестве такого сло­ весного блока абзац. Действительно, интуитивно говорящий и слуш аю щ ий вы деляет в составе текста определенную иерархическую сеть тем, подтем и микротем [116, с. 15]. Не вдаваясь подробно в проблему взаимоотнош ения языка и мышления, подчеркнем лиш ь один важный аспект. В пла­ не взаимосвязи языка и мышления разграничивают два вида мышления: познавательное и коммуникативное. Последнее «можно рассматривать как переработку уже познанного, известного для себя, в информацию для других, иначе гово­ ря, как коммуникативное преобразование определенных знаний» [258, с. 385]. А так как при порождении текста дей­ ствует именно этот тип мышления, то определяя абзац с точ­ 90 Основы искусственного интеллекта для лингвистов ки зрения плана содержания, будем опираться на данный тип мышления. Общепризнанно, что в процессе общения «мы обмениваемся не словами и их значениями, а мысля­ ми, используя слова» [127, с. 168], т.е. первичной и исход­ ной в деятельности общения является мысль, отражающая некоторый фрагмент психической ситуации.

Вместе с тем, эксперименты психологов и лингвистов показывают, что внеязыковое содержание чаще всего пере­ дается не одним, а несколькими взаимосвязанными пред­ ложениями. Речевое действие включает несколько синсе мантичных предложений, каждое из которых по отношению друг к другу находится в состоянии некоторой зависимости.

Таким образом, мысли, как простые сообщения, объединя­ ясь в тексте, создают более крупные единицы, передающие более сложные сообщения, описывающие некоторые сово­ купности фрагментов психической ситуации.

Минимальное из таких объединений, включающее одну или несколько мыслей, назовем микротемой [209, с. 60;

432, с. 264]. При этом если микротема состоит из нескольких мыслей, они должны быть обязательно связаны между со­ бой определенными отношениями в соответствии с пред­ метными свойствами их референтов (временны ми, про­ странственными и др.). Отсюда следует, что тема всего тек­ ста - это объединение нескольких микротем, связанных между собой определенными отношениями (временными, функциональными, пространственными и т.п.) в соответ­ ствии с предметными свойствами референтов, общими для всех микротем.

Эксперименты, проведенные в странах СН Г и в дальнем зарубежье [45;

420], дают возможность сделать следующий вывод: выполняя деление текста на «куски», испытуемые соединяют мысли в тематические группы предлож ений.

Причем показано также, что выделяемые при этом части текстов совпадают, как правило, с абзацами. Таким обра­ зом выделение групп предложений в абзацы не является про­ извольной операцией автора текста. При делении текста на абзацы за основу берется его смысловое содержание. Чле­ Глава 3. Системы обработки связных текстов нение текста на абзацы способствует лучшему усвоению и запоминанию текста, что связано с указанной выше особен­ ностью познания действительности через ее квантование.

Итак, абзац - это реально существующая единица речевой практики, сознательно выделяемая пишущим для облегче­ ния восприятия и усвоения его мыслей читателем.

Рассматривая абзацы самых различных текстов можно обнаружить, что они отличаются от несвязанной цепочки предложений целым рядом особенностей [4;

162]:

• предложения, входящие в абзац, должны описывать одну микротему (или несколько взаимосвязанных микро­ тем). Это значит, что в составе денотативных и коннотатив ных значений слов, пронизывающих абзац, должны нахо­ диться общие компоненты [4, с. 14];

• предложения, образующие абзац, должны иметь спе­ циальные лексические средства связи между собой;

• между предложениями, входящими в абзац, Должны быть определенные синтаксические связи, отражающие со­ циально утвердившуюся логику, в соответствии с которой автор организует восприятие читателя [254, с. 55;

304, с. 33 34;

318].

Учитывая также, что разные части абзаца, как и предло­ ж ения, несут разную информационную нагрузку [4] и что абзац в целом отражает нечто общее в ряду подобных отно­ шений предметов действительности, а также то, что абзац может вносить в текст оп­ ределенные стилистико­ Ц епочка имен абзаца экспрессивные элементы [162, с. 258], семиотичес­ кую схему речевого зна­ ка-абзаца м ож но п р ед ­ ставить в виде рис. 3.4.

Так как каждый абзац, как «маленький текст», описы вает некоторую Рис. 3.4. Семиотическая структура конкретную микроситуа­ знака-абзаца цию действительности 92 Основы искусственного интеллекта для лингвистов [114, с. 17], то денотатом абзаца (D a) является совокупность предметов этой конкретной ситуации [254, с. 54];

десигна­ том знака-абзаца ( C J - представление о тех множествах предметов, которые могут образовать такую же микроситу­ ацию, которая представлена в данном конкретном абзаце.

Социально значимый способ передачи отношений между предметами, входящими в описываемую абзацем микроси­ туацию, определяется синтаксическим значением Ва. Как и для предложений, значимыми для абзаца являются также информационный (Ра) и коннотативный (К а) аспекты. Из рис. 3.4 видно, что в семиотической структуре знака-абзаца появляются две новые составляющие: Та и Fa. Первую назо­ вем тематическим аспектом, связанным с единством темы всего текста, а вторую - связующим межфразовым аспек­ том, отражающим наличие в абзаце специальных средств связи между предложениями.

При таком подходе к абзацу содержанием абзаца назовем отражение в сознании человека отношения линейной по­ следовательности имен абзаца к микроситуации, отражен­ ной в сознании в виде совокупности представленных в се­ миотической структуре абзаца семи компонентов означае­ мого этого знака.

3.3.3. Текст как последовательность взаимосвязанных абзацев Из перечисленных пяти составляющих текста подробно были рассмотрены три и показано, что основным семанти­ ческим компонентом текста можно считать лишь абзац. Ана­ лизируя разные последовательности абзацев в текстах все­ возможного типа и вида, можно заметить, что они могут от­ деляться друг от друга названиям и, знаками «параграф», «пункт», «пропуск строки», «изменение типа шрифта» и дру­ гими графическими знаками. Поэтому назовем текстом минимальную последовательность абзацев (это может быть и один абзац), объединенную единой темой (в указанном Глава 3. Системы обработки связных текстов выше смысле), обладающую определенным модальным ха­ рактером и прагматической установкой, связанную разны­ ми типами лексической, грамматической и логической связи и ограниченную каким-либо отдельным названием, графи­ ческими знаками «параграф», «пункт», «пропуск строки», «изменение типа шрифта» или любыми другими знаками, равносильными указанным.

Тогда относящимся к данному тексту абзацем будем счи­ тать минимальную последовательность предложений (это может быть и одно предложение), имеющую семантические показатели связи с темой всего данного текста, связанную различными типами лексической, грамматической и логи­ ческой связи и выделяемую в тексте пробелами (абзацным отступом) в начале первого предложения.

С учетом приведенного определения текстом будут про­ стые (без внутренних делений) повести, рассказы, очерки, поэмы, стихотворения;

параграфы (без внутренних делений) научных, деловых или художественных произведений;

час­ ти подобных перечисленным сложных произведений, вы ­ деленные номерами пунктов, пропусками чистой строки, изменениями типа шрифта и т.п. Все другие, более круп­ ные объединения абзацев, содержащие рассмотренные тек­ сты в качестве составляющих, будем называть супертекста­ ми п-го уровня сложности. Н апример, если в какой-либо повести есть две неделимые части, обозначенные автором номерами I и II, то эта повесть будет супертекстом второго уровня сложности. Если какая-либо глава научного сочи­ нения состоит из пяти пунктов (например, 1.1, 1.2, 1.3, 1.4, 1.5), эта глава будет супертекстом пятого уровня сложности и т.д.

М ногоаспектные исследования разных текстов показы­ вают, что каждый текст по структуре является многоплано­ вым и противоречивым образованием. В нем можно обна­ ружить социальное и индивидуальное, детерминированное и случайное, обязательное и факультативное, содержатель­ ное и формальное, глубинное и поверхностное, языковое и речевое [301, с. 43]. К тем же противоречивым особенное 94 Основы искусственного интеллекта для лингвистов тям текстов относится и наличие в тексте статического и динамического аспектов.

Термины «статический» и «динамический» по отноше­ нию к тексту употребляются обычно в смысле «покой» и «движение» [91, с. 19]. Текст как последовательность лек­ сических единиц, как некоторый результат, продукт рече­ мыслительной деятельности находится в статическом состо­ янии или в состоянии покоя. Текст же в процессе его по­ рождения, восприятия и понимания считается находящимся в движении [91, с. 19;

253, с. 31].

Рассмотрим проблему статики и динамики текста с не­ сколько иной точки зрения. Как отмечали многие исследова­ тели, при воспроизведении предложений запоминаются две группы данных о каждом из них: информация о его семанти­ ческом содержании и информация о его синтаксической струк­ туре. При этом семантический аспект запоминается в каче­ стве первого шага, а синтаксический - в качестве второго [205, с. 89]. В дальнейшем это положение было развито по отноше­ нию к тексту и свелось к констатации того, что в каждом тек­ сте есть свой словарь и свой синтаксис [174, с. 47;

194, с. 141;

301, с. 56]. Эти составляющие понимаются по-разному. Нам ближе точка зрения, когда под словарем понимаются так на­ зываемые слова «содержания» или «несомые слова», а под син­ таксисом имеется в виду грамматический строй вместе с «не­ сущими» или служебными словами [301, с. 44]. Таким обра­ зом, можно преставить, что слова «содержания» формулируют статику текста и являются отражением в тексте некоторого множества предметов, явлений, фактов реальной действитель­ ности, а синтаксис - динамику текста, отражающую те отно­ шения между этими предметами, фактами, явлениями, кото­ рые устанавливает автор текста в зависимости от цели, типа текста, речевого опыта и целого ряда других факторов. Нали­ чие этих двух составляющих в тексте подтверждают и экспе­ рименты по анализу процесса понимания текста [207, с. 120].

Рассмотрим подробнее, что представляют из себя эти составляющие текста с точки зрения его организации как единого целого.

Глава 3. Системы обработки связных текстов 3.3.4. Статика текста Любая ситуация, отраженная в тексте, может быть рас­ смотрена с той или иной позиции. Помимо этого, отбор эле­ ментов ситуации связан с тем, что человек воспринимает дей­ ствительность в условиях некоторой вероятности, зависящей от его жизненного и языкового опыта [49, с. 81;



Pages:     | 1 || 3 | 4 |   ...   | 7 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.