авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:   || 2 | 3 | 4 |
-- [ Страница 1 ] --

Московский Государственный Институт стали и сплавов

(Технологический университет)

На правах рукописи

ПОЛЯКОВ Владимир Николаевич

МОДЕЛИ АЛГОРИТМИЧЕСКОГО ТИПА

ДЛЯ РАСПОЗНАВАНИЯ СЕМАНТИЧЕСКИХ СВЯЗЕЙ

В СИСТЕМАХ МАШИННОЙ ОБРАБОТКИ

ЕСТЕСТВЕННОГО ЯЗЫКА

Специальность 05.13.16. - применение вычислительной

техники, математических методов и математического

моделирования в научных исследованиях Диссертация на соискание ученой степени кандидата технических наук

Научный руководитель:

академик М.А.И, доктор технических наук, профессор А. Г. Дьячко Москва ОГЛАВЛЕНИЕ Стр.

ВВЕДЕНИЕ Глава I. Синтез формальных моделей языка и смысла как проблема семантической обработки естест венного языка Феноменологические модели для естественно - языко-вого 1. предложения Феноменологические модели для естественно - языко-вого 1. высказывания Формальные модели языка 1.3 Представление смысла естественно-языковых форм в моделях, 1. основанных непосредственно на математи-ческой логике Представление смысла естественно - языковых форм с помощью 1. семантических сетей и графов Представление энциклопедических знаний с помощью когнитивных 1. моделей Выводы 1.7 Глава II. Семантические примитивы в модели представления смысла и грамматике языка Требования к модели представления 2.1 Основные понятия 2.2 Формализмы исчисления высказываний и предикатов 2.2.1 Язык формул в МАМС 2.2.2 Представление ЕЯ- форм 2.3 Структура слова 2.3.1 Словосочетание 2.3.2 Семантика глагольных словосочетаний 2.3.3 Семантика сложных предложений 2.3.4 Элемент смысла как универсальная структурная единица модели 2. языка Выводы 2.5 Глава III. Формальные модели языка и представления смысла Многоаспектная модель смысла предложения 3.1 Идея аспектов смысла 3.1.1 Идея семантического примитива: субъект - отношение - атрибут 3.1. Идея объектно-ролевого взаимодействия 3.1.3 МАМС и когнитивные модели 3.1.4 Многоаспектная модель смысла высказывания 3.2 Структура смысла ЕЯ - высказывания 3.2.1 Базовый коммуникативный компонент 3.2.2 Коммуникативная пресуппозиция 3.2. Обстоятельства высказывания 3.2.4 Функция актуализации и референциальное значение 3.2.5 Статусы значений истинности 3.3 Репрезентативные возможности модели 3.4 Соотношение МАМС и теории концептуальных гра-фов 3. Грамматика элементов смысла повествовательного предложения 3. изъявительного наклонения Мотивация 3.6.1 Основные понятия ГЭлС 3.6.2 Структура и свойства ЭлС 3.6.3 Графические представления в ГЭлС 3.6.4 Операции над ЭлС 3.6.5 Ограничения модели 3.6.7 Обсуждение Грамматики элементов смысла 3.6.8 Выводы 3.7 Глава IV. Моделирование языковой способности с помощью автоматизированной системы “Недоросль” Назначение системы "Недоросль" 4.1 Описание системы 4.2

Работа со списками 4.2.1 Работа с анкетами 4.2.2 Структура и особенности базы лингвистических зна-ний 4.2. ЕЯ - анализ 4.2.4 Работа с системой “Недоросль” 4.3. Выводы 4.4 ЗАКЛЮЧЕНИЕ СПИСОК ЛИТЕРАТУРЫ ПРИЛОЖЕНИЯ Приложение 1 Примеры интерпретации естественно- языковых форм английского языка в Многоаспектной модели смысла Таблица П1.1. Примеры интерпретации словообразовательной моде-ли, словосочетания и простого предложения в англий-ском языке Таблица П1.2. Модель управления для английского глагола to buy Таблица П1.3. Хронологическая парадигма английского глагола to read Приложение 2 Описание программы “Недоросль” П 2.1 Алгоритм идентификации частей элементов смысла в ЕЯ предложении. П 2.2 Фрагменты текста программы анализа естественно- языкового предложения в системе "Недоросль" (подпрограммы ANALDO и DEFMUP). П 2.3 Протокол выполнения функции "анализ ЕЯ-предложе-ния" ВВЕДЕНИЕ Развитие мирового научно-технического прогресса породило проблему информационного взрыва [30], когда рост объема новой информации в единицу времени подчиняется экспоненциальному закону. В этих условиях задача автоматизированной обработки естественного языка приобретает особую актуальность.

Идея обработки естественно-языкового текста (ОЕЯТ) на вычислительной машине возникла практически сразу же после появления первых ЭВМ. К наиболее ранним подходам в этой области можно отнести идею теста Тьюринга [254], который долгое время считался главным способом практической проверки возможностей компьютера по моделированию языковой способности [171]. Ранние работы по ОЕЯТ были тесно связаны с практическими нуждами машинного перевода [16]. Появление формальных моделей для ОЕЯТ и зарождение направления компьютерной лингвистики связывают с работой [143].

Сегодня ОЕЯТ - это бурно развивающаяся область научных исследований и коммерческих разработок. В настоящее время в области компьютерной лингвистики ежегодно в мире проводится более 40 конференций [122, 160], посвященных различным проблемам обработки естественных и искусственных языков, завершены или находятся в стадии разработки ряд крупных международных научных проектов [71, 168, 176], более 30 крупных издательств [187] в мире выпускают научную продукцию (журналы, труды конференций, сборники статей, книги) по этой тематике, университеты развитых стран систематически готовят специалистов по этой специальности [226]. Неуклонно растет количество программных продуктов, связанных с ОЕЯТ [151].

Согласно [226], компьютерная лингвистика определяется как научная дисциплина, которая находится на границе между лингвистикой и информатикой (computer science). Она занимается вопросами компьютерного моделирования (и исследования) языковой способности человека. Эта наука относится к области когнитивных наук и перекрывается с областью искусственного интеллекта (ИИ), другой ветвью информатики, которая нацелена на компьютерное моделирование и исследование человеческого сознания. В самой компьютерной лингвистике выделяют прикладную и теоретическую области. Обработка естественного языка относится к прикладной области компьютерной лингвистики и направлена на создание программных продуктов, моделирующих уникальную способность человека, как биологического вида, - способность к общению (письменному и устному) на естественном языке. Другая часть компьютерной лингвистики, теоретическая, занимается проблемами искусственных языков. Достижения последних лет в области современной логики, искусственного интеллекта и компьютерной лингвистики создали новые предпосылки для исследования природы семантических связей в естественном языке в целях построения формальных моделей для естественно-языковых форм: предложения, высказывания, текста.

Прогресс в области информационных технологий обеспечил необходимые предпосылки для компьютерной реализации разработанных моделей.

Таким образом, актуальность работы обуславливается потребностями, возникшими в области обработки естественно- языкового текста в связи с бурным развитием компьютерных средств коммуникации.

Традиционная лингвистика [6, 50, 120] обращает внимание на семантику естественного языка в основном при обучении языку как иностранному [28]. Кроме того, форма изложения семантики языковых форм принятая в традиционной лингвистике [121] требует существенного переосмысления для целей автоматизированной обработки.

В процессе выполнения исследовательской работы потребовался серьезный анализ подходов к проблеме обработки естественного языка в области машинного перевода [9, 56, 69, 129, 130, 204, 212, 227, 244]. Несмотря на то, что уровень развития этой области обработки естественного языка проявил себя в сфере коммерческих разработок, главный недостаток этих подходов проявляется в недостаточном учете влияния семантического представления языкового высказывания на процесс его обработки.

При исследовании семантики естественно-языкового высказывания учитывался опыт построения систем логического вывода [36-39, 81, 91, 95, 97- 99, 186, 243, 252] и когнитивных моделей [40, 123-137, 165, 220], основанных на математической логике. Однако, при применении этого опыта необходимо учитывать богатую феноменологию языка, которая зачастую не принимается в расчет в логических моделях.

Обращаясь к проблемам исследования природы семантических связей естественного языка мы стремились учесть отечественный и зарубежный опыт, накопленный при построении формальных моделей языка [22, 23, 27, 46, 47, 65, 70, 75, 79, 107, 128, 144, 145, 209] и смысла [61, 197, 235, 246] и их интеграции [89, 177, 194, 197, 176]. Несмотря на существенный прогресс в этой области задача интеграции модели языка и модели смысла остается еще не решенной в той степени, которая может оказаться достаточной для разработки прикладных систем. Решение проблемы адекватного представления смысла естественно языкового предложения, высказывания, а в последующем и текста, в строгой логической форме позволит реализовать ряд новых функциональных возможностей в информационных системах.

В частности, наличие логического представления для смысла ЕЯ- формы обеспечивает выполнении таких важных когнитивных процедур, как: перифраз, синтез на другом языке при переводе, извлечение новых данных и знаний из входного текста, пополнение имплицитной информацией входного текста, поиск ответа на вопрос, построение логического вывода, включение новой информации в базу данных и знаний. Это в свою очередь будет способствовать повышению интеллектуального уровня информационных систем.

Цель данной работы - исследование природы семантических связей в предложении и высказывании естественного языка, а также разработка и апробация алгоритмических моделей для автоматического построения логических выражений, описывающих их семантику (= смысл) с учетом перспективы дальнейшего использования в прикладных компьютерных системах с элементами обработки естественного языка (системы машинного перевода, текстовые базы данных, системы анализа текстов, естественно- языковой интерфейс и т.д.).

Достижению поставленной цели подчинено решение следующих более конкретных задач исследования:

• изучить полученные ранее и опубликованные в литературе результаты в области исследования предложения и высказывания как феноменов естественного языка;

изучить существующих опыт построения формальных моделей языка (=грамматик) и смысла (=систем представления знаний);

• исследовать механизмы взаимосвязи эквивалентных языковых и логических структур с целью выявления семантических примитивов модели языка и модели смысла ;

определить понятия семантический примитив модели языка и семантический примитив модели смысла;

выявить семантический примитив в составе логического представления смысла;

изучить его структуру, типы, свойства, внутренние и внешние семантические связи;

выявить его эквивалент в естественно-языковых формах предложения и высказывания;

изучить структуру, типы, свойства, признаки идентификации естественно-языкового эквивалента семантического примитива, закономерности построения структурного представления предложения с использованием семантического примитива модели языка, закономерности построения логического представления предложения и высказывания с использованием семантического примитива модели смысла;

• построить грамматики и модели представления смысла для наиболее часто встречающихся в научных и технических текстах утвердительных типов предложений и высказываний;

• разработать методы и алгоритмы машинного выявления семантических примитивов в языке и их использования для построения логического представления смысла предложения.

Научная новизна диссертации состоит в том, что автором:

• предлагается новый подход к разработке моделей для обработки естественно языковых форм, который заключается в том, что разрабатываются одновременно две согласованные модели : модель языка (грамматика) и модель смысла (система представления);

• в основе согласования моделей языка и смысла лежит идея автора о существовании эквивалентных семантических примитивов в моделях языка и смысла;

• последовательно разграничиваются модели для различных естественно языковых форм : предложения и высказывания на основании феноменологических свойств этих форм в области их семантики;

это обеспечивает качественно новый уровень понимания текста за счет включения коммуникативно- функциональных составляющих в структуру представления смысла;

• на основании обнаруженных закономерностей разработаны алгоритмические модели для утвердительных типов предложений и высказываний русского языка (Многоаспектная модель смысла и Грамматика элементов смысла).

Теоретическая значимость исследования заключается в том, что в работе:

• выявлены языковая и логическая структуры нового типа: семантические примитивы моделей языка и смысла;

• исследованы их типы, состав, свойства, семантические связи;

• выявлены закономерности построения структурных представлений предложений на основе семантических примитивов языка;

• показана связь между семантическим примитивом модели языка и поверхностно-синтаксическим отношением в модели Смысл-Текст;

• выявлены закономерности построения логических представлений предложений и высказываний на основе семантических примитивов модели смысла;

• определены логические формулы для утвердительных типов предложений и высказываний русского языка;

• показан универсальный характер обнаруженных закономерностей на примерах из русского и английского языков ;

• показаны ограничения в существующих моделях, которые преодолеваются при использовании семантических примитивов в моделях языка и смысла.

Практическая ценность диссертации заключается в возможности использования результатов работы при разработке прикладных систем моделирования языковой способности лингвистических процессоров различного назначения, при разработке автоматизированных систем извлечения из текстов данных и знаний. Обнаруженные закономерности могут быть использованы в методике преподавания русского языка как иностранного и иностранных языков. Результаты исследования могут найти применение в теоретических курсах по компьютерной лингвистике.

Предмет, материал и цель исследования определили используемые в работе методы:

При подборе, анализе и интерпретации фактов естественного языка использовались описательно- аналитический и дистрибутивно- контекстологический методы исследования, компонентный анализ.

Построение формальных моделей языка и смысла потребовало привлечения методов структурно- семантического, логико- математического и когнитивного моделирования.

При разработке программного обеспечения использовались методы алгоритмического моделирования, метод макетирования и элементы структурного программирования. В работе использовался компьютерный эксперимент.

На защиту выносятся: Многоаспектная модель смысла для предложения и высказывания, Грамматика элементов смысла, которые имеют следующие основные положения:

1. Смысл предложения и высказывания может быть представлен как логическая формула, состоящая из типовых структурных единиц - семантических примитивов модели смысла.

2. Для того, чтобы учитывать феноменологические особенности построения естественно-языкового высказывания, семантический примитив в модели смысла должен включать:

- вид отношения (действия, состояния) и его участников;

- значения коммуникативной и семантической роли участников отношения;

- референциальное значение.

Поэтому он может быть описан несимметричным предикатом с явным указанием на индивидное и множественное значение термов. При этом порядок термов задает их коммуникативные роли, а множественное значение - семантические роли. Форма задания индивидного и множественного значения терма определяет его референциальный тип. Такой семантический примитив получил название элемент типа субъект - отношение - атрибут или СОА-элемент.

3. СОА-элементу в составе предложения можно поставить в соответствие однозначно морфемно- семантическую, лексико- семантическую или структурно семантическую единицу: семантический примитив языка, получивший название элемент смысла.

4. Элементы смысла, соединяясь, образуют структурное (=графовое) представление - дерево элементов смысла.

5. Дереву элементов смысла соответствует один из компонентов логической формулы для смысла простого предложения.

6. Темпоральные отношения (СОА-элементы) образуют второй компонент формулы для смысла простого предложения: сетевой граф.

7. Смысл сложного предложения в отличие от смысла простого предложения включает два дополнительных компонента, образованных сочинительными или подчинительными связями между его простыми предложениями: сеть сетей и дерево деревьев отношений.

8. На уровне высказывания, смысл предложения дополняется тремя компонентами:

базовым коммуникативным компонентом, компонентом коммуникативной пресуппозиции, компонентом обстоятельств высказывания, которые, как правило задаются экстралингвистическими средствами.

9. Возможно построение компьютерной системы, которая при заданном типе высказывания будет автоматически выявлять элементы смысла на основании их признаков и составлять логическую формулу для предложения и высказывания соответственно их смыслу.

Апробация работы. Основные положения работы нашли отражение в докладах на следующих научных семинарах и конференциях:

"Экспертные и обучающие системы", Саратов, СГУ, 1991 [83], "Логическое управление с использованием ЭВМ", Владикавказ, 1991 [32], "Искусственный интеллект в XXI веке", Калининград, 1995 [84] "Диалог'96: компьютерная лингвистика и ее приложения", Пущино, 1996 [85] V Национальная конференция "Искусственный интеллект-96", Казань, 1996 [86] Теоретические вопросы диссертации освещаются в 6 научных публикациях [32, 83, 85-88].

Результаты исследования послужили основой для создания лабораторной автоматизированной системы моделирования языковой способности "Недоросль"[85].

Структура диссертации. Работа состоит из введения, четырех глав, заключения, списка литературы и двух приложений.

В первой главе "Синтез формальных моделей языка и смысла как проблема семантической обработки естественного языка" рассматриваются основные проблемы в области построения формальных моделей высказывания и его смысла;

анализируются основные феноменологические особенности естественно-языкового высказывания и способы их отражения в формальных моделях языка и смысла;

дается обзор работ по формальным моделям языка и системам представления знаний;

формулируется используемый в дальнейшем подход к построению согласованных между собой моделей: Многоаспектной модели смысла и Грамматики элементов смысла.

Во второй главе "Логические средства представление смысла естественно языковых форм вводятся и обосновываются понятия семантический примитив модели смысла (СОА-элемент) и семантический примитив модели языка (элемент смысла). На примерах форм русского и английского языков демонстрируется подход к интерпретации ЕЯ- форм, основанный на идее семантического примитива. На фактическом материале исследуются и обосновываются базовые свойства элементов смысла: трехчленная структура, постоянный и переменный компоненты, признаки идентификации. Устанавливается природа взаимосвязи элемента смысла и его логического эквивалента: СОА-элемента.

В третьей главе: "Семантические примитивы в моделях представления смысла и грамматике языка" описывается модель представления смысла естественно- языкового предложения (Многоаспектная модель смысла) и ее расширение для высказывания;

предложена алгоритмическая модель языка (Грамматика элементов смысла);

дается описание алгоритмической схемы для реализации когнитивной процедуры анализа естественно-языкового предложения.

В четвертой главе "Моделирование языковой способности с помощью автоматизированной системы "Недоросль" приводится описание основных элементов лабораторной исследовательской системы "Недоросль": алгоритмов, структуры и содержания базы данных, функциональной структуры, режимов управления и ввода;

дается описание компьютерной реализации Грамматики элементов смысла для русского языка;

демонстрируется методика работы с системой;

приводится пример решения исследовательских задач с помощью системы "Недоросль".

В заключении обобщаются полученные результаты и формулируются выводы.

Список литературы включает работы, так или иначе использованные в процессе исследования.

В приложениях содержится:

ПРИЛОЖЕНИЕ 1. Примеры интерпретации естественно-языковых форм английского языка в Многоаспектной модели смысла.

Таблица П1.1. Примеры интерпретации словообразовательной модели, словосочетания и простого предложения в английском языке.

Таблица П1.2. Модель управления для английского глагола to buy.

Таблица П1.3. Хронологическая парадигма английского глагола to read.

ПРИЛОЖЕНИЕ 2. Описание программы “Недоросль” П2.1 Алгоритм идентификации частей элементов смысла в ЕЯ- предложении.

П2.2 Фрагменты текста программы анализа естественно- языкового предложения в системе "Недоросль" (подпрограммы ANALDO и DEFMUP).

П2.3 Протокол выполнения функции "анализ ЕЯ-предложения".

ГЛАВА I.

СИНТЕЗ ФОРМАЛЬНЫХ МОДЕЛЕЙ ЯЗЫКА И СМЫСЛА КАК ПРОБЛЕМА СЕМАНТИЧЕСКОЙ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА В области научных исследований, связанных с ОЕЯТ, традиционно сформировались следующие направления (см. обзоры [96, 119, 150, 231] ) :

• исследование ЕЯ как явления и построение его феноменологической модели [6, 7-9, 12-14, 16, 19, 27- 29, 34, 41, 44, 53-58, 60, 64-66, 74-80, 93, 105-118, 121, 120, 145, 155-159, 169, 189, 208, 209, 225];

• исследование и построение формальных моделей языка, грамматик, направленных на его обработку с помощью компьютера [22-27, 46, 47, 70, 89, 102, 104, 142, 143, 164, 176, 205, 263];

• разработка формализмов представления смысла (= семантики) ЕЯ-феноменов:

предложения, высказывания [62, 72, 73, 91, 139, 153, 161, 173, 175, 176,178, 185, 194, 197- 199, 210, 217, 234, 246, 255, 259, 264];

• когнитивное моделирование: исследование и описание моделей знаний, используемых в процессе ОЕЯТ [11, 14, 186, 45, 68, 82, 123-125, 147-149, 165, 190, 255];

• разработка прикладных автоматизированных систем, использующих методы и модели ОЕЯТ [5, 9, 21, 59, 69, 71, 89, 105, 151, 263].

Список работ не претендует на полноту, а предназначен для иллюстрации перечисленных направлений.

Иногда трудно отнести то или иное исследование к одному определенному направлению, поэтому ссылка на данную работу означает, что она носит указанный характер преимущественно.

1.1. Ф е н о м е н о л о г и ч е с к и е м о д е л и для естественно-языкового предложения Исследованием языка как явления во всех его проявлениях издавна занимается традиционная лингвистика [120]. Поэтому, феноменологические модели языка неизбежно используют тот богатый фактический материал [4, 6, 12, 14, 28, 31, 34, 48, 50, 51, 60, 93], который накопила лингвистическая наука. Однако большинство исследований в области традиционной лингвистики носит описательный характер. Задачи компьютерной лингвистики потребовали переосмысления подходов к описанию языка как с точки зрения его формальной структуры, так и с точки зрения семантики естественно-языковых феноменов.

Основоположник формальных грамматик Ноам Хомский так сформулировал одну из задач компьютерной лингвистики [143]: "Одна из основных задач лингвиста состоит в том, чтобы найти простые и обладающие "объяснительной силой" грамматики для естественных языков.

В то же самое время он стремится найти общую теорию структуры языка путем изучения свойств таких удачных грамматик и выяснения основных понятий, лежащих в их основе."

Там же дается общее определение грамматики языка:

"Грамматику языка можно рассматривать как теорию структуры этого языка.

Любая научная теория основывается на некотором конечном множестве наблюдений, и, устанавливая общие законы, сформулированные в терминах новых понятий, она пытается объяснить эти наблюдения, показать, как они связаны между собой, и предсказать бесконечное число новых явлений. Математическая теория обладает еще одним свойством, заключающимся в том, что эти предсказания следуют непосредственно из самой ее сущности.

Подобно этому грамматика основывается на конечном числе предложений, обнаруженных при исследовании языкового материала, и она "отображает" это множество на бесконечное множество грамматически правильных предложений, устанавливая общие законы (грамматические правила), формулируя в терминах такого рода гипотетических понятий, как фонемы, слова, словосочетания и т.д. рассматриваемого языка. Надлежащим образом сформулированная грамматика должна однозначно определять множество грамматически правильных предложений."

В середине 60-х годов И.А.Мельчуком и А.К.Жолковским была начата работа над толково-комбинаторным словарем (ТКС) [209]. Словарь этот был задуман как важнейшая часть лингвистической модели или научного описания естественного русского языка. Этот подход вскоре стал известен как Теория лингвистических моделей типа "Смысл-Текст", или сокращенно Теория Смысл - Текст (ТСТ) [33, 65]. Авторы так определяют центральный постулат ТСТ [209, с.4] :

"Естественный язык есть система, устанавливающая соответствие между любым заданным смыслом и всеми выражающими его текстами;

соответственно, лингвистическое описание некоторого языка должно представлять собой множество правил, ставящих в соответствие всякому смыслу все тексты данного языка, несущие этот смысл."

В самом этом определении заложено некоторое приближение, суть которого заключается в том, что ТСТ не стремиться отразить смысл ЕЯ- текста со всеми его нюансами (заданными, например, синонимичными формами). Насколько грубым и оправданным оказывается такой приближенный подход к интерпретации текста, конечно, зависит от конкретной задачи, которую такая система призвана решать. Авторы ТСТ ориентируются в первую очередь на обработку "деловой прозы", то есть текстов научно-технического назначения [209]. Получила распространение также идея "ограниченного естественного языка" [89].

В толково-комбинаторном словаре вводится три зоны словарной статьи [209]:

• семантическая зона словарной статьи;

• зона синтаксической сочетаемости;

• зона лексической сочетаемости;

В семантическую зону ТКС введены следующие средства описания семантических связей лексем, входящие: пропозициональная форма и семантическое разложение.

Пропозициональная форма - выражение, состоящее из самой лексемы и переменных, которые составляют ее семантические актанты (=участники обозначаемой ситуации), как одушевленные, так и неодушевленные. Так пропозициональная форма для лексемы восхищаться [там же] имеет вид X восхищается Y-ом, (1) пропозициональная форма для лексемы авторитет авторитет X-а у Y-ов.

(2) Безусловно, введение пропозициональной формы в словарную статью является шагом вперед в отражении семантики словосочетаний, однако с помощью пропозициональной формы невозможно разделить часть смысла словосочетания, которая передается лексическими средствами (самой лексемой авторитет в примере (2)) и синтаксическими средствами языка (то есть значениями категорий у участников словосочетания: часть речи, род, число, падеж и т.д.). Следовало бы ввести такую нотацию для пропозициональной формы, которая бы эксплицитно разделяла лексические и категориальные значения).

Cемантическое разложение. По замыслу авторов, в ТКС'е последовательные разложения исходных лексических смыслов должны привести, в конце концов, к семантическим атомам - элементарным смыслам, далее неразложимым и задаваемым списком. Другое их название - семантические примитивы. Однако термин семантический примитив нашел также применение [14, 232] для обозначения минимальной структуры языка, имеющей в своем составе семантические связи (каковой и является "пропозициональная форма"). Далее по тексту этот термин при упоминании будет использоваться во втором смысле.

Идея семантического разложения, имеющая корни в теории семантических множителей [189, 190], нашла развитие в теории лексической семантики [7,8]. Однако, вопрос определения атомов смысла (семантических категорий), построения системы их иерархии, семантических связей между ними, до сих пор остается предметом дискуссий. По-видимому, решение этого вопроса должно осуществляться в комплексе с построением системы когнитивных моделей предметной области (см. раздел 3 настоящей главы).

ТКС пытается описывать смысл толкуемой лексемы во всех (без исключения) ее употреблениях, что чрезвычайно увеличивает трудоемкость формирования такого рода словаря.

Так, в [209] приведены данные о том, что первый вариант ТКС, включающий описание лексем, объединенных в 250 вокабул, составлялся группой из 20 участников в течение 10 лет.

Этот факт говорит о том, что средства и методика формирования базы лингвистических знаний постепенно выходят на передний план при построении систем моделирования языковой способности.

Зона синтаксической сочетаемости содержит модель управления (=МУ) таблицу, где для каждого синтаксического актанта заглавного слова указаны все возможные способы его выражения. МУ в ТКС'е задает все возможные при данной лексеме комбинации ее актантных синтаксических зависимостей.

Пример 1 [209]:

Для глагола восхищаться, т. е. для пропозициональной формы (1) (Х восхищается У-ом,) будет указано, что Х всегда существительное в именительном падеже, а У либо существительное в творительном падеже, либо предложение типа:

тем+СОЮЗ(ное слово)+ПРЕДЛ(ожение).

(3) Для "восхищение", помимо этих двух возможностей (из [205]), имеется еще одна предлог перед+существ.в твор.падеже.

(4) Далее в ТКС'е при модели управления даются также все ограничения, касающиеся совместной встречаемости зависимых (=актантов) заглавной лексемы. Таким образом МУ - это фреймо-подобная структура [67], описывающая все возможные комбинации значений синтаксических категорий актантов.

Идея модели управления тесно связана с понятием семантического падежа Филлмора (падежная грамматика) [155-159]. Дальнейшее развитие идея МУ получила в теории валентности [77, 128] а также в теории управления и связи (Goverment and Binding Theory [144]).

Несмотря на то, что теория синтаксической валентности и МУ сильно повлияла на принципы лингвистических исследований и формирования словарей, она не смогла до конца описать семантическую природу понятий валентности, падежа или роли. Дискуссию, связанную с таксономией семантических падежей по Филлмору можно найти в [89]. Другое явление, связанное с идеей валентности - это совмещение валентностей, отмеченное в [7, 77]. В [77] предлагается интересная гипотеза об одновременном существовании у концепта нескольких ролей (функциональной и коммуникативной). В исследовании [107] объясняется семантическая природа понятия "роль" путем введения тождества понятий семантическая категория (= класс объектов) и семантическая роль. Одновременно, в области теории искусственного интеллекта сложилось представление о понятии семантическая роль [72, 259], а также об эквивалентности понятия "слот" в теории фреймов и "семантический падеж" в падежной грамматике [141].

Близость этих понятий (синтаксическая валентность, семантическая валентность, семантическая роль, семантический падеж, слот), осознаваемая интуитивно, с одной стороны, и недостаточно четкое их определение, с другой стороны, зачастую приводит к путанице в употреблении. Таким образом, очевидно, что эти понятия требуется четко определять и разграничивать при использовании. Все эти понятия непосредственно связаны с понятием семантического примитива в языке и представлении смысла, однако роль "роли" в структуре семантического примитива до сих пор остается до конца не изученной [77]. Да и само разделение на две модели: модели языка - грамматики и модели смысла - системы представления знаний (и смысла ЕЯ- форм)3 произошло сравнительно недавно. Возможно, что игнорирование понятия "роль" в структуре семантического примитива восходит к традиции "безролевого" описания отношений, пришедшей из теории исчисления предикатов. Влияние этой традиции сказывается во многих исследованиях по семантике ЕЯ, опирающихся на стандартное исчисление предикатов [74, 161, 177, 194, 176]. И хотя было показано, что в основе практически всех разновидностей семантических сетей лежит теория исчисления предикатов [197];

идея роли, активно используемая в структуре отношения в теории семантической сети (слота - в теории фреймов) не была воспринята формализмами, основанными на исчислении предикатов непосредственно.

Третья зона ТКС - это зона лексической сочетаемости словарной статьи. При этом автор ТСТ разделяет два случая сочетаемости лексем:

• языковая норма сочетаемости, которой соответствует описательный аппарат МУ;

Пример 2 : Доска черного цвета [209,c.8] • исключения из языковой нормы сочетаемости, для описания которых был введен аппарат лексических функций [66].

Большинство систем представления знаний, рассмотренных в обзоре, разрабатывались и нашли применение как модели представления смысла ЕЯ-форм, поэтому мы рассматриваем их в общем контексте применительно к семантической обработке естественно- языкового текста, с оговоркой, что вообще-то модели представления смысла и модели представления знаний это вещи разные.

Пример 3 : совершить преступление (vs. сделать преступление).

Согласно [209,с.9], лексическая функция - это весьма общий и достаточно абстрактный смысл F, который выражается особым образом, то есть особой лексемой Y в зависимости от лексемы X:

(5) F(X)=Y Автор насчитывает от 50 до 60 лексических функций в русском языке. Дальнейшее свое развитие идея лексических функций получила в теории лексической семантики [7, 8].

Необходимо отметить, что аппарат лексических функций ориентирован на синтез языковой формы, что связано с первоначальной ориентацией ТСТ. Кроме того, лексические функции можно разделить на группы, в соответствии с механизмом их действия:

• Группа 1: лексические функции, которые оперируют исходной лексемой X при преобразовании ее смысла :

Пример 4 [65]: Синтаксический дериват Co(учиться), Ао(Со)=учебный (6) • Группа 2: лексические функции, которые оперируют смыслом для лексемы X, при этом подменяя ее некой другой лексемой X'.

Пример 5 [Там же]: Крайняя степень Magn(брюнетка) = жгучая (7) Существование разных типов лексических функций говорит о различной семантической природе их действия.

Другой частью ТСТ является поверхностный синтаксис [61, 209]. Согласно [209], система поверхностно -синтаксического анализа (ПСА) русских текстов включает 10 основных компонентов:

1) перечень синтагм русского языка;

2) перечень операторов, задающих дополнительные условия соответствия между членами тех или иных синтагм: СОГЛv(s), СОГЛa(s), СОГЛакт, ОДНОР и некоторые др.;

3) правила насыщения активных синтаксических валентностей (в частности, описание ситуаций разрешенной ненасыщенности обязательных валентностей);

4) правила индивидуальной сочетаемости лексем;

5) общие правила сочетаемости поверхностно-синтаксических отношений (ПСО) между собой;

6) общие правила порядка слов;

7) общие правила пунктуации;

8) общие правила предпочтения в случае неоднозначности соответствий между фразами и их поверхностно-синтаксическими представлениями;

9) правила установления анафорических связей;

10) правила восстановления поверхностно- синтаксических эллипсисов.

Для системы ПСА английского языка предлагается те же самые компоненты [209].

Важнейшими понятиями поверхностного синтаксиса ТСТ является поверхностно синтаксическое отношение (= ПСО) и поверхностно-синтаксическое правила (=синтагмы). В [65] дается перечень ПСО для русского языка, насчитывающий 42 типа. Семантическое представление (СемП) - это формализованное описание содержания текста, которое в ТСТ явно не описано. Поверхностно-синтаксическая структура - это дерево зависимостей, ветви которого помечены символами ПСО.

Для записи и использовании информации о поверхностном синтаксисе в ТСТ вводятся специальные поверхностно-синткаксические правила - синтагмы. Для записи синтагм в ПСА разработан специальный формализм, который включает фрагмент дерева зависимостей с пометой ПСО и ограничения на использование этого правила, включающие в частности:

• условия (оператор) согласования;

• исключения.

Набор условных обозначений, используемых в записи синтагм и комментариев к ним приведен в [209, с.238,262]. На рис. 1 приведен пример записи предикативной синтагмы типа Подлежащее - склоняемая единица [Там же, с.241].

В ТСТ ставилась также задача описания общих правил формирования порядка слов. Авторы ТСТ так формулируют суть развиваемого ими подхода [Там же, с.274]: "Описать законы порядка слов в данном языке значит предложить такие автоматически выполнимые правила расстановки словоформ во фразе, которые применяются в процессе перехода от некоторого представления фразы, не содержащего эксплицитных сведений о порядке словоформ, к самой фразе: результаты применения таких правил должны по крайней мере в большинстве случаев (в идеале - во всех случаях) совпадать с тем словорасположением, которое осуществляет в получающейся фразе компетентный носитель языка." И далее "...правила порядка слов есть правила линеаризации поверхностно-синтаксической структуры, не снабженной линейным порядком слов."

Сказуемое - нормальный личный глагол.

1) СОГЛ V(S) (X,Y);

присвяз X VP(1[им]) 2) не (X(связ) Z(S) и Z=им) 3) если X = (рподл!), предикативное X личн... Y им огранич то не X W не 4) Y ТО Y =(S),(A),(Num), NUMP Рис 1. Пример синтагмы : Подлежащее - склоняемая единица (1-б) Нотация для записи синтагм, принятая в ТСТ, имеет пространственный, а не линейный характер, затрудняющий ее перенос на компьютер. Для компьютерной реализации идеологии описания синтагм в [8] предложена линейная версия такого языка.

Другой особенностью блока поверхностно-синтаксического анализа (ПСА) является, несмотря на название, его ориентация на синтез ЕЯ- фразы, а не анализ. Кроме того, заблуждением является то, что дерево зависимостей не определяет порядок слов в линеаризованной структуре (= ЕЯ- фразе). Если задать правило обхода такого дерева, то порядок слов будет задан абсолютно строго для каждой поверхностно-синтаксической структуры [27].

Важной особенностью в ТСТ является то, что происходит разделение на модель поверхностного синтаксиса (=модель языка) и семантическое представление (=модель смысла).

Однако ТСТ остается синтаксически (а не семантически) ориентированной.. Несмотря на то, что основная структура представления смысла в ЕЯ- форме, дерево зависимостей, выбрана удачно, основой классификации ПСО остаются синтаксические признаки. Идея семантического примитива языка для описания семантики отношений в ТСТ также не нашла своего развития.

Традиционное мнение о том, что область существования семантического отношения - это глагольные словосочетания, постепенно пересматривается. Современная теория словообразования [6, 15, 35, 49, 120, 209] различает словообразование современного русского языка (синхронное) и историческое (или диахронное) словообразование. Некоторые модели словообразования формируют семантические связи в составе слов. В таблице 1 приведены примеры из [6] суффиксального словообразования существительных, которое приводит к образованию нового семантического отношения. Приставки в русском глаголе и его дериватах также несут определенную семантику, связанную с обозначением пространственных и временных отношений того действия, которое обозначает глагол [45]. Другой областью проявления семантических связей в языке является структура сложного предложения [50]: когда простые предложения вступают в семантические отношения подчинения или сочинения. При этом пропозиции, выраженные простыми предложениями, можно рассматривать в качестве актантов такого отношения, а тип самого отношения иногда можно идентифицировать по союзной связке.

Таблица 1. Примеры суффиксального словообразования существительных N п/п Суффикс Пример Тип отношения лицо мужского пола, -тель спасать - спасатель носить 1.

-итель носитель выполняющее действие, обозначенное глаголом -щик автоген - автогенщик вертолет - лицо мужского поля, 2.

-чик вертолетчик лакировать- обладающее профессией, лакировщик обозначенной cуществитель-ным резать - резка - резчик или глаголом 1.2. Ф е н о м е н о л о г и ч е с к и е м о д е л и для естественно-языкового высказывания Другим направлением описания феноменологии естественного языка, сформировавшимся в 70-80 годы явилось исследование ЕЯ- явлений, лежащих за рамками традиционной грамматики предложения и относящихся к ЕЯ- высказыванию. К ним относятся:

референция, фокус эмпатии, актуальное членение предложения, видо-временные отношения.

Традиционная грамматика русского языка [120] не проводит четкого разграничения между понятиями предложение и высказывание. Это проявляется в классификации предложения, его определении и описании его характеристик [там же].

В исследовании [75, 78] было показано, что "преодолеть смешение предложения и высказывания при описании семантики предложения можно, однако, лишь ценой эксплицитного рассмотрения предложения в контексте речевого акта: объектом, с которым должна иметь дело семантика предложения, является в конечном счете не семантическое представление предложения, а семантико-прагматическое представление предложения, включенного в речевой акт, то есть семантико-прагматическое представление высказывания."

В теории высказывания [там же] выделяются следующие аспекты значения (=смысла) высказывания:

• номинативный;

• коммуникативный;

• иллокутивный;

• референциальный.

В своих работах [75, 78] Падучева останавливается на референциальных аспектах высказывания. При этом вводятся понятия: пропозиция, денотативный статус, коассигнация, сфера действия кванторов, денотативная зависимость.

Наиболее важное с точки зрения соотношения смысла предложения и высказывания - это понятие пропозиции, которое определяется как общее содержание утверждений, суждений, обещаний, пожеланий, желаний, вопросов и ответов, то есть того, что может быть возможным или вероятным. Пропозиция сама по себе не имеет истинностного значения. Только употребление предложения, выражающее данную пропозицию в высказывании порождает то, что может быть истинным или ложным, - утверждение, мнение и т.д.

Определены основные области обитания пропозиций:

1. Пропозиция - это то, что входит в речевой акт, то есть то, что может быть подвергнуто утверждению, сомнению, то, что может быть предметом просьбы, приказания, пожелания, обещания.

2. Пропозиция - является естественным аргументом модальных операторов и предикатов пропозициональной установки (то есть разного рода интенсиональных операторов) - таких как возможно, необходимо, считает, необходимо, боится и т.д.

3. Пропозиция является семантическим актантом перформативных глаголов в таких предложениях как Прошу тебя закрыть окно и Советую тебе пойти к врачу.

Отмечено, что при включении предложения в речевой акт происходит актуализация предложения, то есть превращение его в высказывание. При этом отмечаются основные отличия предложения от высказывания.

1. Предложение имеет иллокутивное предназначение, выраженное с помощью наклонения, типа предложения по цели высказывания, и, быть может, лексически, например, модальными словами. В речевом акте говорящий использует предложение (с тем или иным иллокутивным предназначением) для выражения своего коммуникативного намерения, то есть строит высказывание с той или иной иллокутивной функцией. Предназначение предложения может быть неоднозначным или неопределенным, функция же однозначна.

2. Смыслом предложения обычно является пропозициональная форма, содержащая прагматические переменные. В составе высказывания происходит фиксирование прагматических переменных, в результате чего пропозициональная форма превращается в замкнутую пропозицию.

3. Предложение обычно содержит конкретно - референтные предметные термы, то есть выражения, предназначенные для обозначения индивидуализированных объектов. В составе высказывания эти термы действительно вступают в референцию с индивидуализированными реальными объектами из общего поля зрения или фонда знаний участников речевого акта. Предложение может иметь во всех своих употреблениях один и тот же смысл. Однако при каждом новом наборе прагматических переменных и при новой референции референтных термов на базе этого смысла возникает новая пропозиция.

4. Аналогично, пропозициональные компоненты предложения, предназначенные для обозначения ситуаций, вступают в соотношение с ситуациями, событиями, фактами реального мира.

Отмечается, что понятие презумпции тесно связано с проблемой референции.

Одним из важнейших понятий в теории референции является понятие денотативного статуса, которое определяет тип соотнесенности именных групп с внеязыковыми объектами. Показано, что в структуре именной группы присутствует два компонента - общее имя и актуализатор.

В [232] различается три основных подхода к исследованию смысла ЕЯ-феноменов:

референциальный (referential), концептуальный (ideational), поведенческий (behavioural).

Несмотря на то, что исследования [75, 78] выполнены в традициях референциального подхода к интерпретации смысла ЕЯ- формы, многие положения этих исследований можно перенести на почву концептуального представления смысла высказывания.

Функциональная грамматика (ФГ) [169] - другое направление в современной лингвистике, позволяющее зримо представить смысл предложения и высказывания.

Поясняя смысл термина "функциональная грамматика", Холлидей во вступлении к своей книге [там же] пишет так:

"Она (грамматика) функциональная в трех различных, хотя и близко связанных смыслах: (1) в ее интерпретации текста;

(2)в ее системе;

(3)в элементах лингвистических структур.

(1) Она функциональна в том смысле, что она разработана с учетом того, как язык используется. Каждый текст, независимо от того, устный он или письменный, - создан в некотором контексте использования, более того, именно эти использования языка в течение десятков тысяч поколений сформировали эту систему. Язык предназначен удовлетворять человеческим нуждам, и то, что он организован функционально, в соответствии с этими нуждами - не подлежит сомнению. Функциональная грамматика - существенно "естественная" грамматика, в том смысле, что все в ней может быть объяснено, в конце концов отсылкой на то, как язык используется.

(2) Следуя этому можно сказать, что фундаментальными компонентами смысла языка являются функциональные компоненты. Все языки организуются вокруг двух главных видов смысла, идейных или рефлексивных и межперсональных или активных. Эти компоненты, названные мета - функции в терминологии настоящей теории, являются выразителями в лингвистических системах двух общих целей, которые пронизывают все употребление языка:

(i) понимать окружение (идейное) и (ii) взаимодействовать с другими в нем (межперсональное). Связанным с ними является третий метафункциональный компонент, текстовый.

(3) Каждый элемент языка объясняется ссылкой на его функцию в общей лингвистической системе. В этом третьем смысле, следовательно, функциональная грамматика это то, что конструирует все элементы языка -предложения, фразы и т.д. - как органическое сочетание функций. Другими словами, каждая ее часть интерпретируется как функциональная в соответствии с целым."

Функциональная грамматика подходит к высказыванию с различных точек зрения, выделяя тем самым различные аспекты его смысла. Так в [169] высказывание рассматривается:

• как информационное сообщение;

• как обмен (взаимодействие);

• как представление (смысла).

Кроме того, в рамках ФГ Холлидея рассматривается лингвистические и экстралингвистические явления, связанные с высказыванием, то есть то, что находится • "ниже" предложения (группы и фразы);

• "выше" предложения (сложные предложения);

• "позади" предложения (интонация и ритм);

• "вокруг" предложения (связь и дискурс);

• "кроме" предложения (метафорические способы выражения).

В ФГ вводятся следующие основные параметрические (ролевые) компоненты высказывания:

• слушатель и говорящий;

• тема и рема;

• субъект и действующее лицо.

При рассматрении высказывание как информационного сообщения основной упор делается на его актуальное членение, то есть на способы представления темы и ремы в английской фразе. При этом тема представляется как функция высказывания - сообщения. Это то, к чему сообщение относится, точка отправления, от которой говорящий отталкивается.

В ФГ выделяется два основных речевых типа отношений: дать и потребовать.

Рассматривая высказывание как обмен (взаимодействие) ФГ Холлидея выделяет два типа обмена: обмен информацией и обмен товарами и услугами. Комбинация этих двух признаков приводит к следующей таксономии высказываний:

• предложение (offer);

• команда (command);

• утверждение (statement);

• вопрос (question).

Несмотря на то, что при рассмотрении функциональных аспектов высказывания Холлидэй очень близко подходит к структуре смысла высказывания, его подход имеет ряд недостатков:


• В ФГ еще нет логической формы для описания смысла высказывания.

• Нет механизма взаимодействия и увязки аспектов смысла между собой.

• Нет четкого разделения: смысл предложения vs. смысл высказывания.

В работе [103] проведен анализ деловых кино- диалогов с целью выделения различных типов высказываний. В результате было выявлено 34 типа:

1) уверенность, 2) приказ, 3) указание, 4) назначение, 5) вопрос, 6) зов, 7) просьба, 8) предложение, 9) подтверждение, 10) напоминание, 11) благодарность, 12) ответ, )объяснение, 14) пояснение, 15) оценка, 16) предположение, 17) согласие, 18) несогласие, 19) мнение, 20) совет, 21) доклад о прибытии, 22) прощание, 23) представление, 24) информирование, 25) вывод, 26) недовольство, 27) недоверие, 28) сомнение, 29) беспокойство, 30) непонимание, 31) недоумение, 32) удивление, 33) желание, 34) нежелание.

Однако в указанный перечень не попали такие распространенные в научных текстах типы высказываний, как:

35) аргумент, 36) посылка, 37) определение.

Представляет также интерес классификация типов высказываний, основанная на структуре смысла этой формы естественного языка.

В последнее время в поле пристального внимания лингвистических исследований попали такие явления естественного языка как фокус, эмфаза [18, 101], референция [17, 42, 43, 94], видовременные отношения [76, 152, 248, 251, 255], имеющие непосредственное отношение к моделированию понимания.

Формальные модели языка 1.3.

В [143] был предложен формализм описания естественного языка, заложивший основы для нескольких научных направлений:

• теории формальных грамматик в математике[233];

• теории формальных моделей языка, основанных на формализмах продукций и деревьев непосредственных составляющих [79, 119, 150, 176 ] ;

• феноменологической теории управления и связи [144, 145].

Рассмотрение математических аспектов грамматики Хомского выходит за рамки настоящей работы. Теория управления и связи была упомянута в разделе 1.3. Поэтому все последующее изложение будет относится к части теории Хомского, а также ее многочисленных модификаций [79, 119, 150, 176], описывающих формальную модель языка.

Основная идея грамматики Хомского заключается в представлении грамматики как однородной математической системы, описываемой неким процессом порождения состояний. В этом случае грамматика представляется как тройка:

(8) (V, Z, F), где Z - конечное множество начальных цепочек;

F - конечное множество правил-продукций вида X - Y;

V - алфавит системы (словарь).

Процесс "прохождения" состояний системой (=грамматикой Хомского) описывается деревом порождения (=деревом непосредственно составляющих (НС)).

В зависимости от составляющих тройки (8) Хомский выделил три типа грамматик и, соответственно, описываемых ими языков:

• грамматики с конечным числом состояний, которые соответствуют описанию конечного автомата (=машины Тьюринга);

• контекстно-свободные грамматики, которые получили широкое распространение в компьютерной лингвистике;

• контекстно-связанные грамматики.

Контекстно-свободная грамматика, описанная Хомским, относится к типу трансформационных грамматик, так как все правила- продукции носят характер трансформации НС. На рис 2. показан пример дерева непосредственно составляющих для фразы из [61]:

Пример 6.

(9) "Искренность могла напугать этого мальчика" В одном из первоначальных вариантов [143] грамматика Хомского состояла из базисного и трансформационного компонентов.

Базисный компонент этой грамматики включает:

(а) ограниченный набор не-терминальных (не-заключительных) категориальных символов, а именно - начальный символ S (предложение), символы NP (именная группа - noun phrase), VP (глагольная группа - verb phrase), N (имя), V (глагол), Det (детерминатив), Aux (вспомогательные формативы времени и наклонения), а также неограниченное множество терминальных (заключительных) символов, то есть конкретных формативов: слов или грамматических морфем - мальчик искренность, напугает, этот, может, -л-;

(б) набор правил, оперирующих с этими категориальными символами и имеющих вид подстановок (10), категориальных (I-VIII) или лексических (IX-...).

(I) S - NP+VP (IX) N - мальчик (10) (II) NP - Det+NP (X) N - искренность (XI) Det - этот (III) NP - NP+NP (XII) Aux - может (IV) NP - S (XIII) Aux - -л (прош.вр.) (V) NP - N (VI) VP - Aux+VP (XIV) V - напугает (VII) VP - VP+NP (XV)....................

(VIII) VP - V ----- S--------- | (1) | | | NP --- VP-- | | (VI) | | (V) | ---VP-------- | | | (VI) | | | | ------VP-- | | | | (VII) | | | | VP --NP-- | | | (VIII) |(II) | | | | | | NP | | | | | |(V) | | | | | | N Aux Aux V Det N Искренность -л- может напугает этот мальчик (10) Рис.2 Дерево непосредственно составляющих для фразы Искренность могла напугать этого мальчика.

На основе подобных правил из начального символа предложения (S) выводится бесчисленное множество цепочек (strings), состоящих из лексико-грамматических формативов, причем к каждой цепочке оказывается присоединенной ее синтаксическая структура, или фразовый показатель (рис. 2).

Трансформационный компонент содержит различные операции перегруппировки Tгруп, объединения Тед, управления Тупр, согласования Тсогл, вставки Твст или опущения Топ, которые применяются к тем или иным фрагментам терминальных цепочки и преобразуют их таким образом, что эти цепочки получают вид хорошо оформленного предложения, например (9) из (10). В [61] отмечены свойства порождающего описания, которые объясняют популярность этого типа представления:

• многоаспектность • связность и иерархичность;

• эксплицитность;

• объяснительная сила;

• конкретность;

• дифференцированность.

В дальнейшем были предложены разнообразные варианты формальных грамматик Хомского[119].

В формализме DCG (definite clause grammar) [221, 222] используется идея Колмероэ и Ковальского о переходе от специального грамматического формализма к более общему формализму логики предикатов первого порядка. В DCG логический вывод применяется в качестве механизма грамматического разбора. Грамматика записывается в терминах правил Пролога, где нетерминальные символы описываются правилами, а терминальные - фактами. В рамках формализма DCG были реализованы грамматики различных национальных языков [LINGUIST в 151, 179, 194].

Категориальные грамматики являются одним из видов КС-грамматик, представляющим собой тип формализма грамматик зависимостей, в котором слово может быть замещено структурой, которой оно управляет. В основе категориальных грамматик лежит простой логический механизм построения категорий путем объединения других категорий, благодаря чему категориальные грамматики активно используются в исследованиях, связанных с логической семантикой. Примеры использования категориальных грамматик для обработки естественного языка можно найти в [215]. Другим примером реализации категориальной грамматики, расширенной механизмом рассуждений, является исследовательская система SLG [151].

Унифицированные формализмы (PATR, FUG, LFG, GPSG, HPSG) - это грамматики, в основе которых лежит логическое исчисление и форма "атрибут-значение". [164, 180, 188, 242, 266]. Примерами систем, реализующих подобные формализмы могут служить AV parser [181], система QPATR [192], система ELU [182, 231], исследовательская система GULP (Graph Unification Logic programming) [146], UBS [151], TFS [268], CLE (Corel Language Engine) [126], CUF [148], CAT2 [241], Context Feature Structure System [135], Fegramed [191]. В [269] описывается способ расширения механизма построения категорий унификацией.

Формализм TAG (Tree-Adjoining Grammar) был предложен в середине 70-х годов для строгого описания структур ЕЯ [183, 184]. Он предназначен для разделения двух типов данных, описывающих иерархическую структуру предложения: необходимых нерекурсивных лингвистических структур, соответствующих видам фраз, и структур, способных рекурсивно разворачиваться. Известно несколько систем для разработки TAG-описаний [166, 170,239, 236].

Несмотря на то, что грамматика конечных автоматов является достаточно эффективной в реализации, оно обладает слишком ограниченными возможностями для анализа, по этой причине одним из широко используемых механизмов анализа является формализм расширенных сетей переходов (ATN). Формализм ATN расширяет грамматику конечных автоматов, вводя аппарат рекурсивного вызова новой подсети переходов (операция PUSH) и набор регистров, в которых хранятся текущие результаты разбора фразы, а также средства работы с ними. Значения регистров могут выступать как условия на переходы по веткам ( что обеспечивает частичную зависимость от контекста и выход за пределы КС-грамматик).

Благодаря регистрам и операциям над значениями, которые там хранятся, ATN-формализм эквивалентен процедурному языку программирования, в котором можно описать анализ языка произвольной сложности. ATN-формализм был реализован в ряде систем: LINGOL [223], LIFER [174], DIAGRAM [229], PAKTUS [151], ATNL [102].

Несмотря на доминирующее положение формальных грамматик (модификаций трансформационной грамматики Хомского) в современной компьютерной лингвистике [224], они обладают рядом ограничений, затрудняющих их использование для семантической обработки языка.

Во-первых: формализм, предложенный Хомским, - это синтаксически ориентированная модель, не предназначенная для распознавания хотя и синтаксически правильных, но абсолютно бессмысленных фраз языка. Пример такой фразы приведен Хомским в [143] Пример 7.


(11) "colorless ideas sleep furiously".

Во-вторых: в основе формальных грамматик Хомского лежит однородный по своей математической природе формализм. Это преимущество оборачивается недостатком, так как в угоду математической строгости модели игнорируется целый ряд явлений, относящихся к области феноменологии языка (см. раздел 1.2), но лежащих за рамками возможностей примененной математической теории. По-видимому, арсенал математических средств для описания как структур языка, так и алгоритмов их обработки должен быть существенно расширен [27, 104, 172, 247].

В-третьих: дерево непосредственных составляющих как результат грамматического разбора (parsing) не содержит семантических связей, или содержит их в опосредованной форме. Дерево порождения - это структура, которая носит скорее процедурный, чем семантический характер.

Развитие формальных грамматик шло в основном по пути преодоления вышеперечисленных ограничений [61, 70].

Попытки описания синтаксической структуры предложения с помощью дерева зависимостей, предпринятая в [209, 250], получили развитие и математическое обоснование в теории деревьев синтаксического подчинения [24-27].

1.4. П р е д с т а в л е н и е с м ы с л а е с т е с т в е н н о - я з ы к о в ы х ф о р м в м о д е л я х, о с н о в а н н ы х н е п о с р е д с т в е н н о на математической логике Традиция формального представления смысла фраз естественного языка берет начало от логики Аристотеля [10]. Однако метод представления смысла естественно- языковых фраз, предложенный в силлогистике Аристотеля и ее модификакциях [52, 91] применим к ограниченному классу высказываний кванторного типа, включающему четыре шаблона:

A : Всякий X есть S.

(12) E : Всякий X не есть S.

I : Некоторый X есть S.

O : Некоторый X не есть S.

Выражаясь современным языком, силлогистика Аристотеля ориентирована на формализацию умозаключений в системе когнитивных отношений "элемент-множество".

Появление исчисления высказываний, или "булевой алгебры" [91, 131, 132, 243, 252], предоставило математический аппарат для определения значений истинности сложных утверждений на основании значений составляющих его простых компонентов, если они объединены с помощью логических связок И (&), ИЛИ (), НЕ ( ), импликации ( ), тождества ( ).

В логике термин высказывание и его синоним утверждение используются в смысле, отличном от понимания этих терминов в современной лингвистике. Так, например, даже часть естественно-языкового предложения может интерпретироваться в логике как высказывание, в то время как в лингвистике высказывание - это предложение, актуализированное в составе речевого акта [75]. Это подтверждает известный факт, что многие идеи в логике (как и термины для обозначения новых понятий) математики "подглядели" в естественном языке. Так, отвечая на риторический вопрос "Возможно ли, что весь язык мысли станет вычислимым, подобно математике и символической логике", Беркли [131] пишет так:

"Обычный натуральный язык есть жильная порода, руда, расплавленная магма, из которой кристаллизуются подобно алмазам идеи и символы математики и символической логики. Чем больше люди будут понимать применяемые ими языки, чем больше они будут представлять себе, как языки раскрывают и скрывают идеи, отображают и искажают понятия, тем больше они будут извлекать из языков кристаллы и самородки ясности, которые следует искать в таких областях как математика и символическая логика".

В [252] отмечено, что, с одной стороны, для каждой из пяти логических связок, используемых в исчислении высказываний, имеется эквивалент в естественном языке. С другой стороны, естественный язык был бы сильно обеднен сокращением числа его связок до пяти.

Напротив, исчисление высказываний не станет богаче, если ввести дополнительные связки. В [252] приводятся примеры (8 и 9) несоответствия смыслового содержания связок в исчислении высказываний и союзов в естественном языке.

Пример 8.

"Ему стало страшно, и он убил чужака" (ср. "Он убил чужака, и ему стало страшно") В примере 8 союз и подчеркивает определенный временной и причинный нюанс.

Пример 9.

"целое число четно или нечетно" В примере 9 союз или используется в разделительном значении или иначе, в то время как дизъюнкция является соединительной связкой и/или. Интересен тот факт [131], что римляне отличали и/или от или иначе при помощи двух разных слов.

Исчисление высказываний бедно выразительными средствами и не позволяет описывать дедуктивные рассуждения всех типов [91], в частности силлогистические рассуждения. Естественным развитием исчисления высказываний является исчисление предикатов [91, 243, 252].

Стратегия определения семантических значений компонент и формул логики предикатов базируется на понятии интерпретации логической формулы. При этом задается семантическое значение для каждого базисного выражения. Затем вводятся правила вычисления семантических значений сложных логических формул по известным семантическим значениям компонент. Таким образом приписываются семантические значения все более и более крупным составляющим логической формулы, так что в конце концов семантическое значение будет приписано всей формуле. Этот процесс называется композиционным методом [252].

Композиционный метод гарантирует, что семантическое значение сложного выражения всегда является функцией его синтаксических составляющих и способа их комбинирования. Если семантические значения формул F и G известны, то можно определить семантические значения формул F, F & G, F G, F G, F G с помощью таблиц истинности логики высказываний.

Основной задачей [252] представления знаний является перевод неформальных выражений или описаний метаязыка (=естественного языка) в фразы объектного языка (= языка исчисления предикатов). При этом выбор предикатов, числа их аргументов, констант и переменных в значительной мере отдан во власть аналитика. Исчисление предикатов не представляет никаких возможностей обоснования этого выбора.

В обыденном языке часто говорят о допустимости чего-либо, о гипотетических событиях, целях, которые можно попытаться достигнуть, догадках о будущем. Большая часть фраз языка может быть то истинной, то ложной в зависимости от обстоятельств, текущего момента, точки зрения каждого из нас. В естественном языке модальности "возможный", "необходимый" и "допустимый" выражаются полувспомогательными глаголами, такими как "должен" и "могу". Для формального описания модальности были предложены модальные логики [36, 37, 97- 99, 252]. Название "модальная логика" происходит от того, что модальные логические системы вводят такие операторы над логическими формулами, которые позволяют модифицировать их интерпретацию. Возможность и необходимость называется алетическими модальностями или модальностями возможности. Так же, как кванторы для всех () и существует () вводились в синтаксисе логики первого порядка, можно построить формальный язык, используя пару понятий "возможно/ необходимо" как кванторы, действующие на формулы. Логическая система, базирующаяся на операторах возможно что и необходимо, чтобы, называется логикой возможного или алетической логикой.

Деонтическая логика вводит модальности разрешено, обязательно, реализующие языковые конструкции разрешается, надо, чтобы.

Эпистемическая логика, или логика знаний, исследует модальности знания и веры, тогда как временная логика вводит модальности иногда и всегда (в будущем и прошлом) вместе с их отрицаниями часто и никогда.

Появление нечетких логик, теории нечетких множеств и других нечетких теорий [1- 3, 63, 91] связано с работой [267]. Основная идея Заде состояла в том, что человеческий способ рассуждений, опирающийся на естественный язык, не может быть описан в рамках традиционных математических формализмов. Этим формализмам присуща строгая однозначность интерпретации, а все, что связано с использованием естественного языка, имеет многозначную интерпретацию. Цель Заде состояла в построении новой математической дисциплины, в основе которой лежала бы не классическая теория множеств, а теория нечетких множеств. Последовательно проводя идею нечеткости, по мнению Заде, можно построить нечеткие аналогии всех основных математических понятий и создать необходимый формальный аппарат для моделирования человеческих рассуждений и человеческого способа решения задач.

Так же как и модальные логики, нечеткая логика заняла прочные позиции в области управления, принятия решений, представления знаний [40], однако широкого проникновения в область компьютерной лингвистики этих достижений современной логики пока не произошло. Неклассические логики можно сочетать с классическим исчислением предикатов. В свою очередь, исчисление предикатов можно комбинировать с такими сравнительно эффективными механизмами вывода, как резолюция [252]. Таким образом, логические формализмы представления знаний предоставляют математически строгое решение проблемы рассуждений.

Недостаток логического формализма - его неструктурированность: например, для сбора всей информации по одному объекту приходится пробегать все множество логических формул некой базы данных. Графовые представления, о которых пойдет речь в следующем разделе, служат глобализации и структурированию информации.

1.5. П р е д с т а в л е н и е с м ы с л а е с т е с т в е н н о - я з ы к о в ы х форм с помощью семантических сетей и графов Идеи графового представления семантических и логических связей между объектами берет начало от работ Пайерса [219] и в настоящее время графовые представления знаний заняли прочное место в теории и практике ИИ [136, 139, 197].

Граф собирает вокруг одного узла всю информацию по некоторому объекту, поэтому графовые представления, такие как концептуальные графы [246] и семантические сети [264], позволяют визуализировать модель мира, которому принадлежит решаемая проблема.

Концептуальные графы и семантические сети составляют графическую версию исчисления предикатов. Фреймы как объектное представление информации о предметной области можно получить как из логического представления, так и из сетевого[252].

В [197] отмечается, что в настоящее время существует восемь основных парадигм в области семантических сетей:

• концептуальные зависимости ;

• концептуальные графы Совы ;

• ECO;

• KL-ONE;

• сети с "путевым" механизмом вывода (path-based inheritance);

• семантики предпочтения ;

• PSN ;

• SNePS.

В [197] концептуальные графы рассматриваются как вид семантических сетей, напротив, в [252] концептуальные графы Совы рассматриваются как средство представления логических формул, в то время как семантические сети интерпретируются как более сложные структуры, объединяющие концептуальные графы. Мы в дальнейшем изложении будем придерживаться первой точки зрения.

В процессе развития каждого из направлений происходит интеграция основных положительных черт из других представлений. Общий подход к представлению знаний, принятый в современных вариантах семантических сетей, можно проиллюстрировать на примере из [197] (рис.3).

Фрагменту семантической сети соответствует следующие формы в естественном языке (13-20) и их общее логическое представление (21).

(13) Toby the hungry tiger follow his mother.

(14) Toby, the son of the tigress he follows, is hungry.

(15) The tiger is followed by her hungry cub Toby.

(16) Hunger grips Toby, son of the tigress leading him.

(17) She who bore hungry tiger Toby is also by him followed.

(18) Der Tiger Toby, der seiner Mutter folgt, hat Hunger.

(19) Hungry Toby's relation to the tiger is one of mother-leading.

(20) Голодный тигр Тоби следовал за своей матерью.

(21) (Toby) (x) ( Tiger(Toby) & Tiger(x) & Follows(Toby,x) & Mother_of(Toby,x) & Female(x) & Male(Toby) & Hungry(Toby)) животное ощущения тигр женского мужского пола пола отношение чувство родства движения родитель кого за кем Тоби голод следовать Рис.3 Фрагмент семантической сети Прерывистыми линиями на рис.3 показаны отношения элемент-множество. На этом примере можно отметить основные черты семантических сетей (= графовых представлений).

Семантическая сеть представляет собой граф, узлами которого являются концепты, а дугами отношения между концептами. Из этого примера также видно, что семантические сети подходят к предложению с точки зрения представления знаний. При этом целый ряд феноменологических аспектов, связанных с высказыванием, как формой естественно- языкового общения, остается не учтенным. Среди них такие, как коммуникативное строение фразы, заданное коммуникативными ролями участников ситуации, актуальное членение, фокус. Возможно, что такой чисто информационный подход допустим в рамках определенных приложений, связанных с построением низко- интеллектуальных баз знаний, однако в системах, претендующих на интеллектуальную обработку текстов, желательно более точное представление смысла высказывания.

Различные разновидности семантических сетей отличаются своими целями и исходными предпосылками, формой представления отношений между объектами и используемым для этого формализмом, набором решаемых задач.

Теория концептуальных зависимостей (ТКЗ) [201, 233] базируется на следующих предположениях:

• если два предложения имеют одинаковый смысл, они должны быть представлены одинаково, независимо от использования конкретных слов;

• информация, имплицитно находящаяся в предложении, должна быть представлена эксплицитно. Это значит, что любая информация, которая может быть выведена из того, что выражено явно, должна быть включена в это представление.

Словарь концептуальных зависимостей включает:

• набор примитивов, используемый для представления действий в мире;

• набор состояний, используемый для представления предусловий и результатов действий;

• набор зависимостей, или возможных концептуальных отношений, которые могут существовать между примитивами, состояниями и задействованными в них объектами.

Множество примитивов варьировалось в процессе разработки теории КЗ, но оно составляет приблизительно 10-12 предикатов:

PTRANS : изменение расположения объекта;

ATRANS : изменение владельца, обладания или контроля над объектом;

MTRANS : обмен ментальной информацией между объектами;

MBUILD : порождение идеи или новой информации агентом;

ATTEND : акт фокусирования органа чувств на объекте;

GRASP : захват объекта актором так, что им можно манипулировать;

PROPEL : приложение физической силы к объекту;

MOVE : перемещение части тела агента самим агентом;

INGEST : принятие внутрь объектов (пища, воздух, вода и т.д.) живым существом;

EXPEL : вывод наружу объектов из живого существа;

SPEAK : акт производства звуков, включая некоммуникационные звуки.

Каждый примитив имеет набор слотов, связанных с ним из набора концептуальных зависимостей. С каждым слотом связаны ограничения на сорт объектов, которые могут заменять этот слот. Например, для PTRANS слоты следующие:

ACTOR : человек (или одушевленный объект), который инициирует PTRANS OBJECT : физический объект, который перемещается FROM : место, с которого начинается PTRANS TO : место, в котором кончается PTRANS Концептуальные зависимости записываются графически, как показано на рис. 4.

|- TO ACTOR = PRIMITIVE - OBJECT -| |- FROM Рис. 4 Базовая форма графа концептуальной зависимости На рис. 5 показано графовое представление в ТКЗ для фразы John gave Mary a book.

|- Mary John = ATRANS - book -| |- John Рис. 5 Графовое представление в ТКЗ для фразы John gave Mary a book.

На рис. 6 показано графовое представление в ТКЗ для описания процесса "John is reading a book".

|- John John = MTRANS - ??? -| |- book John = MOVE - EYES Рис. 6 Графовое представление в ТКЗ для фразы John is reading a book.

В [246] отмечаются недостатки представления, принятого в ТКЗ:

• Концептуальные зависимости носят аналитический характер, в то время как многие отношения в естественном языке имеют синтетическую форму. При этом носитель языка не всегда мыслит на уровне примитивов аналитической формы.

• В ТКЗ нечетко проработан темпоральный аспект отношений.

• Специальная графовая форма, принятая для концептуальных зависимостей в ТКЗ, с успехом может быть заменена на общепринятую для семантических сетей или же на ее логический эквивалент.

Кроме концептуализаций, в рамках ТКЗ было предложено еще несколько мета структур. Для того чтобы решить проблему непрямого вывода, были предложены структуры, названные SCRIPT, подобные сценариям [134, 230]. Структуры SCRIPT представляют последовательности событий, связанных с какой-то типовой ситуацией, например, посещения ресторана. Другая мета- структура: MOP (Memory Organisation Packet) является развитием идеи SCRIPT, но лишена ее недостатков [201]. Для того чтобы обеспечить возможность представления сложных каузальных отношений, была предложена нотация для записи целей и планов [235]. В [154, 198] отмечено, что обилие нестандартных структур представления связей различного типа чрезвычайно осложняет работу по наполнению системы знаниями, делает ее неэффективной, так как требует собственных механизмов вывода для структуры каждого типа.

ТКЗ была первоначально разработана как теория представления знаний в процессе обработки языка, поэтому модель языкового анализа, которая с ней связана, сильно ориентирована на знания. Одной из центральных идей этой модели было то, что представление может порождать ожидания, которые затем могут играть ключевую роль в управлении процессом обработки последующих фрагментов текста.

Одним из подходов, который был включен в арсенал концептуального анализа, было использование запросов, или пар "тест-действие" для расшифровки знаний в процессе разбора (в системах WEB и BORIS для обозначения запросов использовался термин демоны).

Запросы были впервые использованы в анализаторе Рисбека [228], причем хранились они в этом анализаторе главным образом в словаре. Метод разбора, основанный на запросах, использовался во многих других анализаторах: Conceptual Analizer [133], Integrated Partial Parser(IPP) [198], Word Expert Parser [245], Boris [154], MOPTRANS [201- 203], DMAP [206].

Другой отличительной чертой в анализаторах, основанных на запросах, был отход от традиционного разделения анализа текста на морфологическую, синтаксическую, семантическую и прагматическую фазу. Это было сделано по двум соображениям:

во-первых, необходимость синтаксической фазы подвергалась сомнению, так как целью концептуального анализа было построение представления смысла, а не синтаксический анализ;

во-вторых, по мнению разработчиков семантика должна быть вовлечена в процесс разбора как можно раньше, так как семантическая и прагматическая информация могла иногда помочь разрешить неоднозначность,.

В [235] была предложена гипотеза Интегральной Обработки, в которой предполагалось, что синтаксис и семантика должны быть полностью интегрированы в управляющей структуре, структурах представления и что большая часть базы знаний также должна быть интегрирована, хотя некоторая часть синтаксиса будет существовать отдельно.

При всей специфике представления информации в нотации ТКЗ существует ряд положительных черт, которые могут быть заимствованы и использованы в системах обработки естественного языка:

• комбинирование синтетической и аналитической форм представления знаний;

• использование семантики на ранних стадиях грамматического разбора для разрешения неоднозначности.

Кроме того, нотация в аналитической форме позволяет объяснить явление расщепления семантической роли, отмеченное в [77].



Pages:   || 2 | 3 | 4 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.