авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 | 2 || 4 |

«Московский Государственный Институт стали и сплавов (Технологический университет) На правах рукописи ...»

-- [ Страница 3 ] --

(11.27) [Пусть перебирается в деревню во флигель]x, или [я переберусь отсюда]y. (Чехов) Иль [чума меня подцепит]x1, иль [мороз окостенит]x2, иль [мне в лоб шлагбаум влепит непроворный инвалид]x3.

(Пушкин) (11.28) Уж ты помяни мое слово, что эта гроза даром не пройдет.

Либо [уж убьет кого-нибудь]x, либо [дом сгорит]y. (А.Островский) Или [я не понимая]x, или же [ты не хочешь меня понять]y. (Чехов) Значение: содержание первой предикативной части этих предложений исключает возможность содержания второй и последующих частей и наоборот Предикат: быть_альтернативой (x,y) * = исключающее или 3.2. чередования Союзы: то... то Примеры:

(11.29) То [солнце тусклое блестит]x, то [туча черная висит]y. (Некрасов) (11.30) То [ей приходила мысль вскочить на рампу и пропеть ту арию, которую пела актриса]x, то [ей хотелось зацепить веером недалеко от нее сидевшего старичка]y. (Л.Толстой) (11.31) [Грудь ее то высоко поднималась]x, то [казалось, она удерживала дыхание]y. (Лермонтов) Значение: события, о которых говорится в предикативных частях, существуют в разных временных планах, т.е. чередуются Предикат: чередоваться (x,y) Гипотеза о возможности выделения переменной и постоянной части в составе семантически закрытых языковых структур также находит свое подтверждение на примерах интерпретации сложносочиненных предложений из таблицы 11. При этом роль переменных выполняют пропозиции, в то время как союзная связка в совокупности с типовой структурой предложения (т.е. наличие двух простых предложений в составе сложного) обеспечивают постоянный компонент семантической структуры.

Признаками идентификации семантических структур рассматриваемого типа могут служить:

• лексические значения союзов, союзных слов, частиц, наречий входящих в состав союзной связки;

• знаки препинания;

• структурообразующие словосочетания (таблица 6).

В то же время можно подобрать примеры, в которых одних этих признаков для разрешения неоднозначности интерпретации будет недостаточно. Так, например союз но в предложениях 11.10-11.12 выступает в противительно- ограничительном значении, в предложении 11.19 в противительно- уступительном значении, а в предложении 11.23 в противительно-возместительном значении. Это свидетельствует о том, что для более точной идентификации типа семантических структур в составе сложных предложений необходимо привлекать средства семантического анализа контекста.

2.4. Э л е м е н т с м ы с л а к а к у н и в е р с а л ь н а я структурная единица модели языка Предложенные в таблицах 4-11 примеры представления смысла для различных форм русского языка позволяют сформулировать общие закономерности структурного и семантического представлений языка.

Несмотря на внешние различия представленных форм (модель словообразования, лексически свободное словосочетание, модель управления глагола, видовременная парадигма глагола, сложное предложение), каждой из них можно поставить в соответствие в модели смысла типовую логическую структуру, названную СОА-элемент, или логическую композицию из нескольких СОА- элементов. Это подтверждает то, что семантические связи, описываемые различными средствами языка, обладают единой природой. Таким образом, представление смысла предложения может базироваться на СОА-элементах, которые выполняют роль семантических примитивов в модели смысла. В структурном представлении рассмотренных языковых форм семантически закрытого типа наблюдается две закономерности.

• Во-первых, наличие трехчленной структуры в виде опорной, связующей и зависимой частей в составе внешнего (лексического и морфемного) описания. При этом присутствие всех трех компонентов в общем случае необязательно.

• Во-вторых, наличие переменного и постоянного компонентов в составе категориального (лексико-синтаксического) описания. При этом постоянный компонент выполняет роль типовой структуры и обладает набором формальных (категориальных) признаков, позволяющих его идентифицировать с точностью до явления омонимии.

Переменные компоненты являются элементами замещения.

Выявленные закономерности позволяют ввести универсальную структурную единицу в составе модели языка - элемент смысла6, который будет выполнять функцию семантического примитива в модели языка. Это создает основу для создания алгоритмической модели языка, базирующейся на идее элементов смысла: Грамматики элементов смысла.

Между семантическим примитивом в модели языка (элементом смысла) и семантическим примитивом в модели смысла (СОА- элементом) наблюдается отношение типа один ко многим, то есть при семантической интерпретации элемента смысла ему ставится в соответствие логический эквивалент, представляющий собой композицию одного или более СОА- элементов.

Кроме того, было исследовано, как эти закономерности, выявленные на образцах ЕЯ- форм из русского языка, проявляются в других языках. В Таблице П1.1 Приложения Другой термин для обозначения этой языковой единицы был предложен З.М.Шаляпиной:

элементарная предикатная конструкция.

представлены примеры интерпретации модели словообразования, свободного словосочетания и простого предложения в английском языке. В таблице П1.2 Приложения 1 приведен фрагмент модели управления глагола to buy, а в таблице П1.3 Приложения 1 приведена видовременная парадигма глагола to read. Приведенные примеры показывают, что выявленные закономерности также находят свое проявление в естественно-языковых формах английского языка.

2.5. В ы в о д ы В данной главе был предложен метод интерпретации естественно- языковых форм с использованием семантического примитива в модели смысла: элемента "субъект - отношение - атрибут" (СОА-элемент). Показана интерпретация СОА-элемента в логике предикатов как конъюнкции предикатов, коммуникативных ролей термов, семантических ролей термов, их референциальных значений. Были рассмотрены примеры интерпретации ЕЯ- форм, на основании которых введено понятие семантического примитива в модели языка - элемента смысла(ЭлС). Исследованы структура и свойства элементов смысла. Показано, что основными свойствами ЭлС является трехчленная структура, наличие переменного и постоянного компонентов, наличие признаков идентификации. Продемонстрирована связь семантических примитивов языка и смысла.

ГЛАВА III.

ФОРМАЛЬНЫЕ МОДЕЛИ ЯЗЫКА И ПРЕДСТАВЛЕНИЯ СМЫСЛА 3.1. М н о г о а с п е к т н а я м о д е л ь с м ы с л а п р е д л о ж е н и я В основе Многоаспектной модели смысла лежат три идеи:

• идея аспектов смысла;

• идея семантического примитива;

• идея объектно-ролевого взаимодействия.

3.1.1. И д е я а с п е к т о в с м ы с л а В МАМС смысл ЕЯ-предложения представляется логической формулой в исчислении предикатов. При этом логическая формула имеет макро-уровень и микро-уровень описания. В МАМС-П на макро-уровне общий смысл предложения M представляется в виде композиции аспектов (или проекций) смысла Ai.

(40) M= A1 & A2 & A3 & A Каждый аспект смысла соответствует одному из макрокомпонентов логической формулы.

Существует связь между аспектом смысла и типом графического представления, поэтому можно определить аспект смысла как уровень в иерархии графических представлений смысла ЕЯ-предложения. Для определения связи между аспектом смысла и типом представленного отношения необходимо ввести классификацию отношений между концептами по следующим основаниям (Табл.12):

• временной характер отношения, • структурный характер предложения, • задание концепта по отношению к предложению.

Таблица 12. Признаки отношений Основание деления Значение признака отношения хронологическое временной характер нехронологическое внутриструктурные структурный характер межструктурные задание концепта по отношению к внешние предложению внутренние Хронологические отношения описывают временные связи между концептами (примеры в Табл.10), нехронологические - все остальные (примеры в Табл.4-9). Внутриструктурные отношения задаются в составе простых предложений словосочетаниями. Межструктурные отношения выражаются союзными связками в сложных предложениях (примеры в таблице 11).

Внутренние концепты - это такие, которые сформированы в составе предложения с помощью функции актуализации (примерами могут служить нехронологические отношения, когда они выступают в качестве концептов в хронологических отношениях). Внешние концепты - это такие, которые существуют вне данного предложения. В основе классификации аспектов смысла лежит классификация представленных на соответствующем уровне отношений (Таблица 13).

На рис 12 показаны примеры графового представления для двух предложений:

Пример 18. Я вчера прочитал вашу статью.

и Пример 19. Ввели новые графики, и это значительно повысило производительность труда.

Дереву нетемпоральных отношений простого предложения (пример 18) соответствует дерево синтаксического подчинения, изображенное на рис 12.1. Логическая формула для дерева синтаксического подчинения формирует T-аспект для примера 18. В этом простом предложении можно выделить три элемента смысла :

я вчера прочитал (отношение S1) я прочитал... статью (отношение S2) вашу статью (отношение S3) Таблица 13. Классификация аспектов смысла Тип графического Аспект смысла Преимущественный тип 1) представления отношений Дерево ЭлС (ДЭлС) T-аспект Нехронологические Внешние концепты Внутриструктурные Сеть ЭлС N-аспект Хронологические Внутренние концепты Внутриструктурные Дерево ДЭлС TT-аспект Нехронологические Внутренние концепты Межструктурные Сеть сетей ЭлС NN-аспект Хронологические Внутренние концепты Межструктурные Примечание:1. В обозначении аспекта смысла используются признаки графического представления (T-tree), (TT-tree of tree), (N-net), (NN-net of net).

Отношения S1, S2, S3 и точка времени высказывания (ТВВ) образуют диаграмму и сеть хронологических отношений, изображенные на рис 12.2. Логическая формула для сети хронологических отношений формирует N-аспект для примера 18. Логические формы T1 и T2, соответствующие простым предложениям в примере 19 в составе сложного предложения, образуют дерево отношений (рис 12.3) и сеть отношений (рис 12.4). Это соответствует TT аспекту и NN-аспекту примера 19.

T1 T графики - и- это(T1) Я повысило новые значительно прочитал Ввели производительность (S2) вчера (S1) статью (S3) труда вашу T T Рис 12.1 Дерево ЭлС для ЕЯП: Рис 12.3 Дерево ЭлС для ЕЯП:

“Я вчера прочитал вашу статью." "Ввели новые графики и это значительно повысило производительность труда.” S S2 S1 T1 T + + + + Время Время ТВВ + ТВВ + одноврем(S3,ТВВ) ТВВ до(T1,ТВВ) ТВВ одноврем(S3,S2) до(T2,ТВВ) одноврем (S3,S1) до(T1,T2) до(S2,S1) до(S1,ТВВ) S1 S2 S3 T1 T до(S2,ТВВ) Рис. 12.2 Сеть ЭлС и диаграмма для ЕЯП: Рис. 12.4 Сеть ЭлС и диаграмма для ЕЯП:

"Я вчера прочитал вашу статью." "Ввели новые графики и это значительно повысило производительность труда.” Таким образом в МАМС для ЕЯ- предложения выделено четыре аспекта смысла :

A1 = &Ti (i=1...n) - конъюнкция деревьев семантических примитивов;

A2 = &Ni(i=1...n) - конъюнкция сетей семантических примитивов;

A3 = TT- дерево деревьев (Ti, i=1...n) семантических примитивов;

A4 = NN- сеть сетей (Ni, i=1...n) семантических примитивов.

Пример 20: Когда окончилось представление, артист Талантов поехал на вокзал.

Согласно (40) на макро-уровне смысл данного ЕЯ предложения (M) представляется конъюнкцией логических форм:

(41) M= (T1 & T2) & (N1 & N2) & TT & NN, где T1 - дерево нетемпоральных семантических примитивов (СП) для простого предложения 1) Когда окончилось представление;

T2 - дерево нетемпоральных семантических примитивов для простого предложения 2) артист Талантов поехал на вокзал;

N1 - сеть темпоральных семантических примитивов для простого предложения 1) примера 20;

N2 - сеть темпоральных семантических примитивов для простого предложения 2) примера 20;

TT- дерево деревьев СП, соответствующее союзной связке простых предложений в составе сложного;

NN- сеть сетей СП, соответствующая темпоральным отношениям между событиями, описываемыми простыми предложениями.

3.1.2 Идея семантического примитива: субъект - отношение - атрибут На микро-уровне каждый аспект смысла ЕЯ-предложения представляется как композиция семантических примитивов вида:

(42) отношение(субъект,атрибут_1,... атрибут_i,...атрибут_n) В МАМС принята объектно-ролевая нотация для записи (43) :

(43) отношение(роль_субъекта,субъект;

роль_атрибута_1,атрибут_1;

...

роль_атрибута_i,атрибут_i;

...

роль_атрибута_n,атрибут_n) Запись(43) соответствует следующему выражению в исчислении предикатов[243]:

( x 1 ) ( x 2 )... ( x i )... ( x n ) p ( x 1, x 2,... x I,... x n ) (44) & SUBJ ( x 1 ) & ATTR ( x 2 ) &... ATTR ( x I ) &... ATTR ( x n ) & v 1 ( x 1 ) & v 2 ( x 2 ) &... v i ( x i ) &... v n ( x n ) & A 1 & A 2 &... A i &... A n где p-предикатная константа, соответствующая семантическому отношению;

x i ( i = 1... n ) - переменные, соответствующие термам предикатной формы;

SUBJ(x1) - предикат, задающий значение коммуникативной роли семантический субъект для первого терма;

ATTR(xi) (i=2,n) - предикаты, задающие значения коммуникативных ролей СЕМАНТИЧЕСКИЙ АТРИБУТ для остальных термов ;

vi(xi) (i=1...n) - предикаты, задающие значения семантических ролей для всех термов ;

Ai(i=1...n) - формулы, задающие референциальные значения термов.

Семантический примитив, определенный формулами (42-44), в МАМС называется СОА-элемент. Понятия (семантическое) отношение, (семантическая) роль, (семантический) субъект и (семантический) атрибут в МАМС-В не следует смешивать с другими понятиями, которые задаются в аналогичных терминах в других теориях: например в ЕR- модели Кодда, теории отношений, логике силлогизмов, или некоторых лингвистических теориях (например, в английской грамматике предложения).

Большинство отношений в ЕЯ может быть описано с помощью бинарных предикатов, однако для общности в формулах (42-44) приведены предикаты арности n.

В таблице 14 приведены СОА-элементы, которые могут быть выделены в предложении примера 20.

Табл.14 СОА-элементы для примера ЕЯ- эквивалент / СОА-элемент окончилось представление (45) S1=заканчиваться(процесс_v1,представление_u1) (46) S2=представление_u (47) H1=включать_что(и_ситуация_v2,представление_u1,т_ситуация_v3,FS1) (48) H2=раньше_нм(и_ситуация_v2,FS2,т_ситуация_v3,ТВВ_a1) (49) H3=раньше_нм(т_ситуация_v3,FS1,т_ситуация_v3,ТВВ_a1) Артист Талантов (50) S3=иметь_имя(концепт_v4,артист_u2;

имя_v5,Талантов_a2) Артист... поехал на вокзал (51) S4=ехать_куда(п_субъект_v5,артист_u2;

место_v6,вокзал_u3) (52) H4=одновременно_нм(и_ситуация_v2,FS3;

и_ситуация_v2,FS4) (53) H5=раньше_нм(и_ситуация_v2,FS3,т_ситуация_v3,ТВВ_a1) (54) H6=раньше_нм(т_ситуация_v3,FS4,т_ситуация_v3,ТВВ_a1) Когда окончилось представление, артист Талантов поехал на вокзал.

(55) H7=позже_нм(т_ситуация_v3,FS4,т_ситуация_v3,FS1) (56) H8=позже_нм(т_ситуация_v3,FS4,и_ситуация_v2,FS2) (57) H9=одновременно_нм(и_ситуация_v2,FS3;

т_ситуация_v3,FS1) (58) H10=одновременно_нм(и_ситуация_v2,FS3;

и_ситуация_v2,FS2) Примечание: 1.Предикат S1 унарный.

2.Концепт представление_u1 интерпретируется как и_ситуация_v 3.H1,H2,H3,H4,H5,H6,H7,H8,H9,H10 -темпоральные отношения.

4.и_ситуация_v2- интервальная ситуация;

т_ситуация_v3-точечная ситуация.

5.п_субъект_v5-перемещающийся объект.

6.Суффикс нм в именах темпоральных отношений означает неметрическое.

7.FSi = Fa(Si) - концепты, образованные применением функции актуализации к логическим отношениям.

3.1.3. И д е я о б ъ е к т н о - р о л е в о г о в з а и м о д е й с т в и я Объединение СОА- элементов в СОА- формулу на микро-уровне происходит с помощью механизма объектно-ролевого взаимодействия. Рассмотрим этот механизм подробнее.

Каждый СОА-элемент в МАМС получает статус самостоятельного концепта (как, например, отношения S1, S2, S3, S4 в таблице 12) и, следовательно, может выступать в качестве субъекта или атрибута в отношении более высокого уровня. Таким образом, T-аспект смысла (нетемпоральные отношения в простых предложениях) для примера 20 описывается формулами :

(59) T1= S (60) T2= S3 & S Темпоральные отношения (N-аспект) задаются формулами:

(61) N1= H1 & H2 & H (62) N2= H4 & H5 & H Так как союзная связка "Когда" в примере 20 определяет темпоральное отношение между частями сложного предложения, формулы для TT-аспекта и NN-аспекта совпадают и имеют вид:

(63) TT = NN = позже_нм(Т2,Т1) Из (63) с помощью соотношений логики времени [40] могут быть получены темпоральные отношения H7 - H10 таблицы 14.

Окончательную МАМС- формулу можно найти, подставив (59-63) в выражение (41). Весь этот процесс называется композиционным методом [252].

3.1.4. М А М С и к о г н и т и в н ы е м о д е л и Естественный язык - это результат социального договора. Формально грамматическая норма языка(орфография, морфология, синтаксис и т.д.) закрепляется в словарях, грамматике. Однако большая доля семантики языковой способности остается формально не описанной. Одним из методов формального описания семантики языка являются когнитивные модели.

В МАМС смысл ЕЯ-предложения рассматривается как композиция отношений, относящихся, в общем случае, к разным когнитивным моделям. Напротив, в когнитивной модели рассматриваются связи семантически родственных отношений. На рис.13 показаны семантические связи СОА-элемента, которые можно описать в рамках когнитивной модели.

---------------------------------------------------------- +--------------------------+ +---------------------+ | СОА-элемент | +=| Аналитическая форма | |+------------------------+| | +---------------------+ || Отношение || | ----------------------+ ||+---------+ +--------+ || |=| Логическая модель | |||Роль | |Роль | |======| +---------------------+ |||субъекта | |атрибута| || | +---------------------+ ||+---------+ +--------+ || +=| Связи типа: | || | || || |"область-объект" | |+----|------------|--|---+| +=| | | | || | | +---------------------+ | | || | | +---------------------+ | | | +============| Связи типа: | | | | | |=|"элемент-множество" | | | | | | +---------------------+ | | | | | +---------------------+ | | | | |=|..."объект-свойство" | | | | | | +---------------------+ | V V | | +---------------------+ | +---------+ +---------+ | |=|..."часть-целое" | | |Субъект | |Атрибут |=======| +---------------------+ | +---------+ +---------+ | | +---------------------+ | | +=| Факты | +--------------------------+ +---------------------+ Рис.13 Семантические связи СОА-элемента Примечание:

1.Многие отношения в ЕЯ носят синтетический характер.

Примером могут служить отношения, соответствующие модели управления глагола поехать.

Аналитическую форму для этого глагола и одного из отношений (поехать_куда) можно представить следующим образом:

поехать = перемещаться, используя транспорт на колесах (64) поехать_куда(п_объект,o1;

место,o2)= перемещаться_куда(п_объект,o1;

место,o2) & перемещаться_на_чем(п_объект,o1;

транспорт,o3) & часть_целое(часть,колеса_u1;

целое,o3), где :

поехать_куда,перемещаться_куда, перемещаться_на_чем, часть_целое - имена соответствующих отношений;

п_объект, место, транспорт, часть, целое - имена ролей;

п_объект - перемещающийся_объект;

o1,o2,o3-имена переменных для обозначения концептов;

Колеса_u1-множество индивидов.

В теории концептуальных зависимостей [234] аналитическая форма (=концептуализация) является основным способом представления знаний. Критику такого подхода можно найти в [197, 246].

2.Логическая модель - это система логических связей для отношений, входящих в состав когнитивной модели. Примером логических моделей (логик) для временных отношений могут служить [40, 123-125, 207].

3.Отношения, как и концепты (субъект и атрибут) могут принадлежать к определенной предметной области. В этом случае они являются область- зависимыми и обладают связями типа область-объект. Так отношение поехать_куда можно отнести к предметной области транспорт.

4.Связи типа: элемент-множество, объект-свойство, часть-целое подробно описаны и используются в различных системах представления знаний [197].

5.Факты-описание конкретных отношений между объектами, в которые они вступают на своем жизненном цикле.

6.Роль - это множество концептов, обладающих определенными свойствами, которые позволяют им играть эту роль в отношении.

3.2. М н о г о а с п е к т н а я м о д е л ь с м ы с л а в ы с к а з ы в а н и я Высказывание - это явление естественного языка(ЕЯ), которое отличается от предложения тем, что имеет коммуникативную функциональную направленность: вопрос, сообщение, просьбу. Поэтому семантика ЕЯ- высказывания шире, чем смысл отдельного предложения.

Известно[75], что высказывание имеет ряд отличительных черт по сравнению с предложением:

• смысл высказывания шире, чем смысл предложения, так как высказывание несет функциональную нагрузку;

• концепты в составе высказывания актуализированы, т.е. привязаны к объектам и понятиям, находящимся в поле зрения коммуникантов;

• компоненты высказывания могут иметь различный статус истинности и это отражается на общем значении и статусе истинности высказывания.

Многоаспектная модель смысла ЕЯ- высказывания может быть получена как расширение МАМС для ЕЯ-предложения. Высказывание в примере 20 не имеет явного грамматического оформления. Для определенности ЕЯ- предложение примера 20 можно интерпретировать(согласно [169]) как ЕЯ- высказывание в примере 21.

Пример 21. Я вам говорю, что когда окончилось представление, артист Талантов поехал на вокзал.

3.2.1. С т р у к т у р а с м ы с л а Е Я - в ы с к а з ы в а н и я В макроструктуре смысла ЕЯ- высказывания можно выделить четыре компонента:

• базовый коммуникативный компонент B;

• компонент коммуникативной пресуппозиции P;

• компонент обстоятельств высказывания C;

• смысл предложения M.

Таким образом, МАМС- формула для смысла ЕЯ- высказывания (MU) имеет вид:

(65) MU= B & P & C & M Структура и содержание смысла предложения (M) подробно рассматривались в разделе 3.1.

Теперь сосредоточимся на представлении компонентов B, P и C из (65).

3.2.2. Б а з о в ы й к о м м у н и к а т и в н ы й к о м п о н е н т Базовый коммуникативный компонент (B) в (65) для примера 21 можно представить как конъюнкцию двух отношений:

(66) B = B1 & B2, где (67) B1= сообщать_кому(источник_u1,я_a1;

приемник_u2,вы_a2) (68) B2= сообщать_что(источник_u1,я_a1;

сообщение_u3,Fa(M)) Семантика этих отношений может быть задана в когнитивной модели ментальных актов [11]. M - смысл ЕЯ-предложения из (41), Fa -функция актуализации.

3.2.3. К о м м у н и к а т и в н а я п р е с у п п о з и ц и я При синтезе высказывания источник (то есть лицо, делающее сообщение) исходит из определенных предположений о коммуникативном состоянии приемника (лица, принимающего сообщение).

(69) P = P1 & P (70) P1=предполагать_что(мыслящий_объект_u4,я_a1;

предположение_u5,E1) (71) P2=предполагать_что(мыслящий_объект_u4,я_a1;

предположение_u5,E2), где E1= обладать_свойством(объект_u6,THEME1;

свойство_u7,E3) & иметь_значение(свойство_u7,E3;

значение_u8,E4) E2= обладать_свойством(объект_u6,Fa(M);

свойство_u7,E3) & иметь_значение(свойство_u7,E3;

значение_u8,E5) THEME1="когда кончилось представление" E3= известность_приемнику E4= известно E5= неизвестно В кавычках "" даны значения концептов, взятые из текста;

в угловых скобках значение концептов, взятые из предполагаемой базы знаний;

E1, E2, E3, E4, E5, THEME1- имена индивидных концептов. М - смысл ЕЯ-предложения из (41).

По-русски (69) можно записать так: Сообщающий предполагает, что тема известна воспринимающему сообщение, а рема - нет.

3.2.4. О б с т о я т е л ь с т в а в ы с к а з ы в а н и я Обстоятельства высказывания включают следующие факторы:

• форма высказывания.

• временные обстоятельства высказывания;

Форма высказывания задается синтетическим характером отношения, выраженного соответствующим глаголом, и может быть представлена для случая в примере как:

(72) C1=обладать_свойством(объект_u1,Fa(M);

свойство_u7,G1) & иметь_значение(свойство_u7,G1;

значение_u8,G2) G1=форма G2=устная Временные обстоятельства высказывания определяется темпоральными ОТНОШЕНИЯМИ, относящимися к высказыванию. На рис.14 показана упрощенная хронологическая диаграмма для высказывания из примера 21.

+ B + B + P + P + E + E + C ---------------------+------------------ Ось времени ТВВ = ТМ Рис.14.Хронологическая диаграмма временных обстоятельств высказывания примера (73) C2=HR1 & HR2 & HR3 & HR4 & HR5 & HR6 & HR7 & HR8, (74) HR1=одновременно_нм(т_ситуация,ТВВ;

т_ситуация,ТМ), (75) HR2=одновременно_нм(т_ситуация,ТВВ;

т_ситуация,B1), (76) HR3=одновременно_нм(т_ситуация,ТВВ;

т_ситуация,B2), (77) HR4=одновременно_нм(т_ситуация,ТВВ;

т_ситуация,P1), (78) HR5=одновременно_нм(т_ситуация,ТВВ;

т_ситуация,P2), (79) HR6=одновременно_нм(т_ситуация,ТВВ;

т_ситуация,E1), (80) HR7=одновременно_нм(т_ситуация,ТВВ;

т_ситуация,E2), (81) HR8=одновременно_нм(т_ситуация,ТВВ;

т_ситуация,C1), где ТВВ - точка времени высказывания, ТМ - текущий момент.

Соответственно в (65) C= C1 & C2.

3.2.5. Ф у н к ц и я а к т у а л и з а ц и и и референциальное значение Референция [75, 78] - это подстановка концептов, существующих в памяти или в поле зрения агента в логическую форму, соответствующую ЕЯ- высказыванию. В МАМС предусмотрено два механизма учета референциальных аспектов высказывания:

• функция актуализации;

• референциальное значение термов.

Функция актуализации ставит каждому логическому предикату или формуле индивидуальный концепт из универсума всех концептов агента.

Референциальное значение - это ссылка на новый или уже известный концепт, а также та дополнительная информация о концепте, которая содержится в высказывании с помощью объектно-множественных связей, родовых или атрибутивных признаков. В МАМС референциальное значение терма входит в состав СОА-элемента и не формируется в виде самостоятельного логического компонента высказывания (аспекта смысла), как это предлагается в [75, 78]. Это оправдано еще и тем обстоятельством, что референциальное значение является основным связующим звеном при формировании логической формулы с помощью композиционного метода.

3.3. С т а т у с ы з н а ч е н и й и с т и н н о с т и В МАМС предполагается, что логические высказывания могут отличаться по природе своего значения истинности. Для этих целей в модель введено два статуса значения истинности высказывания:

• статус модальности;

• статус полноты.

Статус модальности может принимать четыре значения:

• аксиома (3);

• факт (2);

• гипотеза (1);

• неизвестно (0).

Статус полноты задается двумя значениями:

• первичная информация (1);

• результат логического вывода (0).

Каждое значение статуса имеет свой приоритет, численное значение которого указано в скобках. Значение истинности составных выражений оценивается в соответствии со статусами модальности и полноты составляющих их логических компонентов. Для определения результирующего значения статусов истинности по статусам его компонентов вводится два правила.

Правила общего понижения статуса Компонент формулы с более низким приоритетом статуса в сложном высказывании понижает общий приоритет статуса высказывания до своего уровня.

Правило выборочного понижения статуса В некоторых логических выражениях для некоторых комбинаций значений истинности компоненты МАМС- формулы с более низким значением приоритета статуса истинности не понижает общее значение статуса до своего значения, если изменение значения истинности этих компонентов не влияет на общее значение истинности.

В таблицах 13 и 14 в качестве иллюстрации работы правила выборочного понижения статуса истинности приведены примеры логических выражений для операций "И" и "ИЛИ". В этих таблицах P1 и P2 - начальные логические переменные с определенным статусом модальности. P3 - это результат логической операции.

Значение статуса показано в скобках. Очевидно, что в случаях, когда результирующее значение P3 нечувствительно к изменению компонента P2 с более низким приоритетом истинности ему может быть присвоен более высокий статус (строки 3 и 4 в таблице 15 и строки 1 и 2 в таблице 16).

Таблица 15. Пример композиции статуса модальности для операции логической конъюнкции ("И") P1 (Аксиома) P2(Факт) N P3 = P1 & P Истина(Аксиома) Истина(Факт) Истина(Факт) Истина(Аксиома) Ложь(Факт) Ложь(Факт) Ложь(Аксиома) Истина(Факт) Ложь(Аксиома) Ложь(Аксиома) Ложь(Факт) Ложь(Аксиома) Таблица 16. Пример композиции статуса модальности для операции логической конъюнкции ("ИЛИ") P1 (Аксиома) P2(Факт) N P3 = P1 v P Истина(Аксиома) Истина(Факт) Истина(Аксиома) Истина(Аксиома) Ложь(Факт) Истина(Аксиома) Ложь(Аксиома) Истина(Факт) Истина(Факт) Ложь(Аксиома) Ложь(Факт) Ложь(Факт) Таким образом, в МАМС вводятся средства для обработки высказываний, неоднородных по своему составу с точки зрения модальности составляющих его частей.

3.4. Р е п р е з е н т а т и в н ы е в о з м о ж н о с т и м о д е л и Для того, чтобы проиллюстрировать роль компонентов (аспектов) смысла высказывания в формуле (65), обратимся к таблице 17. В левой графе таблицы приведены примеров. Первый из этих примеров соответствует примеру 21. Остальные 9 составлены на его основе путем модификации. В правой части таблицы расположены четыре графы, которые показывают изменение соответствующих компонентов смысла относительно первого примера.

Графы B, P, C и M соответствуют обозначениям компонентов смысла в формуле (65). Знак плюс (+) означает изменение, знак минус (-) - неизменность смысла компонентов.

Таблица 17. Примеры изменения значений аспектов смысла в (66) ПРИМЕР ИЗМЕНЯЕТСЯ Прим N B P C M Я вам говорю, что М. Он мне закричал, что М. 2 + - + Я его спросил, правда ли, что М. 3 + + + Я его спросил, когда артист Талантов поехал 4 + + + + на вокзал.

Я ему сказал, что М. 5 + - + Неужели М. 6 + + + Едва ли М. 7 - + + Артист Талантов поехал на вокзал, когда 8 - + - + окончилось представление.

Я думаю, что М. 9 + + + Докладываю, что М. 10 - - + Примечание:

1.Начальный образец.

2.Поменялись источник и приемник, время высказывания.

3.Поменялся приемник,, время высказывания, появился модальный оттенок и вопросительная форма, влияющие на базовый компонент и компонент пресуппозиции.

4.Поменялись: приемник,, время высказывания. Вопросительная форма, при этом смысл вопроса более частный, чем все высказывание.

5.Поменялись: приемник,, время высказывания.

6.Лингвистическая модальность меняет компоненты B,P,C.

7.То же.

8.Сменились тема и рема. Перенос фокуса внимания на факт конца представления.

9.Оттенок модальности.

10.Изменилась форма высказывания.

Предложенная модель для представления смысла ЕЯ- высказывания носит принципиальный, во многом предварительный характер, и содержит значительный потенциал для расширения своих возможностей. В данной работе рассмотрен только один функциональный тип высказывания: сообщение. Репрезентативные возможности модели будут значительно расширены при включении в нее других типов: вопрос, просьба(приказ). Не учитывался нами также такой немаловажный фактор высказывания, как модальность.

Отдельный интерес представляет исследование сообщений, которые носят ритуальный характер: приветствие, поздравление, прощание и т.д. Среди неучтенных обстоятельств высказывания можно отметить такой фактор, как субъективное отношение сообщающего к сообщению и воспринимающему его.

3.5. С о о т н о ш е н и е М А М С и т е о р и и концептуальных графов Всякая система логического представления смысла ЕЯ-феноменов опирается на три составляющих:

• она имеет в основе какой-то определенный математический формализм;

• она вводит нотацию для записи представления смысла;

• она описывает определенный набор фактов естественного языка.

Поэтому сравнение систем представления смысла удобно проводить в отдельности по каждой из составляющих. Наиболее близкой к МАМС системой представления смысла среди известных теорий [197], можно считать подход к описанию смысла ЕЯ- предложений, описанный в [246]7.

МАМС и теория концептуальных графов Совы (ТКГ) имеют в своей основе общий формализм: теорию исчисления предикатов.

Нотация в ТКГ более тяготеет к графовому типу представления, хотя автором предложен и формульный вариант. Однако объектно-ролевая нотация, предложенная в МАМС, позволяет эксплицитно выразить ролевые значения концептов, поэтому она более лингвистически ориентирована, чем ТКГ. Кроме того, МАМС когнитивно ориентирована, так как одним из условий выбора предиката в СОА- элементе является наличие его в когнитивной модели агента.

Однако, наиболее ярко отличия МАМС-В и подхода [246] проявляются в области феноменологии. МАМС в отличие от ТКГ, рассматривает не только предложения, но и Вообще-то ТКГ декларируется как универсальный аппарат для представления знаний и представление смысла ЕЯ-феноменов рассматривается автором [246], как один из видов приложений. Поэтому с МАМС сравнивается не ТКГ в целом, а подход к представлению смысла ЕЯ- предложений с помощью ТКГ.

высказывания, и при этом МАМС позволяет описывать такие свойства ЕЯ- высказывания, которые не отражены в ТКГ, как:

• наличие семантического примитива в логическом и в структурном представлении смысла, учитывающего значение семантической роли в явном виде;

• коммуникативно-функциональные компоненты смысла высказывания;

• разный характер истинности высказывания и его составляющих с точки зрения модальности.

3.6. Г р а м м а т и к а э л е м е н т о в с м ы с л а повествовательного предложения изъявительного наклонения 3.6.1. М о т и в а ц и я Естественный язык (ЕЯ) - это универсальное средство для описания действительности в терминах моделей представления, известных агенту. Способность рассуждать, а также выполнять другие когнитивные функции основывается на способности представлять знания, поэтому грамматика ЕЯ должна быть адекватна модели представления знаний агента об окружающей его действительности (предметной области). Несмотря на многолетние усилия в области синтеза моделей языка (грамматик) и моделей смысла (представления знаний) [70, 150, 177, 199, 176, 232], задача эта еще далека от окончательного решения. В настоящей работе излагается грамматика ЕЯ, основанная на элементах смысла (ЭлС). В основу семантической модели в ГЭлС положена многоаспектная модель смысла предложения (МАМС-П), описанная ранее. На разработку ГЭлС оказали влияние и так или иначе были учтены результаты работ [128, 141-145, 155-159, 209, 234, 235, 259].

3.6.2. О с н о в н ы е п о н я т и я Г Э л С В основе построения грамматики элементов смысла лежат следующие свойства естественного языка:

1.Естественно-языковое предложение (ЕЯП) представляет собой композицию связанных между собой семантических примитивов - элементов смысла.

2.Элемент смысла - составная часть ЕЯП, обладающая самостоятельным смысловым значением. Простой ЭлС - это минимальная часть ЕЯП, имеющая структурный (а не атомарный) эквивалент в модели смысла (МАМС-П).

3.Можно выделить три важных свойства ЭлС:

• неделимость простых ЭлС, т.е. дальнейшее деление простых ЭлС на составные части приводит к их семантической независимости, и, следовательно, неопределенности предложения как семантического целого;

• сочетаемость, т.е. способность ЭлС сочетаться между собой определенным образом для образования ЕЯП;

Поскольку основное и единственное содержание смысла ЕЯП - это описание разнообразных объектов окружающей человека действительности в их взаимосвязи, то третье базовое свойство ЭлС:

• способность выражать взаимосвязи между объектами.

4.Основные свойства структурного эквивалента ЭлС в МАМС-П -объектно ролевого предиката типа ОТНОШЕНИЕ(СУБЪЕКТ,АТРИБУТ) или СОА-элемента рассмотрены в разделе 2.2. Записи объектно-ролевого предиката (82) p(r1,o1,r2,o2), принятой в нотации МАМС-П и ГЭлС, соответствует стандартная запись исчисления предикатов (44), где r1 -роль субъекта o1 ;

r2 -роль атрибута o2 ;

p - имя предиката, выражающего отношение между субъектом и атрибутом.

5.СОА-структура, соответствующая ЭлС, состоит из постоянной части (тип ЭлС), и переменных, при подстановке которых в типовую структуру образуется конкретное значение ЭлС.

3.6.3. Структура и свойства ЭлС В таблице 18 приведены примеры (п.1-3) ЕЯ- фраз, записанных в нотации ГЭлС (в таблице П1.1 приложения 1 приведены кальки этих примеров в английском языке). Примеры таблицы 18 (и П1.1) иллюстрируют следующие положения ГЭлС.

1.Можно выделить составные части в составе ЭлС: опорная часть(ОЧ) ЭлС;

связующая часть(СЧ) ЭлС;

зависимая часть(ЗЧ) ЭлС.

2.Существуют простые ЭлС(п.2 из табл.18) и сложные ЭлС.(п.1).

3.Элемент смысла состоит из частей элемента смысла (ЧЭлС). ЧЭлС в свою очередь подразделяются по структурному составу на простые ЧЭлС и сложные ЧЭлС(п.1). В зависимости от используемых языковых средств можно выделить следующие уровни представления ЧЭлС и ЭлС в ЕЯ:

морфемный (п.1)-частями ЭлС являются морфемы;

лексический (п.2,3) - частями ЭлС являются словоформы;

структурный (рис. 12) - частями ЭлС являются структурные части ЕЯП.

Каждый грамматический уровень представления ЧЭлС характеризуется своим набором признаков идентификации ЧЭлС. На морфемном уровне ЧЭлС идентифицируются по наличию в составе слова морфем из модели словообразования, обладающей определенной семантикой (п.1). На лексическом уровне ЧЭлС определяют следующие группы признаков:

первичные (морфологические) признаки, позволяющие идентифицировать лексемы и "семантические связи - свойства" соответствующих им концептов;

вторичные (синтаксические) признаки, позволяющие идентифицировать "семантические связи-отношения" между лексемами.

В некоторых частях речи эти признаки очень тесно переплетены. Примером тому служит глагольное словосочетание, рассмотренное ранее. На структурном уровне представления роль признака выполняет наличие тех или иных лексем, знаков препинания или нужной синтаксической формы в составе структурной ЧЭлС. Тип ЭлС задается комбинацией признаков ЧЭлС. Проблема неопределенности в выборе ЭлС, связанная с омоструктурностью некоторых типов ЭлС (п.2) решается путем применения ролевого семантического фильтра.

Таблица 18. Примеры интерпретации элементов смысла в ЕЯ Пример 18.1. "парижанин" Типы ЭлС: 1) корень(место) - nul - суф(ан) 2) мэс -... nul... - суф(ин) СОА- эквивалент:

место_жительства((место,ПАРИЖ),(объект,O 1) & обладать_свойством((объект,O 1),(свойство,ПОЛ) & иметь_значение((свойство,ПОЛ),(значение,МУЖСКОЙ))) Примечание: корень(место)-корень, обозначающий место или географическое название;

суф("ан")-суффикс "ан";

мэс- морфемный элемент смысла;

суф("ин")-суффикс "ин".

Пример 18.2. "комната сестры" Тип ЭлС: ис -... nul... - ис(рп) СОА- эквивалент:

иметь_владельца((объект,КОМНАТА),(владелец,СЕСТРА)) Примечание: ис- имя существительное;

ис(рп)-имя существительное в родительном падеже;

тип ЭлС имеет несколько омонимических значений, ср.:

"литр молока”, “час заката”, “запах цветов”, “решение задачи" Пример 18.3. "Поезд прибыл на вокзал."

Типы ЭлС: 1. ис(ип) -... nul... +*: гл 2. гл("прибыть" ) -... пред("на" )... - ис(вп) 3. гл(пв,св) - null - null СОА- эквивалент:

S1=прибывать_куда((объект,ПОЕЗД),(место,ВОКЗАЛ)) & до((точ_ситуация,S 1),(точ_ситуация,ТВВ)) Примечание: ис(ип)-имя существительное в именительном падеже;

ис(рп)-имя существительное в родительном падеже;

гл("приходить")-глагол "приходить";

гл(пв,св) - глагол в прошедшем времени,совершенного вида.

СОА- эквивалент содержит две точечных ситуации: S 1 и "точку времени высказывания" (ТВВ), связанные T-отношением.

Примечание :

1) В нотации элемента смысла: подчеркиванием выделен ОЧЭлС, курсивом СЧЭлС, не выделен - ЗЧЭлС.

2) nul -ЧЭлС отсутствует.

3) Угловые скобки " " означают возможность инверсии порядка ОЧ и ЗЧ.

4) Многоточие "..." означает возможность включений между частями ЭлС частей от других С, знаки "+","*",":" -согласование ЧЭлС в числе, падеже и роде соответственно.

4. В целях сокращения нотационной записи для элементов смысла их части, относящиеся к различным частям речи, но выполняющие сходные функции в этих ЭлС, могут быть объединены в классы ЧЭлС. Как, например, имена существительные и личные местоимения, выполняющие однотипные функции (п.3 сравните: Он прибыл на вокзал ).

3.6.4. Г р а ф и ч е с к и е п р е д с т а в л е н и я в Г Э л С Грамматика элементов смысла близка к структурной лингвистике [27] в том смысле, что она задает и исследует структурные связи между структурами языка (элементами смысла) и их составными частями. Для наглядности связи между ЧЭлС можно изобразить в виде графического представления (Рис. 12.1), которое соответствует дереву синтаксического подчинения [27] или дереву зависимостей в Модели Смысл-Текст [33, 209]. Однако связи в дереве частей элементов смысла помечены не поверхностно-синтаксическими отношениями (ПСО), как это сделано в дереве зависимостей, а принадлежностью к конкретному ЭлС. Дерево частей элементов смысла (ДЧЭлС) соответствует в МАМС-П компоненту логической формулы (41), описывающему Т-аспект (отсюда и происхождение его названия).

3.6.5. О п е р а ц и и н а д Э л С При реализации когнитивной функции анализ ЕЯП грамматика элементов смысла предусматривает шесть базовых операций над элементами смысла (Рис 15.):

• идентификация типа ЭлС;

• подстановка значений концептов в ЭлС;

• выбор ЭлС из множества альтернатив;

• композиция ЭлС в структурное представление;

• связывание ЭлС в структурном представлении;

• интерпретация ЭлС в СОА- эквивалент.

Идентификация Идентификация- это распознавание возможных типов ЭлС в составе ЕЯП по набору присущих ему признаков. Можно выделить два важных частных случая применения операции идентификации.

1.Идентификация структурных ЭлС, т.е. ЭлС выраженных структурными элементами ЕЯП, в т.ч.[6, 50] • простыми предложениями в составе сложных;

• однородными и обособленными членами простого ЕЯП;

• присоединительными, вводными, вставными конструкциями;

• обращениями.

2. Идентификация структурного типа простого ЕЯП.

Таким образом, определение типа составных частей структурных ЭлС является частью операции идентификации. Выделение этих случаев применения операции идентификации ЭлС объясняется их влиянием на весь процесс анализа ЕЯП. В общем случае операция идентификации ЭлС основывается на результатах комплексного морфологического, лексического, морфемного, синтаксического и структурного анализа предложения. При этом предполагается, что:

морфологический анализ - это идентификация (т.е. выявление и определение типа) морфем в составе словоформы, выполняющих словоизменительную роль ;

лексический анализ - это идентификация лексем в составе предложения;

морфемный анализ - это идентификация морфем в составе словоформы, выполняющих словообразующую роль ;

синтаксический анализ - это идентификация синтаксических категорий в составе предложения;

структурный анализ - это идентификация структурного типа и структурных составных частей предложения.

Поскольку набор признаков характеризует тип ЭлС, то этот набор можно использовать для обозначения типа ЭлС.

Подстановка Как уже отмечалось, структура ЭлС включает постоянную и переменную части. Постоянная часть соответствует типу ЭлС, переменная часть соответствует концептам субъекта и атрибута в памяти агента. Тип ЭлС задает количество и вид переменных в ЭлС.

Операция подстановки предполагает:

• выделение переменной и постоянной части ЭлС на основании типа ЭлС;

• определение и референция концептов отношений, субъектов и атрибутов, входящих в состав ЭлС;

• определение типов переменных и констант в составе ЭлС;

• подстановку концептов в СОА- представление ЭлС.

Выбор Операция выбора позволяет значительно сократить количество подходящих вариантов на предварительной стадии анализа. Для этого используется метод объектно-ролевого фильтра.

Композиция Операция композиции - это объединение ЭлС в связную структуру - дерево ЭлС (или ЧЭлС).

Способность ЭлС при композиции образовывать дерево ЭлС основано на следующих общих свойствах ЭлС:

1.ЭлС представляет собой направленную, несимметричную структуру, в которой зависимая часть находится в подчинении или согласовании с опорной частью.

2.В качестве зависимой части ЭлС может выступать другой ЭлС или их композиция, представляющая собой фрагмент дерева ЭлС.

3.Корнем ДЭлС служит структурообразующий ЭлС.

4.Одна и та же опорная часть ЭлС может присоединять несколько зависимых частей ЭлС, образуя составной ЭлС.

5.Узлами дерева ЭлС являются опорные и зависимые части ЭлС.

6.Дугам, соединяющим узлы дерева можно поставить в соответствие межморфемные и синтаксические связи (ПСО), существующие между его узлами.

S - ЕЯП Комплексный традици онный грамматический анализ База данных ЧЭлС ЧЭлС - части элементов смысла Операции над ЭлС -идентификация ;

-подстановка ;

База данных ЭлС -выбор ;

-композиция.

ЭлС - элементы смысла, графовые представления Связывание Интерпретация. концептов M - логическая форма в МАМС-П Рис. 15. Анализ ЕЯ-предложения в Грамматике элементов смысла (общая схема) Связывание Связывание - это операция увязки ЭлС между собой на уровне их СОА эквивалентов. При этом осуществляется унификация, т.е. означивание вхождения общих концептов в различные СОА-элементы, и устранение избыточных СОА- элементов.

Интерпретация Интерпретация в ГЭлС - это преобразование структурных представлений ЭлС (т.е. деревьев)в формулу в многоаспектной модели смысла ЕЯП. Эта операция основывается на следующих свойствах ЭлС:

• каждому простому ЭлС в ГЭлС соответствует СОА-эквивалент в МАМС-П;

• сложным и составным ЭлС в ГЭлС соответствуют МАМС- формулы.

Кроме того операция интерпретации предполагает построение остальных аспектов смысла предложения.

3.6.7. О г р а н и ч е н и я м о д е л и Как и всякая модель, ГЭлС является лишь приближенным описанием естественного языка и имеет ряд ограничений. Автор надеется, что эти ограничения не присуще самой природе ГЭлС (и МАМС-П), а связаны с тем огромным количеством форм и явлений, из которых состоит ЕЯ, и могут быть устранены в процессе дальнейшего развития моделей.

Отношения высокого порядка МАМС-П основывается на исчислении предикатов первого порядка. Известно, что в ЕЯ существуют конструкции, которые выражают отношения второго порядка. Для описания отношений высокого порядка потребуется незначительная модификация языка МАМС-П.

Типы предложений Проверка ГЭлС проводилась в основном на повествовательных предложениях изъявительного наклонения. Для адекватного описания других типов предложений, эта модель потребует модификации.

Типы логик МАМС-П основывается на классическом исчислении предикатов. Существуют логики для интерпретации нечетких [1-3, 64, 266] и модальных [81, 250] отношений в ЕЯ. Эти логики могут быть включены в МАМС-П.

Описание ЭлС и когнитивных моделей Одной из реальных проблем, с которой пришлось столкнуться автору - это небольшой набор хорошо описанных когнитивных моделей. Это обстоятельство вынуждало автора использовать в примерах ряд отношений, семантика которых недостаточно четко определена.

3.6.8. Обсуждение Грамматики элементов смысла Объектно-ролевой фильтр В своей классической работе[143] Хомский привел фразу Пример 22. colorless green ideas sleep furiously как пример синтаксически безупречного, но абсолютно бессмысленного предложения, которое трансформационная грамматика должна счесть правильным.

ideas 1/ 2| 3\ colorless green sleep 4\ furiously Рис 16. Дерево зависимостей для примера Напротив, в ГЭлС уже на раннем этапе анализа появляется возможность использования ролевого семантического фильтра (наряду с другими семантическим фильтрами:

пресуппозиции, сценарии, ситуации, контекст и т.д.), что позволяет обнаружить бессмысленные комбинации слов. Ни одно из отношений помеченных цифрами 1...4 в дереве ЭлС для данного примера не проходит именно по причине отсутствия возможности у упомянутых нематериальных объектов (ideas) играть соответствующие роли (быть бесцветными, иметь цвет, спать и т.д.).

Грамматика элементов смысла и другие модели Грамматика элементов смысла - это алгоритмическая модель для обработки естественно языковых предложений, которая не заменяет известные лингвистические модели [75, 144, 169, 209], описывающие феноменологию языка. Скорее ГЭлС опирается на эти модели при попытке учесть базовые свойства ЕЯ- формы. В таблице 19 приведен перечень таких свойств, которые нашли отражение в нотации, структуре и свойствах элемента смысла. Для более четкого представления соотношения ГЭлС и других моделей, необходимо рассмотреть основные понятия ГЭлС в сравнении с близкими понятиями в других моделях.


1.Непосредственные составляющие(НС) [143] vs ЧЭлС:

На первый взгляд ЧЭлС можно отождествить с НС, однако имеется ряд существенных отличий.

Сходство:

• ЧЭлС как и НС могут выражаться на лексическом уровне;

• ЧЭлС и НС имеют в своем описании синтаксический и лексический компонент;

• Классам ЧЭлС, составным ЧЭлС могут быть поставлены в соответствие НС.

Отличие:

• ЧЭлС - это результат распознавания, а НС - результат трансформации (или генерации), т.е. у них различная процедурная природа;

• понятие ЧЭлС распространено и на морфемный и на структурный уровень (простые предложения в составе сложных).

Таблица 19. Базовые свойства ЕЯ- формы, которые учитывают нотация, структура и свойства ЭлС СВОЙСТВО ЕЯ- формы СВОЙСТВО ЭлС.

1.Семантика ЕЯ. 1.Имеет семантический эквивалент в МАМС-П.

2.Параметричность. 2.Имеет постоянную (категории, классы) и переменную часть(лексема, сема).

3.Структурированность. 3.Имеет составные части.

4.Инвертирование порядка слов. 4.Обозначение в нотации.

5.Вставки, включения. 5.Обозначение... в нотации.

Прерывистость связей.

6.Согласование 6.Обозначения +,*,: в нотации.

7.Связь 7.Связующая часть ЭлС.

7а)Два механизма связи в ДЧЭлС.

(ОЧ=ЗЧ/ ЭлС=ЧЭлС) 8.Нессиметричность. 8.Имеет ОЧ и ЗЧ.

9.Кластерность. 9.Сложные ЧЭлС.

10.Дерево зависимостей 10.Дерево ЭлС (см. ниже) 11.Морфология,лексика, синтаксис. 11.Задается средствами Представления ЭлС.

12.Распознаваемость. 12.Обеспечивается признаками ЭлС.

2. ЭлС vs Поверхностно-синтаксические отношения (ПСО)[65].

ПСО является составной частью ЭлС, но Элементу смысла ставится в соответствие СОА-эквивалент, в то время, как ПСО- чисто синтаксическая структура.

3.ЭлС vs Пропозициональная форма (см. Толково- комбинаторный словарь в МСТ).

Можно сказать, что ЭлС это пропозициональная форма, но записанная в параметрическом виде (не только лексически, но и синтаксически, и логически, и структурно и т.д.).

4.Дерево зависимостей (ДЗ) vs ДЭлС.

Дерево ЭлС - это разновидность ДЗ, в котором ПСО объединены в ЭлС.

5. Дерево ЭлС vs. дерево непосредственных составляющих (ДНС) Главное же различие между ДНС и ДЭлС в их процедурной природе:

Традиционно дерево НС рассматривается как результат действия какого-то однородного по своей математической природе процесса (автомата);

в то время как ДЭлС - это результат сложного взаимодействия нескольких процессов (операции в ГЭлС), имеющих различную математическую природу.

Таким образом, Грамматика элементов смысла родственна Модели Смысл-Текст (МСТ) в части поверхностного синтаксиса, однако отличается от поверхностного синтаксиса МСТ тем, что она семантически ориентирована.

3.7. В ы в о д ы В данной главе предложена модель для представления смысла предложений естественного языка - Многоаспектная модель смысла предложения (МАМС-П). Показана связь аспектов смысла и графовых структур. На примере одного типа высказывания, сообщения, сформулирована базовая модель для представления смысла высказывания (МАМС-В), являющаяся расширением МАМС-П за счет коммуникативно- функциональных аспектов смысла. Описана алгоритмическая модель языка, Грамматика элементов смысла, разработанная на основе идей элементов смысла и соответствия семантических примитивов языка и смысла.

На основе предложенных моделей (ГЭлС и МАМС-П) разработана общая схема алгоритма грамматического разбора естественно-языкового предложения. Показаны репрезентативные возможности моделей, их ограничения, связи с другими теориями.

ГЛАВА IV.

МОДЕЛИРОВАНИЕ ЯЗЫКОВОЙ СПОСОБНОСТИ С ПОМОЩЬЮ АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ "НЕДОРОСЛЬ" 4.1. Н а з н а ч е н и е с и с т е м ы "Н е д о р о с л ь" Программа "Недоросль" написана автором диссертационной работы и была задумана как автоматизированная лабораторная исследовательская система для моделирования языковой способности. “Недоросль” - это лингвистический процессор, в котором в качестве механизма грамматического разбора используется Грамматика элементов смысла, а в качестве модели представления смысла ЕЯ-предложений - Многоаспектная модель смысла предложения. В системе предумотрены развитые диалоговые средства для работы с базами лингвистических и энциклопедических знаний, система сбора статистики. Пользователями системы являются лингвист и инженер по знаниям. Программа написана на dBase-подобном языке в системе Clipper 5.0 и работает в среде MS-DOS версия 5.1 и выше. Исходные тексты программы “Недоросль“ занимают 566 Кб памяти и насчитывают около 16000 строк текста на языке системы Clipper.

Основное ее назначение - это исследование процессов, связанных с компьютерной обработкой естественного языка. Это во многом определило те подходы и решения, которые были положены в основу ее разработки. В качестве задач исследования, которые планируется решать в системе “Недоросль”, стоят следующие:

• апробация Грамматики элементов смысла;

• формирование и отладка базы лингвистических знаний для русского языка;

• исследование поведения и оптимизация алгоритмов грамматического разбора (=анализа);

• апробация Многоаспектной модели смысла;

• формирование и отладка базы энциклопедических знаний в ограниченном объеме, необходимом для функционирования базы лингвистических знаний.

При разработке первой версии системы были решены следующие частные задачи:

1) Разработка функциональной структуры.

При разработке функциональной структуры системы предполагалось, что она должна обеспечивать полный цикл исследовательской работы с системой, включая ввод данных, получение и визуализацию результатов грамматического разбора, накопление результатов экспериментов, корректировку базы знаний. При этом функциональная структура системы должна обладать простотой и удобством, гибкостью и полнотой.

Основными элементами структура системы "Недоросль" являются :

• программный блок для ведения базы лингвистических знаний;

• программный блок анализа ЕЯ-предложения и формирования логической формы для представления его смысла;

• программный блок сбора статистики;

• программный блок ведения и отладки базы энциклопедических знаний.

2) Разработка структуры базы данных (знаний).

Задача разработки структуры базы данных (БД) включала выбор инструментальных средств для описания базы лингвистических и энциклопедических знаний.

Из соображений оптимального сочетания скорости разработки и высокого профессионального уровня инструментальных средств была выбрана система Clipper для MS-DOS. Учитывалось, что структура базы данных должна быть адекватна концептуальной структуре моделей ГЭлС и МАМС. В то же время БД должна обладать достаточной гибкостью, чтобы обеспечивать беспрепятственное пополнение базы лингвистических и энциклопедических знаний. Хотя при разработке БД на первоначальном этапе не ставились задачи оптимизации по скорости доступа и объему занимаемой памяти, предполагая их решение на следующих этапах, тем не менее конкретные проектные решения принимались из условий реальных ограничений на компьютерные ресурсы. Структура знаний в системе "Недоросль" по-крупному включает:

• базу лингвистических знаний русского языка (словарь словоформ;

словарь лексем;

словарь семантически значимых морфем;

словарь типов частей элементов смысла;

словарь типов элементов смысла);

• базы семантических знаний (словарь концептов;

словарь ролей и отношений;

базу общих когнитивных моделей;

базу специальных знаний;

базу фактов);

3) Разработка интерфейса с пользователем.

Основное требование, которое предъявлялось к пользовательскому интерфейсу это удобство работы. Были предусмотрены стандартные средства облегчения работы пользователя: меню, списки, анкеты ввода, функциональные клавиши, окна. Особое внимание было уделено удобству работы с данными при их вводе и визуализации результатов работы программы.

Для описания семантики в системе "Недоросль" используется единый формализм электронных логических таблиц, который по мощности эквивалентен концептуальным графам Совы [246], а кроме того, удачно сочетает в себе ряд достоинств:

• логическую форму описания семантики отношений в ЕЯ, подобную языку ПРОЛОГ;

• графовый принцип представления связей, присущий семантическим сетям;

• простоту и наглядность динамической визуализации когнитивных моделей, которые связаны с идеей электронных таблиц.

4) Разработка алгоритмов анализа.

Алгоритмическая схема грамматического разбора, предложенная в ГЭлС (рис.15), предполагает наличие нескольких связанных алгоритмов реализующих операции функции "Анализ". Разработка алгоритмов грамматического разбора была увязана со структурой БД.

Основной упор при разработке делался на функциональные возможности (задействование максимально возможного количества ЕЯ- форм и учет ЕЯ- явлений). Ограничения по ресурсам и конкретный инструментарий также повлияли на выбор некоторых проектных решений. При разработке алгоритмов учитывалась специфика исследовательской работы и в частности, было обеспечено необходимое для исследований количество параметров настройки, возможность сбора статистики, вывод и сохранение протокола работы программы.

4.2. Описание системы Функционально система представляет собой оболочку из меню, в которую попадает пользователь при вводе в строке приглашения DOS имя главного файла системы (рис 17.):

c:NEDOROSL Рис.17 Запуск системы Недоросль.

Главное меню системы в версии для MS-DOS включает функции, представленные на рис 18.

Функция Грамматика обеспечивает просмотр, описание и корректировку базы лингвистических знаний. Функция Словарь предназначена для загрузки в базу данных словарей из внешних текстовых файлов в формат MS-DOS. Функция ЕЯ- анализ вызывает программный компонент, обеспечивающий грамматический разбор примеров предложений русского языка.


Функция Таблицы обеспечивает просмотр, описание и корректировку базы энциклопедических знаний. Функция Сервис предоставляет возможности документирования содержания БД и установки параметров работы системы. При выборе из меню функции "Выход" система завершит свою работу.

Рис.18 Вид главного меню системы в MS-DOS При нажатии функциональной клавиши F1 появляется окно помощи (Рис. 19).

Рис.19 Вид окна помощи системы в MS-DOS 4.2.1. Р а б о т а со с п и с к а м и Список - это база данных, содержащая информационный массив системы. В системе работа со списками организована типичным способом в стиле BROWSE (Просмотр).

Перечень массивов данных базы лингвистических знаний, к которым обеспечивается доступ в режиме BROWSE включает:

• Словарь лексем • Словарь корней • Словарь морфем • Массив словоформ • Перечень семантических категорий • Перечень типов частей элементов смысла (морфемных и лексических) • Перечень типов элементы смысла (простых и сложных) • Перечень классов типов ЧЭлС.

Типичное представление экрана при работе со списками показано на рис.20.

Рис.20 Вид экрана при работе со списком лексем Таблица-список включает служебные поля, облегчающие манипулирование данным:

Строка # - номер записи в базе данных;

У - отметка об удалении записи Метка - маркер выделения, устанавливаемый пользователем (например для группового удаления записей).

Линейка в нижней части экрана на рис. 20 содержит подсказку о доступных "горячих" клавишах. При работе со списками доступны следующие стандартные действия:

F1 - вызов окна контекстной помощи;

F2 - сохранение изменений на диск (с удалением помеченных записей);

F3 - добавление новой записи в список;

F4 - установка(отмена) метки на текущей записи;

SHIFT-F4 - установка метки по группам записей, в т.ч.:

• по всем записям;

• по удаленным записям;

• по контексту (т.е. введенному строчному фрагменту);

• кроме контекста;

• инвертирование метки;

ALT-F4 - отмена метки по группам записей, в т.ч.:

В dBase-подобных системах управления базами данных записи сначала помечаются для удаления, а затем удаляются физически при сжатии файла БД;

• по всем записям;

• по удаленным записям;

• по контексту (т.е. введенному строчному фрагменту);

• кроме контекста;

F7 - поиск нужной записи по номеру в базе знаний, по контексту в теле контекстного поля (например: лексемы) или в начале контекстного поля.

F8 - пометка текущей записи для удаления;

SHIFT-F8 - пометка группы записей для удаления, в т.ч.:

• по всем записям;

• по записям со значением поля "Метка" = T;

• по записям со значением поля "Метка" = F;

• по контексту (т.е. введенному строчному фрагменту);

• кроме контекста;

• инвертирование удаление;

ALT-F8 - отмена удаления, в т.ч.:

• по всем записям;

• по записям со значением поля "Метка" = T;

• по записям со значением поля "Метка" = F;

• по контексту (т.е. введенному строчному фрагменту);

• кроме контекста;

F9 - клавиша вызывает действие или меню действий, предусмотренных конкретным списком (Например, ввод морфологической анкеты описания лексемы).

F10 - выход в меню.

Кроме того, при работе со списками доступны клавиши управления курсором для быстрого перемещения по списку в вертикальном и горизонтальном направлениях.

4.2.2. Р а б о т а с а н к е т а м и При описании лингвистических знаний пользователю предлагается заполнить стандартные анкеты. При этом выбор вводимого значения делается из списка стандартных значений, либо на основе примера. На рис. 21 показана стандартная анкета ввода для существительного "август".

Рис.21 Вид экрана при работе с морфологической анкетой В представленной анкете поля Часть речи и Род выбираются из списка стандартных значений, а поле Словоформа заполняется на основании примера и интуиции пользователя. Стандартный набор "горячих" клавиш" обеспечивает полный сервис для манипулировании данными при просмотре, вводе и корректировке анкет.

4.2.3. С т р у к т у р а и о с о б е н н о с т и базы лингвистическихзнаний База лингвистических знаний представляет собой набор DBF - файлов (табл.20).

Описание морфологии и синтаксиса При описании морфоформ для лексем было принято временное решение хранить в БД полный список морфологических форм в эксплицитном виде. Это обеспечило существенное сокращение времени на разработку блока описания морфологии в базе лингвистических знаний и упростило алгоритм морфологического анализа. Расплатой за это упрощение является увеличение объема дисковой памяти, необходимой для хранения всех морфоформ. Каждой морфоформе в БД ставится в соответствие набор синтаксических категорий. В системе "Недоросль" используется единая база данных для описания морфологических форм и синтаксических категорий для всех частей речи. Для этих целей разработан унифицированный формат описания синтаксических категорий (Табл.21, 22), из которого о с помощью специальной программы-дешифратора извлекаются необходимые данные. Это позволило сократить количество файлов, необходимых для описания морфологии и синтаксиса.

Табл. 20 Список DBF-файлов, составляющих базу лингвистических знаний Имя файла Назначение Перечень словоформ (морфологические анкеты) MORPHLGY. DBF Структура классов частей элементов смысла CLPMUSTR. DBF Перечень классов типов ЧЭлС CLPMU. DBF Словарь корней ROOTS. DBF Перечень исключений для типов элементов смысла MU_EXCL. DBF Перечень простых морфемных частей элементов смысла MPMU. DBF Перечень семантических категорий SEM_CAT. DBF Словарь лексем LEXICON. DBF Словарь морфем MORPHEMS. DBF Перечень типов элементов смысла MU_NOTAT. DBF Перечень типов сложных частей элементов смысла CPMU. DBF Перечень типов простых лексических элементов смысла SPMU. DBF Для каждой синтаксической категории в зависимости от части речи устанавливается перечень разрешенных значений. Заполнение синтаксических признаков для морфоформ происходит автоматически при заполнении морфологических анкет. Это значительно сокращает время на ввод данных и количество ошибок. Для некоторых синтаксических категорий расширен перечень стандартных значений, принятый в традиционной грамматике. Так например для изменяемых категорий Род, Число, Падеж существительных введено дополнительное значение любой (ое), для явного указания того факта, что эта категория не влияет на выбор грамматического анализатора, те же категории у прилагательных при их описании в качестве частей элементов смысла могут принимать еще значение согласованный (ое) для указания факта согласования этих значений у прилагательных и существительных в словосочетаниях.

Табл.21 Таблица синтаксических категорий для частей речи русского языка в системе “Недоросль” C D. D. F P G N C A T M V S a of of o e e u a s e o o e t c. q. r r n m s p n o i m ns - - - - - + + + - - - - + na + + + + - + + + - - - - + nn + - - - - + + + - - - - + pr + - - - + + + + - - - - + vr + - - + + + + - + + + + + pp + - - + + + + + - + - - + gr + - - - - - - - - - - - + ad + + + - - - - - - - - - + sw - - - - - - - - - - - - + ps - - - - - - - - - - - - + cn - - - - - - - - - - - - + pc - - - - - - - - - - - - + mw - - - - - - - - - - - - + iw + - - - - - - - - - - - + Примечание: 1.Плюс(+) означает наличие категории в качестве характеристики части речи, минус(-) означает отсутствие.

Табл.22 Условные обозначения, принятые в табл. Обозначения для частей речи Обозначения для категорий ns - имя существительное Cat. - синтаксическая категория na - имя прилагательное D.of.c. - степень сравнения nn - имя числительное D.of.q. - степень качества pr - местоимение For. - форма vr - глагол Per. - лицо pp - причастие Gen. - род gr - деепричастие Num. - число ad - наречие Cas. - падеж sw - слово состояния Asp. - вид ps - предлог Ten. - время cn - союз Moo. - наклонение mw - модальное слово Voi. - залог iw - вводное слово Sem. - семантическая категория Описание типов элементов смысла Для описания типов элементов смысла и их частей в системе Недоросль применена технология списка, совмещенного с анкетой. На рис.22 приведен пример экранной формы для описания простых лексических частей типов элементов смысла.

Рис. 22 Вид экрана при описании простой лексической части типа ЭлС Экраннная форма выполнена в виде двух панелей. Левая панель представляет собой список простых лексических частей типа элементов смысла. Правая панель содержит описание для текущей ЧЭлС из списка. При перемещении по списку с помощью клавиш управления курсором правая панель также меняет свое содержание. Переход в режим описания и корректировки происходит путем нажатия клавиши F9. Обозначение ЧЭлС формируется автоматически на основании указанных признаков.

После описания частей типа элементов смысла (простых морфемных и лексических, сложных и их классов) описание типа элементов смысла осуществляется с помощью экранной формы, показанной на рис.23. Анкета для типа элемента смысла содержит информацию, которая указывается в нотации для элемента смысла в грамматике элементов смысла. Все значения вводятся из стандартных списков. Кроме того, для каждого типа элемента смысла вводится описание его СОА- эквивалента в нотации МАМС (как МЕМО-поле) и список исключений.

Рис.23 Вид экрана при описании типа элемента смысла.

4.2.4. Е Я - а н а л и з Система Недоросль позволяет делать грамматический разбор отдельных предложений русского языка. Входной информацией для грамматического анализатора является текст предложения, который хранится в виде МЕМО-поля БД примеров. Результатом грамматического разбора является МАМС- формула для ЕЯ-предложения и протокол анализа.

На рис.24 показан вид экрана в режиме работы "ЕЯ- анализ".

Рис.24 Вид экрана при выполнении грамматического разбора предложений естественного языка.

Левая панель на экране содержит список примеров для грамматического разбора. Содержание правой панели зависит от выбора пользователя и может отображать:

• текст примера;

• протокол анализа;

• нотацию для примера в грамматике элементов смысла;

• графовое представление;

• СОА-эквивалент.

Функциональная клавиша F6 вызывает меню режимов работы грамматического анализатора.

Запуск процесса анализа для текущего примера осуществляется функциональной клавишей F5.

4.3. Р а б о т а с с и с т е м о й Н е д о р о с л ь Как уже отмечалось, программа “Недоросль” может использоваться для исследования поведения алгоритмов грамматического разбора и формулирования путей улучшения этих алгоритмов. Рассмотрим пример такого исследования.

В приложении П2.1 приведен алгоритм подпрограммы идентификации частей элементов смысла в программе анализа естественно-языкового предложения в системе "Недоросль", а в приложении П2.2 - исходный текст этой программы (DEFMUP.PRG) и подпрограммы управляющей всем процессом грамматического разбора (ANALDO.PRG).

Пример протокола работы программы анализа естественно-языкового предложения в системе "Недоросль" приведен в приложении П2.3.

Как уже отмечалось (раздел 3.6.5, рис.15) процесс анализа ЕЯ-предложения заключается в последовательном выполнении шагов, каждый из которых состоит из операций:

Шаг 1.Комплексный традиционный грамматический анализ Операции: 1.1.Идентификация морфоформ, 1.2. Идентификация ЧЭлС;

Шаг 2.Операции над ЭлС Операции: 2.1. Идентификация корнеобразующих псевдо-ЭлС.

2.2.Идентификация ЭлС, 2.3.Подстановка переменной части, 2.4.Выбор ЭлС, 2.5.Композиция ЭлС в Дерево;

Шаг 3.Операции с семантическим представлением Операции: 3.1.Связывание ЭлС, 3.2.Интрепретация и построение МАМС формулы.

В процессе исследования нас интересовал ответ на вопрос: Какой из шагов 1. (подпрограмма DefWord), 1.2 (подпрограмма DefMUP), 2.1 (подпрограммы Shead) и 2.2(подпрограмма DefMU) является узким местом программы, выполняющей грамматический разбор предложения?

Ответ на этот вопрос можно найти, проанализировав таблицу протокола Статистика (Приложение П2.3). На рис 25 показана круговая диаграмма распределения времени выполнения между подпрограммами анализа: построенная на основании данных из протокола 9.

2%1% 6% 91% Рис.25 Распределение времени выполнения между подпрограммами в процессе гарамматического разбора (91% - DefMUP, 2% - DefWord, 1%- DefMU, 6% - Shead) Несмотря на то, что предложение (Час времени), выбранное в качестве примера для протокола процесса грамматического разбора очень простое10, оно позволяет отметить закономерность, которая проявляется во всех без исключения примерах. Это позволяет сделать вывод о том, что узким местом процедуры грамматического разбора является подпрограмма идентификации частей элементов смысла (DefMUP).

В связи с этим правомерно поставить следующие вопросы:

1.Чем определяется вычислительная сложность алгоритма, лежащего в основе программы DefMUP?

2.Какой вид имеет функция, определяющая вычислительную сложность данного алгоритма ?

3.Какой прогноз можно сделать относительно поведения программы "Недоросль" на массивах данных реальной сложности?

Вычислительная сложность алгоритма идентификации ЧЭлС В приложении П2.1 показан алгоритм идентификации частей элементов смысла, который, как уже отмечалось, является узким местом в программе грамматического разбора.

Входными данными для процедуры являются три массива:

Данные на диаграмме округлены до целых процентов.

В данном предложении всего один псевдо-ЭлС Morlist - массив морфоформ, выделенных в предложении на предыдущей операции подпрограммой DefWord. Обозначим количество морфоформ (слов) в входном предложении как N1.

Morphlgy - словарь морфоформ, входящий в состав базы лингвистических знаний.

Обозначим количество морфоформ в базе лингвистических знаний как N2.

PMU - массив типов частей элементов смысла, входящий в состав базы лингвистических знаний. Обозначим это количество как N3.

Так как алгоритм представляет собой три вложенных цикла, можно утверждать, что вычислительная сложность [199] процедуры идентификации ЧЭлС определяется функцией:

(83) O = N 1 * N2 * N, N1, N2, N3.

В случае использования индексов в виде бинарных деревьев для ускорения доступа к массиву Morphlgy функция, определяющая вычислительную сложность алгоритма, будет иметь вид (84) O = N1 * log2 N2 * N3.

(83) 1. Morphlgy 1. 16.

1. N1 N3., Morphlgy. DefMUP,.

.26..23. # 1, 2.1 2.2. # 2 - 15 ( 2.1),. # 3 # 4, Morphlgy N1= 2 N1=100. # 1-4, O(N2) (83) (84). "-" (84) N3.

T,sec 10 # # # # N.26 X - Morphlgy, Y - ( # 4). Intel486DX4-100, 8.

# 1 - исходный алгоритм N1* N2 * N3 (N1=2, N3 = 26) # 2 - модифицированный алгоритм N1* N2 * N3 (N1=2, N3 = 26) # 3 - алгоритм N1 * log2 N2 * N3 (N1=2, N3 = 26) # 4 - алгоритм N1 * log2 N2 * N3 (N1=100, N3 = 26) Таблица 23. Данные тестирования алгоримов идентификации ЧЭлС N2 #1 #2 #3 # 1000 9,34 1,21 0,49 4, 2000 10,76 2,15 0,55 4, 3000 11,86 2,86 0,6 4, 4000 12,8 3,73 0,55 4, 5000 15,27 4,62 0,61 4, 6000 15,71 5,38 0,6 4, 7000 17,47 7,53 0,6 4, 8000 18,4 8,4 0,66 4, 9000 19,77 11,31 0,66 4, 10000 21,14 12,25 0,6 4, 11000 22,02 13,07 0,6 4, 12000 22,91 14 0,66 4, 13000 23,45 15,38 0,66 4, 14000 25,32 16,68 0,61 4, 15000 24,99 17,35 0,66 4, 16000 26,25 18,62 0,66 4, Точность измерения времени выполнения составляет 4 %.

п о в е д е н и я п р о г р а м м ы "Н е д о р о с л ь" на массивах данных реальной сложности,.26,. "".,,, - -.

:

• ;

• ;

•.

:

• ;

• не относятся к числу определяющих, так как в процессе их обработки уже не потребуется обращаться к массиву морфоформ.

Среднее количество слов в предложениях научно-технического текста обычно колеблется в пределах 10-50 и зависит от стилевых пристрастий автора текста. Не являются редкостью и предложения длиной около 100 слов. Так, например в [30, c.51] есть такое предложение: "Этот, по-видимому, наиболее простой пример, иллюстрирующий эффект функционального сопряжения одной из первых жестко структурированных и потому концептуально наиболее простых из числа массовых задач информационной технологии - типа задач "резервирования авиабилетов", с одной стороны, и классического "конвейера", концептуально полностью идентичного своему известному прародителю эпохи Ford-T, с другой, относится к промежуточной стадии, когда поточное производство, оставаясь по функциональной сути своей точно таким же, как и сто лет назад, способом массового выпуска по единой технологии стандартизируемых изделий, лишь оснащается некоторыми внешними, не затрагивающими основного принципа конвейерного производства, средствами оперативной реакции на индивидуальные запросы миллионов потребителей.", которое насчитывает 91 слово и 16 знаков препинания, не считая кавычек. В текстах научно- технического содержания часто встречаются цитаты и перечисления, которые также существенно влияют на количество слов в предложении. Исходя из этих соображений в качестве верхней оценки количества слов в предложении было выбрано число N1r=100.

Количество морфоформ в русском языке можно оценить следующим образом.

Число лексических единиц русского языка составляет около 100000 [34];

среднее число морфоформ на одну лексическую единицу словаря, полученное автором экспериментальным путем в процессе ввода данных по [28] составляет 16 ;

таким образом объем данных N2r в этом массиве на реальных задачах будет составлять около 1.6 млн записей.

Основной вклад в массив типов частей элементов смысла по экспертной оценке автора внесут глаголы, количество (N3r) которых в русском языке насчитывается около единиц [34].

В соответствии с (83) значение T1, определяющее время выполнения задачи грамматического разбора при N1=2, N2=16000, N3=26 в таблице 23 можно записать в виде13:

T1 = C * N1 * N2 * N3 = 26.25 сек (85) где С- константа, задающая угол наклона графика # 1 на рис. 26.

Время выполнения той же задачи T1r при N1r = 100, N2r = 1600000, N3r = 30000 также можно представить как (86) T0r = C * N1r * N2r * N3r Можно расчитать в явном виде отношение между значениями времени в (85) и (86):

(87) K1 = T1r / T1 = (N1 * N2 * N3) / (N1r * N2r * N3r ) Таким образом, учитывая (85) и (87) можно получить верхнюю границу оценки времени выполнения грамматического разбора в системе "Недоросль" предложения из ста слов при реальном объеме базы лингвистических данных на ПЭВМ с процессором Intel486DX4- при условии достаточного количества оперативной памяти. Результаты расчета верхней границы оценки времени выполнения алгоритмов грамматического разбора представлены в таблице 24.

Табл.24 Таблица сравненительной оценки расчетного времени T1 r выполнения идентификации ЧЭлС для алгоритмов при : N1=100, N2 = 1600000, N3 = Алгоритм 14 Номер графика N T1r 1752 дня 1 N1 * N2 * N3 # 1242 дней 2 (N1 * N2 * N3)' # 2,2 часа 3 N1 * log2(N2) * N3 # 3, около 10 сек 4 N1 * log 2 (N2)* log 2 (N2*N3) Среднее количество морфоформ на одну лексическую единицу расчитывалось как отношение количества записей в словаре морфоформ к количеству записей в словаре лексем.

В (85) и (86) учтен только компонент, дающий максимальный вклад.

В качестве обозначения алгоритма используется функция вычислительной сложности.

Численное значение получено из графика # 4 на рис.26 путем пересчета.

Прогноз поведения предложенных алгоритмов идентификации ЧЭлС, сделанный на основании полученных экспериментальных зависимостей и экспертной оценки предполагаемых объемов входных данных позволяет утверждать, что алгоритмы 1, 2, и 3 в табл. 24 не удовлетворяют требованиям по времени выполнения на реальных массивах данных.



Pages:     | 1 | 2 || 4 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.