авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 || 3 | 4 |   ...   | 6 |

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ Восточно-Сибирский государственный технологический университет Л.В. Найханова, И.С. Евдокимова МЕТОДЫ И АЛГОРИТМЫ ...»

-- [ Страница 2 ] --

Определим основные преобразования ситуации, к которым относятся исключение и добавление фактов. Для фиксированного d D :

1. Операция исключения: elim[d'] : D D;

elim[d'](d) = d\ d' add[d'](d) =d d' 2. Операция добавления: аdd[d'] : D D;

Определим множество программ R преобразования ситуации следующим образом.

Во-первых, будем считать элементами R программы add[d'], elim[d'] при любых d D, во вторых, если две программы r1, r2 R, то программа (r1, r2), определенная равенством (r1, r2)(d) = r2(r1(d)), d D, также элемент R.

Определение 4. Программу r+, содержащую только операции типа add[d'] ( d D ), назовем позитивной. Заметим, что out(r+) = и, если d2 = r+(d1), то d 2 d1.

Через r, где = {t1/x1,..., tm /xm} — произвольная подстановка, обозначим программу r, во всех операциях которой аргументы-переменные xi заменены на сопоставленные им в термы ti, i = 1...m.

Определение 5. Продукцией назовем пару q, r, в которой q — ситуация, называемая условием применимости продукции, r - программа, r R, называемая действием, причем q и r связаны соотношением var(q) out(r).

Здесь var(q) - это множество имен переменных, входящих в условие применимости q, а Out(r) - множество имен переменных, входящих в программу r.

Системой продукций назовем конечное множество пар Рr = {q, r}. Будем говорить, что d2 непосредственно выводимо из d1 при помощи продукции pr = q, r, d1 pr d 2, если найдется такая подстановка, что d1 q, а d2=r(q)(d1\q).

Если найдется последовательность продукций рr1, рr2,..., prk, pri Pr, i = 1..k, k0 и pri pr pr d0, d1, …, dk таких, что d 0 d1...d i 1 d i...d k 1 k d k, состояний базы то pr1... prk говорим, что dk выводимо из d0, и пишем d 0 d k или d 0 * d k, a pr1, рr2,..., prk назовем последовательностью применимых к d0 продукций.

При разработке системы продукций необходимо предусмотреть в них различные ситуации, которые могут возникнуть при решении задачи. В продукциях возможные ситуации описываются посредством условия применимости в виде предикатов (t1 : Dt1 )...(tm : Dt m ) Pi (t1,..., tm ), где t1,..., t m - термы предикатного символа Рi, некоторые из которых вычисляются посредством функциональных преобразований (частичных функций f F ), - оператор, задающий квантификацию формулы и принимающий значение и, Dt j - задает область интерпретации терма tj, связанных логическими операциями,,, ¬,.

Начальное состояние системы продукций должно содержать конъюнкцию n терминальных фактов Pi0 (e1,..., e mi ), которое будем называть входной ситуацией, и i = обозначать d0. Программа r продукции pr будет активизирована в том случае, когда условие применимости будет истинным. Для доказательства истинности условия применимости для текущей ситуации будем использовать модифицированный метод линейной резолюции Лавленда, Ковальского и Кюнера [132-133]. Чтобы применить данный метод, необходимо сформировать множество дизъюнктов. Множество формируется из двух групп формул. Первая группа включает формулы, описывающие закономерности предметной области. Во вторую группу включаются дизъюнкты, полученные в результате преобразования формулы, задающей условие применимости q продукции pr, в скулемовскую стандартную форму (ССФ).

В результате скулемизации получается множество дизъюнктов, в котором в дизъюнктах могут присутствовать скулемовские функции g ( xr,..., xs ), позволяющие исключить (элиминировать) кванторы существования k = Pl ( x1,..., x i, g ( x r,..., x s ), x j.., x hl ) | r 1, s i. (1.5) l =1 При выполнении линейной резолюции входные дизъюнкты С0 выбираются из n множества фактов, задающих текущую ситуацию d0. Конъюнкция фактов Pi0 (e1,..., e mi ), i = задающая исходную ситуацию, может быть представлена как множество фактов { } d0= Pi0 (e1,..., e mi ) | i количество фактов, mi длина кортежа i того факта. (1.6) Таким образом, С0 – это элемент множества d0, являеющийся первым центральным дизъюнктом при построении дерева вывода для доказательства истинности условия применимости некоторой i-той продукции для выбранного факта. Боковые дизъюнкты B выбираются из множества. Условием выбора является наличие в дизъюнкте P литеры, контрарной самой левой литере центрального дизъюнкта С. Затем дизъюнкты С и B должны быть унифицированы. Для этого будем использовать модифицированный алгоритм унификации. Два дизъюнкта С, B унифицируемы, если для них существует унификатор.

Введем необходимые для рассмотрения алгоритма определения.

Определение 6. Пусть ={t1/x1,…,tn/xn} и ={u1/y1,…,um/ym} – две подстановки. Тогда • композиция есть подстановка, которая получается из множества {t1/x1,…,tn/xn,u1/y1,…,um/ym} вычеркиванием всех элементов tj/xj, для которых tj = xj, и всех элементов ui/yi, таких, что yi{x1,…,xn}.

Определение 7. Унификатор для пары выражений W=(С,B) будет наиболее общим унификатором (НОУ) для каждого унификатора для С, B существует такая подстановка, что = •.

Определение 8. Множество рассогласований пары W получается выявлением первой (слева) позиции аргумента, в которой не для всех выражений из W стоит один и тот же символ.

Алгоритм унификации. На вход алгоритма унификации подается пара W= (С, B):

Шаг 1. Инициализация входных данных: k = 0, Wk = W, k =.

Шаг 2. Вычисление частичных функций. Если в выражениях С или B присутствует функция fF, то необходимо их вычислить до начала унификации.

Шаг 3. Если Wk – единичный дизъюнкт, то k – НОУ для W и остановка, иначе найдем множество рассогласований для Wk.

Шаг 4. Формирование множества рассогласований k. В множество k включаются термы tk С и переменные vk В, стоящие в соответствующих позициях в С и В, их выбор осуществляется последовательно слева направо.

Шаг 5. Если существуют такие элементы vk и tk в k, что vk – переменная, не входящая в tk, то перейдем к шагу 5. В противном случае остановка: W не унифицировано.

Шаг 6. Композиция унификаторов k+1=k•{tk/vk} и постановка в множество выражений Wk+1=Wk•{tk/vk}.

Шаг 7. Присвоить значение k+1 и перейти к шагу 3.

При разработке систем продукций формальных моделей для описания условия применимости продукции и представления закономерностей предметной области будем использовать четыре типа предикатов.

Параметрический предикат: Ppar(х, t(p1,v k11), …, t(pi,vji), …, t(pm,v k2 m)), где х – имя понятия;

t(pi,vji) – терм, задающий соответствие между pi – именем i-того показателя понятия и его j-тым значением vji;

m – количество показателей понятия х.

Предикат эквивалентности: PE(y, y). Этот предикат определяет равенство значений левого и правого элементов кортежа.

Составной предикат: Ps(x,y,tr), где x – первое понятие;

y – второе понятие;

tr – тип отношения r.

Функциональный предикат: Pf(tin(x1, …,xn), y, f), где tin(x1, …,xn) – терм, задающий n входных переменных xi;

y – выходная переменная;

f – ссылка на функциональную процедуру F.

Каждая функциональная процедура F реализует некоторый вычислительный алгоритм для определения связанной с ней переменной y через значения других n переменных, входящих в функциональную зависимость, которая содержит некоторые утверждения об их взаимосвязи. Таким образом, функциональная процедура F описывает некоторую функцию. При этом каждая функциональная процедура ориентирована на определение значений одного конкретного параметра и всегда активизируется функциональным предикатом Pf через ссылку f при выполнении алгоритма унификации [83, 84].

2.3. Модель морфологического анализа 2.3.1. Содержательное описание модели морфологического анализа В результате проведенного анализа методов и подходов морфологического анализа был разработан алгоритм, в основе которого лежит комбинированный метод морфологического анализа и подход, описанный в разработках группы Г. Г. Белоногова [29,30], базирующийся на делении словоформ на морфы и разбиении слов внутри определенной части речи на флективные классы. Отличие разработанного алгоритма состоит в том, что у словоформы выделяются только основа и окончание, а количество флективных классов превышает количество, приведенное в подходе Г. Г. Белоногова. Это позволило повысить эффективность и упростить процедуру морфологического анализа.

2.3.1.1. Словари и таблицы совместимости Лингвистическое обеспечение, необходимое для выполнения морфологического анализа, описано в Приложении А. В разработанном алгоритме морфологического анализа используются словари окончаний, словарь флективных классов, словарь готовых словоформ и словарь основ.

Произвольная форма слова может сильно отличаться от своей исходной формы (ШЕЛ - ИДТИ), поэтому основная проблема при решении этой задачи - поиск исходной формы в словаре. Эта проблема решается с помощью рабочих словарей, в число которых входят словари основ, словари окончаний и словари флективных классов.

Словари окончаний включают окончания существительных, прилагательных, кратких прилагательных, глаголов, глаголов в прошедшем времени и имеют структуру: [номер окончания] [окончание]. Под окончанием понимается изменяющаяся часть слова, которые определяют переменные морфологические параметры слова (например, для существительного – число и падеж). Словарь окончаний существительных имеет структуру, показанную в таблице 2.

Таблица 2 - Словарь окончаний существительных № Окончание № Окончание № Окончание № Окончание 1о 11 ей 21 ев 31 ого 2а 12 ов 22 й 32 ому 3у 13 ы 23 ью 33 ый 4 ом 14 ой 24 ий 34 ым 5е 15 ем 25 его 35 ые 6_ 16 я 26 ему 36 ых 7 ам 17 ю 27 им 37 ыми 8 ами 18 ям 28 ие 38 ое 9 ах 19 ями 29 их 39 ее 10 и 20 ях 30 ими 40 ая 41 ую Структура словарей окончаний прилагательных, кратких прилагательных, глаголов и глаголов в прошедшем времени аналогична структуре словаря окончаний существительных.

Словарь основ имеет структуру вида: [номер основы] [основа] (табл. 3).

Таблица 3 - Словарь основ Номер основы Основа 1 абсолютн 2 абстрактн 3 автономн … … Часть речи представляет собой классы слов языка, выделяемые на основании сходства их синтаксических, морфологических и логико-семантических свойств. Каждой части речи свойствен свой набор грамматических категорий, причём этим набором охватывается абсолютное большинство слов данной части речи. Многие слова, относящиеся к одной и той же части речи, могут быть сгруппированы в отдельный флективный класс (ФК), который описывает закон их словообразования. По флективному классу при морфологическом анализе определяют постоянные параметры слова (для существительного - род и одушевленность, для других частей речи – часть речи). Словари флективных классов содержат флективные классы для существительных (табл. 4), прилагательных, кратких прилагательных, глаголов, глаголов в прошедшем времени, неизменяемых слов и для каждой части речи имеют различную структуру. Словарь флективных классов для глаголов в личной форме, существительных, кратких прилагательных, прилагательных, причастий и порядковых числительных имеет структуру вида: [номер флективного класса] [список окончаний].

Таблица 4 - Флективные классы существительных ФК Окончания Пример ФК Окончания Пример неодушевленный, мужской род 1101 _,_,ом,ы,ов,ы ? телефон 1110 _,_,ем,и,ей,и ? путь 1102 _,_,ом,и,ей,и ? тираж 1111 й,й,ем,я,ев,я ? край 1103 _,_,ем,и,ей,и ь огонь 1112 _,_,ом,я,ев,я ? брус 1104 й,й,ем,и,ев,и ? перебой 1113 _,_,ом,а,_,а ? глаз 1105 й,й,ем,и,ев,и и санаторий 1114 _,_,ем,и,ей,ей ? зародыш 1106 _,_,ом,и,ов,и ? бланк 1115 _,_,ом,ы,_,ы ? волос 1107 _,_,ом,и,_,и ? сапог 1116 _,_,ем,я,ей,я ь лагерь 1108 _,_,ом,а,ов,а ? лес 1117 _,_,ю,и,ев,и ? ложь 1109 _,_,ем,ы,ев,ы ? колодец одушевленный, мужской род 1118 а,_,ами,а,_,_ ? ребята 1208 _,а,ом,и,ов,ов ? сапожник 1200 _,а,ом,ы,ов,ов ? кузнец 1209 _,а,ем,ы,ев,ев ? испанец 1201 _,а,ом,ы,_,_ ? солдат 1210 а,у,ей,и,ей,ей ? юноша 1202 _,а,ом,и,ей,ей ? сосед 1211 а,у,ой,ы,_,_ ? мужчина 1203 _,а,ом,и,ов,ов ж враг 1212 я,ю,ей,и,ей,ей ь судья 1203 _,а,ом,и,ов,ов ч враг 1213 _,а,ем,и,ей,ей ? товарищ 1203 _,а,ом,и,ов,ов ш враг 1214 _,а,ом,е,_,_ ? гражданин 1203 _,а,ом,и,ов,ов щ враг 1215 _,а,ом,а,ов,ов ? профессор 1204 й,я,ем,и,ев,ев ? пролетарий 1216 _,а,ем,я,ей,ей ? муж 1205 ей,я,ем,и,ев,ев ? воробей 1217 _,а,ым,ы,ых,ых ? Иванов 1206 _,я,ем,и,ей,ей ь конь 1218 _,а,ом,я,ей,ей ? сын 1207 _,я,ем,я,ей,ей ь учитель 1219 _,а,ом,а,_,_ ? хозяин 1220 _,а,ом,я,ев,ев ? брат одушевленный, женский род 1300 а,у,ой,ы,_,_ ? женщина 1305 а,у,ой,и,_,_ ? санитарка 1301 а,у,ей,ы,_,_ ? переводчица 1306 _,_,ю,и,ей,ей ь мышь 1302 я,ю,ей,и,й,й и нутрия 1307 а,у,ой,ы,ых,ых ? Иванова 1303 я,ю,ей,и,й,й е швея 1308 _,_,ью,и,ей,ей ь дочь 1304 я,ю,ей,и,_,_ ? цапля 1309 а,у,ей,и,_,_ ? билетерша неодушевленный, женский род 1400 _,_,ю,и,ей,и ч речь 1405 я,ю,ей,и,й,и н линия 1400 _,_,ю,и,ей,и ж ложь 1406 я,ю,ей,и,й,и е галерея 1400 _,_,ю,и,ей,и ш вошь 1407 я,ю,ей,и,ь,и ? земля 1400 _,_,ю,и,ей,и щ мощь 1408 я,ю,ей,и,ий,и ? эскадрилья 1401 _,_,ю,и,ей,и ь грань 1409 я,ю,ей,и,ей,и ь статья 1402 а,у,ой,ы,_,ы ? колба 1410 я,ю,ей,и,_,и ? башня Продолжение таблицы 1403 а,у,ей,и,_,и ? задача 1411 а,у,ей,ы,_,ы ? улица 1404 а,у,ой,и,_,и ? заготовка 1412 и,и,ями,и,ей,и ? бигуди неодушевленный, средний род 1500 о,о,ом,а,_,а ? место 1507 е,е,ем,я,ий,я ? побережье 1501 о,о,ом,а,ов,а ? облако 1508 о,о,ом,и,ей,и ? окно 1502 е,е,ем,я,ей,я ? поле 1509 о,о,ом,и,ов,и ? очко 1503 е,е,ем,я,й,я ? сомнение 1510 е,е,ем,я,ей,я ? ружье 1504 е,е,ем,а,_,а ? жилище 1511 о,о,ом,и,_,и ? колено 1505 о,о,ом,я,ев,я ? перо 1512 е,е,ем,я,ев,я ? платье 1506 я,я,ем,а,_,а ? время 1513 е,е,ем,а,ев,а ? блюдце одушевленный, средний род 1514 и,ей,и,и,ей,ей ? дети 1603 ое,ое,ым,ые,ых,ых ? животное другие ФК ый,ого,ым,ые,ых,ых 1600 бездомный 1605 ая,ую,ой,ые,ых,ые ? ванная ?

1601 ий,его,им,ие,их,их ? нищий 1606 ая,ую,ой,ие,их,ие ? мастерская ой,ого,ым,ые,ых,ых 1602 больной 1607 ий,ий,им,ие,их,ие ? английский ?

1604 ее,ее,им,ие,их,их ? болеутоляющее Особым образом морфологическая подсистема обрабатывает слова-исключения, то есть слова, у которых неизменной основы нет. Такие слова хранятся в отдельном словаре готовых словоформ. Словарь имеет следующую структуру: [номер ФК], [словоформа] (табл. 5), и включает в себя слова, относящиеся к служебным частям речи (наречия, предлоги, союзы, неизменяемые существительные, неизменяемые прилагательные, неизменяемые глаголы, инфинитив, сравнительную степень прилагательного, вводные слова, междометия, деепричастия, цифры т.д.).

Таблица 5 - Словарь готовых словоформ ФК Слово ФК Слово 7100 точь-в-точь 7203 эскимо 7100 по-татарски 7203 амплуа 7100 по-польски 7203 манто …. …. … … При морфологическом анализе необходимо отображать элементы одного множества в элементы другого множества: Основа ФК;

(ФК Окончание) МИ. Для интерпретации отображений будем использовать таблицы совместимости, с помощью которых устанавливается соответствие отображаемых элементов.

2.3.1.2. Алгоритм морфологического анализа Входной информацией морфологического анализа является множество лексем предложения запроса, словари основ, окончаний, готовых словоформ, флективных классов, а также таблицы совместимости Основа ФК и (ФК Окончание) МИ. Ниже приведем основные фазы морфологического анализа.

Шаг 1. Поиск лексемы в словаре готовых словоформ.

Шаг 2. Если словоформа найдена, то извлекаем код ФК и переходим на Шаг 6, в противном случае переходим на следующий Шаг.

Шаг 3. Выделение основы и окончания.

Шаг 4. Поиск окончания в словаре окончаний и основы в словаре основ.

Шаг 5. Если окончание и основа найдены, то отображение основы на флективный класс (Основа ФК) и переход на следующий Шаг, в противном случае - переход на Шаг3.

Шаг 6. Поиск морфологической информации по таблице совместимости «(ФК Окончание) МИ».

Шаг 7. Если набор МИ найден, то осуществляем формирование кортежа с итоговой морфологической информацией о лексеме, в противном случае переходим на Шаг3.

2.3.2. База правил морфологического анализа Для всех видов анализа потребуется лингвистическое обеспечение, состоящее из различных словарей. Структуру словарей будем представлять в виде сортов. Структура словарей, необходимых для построения системы продукций морфологического анализа, описана в следующем разделе.

2.3.2.1. Сорта морфологического анализа На основе содержательного описания морфологического анализа выделены следующие сорта:

s1 – сорт, содержащий окончания словоформ и s1={окончания существительных, окончания прилагательных, окончания глаголов, окончания кратких прилагательных, окончания глаголов в прошедшем времени}={s11, s12, s13, s14, s15}, где s11- словарь окончаний существительных и s11={х111, х112, х113, …, х1142};

s12- словарь окончаний прилагательных и s12={х121, х122, х123, …, х1257};

s13- словарь окончаний глаголов и s13={х131, х132, х133, …, х1315};

s14- словарь окончаний кратких прилагательных и s14={х141, х142, х143, х144, х145, х146};

s15- словарь окончаний глаголов в прошедшем времени s15={х151, х152, х153, х154}.

s2 – сорт, содержащий коды флективных классов словоформ и s2={коды флективных классов существительных, коды флективных классов прилагательных, коды флективных классов глаголов, коды флективных классов кратких прилагательных, коды флективных классов неизменяемых слов}={s21, s22, s23, s24, s25}, где s21- множество кодов флективных классов существительных и s21={х211, х212, х213, …, х2191};

s22- множество кодов флективных классов прилагательных и s22={х221, х222, х223, …, х2212};

s23- множество кодов флективных классов глаголов и s23={х231, х232, х233, …, х237};

s24- множество кодов флективных классов кратких прилагательных и s24={х241, х242, х243}.

s25- множество кодов флективных классов неизменяемых слов и s25={х251, х252, х253…, х258}.

s3 – сорт, содержащий словоформы и лексемы и s3={основы словоформ, неизменяемые слова, имена собственные}={s31, s32, s33}, где s31- словарь основ и s31={х311, х312, х313, …, х31n}, где n – количество основ в словаре основ;

s32 - словарь неизменяемых слов и s32={х321, х322, х323, …, х32k}, где k – количество неизменяемых слов;

s33 - словарь имен собственных и s33={х331, х332, х333, …, х33f}, где f – количество имен собственных.

s8 – сорт, содержащий множество морфологических признаков числа словоформы и s8={единственное, множественное}={х81, х82};

s9 – сорт, содержащий множество морфологических признаков падежа словоформы и s9={именительный, родительный, дательный, винительный, творительный, предложный}={х91, х92, х93, х94, х95, х96};

s70 – сорт, содержащий множество морфологических признаков рода словоформы и s70={ мужской, женский, средний}={х701, х702, х703};

s71 – сорт, содержащий множество морфологических признаков одушевленности словоформы и s71={одушевленный, неодушевленный}={х711, х712};

s72 – сорт, содержащий множество морфологических признаков лица словоформы и s72={первое, второе, третье}={х721, х722, х723};

s73 – сорт, содержащий множество морфологических признаков времени глаголов и s73={настоящее, прошедшее, будущее}={х731, х732, х733};

s74 – сорт, содержащий множество частей речи и s74={s741, s742}, где s741 – множество изменяемых частей речи и s741={существительное, прилагательное, глагол, краткое прилагательное, глагол в прошедшем времени}={х7411, х7412, х7413, х7414, х7415};

s742 –множество неизменяемых частей речи и s75={наречия, предлоги, союзы, числительное, частицы, неизменяемые существительные, неизменяемые прилагательные, неизменяемые глаголы, инфинитив, сравнительная степень прилагательного, вводные слова, междометия, деепричастия, цифры}={х7421, х7422, х7423, …, х74212};

s75 – сорт, содержащий множество наборов переменной морфологической информации и s75={s751, s752, s753, s754}, где s751={ s71, s70, s8, s9, s72, …} – множество наборов морфологической информации существительных;

s752 - множество наборов морфологической информации прилагательных;

s753 - множество наборов морфологической информации глаголов;

s754 - множество наборов морфологической информации неизменяемых частей речи.

Морфологическая информация (МИ) должна быть представлена в виде вектора V = v1, v2, v3, v4, v5, v6, v7, v8, где v1 – часть речи, v2 – признак одушевленности, v3 – род, v4 – число, v5 – падеж, v6 – лицо, v7 – время, v8 – признак для имени собственного. Тогда хi лексеме в результате морфологического анализа будет приписан Vi = vi1, vi2, vi3, vi4, vi5, vi6, vi7, vi8 вектор морфологической информации. При этом vi1 соответствует значение постоянной МИ, а элементам vi2, vi3, vi4, vi5, vi6, vi7, v8 – переменные характеристики морфологической информации.

2.3.2.2. Типовые предикаты условий применимости продукций морфологического анализа Для описания морфологического анализа в работе использованы предикаты функционального типа (табл. 6), имеющие тернарный кортеж термов. Первый терм описывает входную информацию, второй – выходную и третий – ссылку на функциональную процедуру, действие которой совпадает с назначением предиката.

Кроме функциональных предикатов необходим предикат эквивалентности, позволяющий устанавливать тождество значений заданных переменных. В продукционных правилах для проверки некоторого факта текущей ситуации зачастую результат уi выполнения процедур Fi (i=1..5) должен сравниваться на равенство с некоторой переменной y, для этого и используется предикат эквивалентности PE(y, y).

Таблица 6 - Типовые предикаты морфологического анализа Термы (аргументы) кортежа N Предикат Назначение Выходная Ссыл п/п Входная информация информация ка y – сорт S 1 Pf(x, y, f1) Определение сорта x- входная переменная f x - лексема 2 Pf(tin(x,с), y, f2) Выделение окончания y – окончание f с- длина окончания x – лексема 3 Pf(tin(x1,с), y, f3) Выделение основы y – основа f с- длина окончания Определение x – основа или соответствий: неизменяемое слово 1) основа Н - бинарное отношение между флективным флективный класс 2) неизменяемое классом u и основой слово флективный (неизменяемым словом) x (таблица) класс y – значение v 4 Pf(tin(x,Н(х,u)), y, f4) f x – флективный класс таблицы Н Определение Н - бинарное отношение соответствия:

между флективным флективный класс классом x и постоянной постоянная часть частью набора набора морфологической морфологической информации u (таблица) информации Определение x1- флективный класс соответствия:

х2 – окончание флективный класс + Н - бинарное отношение y – значение v окончание Pf(tin(x1,х2,Н(u,v,z)), таблицы Н при 5 между флективным f y, f5) переменная часть классом u, окончанием v и x1=u и х2=v набора набором морфологической морфологической информации z (таблица) информации На основе этих типов предикатов разработана база правил морфологического анализа, представленная в виде системы продукций.

2.3.2.3. Система продукций морфологического анализа Согласно описанию формального аппарата, приведенного в разделе 2.2.2, решение задач представляется в виде преобразований в пространстве ситуаций. Каждая ситуация описывается продукционным правилом вида q, r, где q – условие применимости, r программа. Поэтому по каждой, разрабатываемой в работе модели строится система продукций (база правил). Условие применимости записывается как правильно построенная формула логики предикатов первого порядка. В формуле предикаты, описывающие отдельные факты, связываются между собой посредством логических операторов,,, ¬,.

Описание правил осуществляется в три этапа. На первом этапе правило описывается в содержательной форме в виде множества высказываний. На втором этапе каждое высказывание представляется в виде соответствующего предиката, а на последнем – строится формула для условия применимости q продукции. Программа r продукции pr представляется в виде операций добавления и/или удаления фактов.

База правил морфологического анализа включает в себя продукционные правила по распознаванию ситуаций, связанных с идентификацией слов, относящихся к неизменяемым и изменяемым частям речи. Входная информация представляется в виде результатов предварительного лексического анализа, т.е. на вход системе продукций подается лексема хiХ, где Х – множество лексем естественно-языкового запроса.

Таким образом, рассмотрим возможные ситуации, возникающие при проведении морфологического анализа, описанные в виде продукционных правил в три этапа.

Правило рr1М касается ситуации, описывающей принадлежность лексемы к неизменяемой части речи: хi лексема относится к неизменяемым частям речи тогда и только тогда, когда имеет место ситуация, представляющая собой конъюнкцию следующих фактов:

1) лексема хi принадлежит сорту siS;

2) сорт si имеет значение s32 (множество неизменяемых слов);

3) лексема хi отображается во флективный класс y1;

4) флективный класс y1 принадлежит сорту s2j s2;

5) сорт s2j имеет значение s25 (множество флективных классов неизменяемых слов);

6) флективный класс s2j отображается в набор морфологической информации y2;

7) набор морфологической информации y2 принадлежит сорту s74k (множество неизменяемых частей речи);

8) сорт s74k имеет значение s742 (множество частей речи неизменяемых слов).

Утверждениям данной ситуации соответствуют следующие предикаты:

- основному утверждению «существует лексема хiХ, которая находится в r отношении квалификации с сортом s32» соответствует предикат - (хi:X) Ps(хi, s32, t 2 );

- фактам соответствует следующий набор предикатов:

1) Pf(tin(xi), y1, f1);

2) PE(y1, s32);

3) Pf(tin(xi, Н1(u, v)), y2, f4);

4) Pf(tin(y2), y3, f1);

5) PE(y3, s25);

6) Pf(tin(y4, Н2(u, v)), y4, f4);

7) Pf(tin(y4), y5, f1);

8) PE(y5, s742).

Таким образом, элементы продукции pr1М имеют следующий вид:

q1 М = Pf(tin(xi), y1, f1) PE(y1, s32) Pf(tin(xi, Н1(u, v)), y2, f4) Pf(tin(y2), y3, f1) PE(y3, s25) Pf(tin(y4, Н2(u, v)), y4, f4) Pf(tin(y4), y5, f1) PE(y5, s742) (хi:X) Ps(хi, s32, t 2 );

r r1 М = add [vi1, y5].

Программа r1 М присваивает элементу vi1 вектора ViV название полученной части речи.

При описании следующих правил совместим содержательное и формальное описание утверждений.

Правило рr2М касается ситуации, описывающей принадлежность лексемы к части речи существительное: хi лексема относится к части речи существительное тогда и только тогда, когда имеет место ситуация, представляющая собой следующую конъюнкцию фактов:

1) лексема хi имеет окончание y1 мощностью |е|=3 - Pf(tin(xi,3), y1, f2);

2) окончание y1 принадлежит сорту s1jS - Pf(tin(y1), y2, f1);

3) сорт s1j имеет значение s11 (множество окончаний существительных) - PE(y2, s11);

4) лексема хi имеет основу y2 - Pf(tin(x1,3), y3, f3);

5) основа y2 лексемы хi принадлежит сорту s3k S - Pf(tin(y3), y4, f1);

6) сорт s3k имеет значение s31 (множество основ) - PE(y4, s31);

или 1) лексема хi имеет окончание y1 мощностью |е|=2 - Pf(tin(xi,2), y1, f2);

2) окончание y1 принадлежит сорту s1jS - Pf(tin(y1), y2, f1);

3) сорт s1j имеет значение s11 (множество окончаний существительных) - PE(y2, s11);

4) лексема хi имеет основу y2 - Pf(tin(x1,2), y3, f3);

5) основа y2 лексемы хi принадлежит сорту s3k S - Pf(tin(y3), y4, f1);

6) сорт s3k имеет значение s31 (множество основ) - PE(y4, s31);

или 1) лексема хi имеет окончание y1 мощностью |е|=1 - Pf(tin(xi,1), y1, f2);

2) окончание y1 принадлежит сорту s1jS - Pf(tin(y1), y2, f1);

3) сорт s1j имеет значение s11 (множество окончаний существительных) - PE(y2, s11);

4) лексема хi имеет основу y2 - Pf(tin(x1,1), y3, f3);

5) основа y2 лексемы хi принадлежит сорту s3k S - Pf(tin(y3), y4, f1);

6) сорт s3k имеет значение s31 (множество основ) - PE(y4, s31);

или 1) лексема хi имеет окончание y1 мощностью |е|=0 - Pf(tin(xi,0), y1, f2);

2) окончание y1 принадлежит сорту s1jS - Pf(tin(y1), y2, f1);

3) сорт s1j имеет значение s11 (множество окончаний существительных) - PE(y2, s11);

4) лексема хi имеет основу y2 - Pf(tin(x1,0), y3, f3);

5) основа y2 лексемы хi принадлежит сорту s3k S - Pf(tin(y3), y4, f1);

6) сорт s3k имеет значение s31 (множество основ) - PE(y4, s31);

и для всех предыдущих фактов:

7) основа y2 отображается во флективный класс y3 - Pf(tin(y3, Н1(u, v)), y5, f4);

8) флективный класс y3 лексемы хi принадлежит сорту s2pS - Pf(tin(y5), y6, f1);

9) сорт s2p имеет значение s21 (множество ФК существительных) - PE(y6, s21);

10) флективный класс y3 отображается в постоянную морфологическую информацию y4 - Pf(tin(y5, Н1(u, v)), y6, f4);

11) МИ y4 имеет значение х7411 (часть речи существительное) - PE(y6, х7411 );

12)флективный класс y3 и окончание y1 отображаются в набор переменной морфологической информации y5 - Pf(tin(y5, y1, Н(u, v, z)), y7, f5);

13) набор МИ y5 имеет сорт s75t (множество наборов переменной МИ) - Pf(tin(y7), y8, f1);

14) сорт s75t имеет значение s751 (множество наборов переменной МИ существительных) - PE(y8, s751).

Тогда продукция pr2М может быть представлена в виде пары q2M, r2M, где:

q2М = ((Pf(tin(xi,3), y1, f2) Pf(tin(y1), y2, f1) PE(y2, s11) Pf(tin(x1,3), y3, f3) Pf(tin(y3), y4, f1) PE(y4, s31)) ((Pf(tin(xi,2), y1, f2) Pf(tin(y1), y2, f1) PE(y2, s11) Pf(tin(x1,2), y3, f3) Pf(tin(y3), y4, f1) PE(y4, s31)) ((Pf(tin(xi,1), y1, f2) Pf(tin(y1), y2, f1) PE(y2, s11) Pf(tin(x1,1), y3, f3) Pf(tin(y3), y4, f1) PE(y4, s31)) ((Pf(tin(xi,0), y1, f2) Pf(tin(y1), y2, f1) PE(y2, s11) Pf(tin(x1,1), y3, f3) Pf(tin(y3), y4, f1) PE(y4, s31))) Pf(tin(y3, Н1(u, v)), y5, f4) Pf(tin(y5), y6, f1) PE(y6, s21) Pf(tin(y5, Н1(u, v)), y6, f4) PE(y6, х7411 ) Pf(tin(y5, y1, Н(u, v, z)), y7, f5) Pf(tin(y7), y8, f1) PE(y8, s751) (хi:X) Ps(хi, х7411, t 2 );

r r2М = add [(Vi, vi1, y6) V(Vi, (vi2, l1(y8)), (vi3, l2(y8)), (vi4, l3(y8)), (vi5, l4(y8)))].

Программа r2М присваивает элементу vi1 вектора ViV название полученной части речи, vi2 – признак одушевленности посредством функции l1, которая выделяет первый элемент кортежа переменной МИ, элементу vi3 присваивает значение рода посредством функции l2, которая выделяет второй элемент кортежа переменной МИ, элементу vi присваивает значение числа через функцию l3, которая выделяет третий элемент кортежа переменной МИ, и элементу vi5 присваивает значение падежа через функцию l4, которая выделяет четвертый элемент кортежа переменной МИ.

Правило рr3М касается ситуации, описывающей принадлежность лексемы к части речи прилагательное: хi лексема относится к части речи прилагательное тогда и только тогда, когда имеет место ситуация, составляющая конъюнкцию следующих фактов:

1) лексема хi имеет окончание y1 мощностью |е|=3 - Pf(tin(xi,3), y1, f2);

2) окончание y1 принадлежит сорту s1jS - Pf(tin(y1), y2, f1);

3) сорт s1j имеет значение s12 (множество окончаний прилагательных) - PE(y2, s12);

4) лексема хi имеет основу y2 - Pf(tin(x1,3), y3, f3);

5) основа y2 лексемы хi принадлежит сорту s3k S - Pf(tin(y3), y4, f1);

6) сорт s3k имеет значение s31 (множество основ) - PE(y4, s31);

или 1) лексема хi имеет окончание y1 мощностью |е|=2 - Pf(tin(xi,2), y1, f2);

2) окончание y1 принадлежит сорту s1jS - Pf(tin(y1), y2, f1);

3) сорт s1j имеет значение s12 (множество окончаний прилагательных) - PE(y2, s12);

4) лексема хi имеет основу y2 - Pf(tin(x1,2), y3, f3);

5) основа y2 лексемы хi принадлежит сорту s3k S - Pf(tin(y3), y4, f1);

6) сорт s3k имеет значение s31 (множество основ) - PE(y4, s31);

и для всех предыдущих фактов:

7) основа y2 отображается во флективный класс y3 - Pf(tin(y3, Н1(u, v)), y5, f4);

8) флективный класс y3 лексемы хi принадлежит сорту s2pS - Pf(tin(y5), y6, f1);

9) сорт s2p имеет значение s22 (множество ФК прилагательных) - PE(y6, s22);

10) флективный класс y3 отображается в постоянную морфологическую информацию y4 - Pf(tin(y5, Н1(u, v)), y6, f4);

11) МИ y4 имеет значение х7412 (часть речи прилагательное) - PE(y6, х7412 );

12)флективный класс y3 и окончание y1 отображаются в набор переменной морфологической информации y5 - Pf(tin(y5, y1, Н(u, v, z)), y7, f5);

13) набор МИ y5 имеет сорт s75t (множество наборов переменной МИ) - Pf(tin(y7), y8, f1);

14) сорт s75t имеет значение s752 (множество наборов переменной МИ прилагательных) - PE(y8, s752).

Тогда продукция pr3М может быть представлена в виде пары q3M, r3M, где:

q3М = ((Pf(tin(xi,3), y1, f2) Pf(tin(y1), y2, f1) PE(y2, s12) Pf(tin(x1,3), y3, f3) Pf(tin(y3), y4, f1) PE(y4, s31)) ((Pf(tin(xi,2), y1, f2) Pf(tin(y1), y2, f1) PE(y2, s12) Pf(tin(x1,2), y3, f3) Pf(tin(y3), y4, f1) PE(y4, s31))) Pf(tin(y3, Н1(u, v)), y5, f4) Pf(tin(y5), y6, f1) PE(y6, s22) Pf(tin(y5, Н1(u, v)), y6, f4) PE(y6, х7412) Pf(tin(y5, y1, Н(u, v, z)), y7, f5) Pf(tin(y7), y8, f1) PE(y8, s752) r (хi:X) Ps(хi, х7412, t 2 );

r3 М = add [(Vi, vi1, y6) V(Vi, (vi3, l1(y8)), (vi4, l2(y8)), (vi5, l3(y8))].

Правило рr4М касается ситуации, описывающей принадлежность лексемы к части речи глагол: хi лексема относится к части речи глагол тогда и только тогда, когда имеет место ситуация, составляющая конъюнкцию следующих фактов:

1) лексема хi имеет окончание y1 мощностью |е|=3 - Pf(tin(xi,3), y1, f2);

2) окончание y1 принадлежит сорту s1jS - Pf(tin(y1), y2, f1);

3) сорт s1j имеет значение s13 (множество окончаний глаголов) - PE(y2, s13);

4) лексема хi имеет основу y2 - Pf(tin(x1,3), y3, f3);

5) основа y2 лексемы хi принадлежит сорту s3k S - Pf(tin(y3), y4, f1);

6) сорт s3k имеет значение s31 (множество основ) - PE(y4, s31);

или 1) лексема хi имеет окончание y1 мощностью |е|=2 - Pf(tin(xi,2), y1, f2);

2) окончание y1 принадлежит сорту s1jS - Pf(tin(y1), y2, f1);

3) сорт s1j имеет значение s13 (множество окончаний глаголов) - PE(y2, s13);

4) лексема хi имеет основу y2 - Pf(tin(x1,2), y3, f3);

5) основа y2 лексемы хi принадлежит сорту s3k S - Pf(tin(y3), y4, f1);

6) сорт s3k имеет значение s31 (множество основ) - PE(y4, s31);

или 1) лексема хi имеет окончание y1 мощностью |е|=1 - Pf(tin(xi,1), y1, f2);

2) окончание y1 принадлежит сорту s1jS - Pf(tin(y1), y2, f1);

3) сорт s1j имеет значение s13 (множество окончаний глаголов) - PE(y2, s13);

4) лексема хi имеет основу y2 - Pf(tin(x1,1), y3, f3);

5) основа y2 лексемы хi принадлежит сорту s3k S - Pf(tin(y3), y4, f1);

6) сорт s3k имеет значение s31 (множество основ) - PE(y4, s31);

и для всех предыдущих фактов:

7) основа y2 отображается во флективный класс y3 - Pf(tin(y3, Н1(u, v)), y5, f4);

8) флективный класс y3 лексемы хi принадлежит сорту s2pS - Pf(tin(y5), y6, f1);

9) сорт s2p имеет значение s23 (множество ФК глаголов) - PE(y6, s23);

10) флективный класс y3 отображается в постоянную морфологическую информацию y4 - Pf(tin(y5, Н1(u, v)), y6, f4);

11) МИ y4 имеет значение х7413 (часть речи глагол) - PE(y6, х7413);

12)флективный класс y3 и окончание y1 отображаются в набор переменной морфологической информации y5 - Pf(tin(y5, y1, Н(u, v, z)), y7, f5);

13) набор МИ y5 имеет сорт s75t (множество наборов переменной МИ) - Pf(tin(y7), y8, f1);

14) сорт s75t имеет значение s753 (множество наборов переменной МИ глаголов) - PE(y8, s753).

Тогда продукция pr4М может быть представлена в виде пары q4M, r4M, где:

q4М = ((Pf(tin(xi,3), y1, f2) Pf(tin(y1), y2, f1) PE(y2, s13) Pf(tin(x1,3), y3, f3) Pf(tin(y3), y4, f1) PE(y4, s31)) (Pf(tin(xi,2), y1, f2) Pf(tin(y1), y2, f1) PE(y2, s13) Pf(tin(x1,2), y3, f3) Pf(tin(y3), y4, f1) PE(y4, s31)) (Pf(tin(xi,1), y1, f2) Pf(tin(y1), y2, f1) PE(y2, s13) Pf(tin(x1,1), y3, f3) Pf(tin(y3), y4, f1) PE(y4, s31))) Pf(tin(y3, Н1(u, v)), y5, f4) Pf(tin(y5), y6, f1) PE(y6, s23) Pf(tin(y5, Н1(u, v)), y6, f4) PE(y6, х7413) Pf(tin(y5, y1, Н(u, v, z)), y7, f5) Pf(tin(y7), y8, f1) PE(y8, s753) r (хi:X) Ps(хi, х7413, t 2 );

r4М = add [(Vi, vi1, y6) V(Vi, (vi4, l1(y8)), (vi6, l2(y8)), (vi7, l3(y8))].

Правило рr5М касается ситуации, описывающей принадлежность лексемы к части речи краткое прилагательное: хi лексема относится к части речи краткое прилагательное тогда и только тогда, когда имеет место ситуация, составляющая конъюнкцию следующих фактов:

1) лексема хi имеет окончание y1 мощностью |е|=1 - Pf(tin(xi,1), y1, f2);

2) окончание y1 принадлежит сорту s1jS - Pf(tin(y1), y2, f1);

3) сорт s1j имеет значение s14 (множество окончаний кратких прилагательных) - PE(y2, s14);

4) лексема хi имеет основу y2 - Pf(tin(x1,1), y3, f3);

5) основа y2 лексемы хi принадлежит сорту s3k S - Pf(tin(y3), y4, f1);

6) сорт s3k имеет значение s31 (множество основ) - PE(y4, s31);

или 1) лексема хi имеет окончание y1 мощностью |е|=0 - Pf(tin(xi,0), y1, f2);

2) окончание y1 принадлежит сорту s1jS - Pf(tin(y1), y2, f1);

3) сорт s1j имеет значение s14 (множество окончаний кратких прилагательных) -PE(y2, s14);

4) лексема хi имеет основу y2 - Pf(tin(x1,0), y3, f3);

5) основа y2 лексемы хi принадлежит сорту s3k S - Pf(tin(y3), y4, f1);

6) сорт s3k имеет значение s31 (множество основ) - PE(y4, s31);

и для всех предыдущих фактов:

7) основа y2 отображается во флективный класс y3 - Pf(tin(y3, Н1(u, v)), y5, f4);

8) флективный класс y3 лексемы хi принадлежит сорту s2pS - Pf(tin(y5), y6, f1);

9) сорт s2p имеет значение s24 (множество ФК кратких прилагательных) - PE(y6, s24);

10) флективный класс y3 отображается в постоянную морфологическую информацию y4 - Pf(tin(y5, Н1(u, v)), y6, f4);

11) МИ y4 имеет значение х7414 (часть речи краткое прилагательное) - PE(y6, х7414);

12) флективный класс y3 и окончание y1 отображаются в набор переменной морфологической информации y5 - Pf(tin(y5, y1, Н(u, v, z)), y7, f5);

13) набор МИ y5 имеет сорт s75t (множество наборов переменной МИ) - Pf(tin(y7), y8, f1);

14) сорт s75t имеет значение s754 (множество наборов переменной МИ кратких прилагательных) - PE(y8, s754).

Тогда продукция pr5М может быть представлена в виде пары q5M, r5M, где:

q5М = ((Pf(tin(xi,1), y1, f2) Pf(tin(y1), y2, f1) PE(y2, s14) Pf(tin(x1,1), y3, f3) Pf(tin(y3), y4, f1) PE(y4, s31)) (Pf(tin(xi,0), y1, f2) Pf(tin(y1), y2, f1) PE(y2, s14) Pf(tin(x1,0), y3, f3) Pf(tin(y3), y4, f1) PE(y4, s31))) Pf(tin(y3, Н1(u, v)), y5, f4) Pf(tin(y5), y6, f1) PE(y6, s24) Pf(tin(y5, Н1(u, v)), y6, f4) PE(y6, х7414) Pf(tin(y5, y1, Н(u, v, z)), y7, f5) Pf(tin(y7), y8, f1) PE(y8, s754) (хi:X) Ps(хi, r х7414, t 2 );

r5М = add [(Vi, vi1, y6) V(Vi, (vi3, l1(y8)), (vi4, l2(y8))].

Правило рr6М касается ситуации, описывающей принадлежность лексемы к части речи глагол в прошедшем времени: хi лексема относится к части речи глагол в прошедшем времени тогда и только тогда, когда имеет место ситуация, составляющая конъюнкцию следующих фактов:

1) лексема хi имеет окончание y1 мощностью |е|=1 - Pf(tin(xi,1), y1, f2);

2) окончание y1 принадлежит сорту s1jS - Pf(tin(y1), y2, f1);

3) сорт s1j имеет значение s15 (множество окончаний глаголов в прошедшем времени) PE(y2, s15);

4) лексема хi имеет основу y2 - Pf(tin(x1,1), y3, f3);

5) основа y2 лексемы хi принадлежит сорту s3k S - Pf(tin(y3), y4, f1);

6) сорт s3k имеет значение s31 (множество основ) - PE(y4, s31);

или 1) лексема хi имеет окончание y1 мощностью |е|=0 - Pf(tin(xi,0), y1, f2);

2) окончание y1 принадлежит сорту s1jS - Pf(tin(y1), y2, f1);

3) сорт s1j имеет значение s15 (множество окончаний глаголов в прошедшем времени) PE(y2, s15);

4) лексема хi имеет основу y2 - Pf(tin(x1,2), y3, f3);

5) основа y2 лексемы хi принадлежит сорту s3k S - Pf(tin(y3), y4, f1);

6) сорт s3k имеет значение s31 (множество основ) - PE(y4, s31);

и для всех предыдущих фактов:

7) основа y2 отображается во флективный класс y3 - Pf(tin(y3, Н1(u, v)), y5, f4);

8) флективный класс y3 лексемы хi принадлежит сорту s2pS - Pf(tin(y5), y6, f1);

9) сорт s2p имеет значение s23 (множество ФК глаголов) - PE(y6, s23);

10) флективный класс y3 отображается в постоянную морфологическую информацию y4 - Pf(tin(y5, Н1(u, v)), y6, f4);

11) МИ y4 имеет значение х7413 (часть речи глагол) - PE(y6, х7413);

12)флективный класс y3 и окончание y1 отображаются в набор переменной морфологической информации y5 - Pf(tin(y5, y1, Н(u, v, z)), y7, f5);

13) набор МИ y5 имеет сорт s75t (множество наборов переменной МИ) - Pf(tin(y7), y8, f1);

14) сорт s75t имеет значение s755 (множество наборов переменной МИ глаголов в прошедшем времени) - PE(y8, s755).

Тогда продукция pr6М может быть представлена в виде пары q6M, r6M, где:

q6М = ((Pf(tin(xi,1), y1, f2) Pf(tin(y1), y2, f1) PE(y2, s15) Pf(tin(x1,1), y3, f3) Pf(tin(y3), y4, f1) PE(y4, s31)) (Pf(tin(xi,0), y1, f2) Pf(tin(y1), y2, f1) PE(y2, s15) Pf(tin(x1,0), y3, f3) Pf(tin(y3), y4, f1) PE(y4, s31))) Pf(tin(y3, Н1(u, v)), y5, f4) Pf(tin(y5), y6, f1) PE(y6, s23) Pf(tin(y5, Н1(u, v)), y6, f4) PE(y6, х7413) Pf(tin(y5, y1, Н(u, v, z)), y7, f5) Pf(tin(y7), y8, f1) PE(y8, s755) (хi:X) Ps(хi, r х7415, t 2 );

r6М = add [(Vi, vi1, y6) V(Vi, (vi3, l1(y8)), (vi7, l2(y8)))].

Активация продукционных правил осуществляется на основе использования метода резолюций, описанного в разделе 2.2.2. В базе правил морфологического анализа условия применимости qiM продукции priM должны храниться в скулемовской стандартной форме и составлять множество дизъюнктов Г.

На вход системы продукций подается начальное состояние в виде конъюнкции n P терминальных фактов (e1,..., e mi ), которое обозначается d0 и называется входной i i = r ситуацией. Для морфологического анализа d0 = Ps((хi, y, t 2 ), где хi – лексема, y – r предполагаемая часть речи, t 2 - отношение квалификации.

Программа riM продукции priM будет активизирована в том случае, если условие применимости qiM будет истинным. Доказательство формулы d0 методом от противного, посредством применения метода линейной резолюции (разд. 2.2.2) позволяет доказать или опровергнуть истинность qiM при заданной входной ситуации d0.

Если в результате построения дерева вывода будет найден пустой дизъюнкт, то активизируется программа riMpriM, в противном случае выбирается следующая продукция.

Выполнение программ riS посредством выполнения операции добавления позволяет cформировать вектор морфологической информации V= v1, v2, v3, v4, v5, v6, v7, v8, где v1 – часть речи, v2 – признак одушевленности, v3 – род, v4 – число, v5 – падеж, v6 – лицо, v7 – время, v8 – признак для имени собственного.

Таким образом, осуществляется преобразование 1: T X, где Т – текст естественного языка в виде множества лексем, X - множество лексем с векторами морфологической информации v.

2.4. Модель синтаксического анализа 2.4.1. Содержательное описание модели синтаксического анализа В результате синтаксического анализа должны быть однозначно определены все синтаксические единицы естественно-языкового предложения. Синтаксическими единицами будем называть конструкции, в которых их элементы (компоненты) объединены синтаксическими связями и отношениями. Синтаксическая связь является выражением взаимосвязи элементов в синтаксической единице, то есть служит для выражения синтаксических отношений между словами, создает синтаксическую структуру предложения и словосочетания, а также условия для реализации лексического значения слова [85].

В работе рассматривается только первый вид синтаксической связи – подчинение.

Этот вид синтаксической связи передает отношения между фактами объективного мира в виде такого сочетания двух слов, в котором одно выступает как главное, второе - как зависимое.

Отношения между лексемами будем представлять в виде лексико-грамматических связей между словами, которые представляют собой вопрос от главного слова к зависимому (например, пора (какая) золотая). При этом указывается лишь факт наличия смысловой связи между словами. Сочинительная связь при этом рассматривается как указание на соответствие непосредственной связи между словами и словосочетаниями и их подчинение одному и тому же элементу текста. В качестве метода представления результатов синтаксического анализа нами выбран комбинированный метод, включающий в себя элементы графа зависимостей и системы составляющих. Исходными данными для проведения синтаксического анализа являются результаты морфологического анализа, представленные в виде множества пар xi, Vi, где xi – лексема естественно-языкового запроса, Vi – вектор морфологической информации xi лексемы.

В результате проведения синтаксического анализа должен быть сформирован граф зависимостей, в узлах которого помещаются лексемы. Узлы соединяются дугами, указывающими направление связи от главного слова к зависимому.

2.4.1.1. Алгоритм синтаксического анализа Синтаксический анализ будет проходить в три этапа. На первом этапе осуществляется нормализация лексем естественно-языкового предложения для выделения синтаксических групп, к которым относятся группы ФИО, ДАТА, ПС (существительное с предлогом) и другие, описание и правила выделения которых, более подробно рассмотрены в следующем разделе данной главы. На этом же этапе осуществляется удаление несущественных лексем из исходного множества, таких как служебные части речи (предлоги, союзы, частицы и т.п.). В результате будут сформированы два множества: новое исходное множество лексем Х и L - множество синтаксических групп в виде векторов связанных лексем.

Синтаксическая связь, относящаяся к типу подчинение, передает сочетание двух слов, в котором одно выступает как главное, а другое – как зависимое. Поэтому задачей второго этапа является выявление синтаксической связи между двумя лексемами множества Х и множества векторов L, разбиение лексем на множество главных слов L1 и множество зависимых слов L2, причем L1 L2, и формирование множества сочетаемых пар лексем D = {(xi, xj)| xiL1, xjL2}. Для нахождения корневой вершины необходимо:

1) объединить множества L1 и L2: L3 = L1L2;

2) найти разности множеств L3 и L2: L4 = L3 \ L2, где L4 – одноэлементное множество корневых вершин.

Таким образом, формируется один или несколько графов зависимостей G=Х, D, где Х – множество вершин графа G, которое составляет множество лексем Х={xi| i=1,n}, а D – множество дуг.

Итоговый граф зависимостей G будет удовлетворять следующим требованиям:

- граф G является неполным графом, т.е. не содержит петель и циклов;

- граф G является связным.

Граф синтаксического разбора не может иметь петель, так как разработанные правила учитывают как морфологическую информацию лексем, так и порядок лексем в естественно-языковом предложении. Второе требование удовлетворяется введением второго ограничения на естественный язык запроса (раздел 1.5), связанное с тем, что в каждом последующем предложении запроса должно присутствовать существительное, введенное в одном из предыдущих предложений.

2.4.1.2. База знаний синтаксического анализа Синтаксический анализ осуществляется на основе использования следующих видов информации:

- знания о морфологических характеристиках словоформ;

- знания о синтаксических отношениях (отношения зависимости) словоформ;

- знания о порядке слов в предложении;

- знания о пунктуации.

Знания о морфологических характеристиках словоформ представлены в виде результатов морфологического анализа, которые подаются на вход синтаксического анализа.

Знания о синтаксических отношениях (отношения зависимости) словоформ определяются на основе правил соответствия их морфологических характеристик. Правила соответствия описываются в виде условий применимости и основываются на теории синтаксиса русского языка. В зависимости от принадлежности главного слова к той или иной части речи различаются лексико-грамматические типы словосочетаний: глагольные, именные, наречные. Глагольные словосочетания имеют следующие модели:

1) глагол + существительное или местоимение с предлогом или без предлога;

2) глагол + инфинитив или деепричастие;

3) глагол + наречие.

Именные словосочетания делятся на субстантивные, адъективные, с главным словом числительным и с главным словом местоимением.

Основными моделями субстантивных словосочетаний являются:

1) согласуемое слово + существительное;

2) существительное + существительное;

3) существительное + наречие;

4) существительное + инфинитив.

К основным моделям адъективных словосочетаний относят:

1) прилагательное + наречие;

2) прилагательное + существительное (местоимение);

3) прилагательное + инфинитив.

Последние типы словосочетаний с главным словом числительным и с главным словом местоимением являются синтаксически не свободными и разнообразием моделей не отличаются (например, двое друзей, два товарища, некто в белом, что-нибудь особенное).

Словосочетания наречного типа (с предикативными и непредикативными наречиями) имеют 2 модели:

1) наречие + наречие;

2) наречие + существительное.

Связь между частями речи, представленных в данных моделях словосочетаний, определяется на основе морфологической информации лексем. Эти модели и составляют базу правил синтаксического подчинения.

Знания о порядке слов в предложении также влияют на результат анализа. Порядок слов в русском языке, вопреки устойчивому заблуждению, не вполне свободный, гибкий [87]. В каждом отдельном случае порядок слов зависит как от грамматики предложения, так и от смысла высказывания. Самое существенное - то, ради чего и создается предложение, должно располагаться в конце его. В случае запросов к базе данных и согласно разработанным ограничениям, наоборот, самое существенное должно располагаться в начале предложения и будет являть собой объект запроса, а все остальное – относиться к условию запроса. В данной работе будут учитываться правила порядка предлогов и существительных, союзов и теория примыкания падежей с предлогами, что должно способствовать правильному распознаванию моделей сочетания существительных с другими сопряженными частями речи.


Существительное принимает в качестве определителя разнообразные примыкающие падежные формы с предлогами. Эти формы или, подобно согласуемым формам, определяют имя, или, очень часто, определяя имя, одновременно тяготеют к глаголу, который управляет этим именем. На основе переразложения глагольных связей в современном языке активно пополняется состав примыкающих к существительному падежных форм с предлогами (например, написать письмо в деревню - письмо в деревню, провести вечер у костра - вечер у костра и т.д.). В таких предложениях для более корректного анализа необходимо знать, какую падежную форму и какое обстоятельственное значение несет существительное с примыкающим предлогом.

Всего в русском языке насчитывается порядка 300 предлогов. При этом один и тот же предлог может использоваться в разных падежных формах существительного, т.е. может участвовать в формировании различных обстоятельственных значений существительного.

Формы, примыкающие к существительному и определяющие его, могут нести в себе более или менее ярко выраженные обстоятельственные значения: места, времени, количества или меры, причины, назначения, источника или происхождения, условия, состояния, совместности или несовместности, возместительности, сферы действия.

Распределим предлоги русского языка по вышеперечисленным значениям (табл. 7).

Таблица 7 - Обстоятельственные значения существительных по примыкающим предлогам Обстоятельственное значение существительного Падеж Предлог Пример с примыкающим предлогом По месту, с, со (чего-нибудь) определение с доски пространственной из (чего-нибудь) параграф из лекции отнесенности, из-под (чего-нибудь) шпаргалка из-под книги происхождению откуда- у (кого-/чего-нибудь) корпус у стадиона нибудь, отношению к от (кого-/чего-нибудь) сообщение от куратора источнику, против, напротив (кого стол (на)против Иванова местопребыванию или /чего-нибудь) местонахождению Род близ, около, возле (кого группа возле корпуса (включая и переносные /чего-нибудь) употребления) в стороне от, вдали от, вдалеке от, невдалеке от, напротив, подле, посреди, стенд напротив аудитории посредине, впереди, среди, поперек, поверх, сзади, позади (кого-/чего-нибудь) дежурный по аудитории по (чему-нибудь) Дат путь к файлу к (кому-/чему-нибудь) во (что-нибудь) аудитория в корпусе Вин на (что-нибудь) заявление на пересдачу за (кем-/чем-нибудь) преподаватель за столом Тв над (кем-/чем-нибудь) плакат над доской под (кем-/чем-нибудь) подушка под головой на (чем-нибудь) специалист на заводе Предл в (чем-нибудь) практика в совхозе при (чем-нибудь) общежитие при вузе По времени, временной до (кого-/чего-нибудь) сон до звонка отнесенности от (кого-/чего-нибудь) время от полуночи Род существительное с, со (кого-/чего-нибудь) сутки с момента определяется после вопросы после лекции примыкающими формами Вин за (что-нибудь) результаты за контрольную неделю род., вин. и тв. п. с Тв перед (чем-нибудь) ночь перед экзаменом предлогами Со стороны до (кого-/чего-нибудь) занятия до трех Род количественной, меры, порядка (кого-/чего-нибудь) числа порядка ста миллионов размера существительное на (что-нибудь) театр на пятьсот мест определяется в, во (что-нибудь) группа в десять человек Вин примыкающими формами с, со (кого-/что-нибудь) преподаватель со стажем род. и вин. п. с предлогами пересдача для задолжников для (кого-/чего-нибудь) добавка к стипендии в пользу Род в пользу (кого-/чего Со стороны назначения, студентов нибудь) предназначенности существительное в честь (кого-/чего-нибудь) концерт в честь отличников определяется по (чему-нибудь) помощь по предмету Дат примыкающими формами к (кому-/чему-нибудь) реферат к слушанию род., дат., вин., тв. и предл.

на (что-нибудь) рабочее место на одного студента п. с предлогами Вин под (что-нибудь) тетрадь под лекции Тв за (кем-/чем-нибудь) студенты за опытом Предл на (чем-нибудь) группа на занятиях от (кого-/чего-нибудь) неуспеваемость от незнания по случаю (чего-нибудь) мероприятие по случаю окончания Род Со стороны:

в условиях, при условии договоренность при условии 1) причины, основания, (чего-нибудь) поддержки повода, стимула 2) условия Дат по (чему-нибудь) двойка по математике Со стороны от (кого-/чего-нибудь) представитель от группы принадлежности к чему-н. из (чего-нибудь) студент из группы или исхождения от чего-л.

Род существительные с (кого-/что-нибудь) звонок с пары определяются формой род.

п. с предлогами Предл в (чем-нибудь) взаимоотношения в группе Со стороны сферы среди (кого-/чего-нибудь) популярность среди студентов (действия, состояния) Род от (кого-/чего-нибудь) распоряжение от декана Со стороны значений 1) группа со старостой Тв с, со (кем-/чем-нибудь) совместности, 2) несовместности без (кого-/чего-нибудь) студенты без стипендии 3) возместительности существительное Род вместо, взамен (кого-/чего занятия вместо отдыха определяется: в род, тв. п. с нибудь) предлогом Тогда по формам предлогов, примыкающим к существительному и определяющим его, можно будет определить обстоятельственные значения существительного, что в дальнейшем понадобится при семантическом анализе естественно-языкового запроса.

Знания о пунктуации необходимы для определения однородных членов предложения, определения причастных и деепричастных оборотов.

Вся языковая информация представляется в виде формального описания, согласованного с выбранным методом и используемого последнего в качестве данных для переработки входного предложения.

Основываясь на приведенных в данном разделе видах языковой информации, можно выделить три группы правил, связанных с анализом ситуаций по: выявлению синтаксических групп, синтаксической связи между парой лексем и синтаксической связи между парой лексем и синтаксической группой.

Первая группа правил включает:

1. Правило построения группы ПС (предлог+существительное). Возможные падежи существительных имеют непустое пересечение с множеством падежей, которыми управляет предлог. Предлог может стоять перед самим существительным или перед прилагательным (прилагательными), после которых следует согласуемое существительное, например, на совещании, в международной научной конференции. В результате формируется группа ПС, предлог удаляется из исходного множества лексем. Данное правило позволит удалить избыточную морфологическую информацию о лексеме, основываясь на свойстве примыкания падежей с предлогами.

2. Правило для построения групп ОЧ (однородные члены предложения). Правило ищет два, три или четыре контактно стоящих слова хi, хi+1, хi+2, хi+3, одно их которых может быть сочинительным союзом «и» либо «или» и которые должны относиться к одной и той же части речи, а их морфологические характеристики должны совпадать. К таким группам относятся группы однородных членов существительных, прилагательных, числительных, глаголов, наречий, например, электротехнического, экономического и строительного;

студенты и преподаватели, 630 и 631, учиться и заниматься, хорошо и очень хорошо. В результате формируется соответствующая группа ОЧ, слова хi+1, хi+2, хi+ удаляются из исходного множества лексем. Далее для поиска пары будет анализироваться только слово хi, а для остальных по умолчанию сформируются пары со словом, которое будет согласовано с хi словом. Нахождение однородных членов предложения для каждой части речи можно представить в виде шести ситуаций.

3. Правило построения группы ФИО (фамилия+имя+отчество). Правило ищет два или три контактно стоящих слова хi, хi+1 и хi+2, которые представляют собой имена собственные ИС. Правило собирает группу ФИО по схемам ИС1-ИС2-ИС3 или ИС1-ИС2, например, Иванов Петр Сергеевич, Иванов Петр. По ограничению на естественный язык первой всегда должна идти фамилия человека, поэтому в результате формируется группа ФИО через объединение ИС1-ИС2-ИС3 или ИС1-ИС2 и удаляются из исходного множества лексем лексемы хi+1 и хi+2 или только хi+1.

Правило можно представить в виде двух ситуаций. Первая ситуация описывает схему ИС1-ИС2-ИС3, вторая – схему ИС1-ИС2.

4. Правило для построения синтаксической группы ДАТА. Правило ищет два, три или четыре контактно стоящих слова хi, хi+1, хi+2, хi+3, при этом хi может быть числом (1,2, …, 31), названием месяца (январь, февраль, …, декабрь) или годом (10 … 2010), хi+1 – числом месяца (01,02, …, 12), названием месяца, годом или словоформой лексемы «год», хi+2 – годом или словоформой лексемы «год», хi+3 – словоформой лексемы «год», например, года, 1 сентября, 1.04.2003 года, с сентября 2003 года, 1 марта 2002 года. В результате может быть сформирована синтаксическая группа ДАТА по схемам:

· число-месяц (5 сентября) – 05.09.04 (в качестве года ставится число текущего года);

· год-словоформа (2003 года) - 01.01.03;

· месяц-год-словоформа (сентября 2003 года) - 01.09.03;

· число-месяц-год-словоформа (6 сентября 2002 года) - 06.09.02.

В результате группа ДАТА заносится как лексема хi в исходное множество лексем Х, осуществляется обновление вектора Vi, в котором элементу vi1 присваивается значение «дата», а все остальные лексемы хi+1, хi+2, хi+3 удаляются из множества Х.

5. Правило для построения группы ОГ (частица «не»+глагол). Правило ищет два контактно стоящих слова хi и хi+1, при этом хi - частица «не», а хi+1 – глагол, глагол прошедшего времени или инфинитив, например, не учатся, не сдала, не уметь. В результате формируется группа ОГ через объединение двух слов, которая становится единой в семантическом смысле, и удаляется слово хi из исходного множества лексем.


После проверки правил формируется множество синтаксических групп L = {ПС, ФИО, ДАТА, ОГ, ОЧС, ОЧП, ОЧЧ, ОЧИнф, ОЧГП} и новое исходное множество лексем.

Правила второй группы включают в себя:

1. Правило построения словосочетания МП (модифицированное прилагательное).

Правило ищет два контактно стоящих слова хi и хi+1, где хi – это словоформы слов «такой»

или «самый», а хi+1 – полное прилагательное, согласованное с хi по роду, числу и падежу, например, самый лучший. В результате формируется словосочетание МП, которое указывает на синтаксическую связь между словами. Для распознавания словоформ слов «такой» или «самый» введем сорт b5={такой, такая, такие, такую, такое, такого, таким, таком, самый, самая, самое, самую, самым, самыми}.

2. Правило построения словосочетания НП (наречие + прилагательное или краткое прилагательное). Правило ищет два контактно стоящих слова хi, хi+1, при этом у наречия хi должна быть помета, сообщающая, что этим словом может управлять прилагательное (эта информация берется из словаря готовых словоформ), например, очень способный, весьма полезный, особенно талантлив. В результате формируется словосочетание НП, которое указывает на синтаксическую связь между словами.

3. Правило построения словосочетания НН (наречие + наречие). Правило ищет два контактно стоящих слова хi, хi+1, которые имеют часть речи наречие, например, гораздо выше, значительно больше.

4. Правило для построения словосочетания НС (наречие+существительное). Наречие имеет признак наречное числительное, существительное стоит во множественном числе, родительном падеже, например, много студентов, мало очень хороших студентов. В результате формируется словосочетание НС, которое указывает на синтаксическую связь между словами.

5. Правило для построения словосочетания ГГ (глагол + инфинитив глагола). Правило ищет два контактно стоящих слова хi и хi+1, при этом хi – глагол, а хi+1 – инфинитив глагола, например, не могут учиться.

6. Правило построения словосочетания СрП (сравнительного прилагательного).

Правило ищет два контактно стоящих слова хi и хi+1, где хi – это слова «более» или «менее», а хi+1 – полное или краткое прилагательное, например, более способный.

7. Правило для построения словосочетания СЧ (существительное + числительное).

Правило ищет два контактно стоящих слова хi и хi+1, где хi – существительное, а хi+1 – числительное, или, наоборот, хi – числительное, а хi+1 – существительное, например, специальности 220400, 639 группы. В результате формируется словосочетание (хi, хi+1), где хi –существительное и главное слово, хi+1 – числительное и зависимое слово или наоборот.

Остальные правила синтаксического анализа приведены в Приложении Б.

Для разработки продукций синтаксического анализа необходимо определить множество сортов. Основными сортами синтаксического анализа являются:

· b1 – сорт, содержащий множество предлогов, разбитых на подмножества предлогов, употребляемых в определенных падежах, и b1 = {предлоги родительного падежа, предлоги дательного падежа, предлоги винительного падежа, предлоги творительного падежа, предлоги предложного падежа} = {b11, b12, b13, b14, b15};

· b2 – сорт, содержащий множество предлогов, разбитых по обстоятельственным значениям существительного, и b2 = {предлоги места, предлоги времени, предлоги количества или меры, предлоги назначения, предлоги источника или происхождения, предлоги условия, предлоги сферы действия или состояния, предлоги совместности или несовместности} = {b21, b22, b23, b24, b25, b26, b27, b28}.

Кроме сортов синтаксического анализа будем использовать сорта морфологического анализа s742, s741, s74, s73, s72, s71, s70, s9, s8.

2.4.2. База правил синтаксического анализа Базу правил синтаксического анализа будем строить в виде системы продукций, состоящей из трех подсистем:

1) подсистема правил нахождения синтаксических групп;

2) подсистема правил нахождения связи между парой лексем. Эти правила основываются на морфологических характеристиках словоформ;

3) подсистема правил формирования связи между синтаксической группой и лексемой. Эта категория правил предназначена для выявления связи между лексемами определенной синтаксической группы и отдельной лексемой множества Х в случае, когда нельзя применить правила второй категории (например, электротехнический и экономический факультеты).

Каждое правило представляет собой возможную ситуацию, которую можно описать в виде конъюнкции множества фактов и представить в виде продукции prS=qS,rS. Условие применимости, построенное в предикатном представлении, описывает ситуацию, при которой может активизироваться программа. Программа rS продукции prS представляется в виде операций добавления и удаления. Операция добавления в rS позволяет формировать множество дуг D, множество главных лексем L1 и множество зависимых лексем L2, а также множество синтаксических групп L. Операция удаления предназначена для нормализации исходного списка лексем Х.

Поэтому рассмотрим последовательность формирования продукционных правил на примере одного правила для каждой подсистемы. В полном объеме система продукций синтаксического анализа приведена в Приложении Б.

1 подсистема правил. Нахождение синтаксических групп на примере построения правила формирования группы ПС (предлог и существительное): пара лексем хi и хj образуют синтаксическую группу ПС тогда и только тогда, когда имеет место закономерность, описываемая конъюнкцией следующих фактов:

1) хi имеет характеристику vi1Vi со значением «предлог» - (хi:X) Р(xi, t(vi1, предлог));

2) хj имеет характеристику vj1 со значением «существительное» - (xj:X) Р(xj, t(vj1, существительное));

3) хj имеет характеристику vj5 со значением сорта «падеж» - (xj:X) Р(xj, t(vj5, vj5));

4) лексема хi принадлежит сорту b1B - Pf(tin(хi), y1, f8), где f8 – ссылка на процедуру F8 определения названия категории предлога хi, а переменная y1 может принимать значение «родительный», «дательный», «винительный», «творительный» или «предложный»;

5) у1 равен vj5 - РЕ(у1, vj5);

6) лексема хi стоит раньше хj лексемы - Pf(tin(i,j), y2, f9), где f9 – ссылка на процедуру F9 проверки условия ij, а переменная y2 может принимать значения «раньше» или «позже»;

7) у2 имеет значение «раньше» - РЕ(у2, раньше).

Предикат (хi:X) (xj:X) Р1(ПС, t(хi, xj)) соответствует утверждению, что существуют лексемы хi и xj, которые образуют синтаксическую группу с именем ПС, а областью значений переменных хi, xj является множество Х лексем запроса g (хi, xjХ).

Необходимо также отметить, что факты 2) и 3) можно описать в одном предикате, т.к.

рассматривается одна и та же лексема xj, следовательно, имеет место параметрический предикат Рpar(xj, t(vj1, существительное), t(vj5, vj5)).

В этом случае продукция записывается в виде: pr1s =q1s, r1s, где q1s = (хi:X) Р(xi, t(vi1, предлог) (xj:X) Рpar(xj, t(vj1, существительное), t(vj5, vj5)) Pf(tin(хi), y1, f1) РЕ(у1, vj5) Pf(tin(i, j), y2, f2) РЕ(у2, раньше) (хi:X) (xj:X) Р1(ПС, t(хi, xj));

r1s = add [P3(ПС, t(xi, xj))];

elim[(X, {xi})].

2 подсистема правил. Нахождение связи между парой лексем на примере построения правила формирования пары СущП (существительное и прилагательное): пара лексем хi и хi+1 образуют пару СущП тогда и только тогда, когда имеет место закономерность, описываемая конъюнкцией следующих фактов:

1) хi имеет характеристику vi1Vi со значением «прилагательное» - (хi:X) Р(xi, t(vi1, прилагательное));

2) хi имеет характеристику vi3 со значением сорта «род» - (хi:X) Р(xi, t(vi3, vi3));

3) хi имеет характеристику vi4 со значением сорта «число» - (хi:X) Р(xi, t(vi4, vi4));

4) хi имеет характеристику vi5 со значением сорта «падеж» - (хi:X) Р(xi, t(vi5, vi5));

5) хi+1 имеет характеристику v(i+1)1Vi+1 со значением «существительное» - (xi+1:X) Р(xi+1, t(v(i+1)1, существительное));

6) хi+1 имеет характеристику v(i+1)3 со значением сорта «род» - (хi+1:X) Р(xi+1, t(v(i+1)3, v(i+1)3));

7) хi+1 имеет характеристику v(i+1)4 со значением сорта «число» - (хi+1:X) Р(xi+1, t(v(i+1)4, v(i+1)4));

8) хi+1 имеет характеристику v(i+1)5 со значением сорта «падеж» - (хi+1:X) Р(xi+1, t(v(i+1)5, v(i+1)5));

9) vi3 должна быть эквивалентна v(i+1)3 - РЕ(vi3, v(i+1)3);

10) vi4 должна быть эквивалентна v(i+1)4 - РЕ(vi4, v(i+1)4);

11) vi5 должна быть эквивалентна v(i+1)5 - РЕ(vi5, v(i+1)5).

Тогда продукцию можно представить в виде пары: pr37s =q37s, r37s, где q37s = (хi:X) Рpar(xi, t(vi1, прилагательное), t(vi3, vi3), t(vi4, vi4), t(vi5, vi5)) (xi+1:X) Рpar(xi+1, t(v(i+1)1, существительное), t(v(i+1)3, v(i+1)3), t(v(i+1)4, v(i+1)4), t(v(i+1)5, v(i+1)5)) РЕ(vi3, v(i+1)3) РЕ(vi4, v(i+1)4) РЕ(vi5, v(i+1)5) (хi:X) (xi+1:X) Р1(СущП, t(хi, xi+1));

r37s = add [L4(D, (xi+1, xi)) L1(xi+1) L2(xi)];

elim [(X, {xi})].

3 подсистема правил. Нахождение связи между лексемой и синтаксической группой на примере построения правила формирования ОЧПС (существительное и прилагательное, входящее в синтаксическую группу однородные члены прилагательных ОЧП): пара лексем хi и хj через хi+1 лексему (хj, хi+1 ОЧП) образуют словосочетание ОЧПС тогда и только тогда, когда имеет место закономерность, описываемая конъюнкцией следующих фактов:

1) хi имеет характеристику vi1Vi со значением «прилагательное» - (хi:X) Р(xi, t(vi1, прилагательное));

2) хi имеет характеристику vi4 со значением сорта «число» - (хi:X) Р(xi, t(vi4, vi4));

3) хi имеет характеристику vi5 со значением сорта «падеж» - (хi:X) Р(xi, t(vi5, vi5));

4) хi лексема входит в состав синтаксической группы ОЧП - Р3(ОЧП, t(хi, xj)) или Р4(ОЧП, t(хi, xj, xk));

5) хi+1 имеет характеристику v(i+1)1Vi+1 со значением «существительное» - (xi+1:X) Р(xi+1, t(v(i+1)1, существительное));

6) хi+1 имеет характеристику v(i+1)4 со значением сорта «число» - (хi+1:X) Р(xi+1, t(v(i+1)4, v(i+1)4));

7) хi+1 имеет характеристику v(i+1)5 со значением сорта «падеж» - (хi+1:X) Р(xi+1, t(v(i+1)5, v(i+1)5));

8) v(i+1)5 должна быть эквивалентна vi5 - РЕ(vi5, v(i+1)5);

9) v(i+1)4 имеет значение «множественное» - РЕ(v(i+1)4, множественное);

10) vi4 имеет значение «единственное» или «множественное» - РЕ(vi4, единственное) или РЕ(vi4, множественное).

Тогда продукции можно представить в виде пары: pr48s =q48s, r48s, где q48 s = (хi:X) Рpar(xi, t(vi1, прилагательное), t(vi4, vi4), t(vi5, vi5)) Р3(ОЧП, t(хi, xj)) (xi+1:X) Рpar(xi+1, t(v(i+1)1, существительное), t(v(i+1)4, v(i+1)4), t(v(i+1)5, v(i+1)5)) РЕ(vi5, v(i+1)5) РЕ(v(i+1)4, множественное) (РЕ(vi4, единственное) РЕ(vi4, множественное)) (хi+1:X) (xj:X) Р1(ОЧПС, t(хi+1, xj));

r48 s = add [L4(D, (xi+1, xj)) L4(D, (xi+1, xi)) L1(xi+1) L2(xj) L2(xi)].

И в виде пары pr49s =q49s, r49s, где q49 s = (хi:X) Рpar(xi, t(vi1, прилагательное), t(vi4, vi4), t(vi5, vi5)) Р4(ОЧП, t(хi, xj, xk)) (xi+1:X) Рpar(xi+1, t(v(i+1)1, существительное), t(v(i+1)4, v(i+1)4), t(v(i+1)5, v(i+1)5)) РЕ(vi5, v(i+1)5) РЕ(v(i+1)4, множественное) (РЕ(vi4, единственное) РЕ(vi4, множественное)) (хi+1:X) (xj:X) Р1(ОЧПС, t(хi+1, xj)) (хi+1:X) (xk:X) Р1(ОЧПС, t(хi+1, xk));

r49 s = add [M4(D, (xi+1, xj)) M4(D, (xi+1, xi)) M4(D, (xi+1, xk)) M1(xi+1) M2(xj) M2(xk) M2(xi)].

Активация продукционных правил осуществляется аналогично активации продукций морфологического анализа.

Таким образом, осуществляется преобразование 2: ХG, где X - множество лексем с вектором морфологической информации v, G - граф зависимостей, в вершинах которого располагаются словоформы (лексемы), а дуги отображают связь от вершины “предок” к вершине “потомок”.

2.5. Выводы по второй главе В данной главе рассмотрена математическая модель лингвистического транслятора, в которой определены модели морфологического, синтаксического и проблемного анализов, приведено содержательное описание морфологического и синтаксического анализов. На основе предложенного формального аппарата разработаны их формальные модели.

Формальный аппарат позволил найти единый подход описания всех моделей лингвистического транслятора. Подход заключается в том, что все задачи решаются как преобразования в пространстве ситуаций. Каждая ситуация описывается продукционным правилом. Условие применимости продукции описывает ситуацию в виде конъюнкции фактов, что дает возмозможность использовать для его формального определения предикатное представление.

Достоинство предложенного в работе подхода описания моделей заключается в его универсальности.

3. Модель трансляции ~ В данном разделе необходимо описать два последних преобразования 3: G G и 4:

~ G Q, где G - граф зависимостей, в вершинах которого располагаются словоформы (лексемы), полученные в результате выполнения морфологического и синтаксического ~ анализов, G - граф зависимостей в терминах физической модели данных, Q - SQL-запрос.

Для построения 3 необходимо выполнить два последовательных преобразования:

~ 3 ~, где G - граф зависимостей синтаксического анализа естественно G G G ~ ~ языкового запроса, G - граф зависимостей в терминах логической модели данных, G - граф зависимостей в терминах физической модели данных.

~ Для построения 4 необходимо выполнить преобразования: G G Q, где ~ G- граф зависимостей в терминах физической модели данных, G - граф SQL-запроса, Q SQL-запрос.

Для выполнения преобразований необходимо рассмотреть структуру лингвистического обеспечения, описанного в разделе 3.1, преобразование 3 рассмотрено в разделе 3.2 и преобразование 4 – в разделе 3.3.

3.1. Интерпретационная модель лингвистического транслятора Интерпретационная модель включает в себя метаописание базы данных и формальное описание проблемной среды.

3.1.1. Метаописание базы данных Метаописание базы данных представляет собой описание её концептуальной схемы.

Описание концептуальной схемы базы данных состоит из: знаний об элементах базы данных и структуре базы данных;

знаний о взаимосвязи понятий базы данных с понятиями естественного языка.

Приведем основные понятия и их определения.

Понятие в формальной логике – элементарная единица мыслительной деятельности, обладающая известной целостностью и устойчивостью и взятая в отвлечении от словесного выражения этой деятельности [88]. Понятие – это то, что выражается (или обозначается) любой значащей (самостоятельной) частью речи (кроме местоимений), а если перейти от масштабов языка в целом к "микроуровню", то членом предложения. Для трактовки проблемы понятия в её формально-логическом аспекте можно воспользоваться готовым арсеналом трёх областей современного знания: общей алгебры, логической семантики, математической логики.

Процесс образования понятия естественно описывается в терминах гомоморфизма.

Разбивая множество объектов на классы "эквивалентных" в каком-либо отношении элементов, т.е. игнорируя все различия между элементами одного класса, не являющимися существенными для рассматриваемой предметной области, получаем новое множество.

Множество, полученное по выделенному отношению эквивалентности, гомоморфно исходному и называется фактор-множество. Тогда элементы этого нового множества (классы эквивалентности) можно воспринимать как единые, не расчленяемые объекты, полученные в результате "склеивания" всех неразличимых в фиксированных отношениях исходных объектов в один "комок". Эти "комки" отождествленных между собой образов исходных объектов и есть то, что называется понятием, полученными в результате мысленной замены класса близких между собой представлений одним "родовым" понятием [67].

С семантической точки зрения необходимо различать понятие как некоторый абстрактный объект и называющее его слово (являющееся вполне конкретным объектом), имя, термин. Объёмом понятия является совокупность "склеиваемых" в это понятие элементов, а содержанием понятия - перечень признаков (свойств), на основании которых производилось это "склеивание". Таким образом, объём понятия - это денотат (значение) обозначающего его имени, а содержание - концепт (смысл), который это имя выражает.

Чем обширнее набор признаков, тем уже класс объектов, удовлетворяющих этим признакам, и, наоборот, чем уже содержание понятия, тем шире его объём. Это очевидное обстоятельство часто именуют законом обратного отношения.

Концепт понятия – включает в себя как собственные признаки, идентифицирующие понятие, так и признаки, позволяющие установить связь данного понятия с другими (валентные признаки). Если понятие является сложным, то в концепт могут входить правила, необходимые и достаточные для принятия решения о принадлежности данной сущности объему понятия. Другими словами, концепт - это то знание, которое выражается данным понятием при концептуальном моделировании предметной области [91].

Денотат понятия – это пара, состоящая из имени и знака, обозначающая сущность предметной области, при этом отдельно выделяют понятия - денотат знака и денотат имени. Денотат знака – это значение, которое может иметь в рамках данной знаковой ситуации. Следует иметь в виду, что связь "имя-денотат" многозначна. Некоторое имя может обозначать множество денотатов - омонимия, и, наоборот, одному денотату можно поставить несколько имен - синонимия.

Экстенсионал понятия – это совокупность всех его допустимых денотатов, соответствующих концепту этого понятия.

Интенсионал понятия – это тот смысл, который мы вкладываем в понятие, т.е.

интенсионал характеризует концепт данного понятия, его содержание (intP).

Признаки понятий, составляющие интенсионал понятий, подразделяются на три типа [89]:

- дифференциальный (d) – используется в качестве характеристики содержания атрибута и указывает, что атрибут является уникальным идентификатором (ID) сущности базы данных в терминах физической модели данных;

- характеристический (h) – признак, позволяющий отличать сущности, относящиеся к объему одного и того же понятия, и указывает, что атрибут относится только к одной сущности базы данных;

- валентный (v) – признак, обеспечивающий связь между различными понятиями, и в терминах физической модели данных обозначается как атрибут со свойством Foreign Key (FK).

Элемент базы данных – это термин логической или физической модели данных. Его примерами являются тип данных, запись данных и лексическая характеристика термина базы данных. Термин логической и физической модели данных является либо классом понятий, либо его свойством. К терминам логической модели данных l относятся сущность - понятие и атрибут - свойство понятия. К терминам физической модели данных f относятся таблица - понятие, столбец - свойство понятия. Понятия логической и физической моделей данных изоморфны.

Тип данных – традиционный термин базы данных.

Запись данных – набор столбцов таблицы базы данных (денотат свойства понятия).

Лексическая характеристика термина базы данных – это либо часть речи, которая отображается на множество {существительное, прилагательное, количественное числительное, числительное}, либо синтаксическая группа, отображающаяся на множество значений {ДАТА, ФИО, число, текст}.

Тип отношения – взаимосвязь двух терминов, отображающаяся на множество основных типов абстрагирования понятий: обобщение, агрегацию, типизацию, ассоциацию.

Типы абстрагирования понятий задают уровень абстракции. Возможно как повышение уровня абстракции, так и его понижение. Существуют следующие пары [90]: агрегация декомпозиция;

обобщение специализация;

типизация конкретизация;



Pages:     | 1 || 3 | 4 |   ...   | 6 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.