авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 || 3 | 4 |   ...   | 5 |

«Национальный исследовательский университет “Высшая школа экономики” На правах рукописи Кириллов Антон ...»

-- [ Страница 2 ] --

В работе [29] разрабатывается структурированный алгоритм SemSyn, предназначенный для семантико-синтаксического анализа текстов из представляющих практический интерес подъязыков естественного (русского) языка. Данный алгоритм базируется на построенной в [29] формальной модели лингвистической базы данных (ЛБД) и на введенном понятии матричного семантико-синтаксического представления (МССП) ЕЯ-текста. Алгоритм устанавливает смысловые отношения между элементарными значащими единицами входного текста, отражая эти отношения посредством МССП, а затем строит семантическое представление текста, являющееся выражением некоторого СК-языка (К-представлением). Развитием данного алгоритма стал алгоритм SemSynt1 [63], предназначенный для обработки текстов на английском, немецком и русском языках, т. е. по сути являющийся многоязычным. Важная особенность этого алгоритма заключается в том, что в нем не строится синтаксическое представление поданного на вход ЕЯ-текста, а сразу устанавливаются семантические отношения между значащими единицами текста. Оба алгоритма (SemSyn и SemSynt1) полностью описаны при помощи формальных средств и поэтому являются проблемно-независимыми и не зависят от выбранной платформы реализации и языка программирования.

Входные ЕЯ-тексты данных алгоритмов могут выражать высказывания (сообщения), команды, вопросы, относящиеся к рассмотренным выше типам, которые могут (для алгоритма SemSyn) включать причастные обороты и придаточные определительные предложения.

В вопросно-ответной системе ORAKEL[44] используется оригинальный подход, основанный на трансформации поисковых запросов на естественном языке в форму, позволяющую найти конкретный ответ в специализированной базе знаний, содержащей онтологическую информацию о конкретной предметной области (OWL/SPARQL). Первоначальный поисковый запрос преобразуется в формулы логики предикатов первого порядка, которые затем конвертируются в выражения на языке запросов SPARQL.

В [44] рассматриваются вопросы, касающиеся конкретных фактов, потенциально содержащихся в онтологической базе знаний (factoid questions), начинающиеся с вопросительных местоимений «кто», «что», «где», «какой» и т.д. Также рассматриваются вопросы, начинающиеся со слов «сколько» и «насколько» для запросов из базы специфических значений. Пример:

«Насколько Париж большой», «Сколько жителей в Париже». Рассмотрим примеры типовых вопросов, обрабатываемых системой:

1. Какие работы на конференцию прислал Джон Дэвис?

2. Какие журнальные статьи были написаны и кем?

3. Какая река протекает через наибольшее количество городов?

4. Какие реки протекают через большее количество городов, чем Рейн?

5. Кто написал «The future of web services»?

6. Какие документы посвящены логике предикат и концептуальным графам?

По данным примерам хорошо прослеживается ориентация языка входных ЕЯ-запросов на специализированный язык запросов к базам знаний.

По результатам проведенного анализа были выделены для исследования следующие интересные с научной точки зрения и практически важные группы вопросов, методы семантической обработки которых в литературе отсутствуют или недостаточно проработаны:

1. аспектно-ориентированные (вопросы, касающиеся характеристик объекта интереса либо его особенностей). Примеры: «Каковы характеристики компьютера?», «Как устроен мейнфрейм?»;

2. вопросы достижения целей (вопросы об успехах или неудачах тех или иных интеллектуальных систем). Примеры: «Каковы успехи компании Oracle?», «Какие неудачи были у компании Microsoft два года назад?»;

3. вопросы, касающиеся сохранения или изменения состава того или иного множества. Примеры: «Какие изменения были в руководстве компании Google?», «Какие изменения были в компании Яндекс в департаменте эксплуатации?».

Формализация обработки вопросов перечисленных видов в доступной научной литературе не рассматривалась. В связи с этим в данной диссертационной работе ставится и решается задача разработки и программной реализации новых, взаимосвязанных методов семантической обработки вопросов видов (1) – (3).

2.2 Базовые принципы нового подхода к семантически ориентированному поиску информации в Интернете Рассмотрим реалистичный сценарий использования выделенных типов вопросов на примере информационной потребности пользователя, связанной со сведениями об успехах компаний, выпускаемых ими продуктах и изменениях состава тех или иных организационных единиц компаний, представленных множествами (например, профсоюз или совет директоров). Последовательность поисковых запросов изображена на рисунке 2.1.

Рисунок 2.1. Схема сценария бизнес-поиска Пример. С учетом развития голосовых интерфейсов и средств синтеза и анализа речи пример поиска информации об успешности деятельности некоторой компании X и достигнутых результатах может быть представлен в виде следующего диалога:

Пользователь: Какие успехи были у компании X в этом году?

Система: Компания X выпустила продукт Y, увеличила объем выручки на 7%, открыла новое представительство в Москве.

Пользователь: Каковы особенности продукта Y?

Система: Высокая стабильность, отказоустойчивость, низкая цена и т. д.

Пользователь: Чем продукт Y отличается от продукта Z?

Система: Y более производителен чем Z, Y превосходит Z по следующим показателям … Пользователь: Какие изменения были в составе совета директоров в прошедшем году?

Система: В совет директоров компании вошел Петр Иванов.

Таким образом, если пользователь хочет найти информацию о компании, изменениях в составе ее руководства, успехах или неудачах, различных характеристиках продуктов, то полный цикл поиска покрывается предла гаемыми типами вопросов и соответствующими методами преобразования, тем самым увеличивая скорость, удобство и релевантность поиска.

Предлагается разработать метод создания семантически-ориентированной оисковой системы, выполняющей анализ поискового запроса и, в зависимости от его типа, построение конечного множества преобразованных запросов ExtSet, которое называется семантическим расширением поискового запроса.

Цель построения множества ExtSet заключается в том, чтобы передать это множество на вход синтаксической поисковой системе, которая позволит найти документы, релевантные по ключевым словам каждому из преобразованных запросов. Полученное множество документов затем анализируется и ранжируется по семантической релевантности. Ранжирование полученных документов происходит путем подсчета вхождений одного и того же документа в результирующую выдачу по всем сгенерированным запросам и с использованием характерного для определенных типов запросов анализа.

Для удобства изложения введем несколько определений компонентов, составляющих поисковые запросы. Характеристическим объектом или же характеристическим словом будем называть слово запроса, позволяющее охарактеризовать его принадлежность тому или иному типу. Объектами интереса запроса будем называть те слова запроса, которые составляют непосредственную информационную потребность пользователя.

Дополнительными объектами интереса будем называть дополнительные элементы запроса, важные для пользователя. Примером дополнительного объекта интереса может являться указание даты или каких-либо условий.

Пример 1. Пусть задан поисковый запрос «Каковы характеристики процессора Cray?». В данном запросе характеристическим объектом является слово «характеристики», а объектом интереса - «процессор Cray».

Пример 2. Пусть задан запрос «Какие успехи были у компании Cloudera в 2010 году?». В данном запросе характеристическим объектом является слово «успехи», объектом интереса - «процессор Cray», а дополнительным объектом интереса - «2010 год».

Рассмотрим наиболее общие идеи построения расширенного множества ExtSet, специфические для каждого вида запросов:

• Для аспектно-ориентированных запросов построение расширенного множества ExtSet будет происходить с использованием синонимов, гипонимов и гиперонимов характеристического слова запроса. Как известно, синонимом некоторого слова А является такое слово В, которое не совпадает с А по звучанию и написанию, но имеет одинаковое с ним или очень близкое значение (например, слова «лексикон» и «словарь» являются синонимами). Термины «гипоним» и «гипероним» используются значительно реже. Гипонимом понятия А называют такое понятие В, которое выражает частную сущность по отношению к А, более общему понятию (например, для понятия «компьютер»

гипонимами являются понятия «сервер» и «ноутбук»). Гиперонимом понятия А называют такое понятие В, которое по отношению к А выражает более общую сущность (например, для понятия «сервер» гиперонимом является понятие «компьютер»). Таким образом, если понятие А является гипонимом понятия В, то В является гиперонимом А.

Использование синонимов характеристического слова позволит построить близкие по смыслу, но различающихся по написанию запросы с целью более широкой выборки документов, содержащих объекты интереса. Документ, в котором находится информация об аспектах объектов интереса запроса, может не содержать заданного пользователем характеристического слова, однако может содержать его синоним. Данный документ будет иметь низкую оценку при ранжировании синтаксической поисковой системой, но при этом содержать необходимую информацию. Поэтому использование синонимичных запросов позволит расширить спектр релевантных по ключевым словам документов и обнаружить необходимую информацию. Гипонимы и гиперонимы характеристических слов используются с той же целью, но имеют несколько другой смысл: в некотором документе может присутствовать информация, касающаяся объекта интереса запроса в контексте рассмотрения его либо как составляющего элемента (гипонима) более общей сущности, либо, наоборот, может рассматриваться составляющая часть понятия (в данном случае характеристическое слово будет выступать в качестве гиперонима). Многие гипонимы и гиперонимы характеристических слов весьма близки по смыслу.

Например, слово «особенность» имеет гиперонимы «свойство» и «черта» и не имеет гипонимов. Соответственно, для слов «свойство» и «черта» гипонимом является слово «особенность». Использование гипонимов и гиперонимов характеристических слов запросов также позволяет расширить спектр релевантных по ключевым словам документов, возвращаемых поисковой системой.

Таким образом, данный подход позволяет сгенерировать близкие по смыслу поисковые запросы. При построении ExtSet будут также использоваться аспекты, соответствующие типу запроса и принадлежащие понятию, которое представляет объект интереса запроса.

Пример 3. Пусть задан запрос «Каковы особенности компьютера iMac?».

Пусть для слова «особенность» заданы синонимы «непохожесть» и «отличие», гиперонимы «свойство» и «черта», а гипонимы не заданы. Пусть для понятия «компьютер» заданы следующие аспекты, описывающие его характеристики:

«производительность», «частота процессора», «объем памяти». На основании этих данных могут быть построены запросы: «компьютер iMac характеристики объем памяти», «компьютер iMac свойства частота процессора», «компьютер iMac отличия частота процессора» и т. д. Данные запросы, поданные на вход системе поиска по ключевым словам, позволят найти более релевантные документы, чем первоначальный запрос.

• Для построения множества ExtSet в случае вопросов достижения целей будет построена модель базы целей различных объектов (в первую очередь, организаций). Это позволит построить ряд детализаций для вопросов данного типа. При построении будут использованы правила семантических трансформаций, позволяющие более гибко генерировать запросы.

Пример 4. Пусть задан запрос «Каковы успехи компании Google?». Пусть в базе целей заданы следующие индикаторы достижения целей для понятия «компания»: «увеличение объема продаж», «выпуск нового продукта», «рост прибыли». Тогда могут быть построены следующие запросы: «объем продаж Google увеличился», «Google выпуск нового продукта», «рост прибыли Google»

и т. д. Возможность изменять порядок слов в получаемых запросах обеспечивается правилами семантических трансформаций, которые позволяют генерировать разные запросы для одного и того же факта.

• Для запросов об изменениях состава множеств будет построена модель базы множеств, позволяющая строить детализации запросов данного типа, основываясь на компонентах, детализирующих понятие, соответствующее объекту интереса запроса, и фактах, позволяющих сделать вывод, что в множестве произошло изменение.

Пример 5. Пусть задан запрос «Какие изменения были в составе руководства компании Xerox?». Пусть в базе заданы следующие элементы, являющиеся составными частями понятия компании»:

«руководство «президент», «заместитель», «вице-президент». Пусть заданы следующие факты, характерные для данных элементов: «занял пост», «покинул пост», «уволен». Тогда могут быть построены следующие запросы: «компания Xerox президент покинул пост», «компания Xerox вице-президент занял пост», «компания Xerox заместитель уволен» и т.д.

Описанный подход оперирует с разными типами вопросов на ЕЯ и позволяет осуществлять семантический анализ входных запросов на ЕЯ с целью выявления информационной потребности пользователя и расширения первоначального запроса с целью удовлетворения данной потребности. Если какой-то из введенных пользователем вопросов не может быть проанализирован, пользователь получит результаты работы традиционной системы поиска по ключевым словам.

Далее в данной главе будут рассмотрены аспектно-ориентированные вопросы, а в главе 3 вопросы достижения целей и вопросы об изменениях состава множеств.

2.3 Разработка принципов семантического расширения аспектно ориентированных запросов 2.3.1 Центральные идеи предлагаемого подхода Как отмечалось выше, аспектно-ориентированными запросами (АО будем называть вопросительные предложения, в которых запросами) запрашивается информация о различных аспектах того или иного объекта или системы: характеристиках, условиях существования или функционирования, назначении, структурной организации, функциях, области применения, принадлежности к какому-либо классу, отличиях, особенностях и возможностях различных объектов и систем.

Когда запрашивается информация о том или ином аспекте какого-либо объекта, то, во-первых, необходимо учитывать тип этого аспекта, а во-вторых, специфику объекта, которому принадлежит этот аспект. Другими словами, типизация аспектов является универсальной, а непосредственно значения аспектов — уникальными для объекта, о котором идет речь в запросе. В параграфе 2.3.2 предлагается 11 типов запросов, на взгляд автора, полностью покрывающих информационные потребности пользователей, пытающихся найти информацию об аспектах тех или иных объектов. Данным типам запросов будут строго соответствовать определенные типы аспектов.

Пример 1. Запросу “Каково устройство модема?” соответствует тип “Описание структуры”. Объектами интереса являются слова “устройство” и причем характеристическое слово является “модем”, “устройство” индикатором типа аспектов объекта “модем”. Для данного вопроса аспектами объекта интереса будут являться характеристики, описывающие его (объекта) устройство (структуру).

Для расширения поискового АО-запроса необходимо определить тип аспекта, о котором запрашивается информация. Анализ разнообразных входных запросов показал, что это можно сделать, обнаружив в запросе специфическое слово-индикатор (характеристическое слово) или проанализировав структуру запроса.

Пример 2. В запросе «Каковы особенности планшета Apple?» присутствует характеристическое слово «особенности», что позволяет определить тип запроса (а, соответственно, и аспекта) «Описание особенностей».

Пример 3. В запросе «Для чего нужен осциллограф?» отсутствуют слова индикаторы, характерные для какого-либо типа запроса, однако структура запроса позволяет сделать вывод о том, что типом данного запроса является «Описание назначения».

Основной принцип расширения АО-запросов заключается, во-первых, в построении семантических производных первоначального запроса. Для преобразования такого рода необходимо учитывать концептуальное окружение характеристического слова, специфическое для определенного типа запроса, т. е. его синонимы, гипонимы и гиперонимы. Данное окружение позволит строить семантически близкие запросы, а также анализировать возвращаемые документы на соответствие запросу. Кроме того, необходимо учитывать непосредственно значения аспектов, характерных для того или иного объекта.

Пример 4. Объектом интереса запроса «Каковы характеристики компьютера Lenovo?» является «компьютер Lenovo», а аспектами, соответствующими понятию «компьютер», могут быть производительность, тактовая частота, объем памяти и т. д.

Наличие описания аспектов для понятий, характеризующих объекты интереса, обусловлено тем, что необходимо анализировать возвращаемые поисковой системой документы на присутствие в них информации о непосредственно аспектах, что позволит ранжировать документы по количеству релевантных запросу аспектов, находящихся в них.

Таким образом, необходимо разработать математическую модель, учитывающую типы аспектов, их концептуальные окружения и множество значений аспектов для каждого типа.

2.3.2 Первичные информационные единицы для разработки алгоритма анализа аспектно-ориентированных запросов Для представления различных типов аспектов необходимо ввести реляционные символы, строго соответствующие тому или иному типу аспекта объекта или системы. Были выделены 11 основных типов, и для каждого из них введен специальный символ, обозначающий бинарное отношение. Рассмотрим данные символы, их смысл и пример вопроса, в соответствие которому может быть поставлен определенный реляционный символ (под X и Y будем понимать объекты интереса поискового запроса, если не указано другого):

(1) ОП_СТР – символ для представления содержания вопросов вида «Как устроен X?». Пример: «Как устроен двигатель внутреннего сгорания?»;

(2) ОП_ХАР – символ для представления содержания вопросов вида «Каковы характеристики X?». Пример: «Каковы характеристики автомобиля Mercedes ML 350?»;

(3) ОП_РАБ –символ для представления содержания вопросов вида «Как работает X?». Пример: «Как работает аппарат магнитно-резонансной томографии?»;

(4) ОП_ФУН – символ для представления содержания вопросов вида Каковы функции X?». Пример: «Какие функции выполняет сервер локальной сети?»;

(5) ОП_НАЗ – символ для представления содержания вопросов вида «Для чего предназначен X?», «Каково назначение X?». Примеры: «Для чего предназначен реостат?», «Каково назначение межкомпьютерной связи?»;

(6) ОП_ПРИМ – символ для представления содержания вопросов вида «Где используется X?», «Как применять X?». Примеры: «Где используется Java?», «Как применять активную XSS?»;

(7) ОП_ПРИН – символ для представления содержания вопросов вида «К какому классу принадлежит X?», «К какой категории относится X?».

Пример: «К какому классу соединений относятся жиры?»;

(8) ОП_РАЗ – символ для представления содержания вопросов вида «Чем отличается X от Y?», «В чем разница между X и Y?». Примеры: «Чем отличается архитектура x86 от x64?», «В чем разница между процессорами Dual Core и Core 2 Duo?»;

(9) ОП_ОБЩ – символ для представления содержания вопросов вида «Что общего у X с Y?», «Каковы общие черты X и Y?». Пример: «Что общего у резины и каучука?»;

(10) ОП_ОСОБ – символ для представления содержания вопросов вида «Как ведет себя X [в ситуации Y]?», «Каковы особенности работы X [в условиях Y]?», где X – объект интереса поискового запроса, а Y – опциональная часть вопроса, уточняющая вопрос, служащая дополнительным условием (ограничением). Примеры: «Как ведет себя аргон при повышенном давлении?», «Каковы особенности работы буровой установки при высокой температуре?»;

(11) ОП_ВОЗМ – символ для представления содержания вопросов вида «Каковы возможности X?» («Каковы возможности платформы.NET?»).

2.4 Краткая характеристика теории К-представлений Значительную ценность для практики представляют методы семантического поиска, инвариантные по отношению к предметной области либо способные работать в широком диапазоне предметных областей. Как хорошо известно, для получения наиболее общих проектных решений в различных областях техники применяются математические модели и методы.

В связи с этим представляется целесообразным вести разработку новых методов семантического поиска информации в Сети на основе широко применимой математической модели, описывающей (а) систему первичных информационных единиц, используемых поисковой системой (что означает перечисление таких единиц и описание их взаимосвязей);

(б) цели людей и организаций;

(в) динамику изменений различных множеств (совета директоров фирмы и т.д.). Проведенный анализ научной литературы показал, что в настоящее время в доступной литературе опубликована только одна теория, предоставляющая возможности построения математических моделей, удовлетворяющих требованиям (а) - (в), это теория К-представлений (концептуальных представлений). Данная теория изложена в большой серии публикаций на русском и английском языках В.А. Фомичева [9, 17, 19-30, 52-61, 63, 64], в том числе в монографиях [22, 26, 29, 63].

Теория К-представлений является оригинальной теорией проектирования семантико-синтаксических анализаторов ЕЯ-текстов с широким использованием формальных средств описания входных, промежуточных и выходных данных анализаторов. Помимо этого, теория К-представлений нашла применение при разработке языков общения компьютерных интеллектуальных агентов, языков представления содержания коммерческих контрактов, онтологий нового поколения, стратегии преобразования существующего Веба в Семантический Веб нового поколения [60, 63].

Первой частью теории К-представлений является математическая модель системы первичных единиц концептуального уровня, используемой прикладной интеллектуальной системой. Эта модель определяет класс формальных объектов, называемых концептуальными базисами (к.б.). Каждый к.б. задает упорядоченный набор вида (c1,..., c15) с компонентами c1, c2,..., c15, являющимися (главным образом) конечными или счетными множествами символов и выделенными элементами таких множеств. В частности, c1 = St конечное множество символов, называемых сортами и обозначающих наиболее общие рассматриваемые понятия, c5 = X - счетное множество цепочек, используемых как "строитель-ные блоки" для формирования модулей знаний и семантических представлений (СП) текстов, c6 = V - счетное множество переменных, c8 = F – подмножество множества X, элементы которого называются функциональными символами.

Каждому к.б. B ставятся в соответствие три множества формул Ls(B), Ts(B), Ys(B), элементы которых называются l-формулами, t-формулами и y формулами. Множество называется СК-языком Ls(B) (стандартным концептуальным языком) в базисе B. Его цепочки подходят для построения СП текстов на ЕЯ. Каждая формула из Тs(B) имеет вид z & t, где z – выражение из Ls(B), t - тип сущности, обозначаемой выражением z. Формулы из Ys(B) имеют вид a[1] & …& a[n] & d, где a[1], …, a[n], d принадлежат Ls(B), n имеет разные значения для разных d, цепочка d строится из a[1], …, a[n] как из элементарных информационных единиц из них могут быть немного (некоторые преобразованы) однократным применением некоторой операции.

Главное отличие комплекса идей, лежащих в основе базовой модели теории К-представлений, от центральных идей наиболее популярных зарубежных подходов к формальному описанию содержания ЕЯ-текстов представления дискурсов, теории концептуальных графов, (теории эпизодической логики) заключается в том, что модель построена не добавлением нескольких новых выразительных механизмов к языку логики предикатов первого порядка, а как математическая модель нового вида, предназначенная для отображения способов описания структурированных значений (СЗ) произвольно сложных текстов деловой прозы.

Модель описывает систему, состоящую из 10 частичных операций на концептуальных структурах. По гипотезе В.А. Фомичева, применяя шаг за шагом эти 10 операций, можно построить семантическое представление произвольного текста деловой прозы. Следствием этого главного отличия являются, в частности, такие преимущества теории СК-языков, как возможность построения формальных аналогов (на семантическом уровне) СЗ составных обозначений целей интеллектуальных систем (и, как следствие, советов, пожеланий, команд), сложных составных обозначений понятий и множеств объектов, СЗ ЕЯ-текстов со ссылками на смысл фраз и более крупных фрагментов текстов, СЗ предложений со словом “понятие”, а также расширение числа способов использования логических связок “и”, “или”, “не”.

Указанные возможности можно интерпретировать и как основные преимущества теории СК-языков по сравнению с теорией расширенных семантических сетей, теорией неоднородных семантических сетей и компьютерной семантикой русского языка.

Учитывая все рассмотренные преимущества теории К-представлений, сделан вывод о целесообразности ее использования в качестве методологической основы диссертационного исследования.

Разработка математической модели проблемно 2. ориентированной системы первичных единиц концептуального уровня Для разработки алгоритмов семантической обработки поисковых АО запросов необходима гибкая расширяемая математическая модель системы первичных единиц концептуального уровня. Построим такую модель, используя в качестве отправной точки определения сортовой системы и концептуально объектной системы из монографий В.А. Фомичева [29, 63].

В монографиях [29, 63] вводится базовая математическая модель для описания системы первичных единиц концептуального уровня, используемых прикладной интеллектуальной системой. Эта модель определяет новый класс формальных объектов, называемых концептуальными базисами (к.б.). Каждый к.б. B строится для формализации определенной группы предметных областей.

СК-язык Ls(B) предназначен для построения семантических представлений (СП) произвольно сложных текстов, относящихся к рассматриваемой группе областей. Произвольный к.б. B является тройкой вида (S, Ct, Ql ), где S, Ct – формальные объекты, называемые соответственно сортовой системой и концептуально-объектной системой, а Ql – формальный объект, называемый системой кванторов и логических связок.

Сортовой системой в [29, 63] называется произвольная упорядоченная чет верка S вида (St, Р, Gen, Tol), где St - конечное множество символов;

Р – эле мент множества St;

Gen - непустое бинарное отношение на St, являющееся частичным порядком на St (т. е. рефлексивным, транзитивным и антисиммет ричным);

Tol - бинарное отношение на St, являющееся антирефлексивным и симметричным, и выполняется несколько дополнительных условий. Элементы множества St называются сортами;

Р - сортом «смысл сообщения»;

Gen St St - отношением общности;

Tol St St - отношением совместимости.

Элементы множества St интерпретируются как обозначения наиболее общих понятий, относящихся к рассматриваемой группе областей. Отношение Gen отражает существование иерархии сортов (по степени общности). Например, для некоторого к.б. B отношение Gen может включать пары (физич.объект, Отношение динамич.физич.объект), физич.объект).

(физич.объект, совместимости Tol отражает существование различных, несопоставимых («ортогональных») семантических характеристик некоторых сущностей из рассматриваемой группы предметных областей. Например, человек одновременно является интеллектуальной системой и динамическим физическим объектом. Поэтому для некоторого к.б. B отношение Tol может включать пару и, в силу динамич.физич.объект) (интел.система, рефлексивности отношения, пару (динамич.физич.объект, интел.система).

Пусть S - сортовая система вида (St, Р, Gen, Tol). Тогда произвольная упорядоченная четверка Ct вида (X, V, tp, F) в [29, 63] называется концептуально-объектной системой, согласованной с сортовой системой S когда выполняются следующие условия: (1) X, V - счетные непересекающиеся множества символов;

tp – отображение X V Tp(S ), где Tp(S) — множество типов, порождаемых сортовой системой S;

(2) F – непустое подмножество множества X, для каждого r из F цепочка tp(r) начинается с подцепочки «{(« и заканчивается подцепочкой «)}»;

(3) St - непустое конечное подмножество множества X, и для любого s St выполняется соотношение tp(s) = s;

(4) {v V | tp (v ) = [сущн]} - счетное множество, где [сущн] — базовый тип «сущность».

Множество X называется первичным информационным универсумом, элементы множеств V и F называются соответственно переменными и d X V,tp (d ) = t, функциональными символами. Если элемент то будем говорить, что t - тип элемента d.

Элементы множеств X и V интерпретируются как элементарные блоки, из которых (и из нескольких служебных символов) будут строиться СП предложений и дискурсов. Например, X может включать элементы город, отгрузка1, 125, 3/тонна, зелен, контейнер1, Столица, Вес, Цена, Часть, Элемент-множества, V может содержать символы x1, y3, z12, F может включать элементы Столица, Вес, Цена. Элементы множества Tp(S) называются типами сортовой системы и интерпретируются как S характеристики сущностей, рассматриваемых в рассуждениях о заданной предметной области. Например, Tp(S) может включать элементы [сущн], {интс*дин.физ.об}, интс*дин.физ.об. Тип [сущн]является наиболее общей характеристикой рассматриваемых сущностей. Пусть интс — обозначение понятия (т. е. сорт) система», сорт дин.физ.об.

«интеллектуальная «динамический физический объект». Тогда тип {интс*дин.физ.об} соответ ствует понятиям, характеризующим множества людей (студенческая группа, команда разработчиков и др.), поскольку каждый человек характеризуется понятием «интеллектуальная система» и понятием «динамический физический объект». Тип интс*дин.физ.об может быть связан с произвольным человеком.

Определение 2.1. Пусть S – произвольная сортовая система вида (St, P, Gen, Tol), где St – множество сортов, P – выделенный сорт «смысл сообщения», Gen – отношение общности на St, Tol – отношение совместимости на St (см. [29, 63]). Тогда систему S будем называть аспектно-ориентированной сортовой системой когда (1) St включает выделенные, попарно различные сорта техн.устр, физ.об;

(2) (физ.об, техн. устр ) Gen ;

(3) {u St | (P,u ) Gen} {физ.об, техн. устр} =.

Сорта техн.устр и физ.об интерпретируются как обозначения понятий «техническое устройство» и «физический объект».

Определение 2.2. Пусть S – произвольная аспектно-ориентированная сортовая система, Ct – концептуально-объектная система вида (X, V, tp, F), согласованная с сортовой системой S, где X – множество символов, называемое первичным информационным универсумом, V и F – множества переменных и функциональных символов соответственно. Тогда упорядоченная пятерка вида Ctmw = (X, V, tp, F, Qf) называется слабо размеченной концептуально объектной системой, согласованной с сортовой системой S когда выполняются следующие условия: (1) X \ F включает подмножество Qf = {r1, r1 = ОП_СТР, r2 = ОП_ХАР, r3 = ОП_РАБ, r4 =ОП_ФУН, r …, r11}, где =ОП_НАЗ, r6 = ОП_ПРИМ, r7 = ОП_ПРИН, r8 =ОП_РАЗ, r9 = ОП_ОБЩ, r10 = ОП_ОСОБ, r11 = ОП_ВОЗМ;

(2) для k = 1, 2, 3, 4, 5 tp(rk ) = {(техн.устр, P)}, для m = 6, 7, 8, 9 tp( rm) = {(физ.об, P)}.

Обозначения бинарных отношений r1, …, r11 пояснены в параграфе 2.1.

Определение 2.3. Пусть S – произвольная аспектно-ориентированная сортовая система, Ctmw – слабо размеченная концептуально-объектная система вида (X, V, tp, F, Qf), согласованная с S. Тогда набор Cobs вида (X, V, tp, F, Qf, Chr, Fgn) (2.1) называется размеченной концептуально-объектной системой, согласованной с сортовой системой S когда выполняются следующие условия:

1. Набор (X, V, tp, F, Qf) является слабо размеченной концептуально объектной системой, согласованной с сортовой системой S;

выделенное конечное подмножество множества унарных 2. Chr функциональных символов как множество F[1] (интерпретируется характеристик (аспектов) объектов заданной предметной области), где F[1] - под множество множества функциональных символов F;

3. Пусть Concepts - множество всех таких d из X, что тип tp(d) начинается с символа (т.е. d – обозначение понятия).Тогда Fgn – это функция, ставящая в соответствие произвольному cpt из Concepts упорядоченную тройку Gn = (Ge, Concr, Syn), где Ge - множество обобщающих понятий для элемента cpt, Concr - множество конкретизирующих понятий для элемента cpt, Syn множество синонимов (на концептуальном уровне) элемента cpt, причем Ge, Concr, Syn – это подмножества множества Concepts. Функцию Fgn будем называть детерминантом концептуального окружения;

если cpt – элемент множества Concepts, то упорядоченная тройка Gn(cpt) = (Ge, Concr, Syn) будет называться концептуальным окружением термина cpt.

Определение 2.4. Расширенным концептуальным базисом (р.к.б.) называется произвольная упорядоченная четверка Extbs вида (S, Cobs, Ql), (2.2) где S — произвольная аспектно-ориентированная сортовая система, Cobs — размеченная концептуально-объектная система вида (X, V, tp, F, Qf, Chr, Fgn), согласованная с S, и Ql — система кванторов и логических связок для сортовой системы S и концептуально-объектной системы Ct=(X, V, tp, F).

Определение 2.5. Пусть Extbs — произвольный р.к.б. вида (S, Cobs, Ql), где S — произвольная аспектно-ориентированная сортовая система, Cobs — размеченная концептуально-объектная система вида (X, V, tp, F, Qf, Chr, Fgn), согласованная с S, и Ql — система кванторов и логических связок. Тогда концептуальный базис B = (S, Ct, Ql), где Ct=(X, V, tp, F), называется семантическим ядром расширенного концептуального базиса Extbs и обозначается через Sem-Core(Extbs).

Система введенных выше определений, завершающаяся определением класса расширенных концептуальных базисов, интерпретируется как математическая модель проблемно-ориентированной системы первичных единиц концептуального уровня, используемой семантическим преобразователем запросов.

Разработка плана алгоритма построения семантического 2. расширения аспектно-ориентированного поискового запроса Разработаем план алгоритма построения семантического расширения поступившего поискового запроса на основе предлагаемой математической модели. Постулируем существование некоторого языка входных запросов для которого построено некое формальное описание. Тогда Linput, предположим, что существует алгоритм «Определение типа запроса» со следующей внешней спецификацией:

Назначение: Алгоритм последовательно анализирует поступивший на вход поисковый запрос и определяет его тип и характеристическое слово.

Вход: Цепочка W Linput - входной запрос.

Выход: r Qf - тип запроса;

w1 - это характеристическое слово запроса W.

Пример 1. Пусть на вход подана цепочка W = «Каковы особенности операционной системы System X?». Тогда будут получены следующие результаты работы алгоритма: тип запроса = «ОП_ОСОБ», w1 = особенности.

Пример 2. Пусть на вход подана цепочка W = «Для чего нужен язык программирования Scala?». Тогда будут получены следующие результаты работы алгоритма: тип запроса = «ОП_НАЗ», w1 = nil. Данный пример иллюстрирует отсутствие характеристического слова в запросе, однако тип запроса определяется благодаря его специфической структуре (начинается со слов «Для чего нужен...»).

После того, как тип запроса определен, необходимо выделить объекты интереса данного запроса. Постулируем существование алгоритма объектов интереса запроса» со следующей внешней «Определение спецификацией:

Назначение: Алгоритм последовательно анализирует поступивший на вход поисковый запрос и определяет его объекты интереса.

Вход: Цепочка W Linput - входной запрос;

r Qf - тип запроса;

Выход: w2, w3, где w2 и w3 — объекты интереса запроса. Для всех типов аспектно-ориентированных запросов, кроме «Описания различий» и «Описания общих характеристик», w3 не устанавливается.

Пример 1. Пусть на вход подана цепочка W = «Каковы функции компьютера?». Тогда получаются следующие результаты работы алгоритма:

w1 w2 w = функции, = компьютер, тип запроса = «ОП_ФУН», = nil.

Пример 2. Пусть на вход подана цепочка W = «Чем отличается ноутбук от сервера?». Тогда будут получены следующие результаты работы алгоритма:

тип запроса = «ОП_РАЗ», w1 = отличается, w2 = ноутбук, w3 = сервер.

После определения основных характеристик запроса можно переходить к созданию множества семантически преобразованных запросов ExtSet, порождаемых запросом W, т.е. к построению семантического расширения входного запроса. Построение данного множества происходит на основании размеченной концептуально-объектной системы Cobs вида (X, V, tp, F, Qf, Chr, Fgn) и состоит из трех основных шагов. На первом шаге необходимо построить детерминант концептуального окружения для характеристического слова запроса. Таким образом, необходимо построить набор Gn = (Ge,Concr, Syn ).

1 1 Постулируем существование алгоритма «Построение концептуального окружения» со следующей внешней спецификацией:

Алгоритм предназначен для извлечения из аспектно Назначение:

ориентированной базы знаний аспектов для поданного на вход характеристического слова запроса в зависимости от его типа. По сути, алгоритм являет реализацией функции Fgn.

Вход: r Qf - тип запроса;

1 - характеристическое слово запроса.

- концептуальное окружение характеристического слова Выход: Gn запроса.

Пример 3. Пусть задано характеристическое слово 1 = «характеристика».

Тогда результатом работы алгоритма концептуального «Построение окружения» будет упорядоченная тройка Gn1 = (Ge1,Concr1, Syn1 ), где Ge1 = {отзыв, рекомендация}, Concr1 = {описание}, Syn1 = {портрет, описание}.

Как только концептуальное окружение получено, можно переходить ко второму шагу построения множества преобразованных запросов. Необходимо получить из аспектно-ориентированной базы знаний информацию, соответствующую типу запроса и объекту интереса запроса, т. е. определить подмножество Chr2 множества Chr на основании типа запроса и понятия, соответствующего объекту интереса. Тогда постулируем существование алгоритма «Извлечение аспектов» со следующей внешней спецификацией:

Назначение: Алгоритм предназначен для извлечения из базы знаний аспектов, соответствующих понятию, представляющему объект интереса поискового запроса в зависимости от типа запроса.

Вход: r Qf - тип запроса;

w2 - объект интереса поискового запроса.

Выход: Chr2 - множество аспектов объекта интереса запроса.

Пример 4. Пусть задан поисковый запрос W = «Каковы характеристики компьютера iMac?». Для понятия «компьютер» в аспектно-ориентированную базу знаний могут быть помещены следующие аспекты, соответствующие типу «ОП_ХАР»: «частота процессора», «объем памяти», «производительность».

Следует отметить ограничение данного алгоритма для случая двух объектов интереса. Предполагается, что пользователь запрашивает информацию об общих чертах или различиях двух одинаковых понятий. Ситуация, когда пользователь хочет узнать о различиях между понятиями имеющими разный смысл исключается. Основываясь на семантической эквивалентности двух понятий, из базы извлекаются аспекты только для первого из них, потому что, зачастую, слово, представляющее понятие, может отсутствовать в запросе.

Пример 5. Примером корректного запроса с типом «ОП_РАЗ» является запрос W1 = «Каковы различия компьютеров Lenovo и Asus?». Здесь перед первым объектом интереса указано понятие, о котором идет речь. Примером некорректного запроса является запрос W2 = «Каковы различия между компьютером Lenovo и медиа-центром Samsung?». Запросы такого рода алгоритмом не обрабатываются. То же самое справедливо для запросов с типом «ОП_ОБЩ».

После того, как получены множество аспектов объекта интереса запроса ( Chr2 ) и концептуальное окружение характеристического слова ( Gn1 ), можно переходить к последнему шагу построения множества семантически преобразованных запросов ExtSet. Постулируем существование алгоритма «Построение множества расширенных запросов» со следующей внешней спецификацией:

Назначение: Алгоритм получает на вход концептуальное окружение характеристического слова, объекты интереса и множество аспектов для понятий, которые представляют объекты. На основании этих данных алгоритм производит построение множества расширенных запросов ExtSet. Новые запросы формируются путем комбинирования характеристического слова и его синонимов, гипонимов и гиперонимов с объектами интереса запроса и аспектами, извлеченными для данных объектов из базы знаний.

Вход: Тройка w1, w2, w3, где w1 — это характеристическое слово, а w2 и w объекты интереса запроса;

концептуальное окружение — Gn характеристического слова запроса;

Chr2 - множество аспектов объекта интереса запроса.

Выход: ExtSet — множество семантически преобразованных запросов.

Пример 6. Пусть задано характеристическое слово w1 = «характеристики», объект интереса w2 = «компьютер Asus», а w3 не задан. Пусть задан детерминант концептуального окружения Gn, включающий следующие элементы: Ge1 рекомендация}, Concr = {отзыв, = {описание}, Syn1 = {описание}. Пусть задано множество аспектов объекта интереса запроса Chr = {частота процессора, объем памяти, производительность}. Тогда результатом работы алгоритма «Построение множества расширенных запросов аспектно ориентированного типа» станет множество ExtSet = {компьютер Asus характеристики частота процессора, компьютер Asus характеристики объем памяти, компьютер Asus характеристики производительность, компьютер Asus описание частота процессора, компьютер Asus описание объем памяти, компьютер Asus описание производительность, компьютер Asus отзыв частота процессора, компьютер Asus отзыв объем памяти, компьютер Asus отзыв производительность, компьютер Asus рекомендация частота процессора, компьютер Asus рекомендация объем памяти, компьютер Asus рекомендация производительность}.

Рассмотрим алгоритм построения семантически расширенного множества запросов ExtSet «Анализ_и_Расш_АО_Запр».

Внешняя спецификация алгоритма Анализ_и_Расш_АО_Запр»

Назначение: Алгоритм анализирует поступивший на вход поискового запрос и строит множество семантически преобразованных запросов ExtSet.

Алгоритм использует описанные ранее алгоритмы из данного параграфа.

Вход: Цепочка W Linput - входной запрос.

Выход: ExtSet — множество семантически преобразованных запросов.

Алгоритм «Анализ_и_Расш_АО_Запр»

1. Поступивший на вход поисковый запрос передается на вход алгоритму «Определение типа запроса». Если тип запроса определен, то переходим к следующему шагу. В противном случае — прерываем выполнение алгоритма.

2. Поступивший на вход поисковый запрос и определенный на предыдущем шаге тип запроса передаем на вход алгоритма «Определение объектов интереса запроса». Если объекты интереса определены, то переходим к следующему шагу. В противном случае — прерываем выполнение алгоритма.

3. На данном шаге необходимо построить концептуальное окружение характеристического слова запроса. Если на первом шаге было определено характеристическое слово запроса, то передаем его на вход алгоритма «Построение концептуального окружения». Если же характеристическое слово не было определено, то в качестве синонимов, гипонимов и гиперонимов используется заранее заполненный словарь характеристических слов, соответствующих определенному на шаге 1 типу запроса.

4. Далее необходимо извлечь аспекты, характерные для типа запроса и объекта интереса, определенных на шаге 1 и 2 соответственно. Для этого их необходимо передать на вход алгоритму «Извлечение аспектов». Если аспекты отсутствуют в базе, то работа алгоритма не прерывается. При такой ситуации генерируемые запросы просто не включают аспекты, что значительно снизит качество поиска.

5. После того, как определены тип запроса, характеристический объект и объекты интереса запроса и построены концептуальное окружение и множество соответствующих типу запроса аспектов, они передаются на вход алгоритму «Построение множества расширенных запросов», строящему (на основе входных данных) множество семантически преобразованных запросов ExtSet.

Как только расширенное множество запросов ExtSet сформировано, оно передается в традиционную поисковую систему, возвращающую множество релевантных по ключевым словам документов для каждого запроса Wk ExtSet.

Далее поступившее множество документов анализируется с целью ранжирования по релевантности. При анализе документов будет использоваться подсчет вхождений каждого документа в результаты выборки по всем сгенерированным запросам. Ранжированное множество документов затем передается пользователю. В случае, если работа алгоритма не была завершена по какой-то причине, пользователь получит результаты поиска по ключевым словам, осуществленного без преобразования входного запроса.

2.7 Анализ структуры входных запросов аспектно ориентированного типа Рассмотрим входные запросы аспектно-ориентированного типа более детально. Для более удобного рассмотрения структуры этих запросов в данной диссертации предлагается специальное полуформальное представление структуры входных запросов, которое будет называться стем-формой запроса.

Название происходит от термина стемминг, обозначающего выделение основы слова [18], однако в данном контексте понимается как приведение слова к базовой форме. Шаблоном стем-формы входного запроса будем называть запрос, приведенный к следующему виду: (1) нет ни одной заглавной буквы;

(2) каждое слово в запросе находится в базовой форме;

(3) набор слов, которые являются опциональными, заключаются в фигурные скобки;

альтернативные слова или словосочетания из некоторого набора разделяются вертикальной чертой;

набор альтернативных слов или словосочетаний, любой элемент которого должен присутствовать в тексте заключаются в квадратные скобки;

слова, которые неважны при рассмотрении запроса, заменяются на символ #;

слова, следующие друг за другом, связываются при помощи знака «+».

Приведение слов к базовой форме осуществляется при помощи [88].

Рассмотрим условные обозначения более подробно: (1) {} - в фигурных скобках указывается необязательное слово, которое может как присутствовать, так и нет.

Например: Основная характеристика {у} Х — это мощность. Здесь предлог «у»

необязательный и может быть опущен. (2) | - через вертикальную черту указываются альтернативы, т.е. одно из перечисленных слов должно присутствовать в предложении. Например: В каких ситуациях|случаях используется Х? (3) Составные обозначения. все указанные обозначения могут комбинироваться в более сложные. Например: {обладать|иметь|{есть}+у} — здесь представлена опциональная альтернатива (т.е. альтернатива, вхождение которой в текст необязательно), один из элементов данного набора также является составным: {есть}+у — это значит, что слово «есть» является опциональным и необязательно может присутствовать в тексте. (4) [] квадратными скобками ограничивается набор словосочетаний, одно из которых обязательно должно присутствовать в тексте. Например, [работать|вести+себя|функционировать|действовать].

Таким образом, шаблон стем-формы это формат обобщенного — представления стем-формы, соответствие которому позволит отнести заданное на входе предложение к одному из типов, а также выделить необходимые объекты интереса. В данном шаблоне используются специальные символы, описанные выше, а так же элемент ОИn, где n — это порядковый номер (в интервале объекта интереса поискового запроса. ОИ [1,3]) — характеристический объект, позволяющий определить тип вопроса, ОИ2 и ОИ — это объекты интереса, аспекты которых необходимо найти.

Рассмотрим более подробно структуру и конкретные примеры входных запросов, представленные в таблице 2.1, для того, чтобы затем перейти непосредственно к формализации предположений о рассматриваемом подъязыке представления аспектно-ориентированных поисковых запросов. В таблице 2.1 из соображений компактности приведена лишь часть запросов.

Полный список запросов находится в приложении 1.

Таблица 2.1. Типы вопросов, обобщенное представление стем-формы и примеры входов Тип вопроса Шаблон стем-формы Примеры входов Описание как + # + ОИ1(глаг.) + ОИ2 Как в целом устроен Х?

структуры ОИ1 устраивать, Как структурирован Х?

= структурировать, Как организован Х?

организовывать.

из+что+состоять+ОИ2 Из чего состоит Х?

Описание ОИ1(сущ.) + Какие основные функции {какой}+ # + функций (что {выполнять|возложенный+на|{ест выполняет Х?

делает) ь}+у|иметь}+ОИ2 важные обязанности у Х?

ОИ1= функция, обязанность Какие функции имеет Х?

Какова роль Х в {каков}+роль+ОИ производстве металла?

за+что+ # +отвечать+ОИ2 За что в основном отвечает Х?

Описание какой+ ОИ1(сущ.)+ Какую миссию выполняет Х?

# + назначения Какую цель преследует Х?

[выполняет|преследует]+ОИ2?

ОИ1=миссия, цель зачем+нужный+ОИ2 Зачем нужен Х?

для+что+ОИ1(глаг.)+ОИ2 Для чего предназначен Х?

ОИ1=предназначать, создавать, Для чего создан Х?

сконструировать, построить, Для чего разработан Х?

разработать, спроектировать Для чего спроектирован Х?

Описание на+что+способный+ОИ2 На что способен Х?


возможностей что+мочь+ОИ2 Что может Х?

Формализация предположений о входном языке аспектно 2. ориентированных поисковых запросов Для корректной обработки и анализа входных поисковых запросов системы необходимо формально описать структуру входных текстов семантического анализатора. Теоретической основой анализа будет являться понятие контекстно-свободной грамматики (КС-грамматики).

Как известно, КС-грамматикой называется упорядоченная четверка G вида (N, T, s, P), где N и T — непересекающиеся конечные множества символов (т.е.

алфавиты), называемых нетерминальными (нетерминалами) и терминальными (терминалами) соответственно;

P — конечное множество выражений вида y z, где y принадлежит N, z — цепочка (возможно, пустая) в алфавите, являющимся объединением N и T;

s – выделенный символ из N, называемый начальным символом. Из соображений компактности будем рассматривать КС грамматики в форме Бэкуса-Наура [31].

Определение 2.6. Пусть A — произвольный алфавит. Тогда КС грамматику вида (N, T, s, P) назовем КС-грамматикой с опорным алфавитом A когда найдется такой нетерминал y N, что система продукций P включает подмножество продукций, состоящее из всех продукций вида y b, где b — произвольный символ из алфавита A.

Построим КС-грамматику в форме Бэкуса-Наура с опорным алфавитом A0, являющимся объединением русского алфавита, латинского алфавита и множества, состоящего из запятой, цифр '1', '2', '3', '4', '5', '6', '7', '8', '9', '0' и спецсимволов !, @, #, $, %, ^, &, *, (, ), _, +, ~, {, }, [, ], /, |, :, «, »,,, -, №, ;

, :, =, \,., ?. Множества нетерминалов и терминалов этой грамматики обозначим через N0 и T0 соответственно.

Тогда пусть множество, состоящее из символов N0 текст,вопрос_описания_структуры,вопрос_описания_характеристик,в опрос_описания_работы,вопрос_описания_функций,вопрос_описания_наз начения,вопрос_описания_применения,вопрос_описания_принадлежности,вопрос_описания_различий,вопрос_описания_общих_характеристик,в опрос_описания_особенностей,вопрос_описания_возможностей,специфич еская_цепочка_1,специфическая_цепочка_2,специфическая_цепочка_3, специфическая_цепочка_4,специфическая_цепочка_5,дополнительное_су ществительное_1,специфическая_цепочка_6,смешанный_элемент_1,спе цифическая_цепочка_7,дополнительный_глагол_1,дополнительный_глаго л_2,специфическая_цепочка_8,специфическая_цепочка_9,специфическ ая_цепочка_10,дополнительная_цепочка_1,дополнительное_существитель ное_2,опциональная_цепочка_2,специфическая_цепочка_11,вопросител ьное_местоимение,дополнительный_глагол_3,возможный_предлог_1,во зможный_предлог_2,специфическая_цепочка_12,дополнительная_цепочка _2,опциональная_цепочка_3,специфическая_цепочка_13,специфическая _цепочка_14,специфическая_цепочка_15,дополнительная_цепочка_3,оп циональная_цепочка_4,возможное_вопросительное_местоимение,специфи ческая_цепочка_16,специфическая_цепочка_17,дополнительная_цепочка_ 4,дополнительная_цепочка_5,опциональная_часть_вопроса,дополнител ьная_цепочка_6,специфическая_цепочка_18,возможное_вопросительное_с лово,опциональная_цепочка,набор_символов, символ.

Пусть T0 - множество, состоящие из символов:

устраивать, структурировать, организовывать, устройство, структура, организация, составляющая, составляющая часть, компонент, элемент, характеристика, свойство, показатель, работать, функционировать, действовать, работа, функционирование, действие, принцип, правило, функция, обязанность, выполнять, возложенный на, наделять, миссия, цель, назначение, предназначение, роль, выполнять, преследовать, являться, есть, предназначать, создавать, сконструировать, построить, разрабатывать, спроектировать, применять, использовать, задействовать, употреблять, эксплуатировать, утилизировать, пользоваться, применяться, использоваться, употребляться, эксплуатироваться, применение, использование, эксплуатация, употребление, утилизация, пользование, задействование, принцип, правило, стандарт, подход к, ситуация, случай, группа, класс, категория, тип, кто, что, относиться, принадлежать, входить, представлять, в, отличаться, различаться, несхожий, непохожий, расхожий, несоответствовать, расходиться, и, от, на, с, отличие, несхожесть, расхождение, несовпадение, несоответствие, непохожесть, разница, аналогичность, схожесть, сходство, похожесть, похожий, схожий, подобный, аналогичный, особенность, уникальность, отличительная черта, специфика, уникальный, особенный, отличительный, специфичный, поведение, вести себя, в ситуация, при, при обстоятельство, в обстоятельство, в условие, возможность, какой, каков, обладать, иметь, у, есть у.

Пусть P0 - система продукций, заданная в приложении 2, причем P включает следующие продукции:

текст::=вопрос_описания_структуры|вопрос_описания_характерист ик|вопрос_описания_работы|вопрос_описания_функций|вопрос_описан ия_назначения|вопрос_описания_применения|вопрос_описания_принадле жности|вопрос_описания_различий|вопрос_описания_общих_характерист ик|вопрос_описания_особенностей|вопрос_описания_возможностей;

вопрос_описания_структуры::=какнабор_символовспецифическая_ц епочка_1набор_символоввозможное_вопросительное_словонабор_симв оловспецифическая_цепочка_2опциональная_цепочканабор_символов |возможное_вопросительное_словонабор_символовспецифическое_сущест вительноенабор_символов|из что состоять набор_символов|из какойнабор_символовспецифическая_цепочка_2состоятьнабор_символо в;

специфическая_цепочка_1::=устраивать|структурировать|организовывать;

специфическая_цепочка_2::= устройство|структура|организация|составляющая|составляющая часть|компонент|элемент;

вопрос_описания_характеристик::=возможное_вопросительное_слово набор_символовспецифическая_цепочка_3опциональная_цепочканаб ор_символов|возможное_вопросительное_словонабор_символовспециф ическая_цепочка_3набор_символов;

специфическая_цепочка_3::= характеристика|свойство|показатель;

возможное_вопросительное_слово::= |какой|каков;

опциональная_цепочка::= |обладать|иметь| у|есть у;

набор_символов::= |набор_символовнабор_символов|символ;

символ ::= b … символ ::= bn, где {b1,...,bn } A Gr0 = (T0, N 0, текст, P0 ) Тогда контекстно-свободную грамматику с опорным алфавитом A0 назовем грамматикой входного языка запросов.

Необходимость использования произвольных символов алфавита A0 обусловлена тем, что в специализированных названиях каких-либо объектов могут присутствовать сочетания различных символов из разных алфавитов.

Помимо этого, набор символов может представлять слово, имеющее определенный смысл, однако при анализе входных запросов введение такой сущности необязательно, т. к. анализируется вхождение в запрос определенных индикаторов, которые представляются последовательностью символов русского алфавита.

Пример. Пусть В1 = «Каковы главные характеристики алгоритма Дейкстры?». Тогда в грамматике с предложенной системой продукций можно выполнить следующую систему замен нетерминалов на правые части продукций, приводящую к выводу цепочки, дающей обобщенное описание структуры вопроса В1. В данном примере опущены промежуточные посимвольные преобразования нетерминала набор_символов.

текст = вопрос_описания_характеристик, вопрос_описания_характеристик = возможное_вопросительное _словонабор_символовспецифическая_цепочка_3опциональная_цепочк анабор_символов, возможное_вопросительное_слово=каков, специфическая_цепочка_3= характеристика, опциональная_цепочка=, набор_символов=главные|алгоритма Дейкстры.

Из примера видно, что текст =Expr1, где Expr1 — цепочка вида каковнабор_символовхарактеристиканабор_символов.

Пусть Gr0 = (T0, N 0, s 0, P0 ) - контекстно-свободная грамматика с опорным алфавитом множеством нетерминальных символов A0, N 0,множеством терминальных символов T0, множеством продукций P0 и начальным символом s0. Тогда через Linp (Gr0 ) обозначим множество всех цепочек в алфавите T0, выводимых из s0 с помощью продукций из P0. Тогда определим входной язык запросов Linput как множество всех таких цепочек str, что стем-форма цепочки strk является выражением языка Linp (Gr0 ).

Таким образом, выше был предложен новый метод формального описания структуры входных текстов анализатора аспектно-ориентированных естественно-языковых вопросов на основе аппарата КС-грамматик.

Основные идеи разработки алгоритмов определения типа и 2. объектов интереса входных запросов Рассмотрим основные идеи, лежащие в основе алгоритма определения типа аспектно-ориентированного вопроса. Некоторые детали алгоритмов обусловлены тем, что проектирование производится для языков объектно ориентированной парадигмы. Анализ структуры входных запросов (приложение 1), которые являются аспектно-ориентированными вопросами, позволил выявить общие черты, характерные для многообразия представленных примеров. Входные запросы данного типа в большинстве случаев имеют общую структуру, а отличаются лишь характеристическим словом, которое позволяет определить, к какому именно типу относится входной запрос. Данное наблюдение позволяет отказаться от разбора входного текста по словам с детальным морфологическим анализом каждого из слов-участников, а также от выявления взаимосвязей между ними. Анализ на основе разбора последовательности слов в запросах определенного типа выполняется в качестве исключения из общего правила.

В запросах присутствуют слова, которые необходимо исключить из рассмотрения, т. к. они не несут какой-либо смысловой нагрузки. Примерами таких слов являются «какой», «в», «как», «каков» и т. д. Слова такого рода будем называть терминаторами по аналогии с нуль-символами нуль терминированных строк [11]. Помимо данных двух основных типов слов участников запроса, были выделены дополнительные участники, которые позволяют более точно анализировать структуру входного текста и выделять его значимые части. Целесообразно выделить специализированный индикатор, который позволит определять к какому из типов значимых при разборе слов участников относится каждый из ключевых наборов слов, характерных для определенного типа запроса.


В силу того, что для каждого типа запроса возможно выделить характеристические слова, видится разумным разместить данные наборы слов в отдельной структуре данных, предварительно установив соответствие каждого набора определенному типу запросов. Назовем такую структуру данных Словарь и рассмотрим ее поля: Слова_Инд — массив слов-индикаторов в базовой форме;

Тип_Запр — тип запроса, к которому относится данный массив слов-индикаторов;

Тип_Инд — тип (характер) слов-индикаторов.

Словари удобно использовать для хранения различных наборов слов индикаторов с разбиением по типам и принадлежности видам запросов.

Словари создаются и наполняются до начала работы алгоритма. Доступ к определенному полю словаря осуществляется при помощи оператора «::»

(Например, чтобы получить тип запроса, необходимо использовать следующую запись: Словарь::Тип_Запр). Будем считать, что получить определенную запись(словарную статью) словаря можно при помощи следующей записи:

Словарь::Получить_Словарь(Тип_Запроса, Тип_Инд), где Тип_Запроса — это тип запроса, к которому относится словарь. Обозначения типов запросов представлены в таблице 2.2. Тип_Инд — это тип индикатора, к которому относятся слова-индикаторы в данной словарной статье.

Таблица 2.2. Символы, соответствующие типам запросов Тип запроса Символ Описание структуры ОП_СТР Описание характеристик ОП_ХАР Описание работы ОП_РАБ Описание функций ОП_ФУН Описание назначения ОП_НАЗ Описание применения ОП_ПРИМ Описание принадлежности ОП_ПРИН Описание различий ОП_РАЗ Описание общих характеристик ОП_ОБЩ Описание особенностей ОП_ОСОБ Описание возможностей ОП_ВОЗМ Рассмотрим типы индикаторов (Таблица 2.3):

Таблица 2.3. Типы специализированных индикаторов для определения характера значимых слов - участников поискового запроса Название Описание индикатора ХС Характеристическое слово первого типа, по которому можно определить тип (либо сузить диапазон типов) вопросов.

ХС_2 Характеристическое слово второго типа, которое позволяет более точно определить тип вопроса, если найдено слово первого порядка.

ТР Слова, исключенные из рассмотрения. Выполняют роль терминаторов при анализе входных запросов, служа разделителями значимых частей запроса.

ДОП_ТР Дополнительные ТР. Необходимы в случаях, когда по конкретным незначимым словам можно определить смысл следующего за ними текста УК Дополнительные указатели, которые используются при анализе некоторых типов запросов. Используются как и ДОП_ТР, однако имеют другую семантику при разборе текста.

СОЕД_УК Союзы для запросов с двумя объектами интереса, где запрашивается информация о различиях либо сходствах этих объектов.

СТ_С Начальное слово запроса, позволяющее сузить диапазон возможных типов запросов для некоторых уникальных структур предложений.

Описание алгоритма получения словаря для определенных типов запросов и типов индикаторов доступно в приложении 4.

Для каждого типа вопроса все перечисленные в таблице 2.3 индикаторы ХС и ХС_2 являются уникальными, а все остальные могут иметь совпадающие символы. Рассмотрим фрагмент множества записей, соответствующих записям (словарным статьям) в словаре (Таблица 2.4). Полный список записей находится в приложении 3.

Таблица 2.4. Фрагмент записей словарей, содержащих слова-участники и соответствующие им типы индикаторов Тип вопроса Тип Множество слов-участников индикатора Описание ХС "устраивать", "структурировать", "организовы структуры вать", "устройство", "структура", "организа-ция", "составляющая", "компонент", "элемент" Описание ТР "иметь", "состоять", "из", "что", "у", "обладать", структуры "есть", " часть" Описание СТ_С "как", "из" структуры Описание ХС "характеристика", "свойство", "показатель" характеристик Описание ТР "иметь", "что", "у", "обладать", "есть" характеристик Полный набор словарных статей обеспечивает достаточное количество разнообразных флагов для анализа поступающих на вход запросов.

Для корректной работы алгоритма необходимо выполнить первоначальную обработку входного текста, очистив его от лишних пробелов, а также знаков препинания, которые в предлагаемом подходе не играют никакой роли. Также необходимо произвести разбивку входного текста на отрывки, разделенные пробелами, которые в дальнейшем будут трактоваться как слова. После проведения первичных преобразований необходимо первичное расширение входного массива слов посредством дополнения каждого слова его базовыми формами (одно слово может иметь несколько базовых форм). Рассмотрим структуру данных, которая называется Расш_Слово и имеет следующие поля:

Знач — значение слова, т. е. неизменное слово в том виде в котором оно присутствует во входном запросе;

Баз_Формы — массив базовых форм, если таковые удалось обнаружить.

Создание экземпляра данной структуры будет описываться в тексте следующим образом: Расш_Слово.создать(Строка, Мас_Строк), где Строка — это строка, которая устанавливается в качестве значения полю Знач, а Мас_Строк — это массив строк, который устанавливается в качестве значения полю Баз_Формы.

Рассмотрим алгоритм «Первичная_Обработка_Запроса», необходимый для приведения поступившего на вход текста в форму, удобную для обработки рассматриваемыми далее алгоритмами. Для получения базовых форм слова используется внешняя программа И.Сегаловича mystem[88], используемая следующим образом: на вход подается некоторое слово, на выходе создается массив слов, являющихся базовыми формами входного слова. Обращение к данной программе будет описываться следующим образом:

Баз_Формы:=mystem(текст), где Баз_Формы — это переменная (массив) для хранения результатов работы программы mystem, а текст — подаваемое на вход слово, базовые формы которого необходимо получить. Описание алгоритмов «Очистить_Запрос» и «Первичная_Обработка_Запроса» доступно в приложении 4.

Определим метод «Содержит_Стем», который возвращает истину или ложь в зависимости от того, содержится ли поданное на вход слово в массиве базовых форм слова Используется следующим образом:

Баз_Формы.

Слово::Содержит_Стем(набор_символов), где Слово — объект, имеющий тип Расш_Слово, а набор_символов — некоторый текст, который необходимо обнаружить в массиве Баз_Формы.

Другим второстепенным активно используемым алгоритмом является алгоритм определения вхождения одной из базовых форм слова в определенный словарь. Описание алгоритма доступно в приложении 4.

Данные алгоритмы активно используются как часть алгоритмов определения типа запроса и объектов интереса, рассматриваемых далее.

2.10 Алгоритмы определения типа аспектно-ориентированного вопроса и его объектов интереса Алгоритм определения типа запроса 2.10. Определение типа запроса происходит в два этапа: на первом этапе происходит попытка сузить диапазон рассматриваемых типов запросов, к которым может принадлежать входной запрос. Это происходит при помощи проверки вхождений начальных слов запроса в словарь, содержащий стартовые слова-участники. На втором этапе происходит анализ входного запроса на соответствие множеству типов, к которым он может относиться. Если после первого этапа диапазон рассматриваемых типов не был сужен, то рассматриваются все типы запросов.

Рассмотрим алгоритм определения принадлежности запроса к тому или иному типу для уменьшения объема массива рассматриваемых типов запросов.

Все стартовые слова, находящиеся в словаре, имеют одну базовую форму, поэтому на вход алгоритма будет подаваться слово в базовой форме.

Обращение к полям структуры Словарь будет происходить при помощи символа «::». Описание алгоритма определения типа запроса по стартовому слову находится в приложении 4.

После того, как получен результат работы алгоритма определения множества допустимых типов запроса по стартовому слову, можно переходить к однозначному определению типа запроса, поданного на вход.

Если алгоритм определения типов запроса по стартовому слову вернул пустой массив, то на вход алгоритму определения типа запроса подается множество всех типов запросов, если же результат был не пустым, то на вход подается этот результат. Из соображений компактности, часть алгоритма, содержащая однообразные проверки по словарям, не приводится, однако полный вариант доступен в приложении 4.

Внешняя спецификация алгоритма «Опр_ТЗ»

Назначение: Алгоритм последовательно проверяет вхождение каждого слова запроса в словари характеристических слов. Как только вхождение обнаружено, то тип запроса определен. Исключение составляют запросы с типом «ОП_ОСОБ», которые можно спутать с запросами типа «ОП_РАБ», но данная ситуация проверяется в алгоритме. Пример такого запроса: «Как работает генератор в условиях высокого давления?».

Вход: Запрос — входной запрос, представленный в виде массива элементов типа Расш_Слово;

Доп_Типы — массив допустимых типов запроса;

Тип_Инд — тип индикатора, по которому происходит анализ принадлежности слова тому или иному словарю.

Выход: Тип_Запр — тип запроса.

Полное описание алгоритма доступно в приложении 4.

Алгоритм определения объектов интереса запроса 2.10. Рассмотрим алгоритм определения объектов интереса поискового запроса.

Алгоритм декомпозируется на один общий и несколько частных случаев разбора структуры входного запроса, определения его объектов интереса и некоторых вспомогательных объектов. В общем случае разбор входного запроса осуществляется при помощи алгоритма «Разбор_Общего_Случая», в частных случаях разбор происходит при помощи специализированных алгоритмов. Такими исключениями являются запросы описания принадлежности, описания особенностей, а также запросы с двумя объектами интереса (описание различий и общих характеристик). Полное описание всех используемых подалгоритмов доступно в приложении 4.

Рассмотрим внешнюю спецификацию основного алгоритма определения объектов интереса запроса, использующего описанные в приложении подалгоритмы. Полное описание алгоритма доступно в приложении 4.

Внешняя спецификация алгоритма «Опр_ОИ»

Назначение: Алгоритм предназначен для определения объектов интереса поисковых запросов в зависимости от их типа. Перед стандартной обработкой запроса происходит проверка некоторых уникальных структур запроса, характерных для каждого типа. В случае, если требуется специализированный разбор запроса, используется соответствующий подалгоритм.

Вход: Запрос — массив элементов типа Расш_Слово, представляющий входной запрос;

Тип_Запр — тип запроса.

Выход: Отличит_Слово — слово-индикатор, по которому был определен тип запроса. Имеет тип Расш_Слово;

ОИ — массив элементов типа Расш_Слово, представляющий объект интереса. Объект интереса может состоять из нескольких слов, поэтому все они должны быть возвращены как значимые;

ОИ2 — массив элементов типа Расш_Слово, представляющий второй объект интереса. Возвращается только для запросов типа «ОП_ОБЩ» и «ОП_РАЗ»;

Доп_ОИ — дополнительный значимый объект интереса, влияющий на смысл запроса. Например, в запросе «Как в металлургии применяют газ?», таким объектом будет являться слово потому что «металлургия», запрашивается информация о применении газа именно в данной отрасли.

Возвращается не для всех типов запросов.

Внутренние переменные: СловарьN — N соответствует натуральному числу. Словарь, используемый для промежуточного хранения выборки из множества словарей.

2.11 Разработка алгоритма построения семантического расширения аспектно-ориентированного поискового запроса Рассмотрим алгоритм построения семантически расширенного множества запросов ExtSet «Расширение_АО_Запр». Алгоритм состоит из описанных выше подалгоритмов и использует новый подалгоритм «Расширение_АО_Запр». Рассмотрим данный подалгоритм.

Внешняя спецификация алгоритма «Расширение_АО_Запр»

Алгоритм предназначен для построения множества Назначение:

семантически преобразованных запросов ExtSet.

Вход: Тип_Запр — тип запроса;

Отличит_Слово - слово-индикатор, по которому был определен тип запроса;

Отличит_Слово — слово-индикатор, по которому был определен тип запроса;

ОИ — массив элементов типа Расш_Слово, представляющий объект интереса;

ОИ2 — массив элементов типа представляющий второй объект интереса;

Расш_Слово, Доп_ОИ — дополнительный значимый объект интереса, влияющий на смысл запроса.

Выход: ExtSet — множество семантически преобразованных запросов.

Внутренние переменные: Син - массив слов, являющихся синонимами характеристического слова;

Гип - массив слов, являющихся гипонимами характеристического слова;

Гипер - массив слов, являющихся гиперонимами характеристического слова;

Объекты — строка, представляющая собой конкатенацию строк, представляющих объекты интереса;

Асп — массив аспектов;

Рез_запр — строка, представляющая собой один из преобразованных запросов, элементов множества Ext_Set.

Алгоритм «Расширение_АО_Запр»

нач Син := Гип := Гипер := nil Построение_Концептуального_Окружения(Тип_Запр, Отличит_Слово, Син, Гип, Гипер) Асп := Извлечение_Аспектов(Тип_Запр, ОИ) i := j := k := n := Ext_Set := пустой_массив;

Объекты := пустая_строка пока ОИ(n) nil цикл Объекты := Объекты +' '+ОИ(n)::Баз_Формы(0) n := n+ кцикл если ОИ2 nil m := пока ОИ2(m) nil цикл Объекты := Объекты +' '+ ОИ2(m)::Баз_Формы(0) m := m+ кцикл кесли пока Асп(j) nil цикл Рез_Запр := Отличит_Слово+' '+Объекты+' '+Асп(j)+' '+Доп_ОИ Ext_Set(k) := Рез_Запр k := k+1;

j := j+ кцикл j := пока Син(i) nil цикл пока Асп(j) nil цикл Рез_Запр := Син(i)+' '+Объекты+' '+Асп(j)+' '+Доп_ОИ Ext_Set(k) := Рез_Запр k := k+1;

j := j+ кцикл;

i := i+ кцикл;

i := j := пока Гип(i) nil цикл пока Асп(j) nil цикл Рез_Запр := Гип(i)+' '+Объекты+' '+Асп(j)+' '+Доп_ОИ Ext_Set(k) := Рез_Запр k := k+1;

j := j+ кцикл;

i := i+ кцикл;

i := j := пока Гипер(i) nil цикл пока Асп(j) nil цикл Рез_Запр := Гипер(i)+' '+Объекты+' '+Асп(j)+' '+Доп_ОИ Ext_Set(k) := Рез_Запр k := k+1;

j := j+ кцикл;

i := i+ кцикл кон Данный алгоритм выделен в отдельный подалгоритм с целью его использования в итоговом алгоритме, рассматриваемом в параграфе 4.2.

2.12 Обсуждение разработанных алгоритмов Следует отметить следующие важные особенности разработанных алгоритмов определения типа и объектов интереса поискового запроса:

• алгоритмы базируются на математической модели проблемно ориентированной системы первичных единиц концептуального уровня, описанной при помощи формальных средств, что делает их независимыми от предметной области и платформы реализации;

• применяемый подход на основе использования словарей слов индикаторов позволяет более гибко манипулировать алгоритмом без его изменения, т. е., внося изменения в словарь, можно влиять на результаты работы алгоритма без вмешательства в его логику;

• алгоритм определения типа запроса на первом шаге использует специальный подалгоритм, позволяющий сузить спектр рассматриваемых типов запросов, что значительно сказывается на результатах работы (уменьшается количество проверяемых вариантов). Также в алгоритме специальным образом обрабатываются смешанные ситуации, когда присутствуют несколько характеристических слов-индикаторов разного типа;

• алгоритм определения объектов интереса запроса использует несколько подалгоритмов, специфических для тех или иных ситуаций, возникающих при анализе запросов. Специальным образом обрабатываются: запросы с двумя объектами интереса;

запросы, в которых объект интереса расположен перед характеристическим словом;

запросы описания принадлежности и особенностей (в таких запросах присутствует дополнительный объект интереса).

Следует отметить следующую особенность алгоритма определения типа запроса: тип запроса, определенный данным алгоритмом, в общем случае является приблизительным, потому что в данной работе не рассматривается семантическая многозначность введенных запросов, т. е. отсутствует распознавание различий между запросами вида «Когда прибегают к использованию шифрования», «Когда инвесторы прибегают к помощи кредитов», «Когда спортсмены прибегают к финишу» и т. д.

Алгоритм построения концептуального окружения характеристического слова и алгоритм получения аспектов для объекта интереса, по сути, лишь извлекают информацию из аспектно-ориентированной базы знаний (АОБЗ), в которой она хранится. За целостностью и полнотой информации в АОБЗ должен следить инженер по знаниям, являющийся специалистом той предметной области, для которой она используется.

2.13 Выводы по главе В данной главе были рассмотрены важные для приложений, но недостаточно изученные (в смысле компьютерной обработки) естественно-языковые вопросы и разработан новый подход к семантическому поиску, основанный на семантическом преобразовании данных типов запросов в форму, позволяющую системе поиска по ключевым словам находить более релевантные семантически) документы, содержащие информацию об объектах интереса поисковых запросов.

Были проанализированы и типизированы аспектно-ориентированные запросы (АО-запросы), а также определены первичные информационные единицы для разработки алгоритма анализа АО-запросов.

Введено формальное понятие расширенного концептуального базиса, позволяющее, по сравнению с введенным В.А. Фомичевым в теории К представлений понятием концептуального базиса:

учитывать множество аспектов, принадлежащих тому или иному понятию;

строить концептуальное окружение того или иного понятия при помощи функции «детерминант концептуального окружения»

На основе математической модели проблемно-ориентированной системы первичных единиц концептуального уровня (задающей класс расширенных концептуальных базисов) был разработан оригинальный метод анализа и семантического расширения аспектно-ориентированных запросов.

Предложен новый метод формального описания структуры входных текстов анализатора аспектно-ориентированных естественно-языковых вопросов на основе аппарата контекстно-свободных грамматик.

Разработаны алгоритмы определения типа и объектов интереса аспектно ориентированных поисковых запросов, использующие подалгоритмы обработки специфических типов данных запросов. Были описаны назначение и общая методика работы алгоритма построения концептуального окружения характеристических слов запроса и алгоритма получения аспектов для заданных понятий, представляющих объекты интереса поисковых запросов.

Описано назначение и общие принципы работы алгоритма построения множества семантически преобразованных поисковых запросов.

Глава 3. Разработка алгоритмов семантического преобразования обобщенных запросов на основе математических моделей компонентов базы знаний В данной главе анализируются запросы о достижении целей, строится математическая модель компонента базы знаний поисковой системы, необходимого для семантического преобразования вопросов о достижении/недостижении целей.

Предлагается математическое описание многообразия шаблонов семантической трансформации, порожденных рассматриваемой концептуальной базой целей и множеством символов, интерпретируемых как значения морфологических признаков словоформ. Разрабатывается метод преобразования вопросов о достижении целей в множество производных запросов на основе концептуальной базы целей и набора шаблонов семантической трансформации.

Проводится анализ и разработка метода и алгоритма построения семантического расширения вопросов об изменениях множеств. Строится математическая модель компонента базы знаний поисковой системы, необходимого для семантического преобразования вопросов об изменениях множеств. Для этого определен класс формальных объектов, названных базами знаний об изменениях множеств.



Pages:     | 1 || 3 | 4 |   ...   | 5 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.