авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:   || 2 | 3 |
-- [ Страница 1 ] --

Сборник тезисов и статей Российско-Германской молодежной

дистанционной научной школы «Актуальные и перспективные направления

создания систем, обеспечивающих семантический анализ данных в

режиме

реального времени»

27 сентября 2012 года

Москва 2012

В настоящем сборнике материалы отражают результаты работ, соответствующих

направлению по обеспечению привлечения молодежи в сферу науки, образования и высоких технологий, а также закреплению ее в этой сфере. Результаты этих работ доложены на статей Российско-Германской молодежной дистанционной научной школы «Семантические технологии», организованной ведущим ВУЗом России – Национальным исследовательским технологическим университетом «МИСиС», которая проходила с 27ого сентября 2012 года.

Сборник статей и тезисов Российско-Германской молодежной дистанционной научной школы «Семантические технологии» разработан в рамках направления федеральной целевой программы «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы во исполнение государственного контракта от 07.07.2011 г. №14.741.11.0231 «Организационно-техническое обеспечение проведения всероссийской научной школы «Научная молодежь в развитии сети молодежных инновационных центров и популяризации научных знаний».

Сборник может представлять интерес для студентов, аспирантов и молодых ученых, обучающихся и работающих в передовых областях науки.

УДК 81.(33+37) Содержание СТАТЬИ ЛЕКТОРОВ ШКОЛЫ....................................................................................................... О СОЗДАНИИ НОВОГО ПОКОЛЕНИЯ ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМ СЕМАНТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА................................................................................... ТЕХНОЛОГИИ ИЗВЛЕЧЕНИЯ ИЗ ТЕКСТОВ ИНФОРМАЦИИ О СОБЫТИЯХ В РЕАЛЬНОМ ВРЕМЕНИ....................................................................................................................... ПРОБЛЕМЫ РАЗРАБОТКИ ПРИКЛАДНОЙ ОНТОЛОГИИ ДЛЯ ОБЛАСТИ НАНОМАТЕРИАЛОВ.......................................................................................................................... ОТНОШЕНИЯ ЧАСТЬ-ЦЕЛОЕ: ТЕОРИЯ И ПРАКТИКА.............................

............................ ДИНАМИЧЕСКАЯ ИНФОКОГНИТИВНАЯ МОДЕЛЬ ВЕРБАЛЬНОГО СОЗНАНИЯ.... СОВРЕМЕННЫЕ МЕТОДЫ СБОРА, ХРАНЕНИЯ И АНАЛИЗА ДАННЫХ ПОЛЬЗОВАТЕЛЕЙ ОНЛАЙНОВЫХ СОЦИАЛЬНЫХ СЕТЕЙ................................................ СЕМИОТИЧЕСКАЯ ГЕТЕРОГЕННОСТЬ УСТНО-РЕЧЕВОЙ КОММУНИКАЦИИ......... ТЕЗИСЫ УЧАСТНИКОВ................................................................................................................. ИГРЫ В АССОЦИАЦИИ – КЛЮЧ К ТАЙНАМ СОЗНАНИЯ.................................................. ПРОЦЕСС ТОКЕНИЗАЦИИ КАК ЧАСТЬ СЕМАНТИЧЕСКОГО АНАЛИЗА..................... РАЗРАБОТКА СИСТЕМЫ АВТОМАТИЧЕСКОГО СУРДОПЕРЕВОДА И ЕЁ РЕАЛИЗАЦИЯ В ВИДЕ МОБИЛЬНОГО ПРИЛОЖЕНИЯ........................................................ АВТОМАТИЗИРОВАННАЯ КОГНИТИВНАЯ МОДЕЛЬ В ЗАДАЧЕ ЛОКАЛЬНОЙ ПРЕДОБРАБОТКИ ПОИСКОВЫХ ЗАПРОСОВ........................................................................... ИЗВЛЕЧЕНИЕ СЕМАНТИЧЕСКИХ ОТНОШЕНИЙ ИЗ СТАТЕЙ ВИКИПЕДИИ С ПОМОЩЬЮ АЛГОРИТМОВ БЛИЖАЙШИХ СОСЕДЕЙ......................................................... МЕТРИКИ СЕМАНТИЧЕСКОЙ БЛИЗОСТИ В ПРОГРАММНОМ КОМПЛЕКСЕ SERELEX.................................................................................................................................................. DESIGN OF THE EXTERNAL INTERCULTURALLY ENRICHED COLLABORATION SCRIPT FOR STUDENTS' COLLABORATIVE LEARNING IN CULTURALLY HETEROGENEOUS GROUPS IN COMPUTER-MEDIATED COLLABORATION.............. КОГНИТИВНЫЙ СИНКРЕТИЗМ И ИНТЕРФЕРЕНЦИЯ ПОНЯТИЙ В СОВРЕМЕННОМ ЛИНГВИСТИЧЕСКОМ ДИСКУРСЕ.............................................................................................. ИСПОЛЬЗОВАНИЕ N-ГРАММНОЙ ЯЗЫКОВОЙ МОДЕЛИ ДЛЯ ИЗУЧЕНИЯ ЗНАМЕННЫХ ПЕСНОПЕНИЙ....................................................................................................... СЕМАНТИКА В МУЗЫКАЛЬНЫХ ЗНАКОВЫХ СИСТЕМАХ............................................. ПРИМЕНИМОСТЬ ЛИНГВОАНАЛИТИЧЕСКИХ СИСТЕМ................................................. ДЛЯ СОЗДАНИЯ АНАЛИТИЧЕСКИХ ПРИЛОЖЕНИЙ......................................................... ФРЕЙМОВЫЙ ПОДХОД КАК СПОСОБ ФОРМИРОВАНИЯ ИНФОРМАЦИОННОЙ КОМПЕТЕНТНОСТИ......................................................................................................................... СПЕЦИАЛЬНАЯ ЛЕКСИКА ИНТЕГРАТИВНЫХ СФЕР ЯЗЫКОЗНАНИЯ:

ОСОБЕННОСТИ КОГНИТИВНО-СЕМАНТИЧЕСКОГО АНАЛИЗА.................................. ИСПОЛЬЗОВАНИЕ АССОЦИАТИВНЫХ ТЕЗАУРУСОВ В ЗАДАЧАХ,........................... СВЯЗАННЫХ С ФЕНОМЕНОМ “КОНЧИКА ЯЗЫКА”........................................................... DESIGN OF EFFICIENT INFORMATION EXTRACTION PIPELINES................................... СОЗДАНИЕ УЧЕБНО-СПРАВОЧНОЙ ВЕРСИИ БД «ЯЗЫКИ МИРА»............................... СЕМАНТИЧЕСКАЯ ОБРАБОТКА ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ ОБЛАЧНЫХ ВЫЧИСЛЕНИЙ (ДЛЯ СФЕРЫ НАНОМАТЕРИАЛОВ И НАНОТЕХНОЛОГИЙ)............ БИБЛИОТЕКИ СЕМАНТИЧЕСКИХ ШАБЛОНОВ БИЗНЕС-СОБЫТИЙ........................... СТАТЬИ ЛЕКТОРОВ ШКОЛЫ О СОЗДАНИИ НОВОГО ПОКОЛЕНИЯ ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМ СЕМАНТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА Поляков Владимир Николаевич (НИТУ "МИСиС", ИЯЗ РАН) Анисимов Иван Сергеевич (НИТУ "МИСиС") Пономарев Андрей Дмитриевич (НИТУ "МИСиС") Соловьев Валерий Дмитриевич (К(П)ФУ) Аннотация:

В работе представлены результаты первого этапа НИОКР, направленного на создание нового поколения интеллектуальных систем семантической обработки текста.

Сформулированы принципы, архитектура, состав задач, результаты выбора инструментальных средств для создания программной библиотеки.

Ключевые слова КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА, ОБРАБОТКА ТЕКСТА, ПАРАЛЛЕЛЬНЫЕ ВЫЧИСЛЕНИЯ ВВЕДЕНИЕ Направление компьютерной лингвистики, связанное с обработкой текстов на естественном языке (ОЕЯТ), в последнее время стало чрезвычайно востребованным. Это обусловлено огромными объемами электронных текстов, накопленных в сети Интернет, проникновением технологий поиска, машинного перевода, обработки текста в различные мобильные и портативные гаджеты. Важными потребителями технологий ОЕЯТ являются сектор корпоративного бизнеса, СМИ, наука и образование. Потенциал использования этих технологий расширяется с каждым днем и в сочетании с технологиями обработки речи, имеет все шансы стать таким же широко распространенным сектором информационных технологий (ИТ), как, например, компьютерная графика.

Работа поддержана грантами Фонда FASIE (программа СОФТ-2012, контракт №10151р/17593 (28.04.2012), программа У.М.Н.И.К. контракт №16925/15-12 (21.05.2012)), грантами Министерства образования и науки РФ.

История развития технологии ОЕЯТ насчитывает свыше полувека [11-13], имеет свои взлеты и падения, однако как промышленная технология в рамках ИТ, это направление начало оформляться в последнее двадцатилетие. На сегодня в России и за рубежом имеется несколько программных библиотек ОЕЯТ, которые могут быть рассмотрены в качестве позитивных примеров комплексного решения проблемы (АОТ [1], RCO [2], DICTUM [3], GATE [4], UIMA [5], OpenNLP [6]). Однако общий прогресс в области ИТ, накопленный опыт в сфере создания систем ОЕЯТ, в частности, и интеллектуальных систем, в целом, позволяет взглянуть на проблему ОЕЯТ по-новому.

В настоящей работе представлены результаты первого этапа НИОКР, направленного на создание нового поколения интеллектуальных систем семантической обработки текста. Сформулированы принципы, архитектура, состав задач, результаты выбора инструментальных средств для создания программной библиотеки. Работа поддержана грантами Фонда FASIE (программа СОФТ-2012, контракт №10151р/ (28.04.2012), программа У.М.Н.И.К. контракт №16925/15-12 (21.05.2012)), грантами Министерства образования и науки РФ.

ПРИНЦИПЫ За последние десятилетия научное сообщество накопило значительный опыт создания программ для обработки текстов на естественном языке. Кроме того, произошел существенный прогресс в области информационных технологий. Это позволяет взглянуть на проблему ОЕЯТ по-новому.

В связи с этим нашей группой исследователей сформулированы принципы, которые должны быть положены в основу создания программных библиотек и технологий нового поколения для обработки естественного языка.

Принцип 1. Разделение алгоритмов и данных.

Обычно в современных системах ОЕЯТ, алгоритмы и данные так сильно переплетены, что практически невозможно использовать их раздельно. Предлагается строго следовать принципу разделения, тогда имеется возможность использовать готовые наборы данных, заменяя алгоритм на более мощный, и, наоборот, заменяя только алгоритм, что существенно облегчает работу исследователя. Аналогично, сторонние разработчики могут специализироваться на создании готовых наборов данных для лингвистического обеспечения стандартных алгоритмов и программных библиотек.

Данный принцип широко используется разработчиками зарубежных систем обработки естественного языка и является обязательным.

Принцип 2. Открытость на уровне стандартов алгоритмов и форматов данных.

Следствие первого принципа.

Предлагается обеспечивать открытость на уровне • алгоритмов;

• форматов данных.

Это позволит сравнивать все достижения на здоровой конкурентной основе. При этом программный код можно не показывать. Это не распространяется на секреты фирмы (ноу-хау), представляющие уникальные достижения в данной области.

Принцип 3. Ориентация на существующую архитектуру ОЕЯТ типа Pipeline.

В настоящее время на рынке имеется положительный опыт создания программных платформ на основе языка Java, которые служат цели интеграции пакетов для ОЕЯ. За рубежом наибольшую популярность получили проекты GATE, UIMA и OpenNLP.

• http://gate.ac.uk • http://incubator.apache.org/opennlp/index.html Для русского языка наблюдается явный недостаток библиотек, совместимых с указанными платформами. Построение на указанных платформах приложений, решающих задачи бизнеса, требует больших трудозатрат и наличия на предприятии специалистов разнообразного профиля (программисты, лингвисты), что значительно сужает круг пользователей платформ. Предлагаемое решение для преодоления указанного барьера состоит в упрощении способов взаимодействия с платформой до уровня, на котором программное обеспечений может использоваться как услуга в рамках четко регламентированных сценариев и для решения конкретных задач пользователя. Обзор платформ для ОЕЯТ представлен в Приложении 1.

Принцип 4. Многопроходность (итеративность).

Специалистам хорошо известно, что в процессе ОЕЯТ невозможно добиться 100 % точности анализа с первого прохода по принципиальной причине неоднозначности языка на всех уровнях. На примере морфологической омонимии, лексической многозначности, синтаксической многозначности это хорошо известно. Предлагается сделать нормой не один, а два - три прохода по каждому виду анализа. Например, первичный морфоанализ + чанкинг + вторичный морфоанализ (разрешение многозначности) и т.д.

Разумеется, что на каждый проход - пишется свой модуль, свои алгоритмы и свои форматы данных.

Принцип 5. Частотность, F1, мини-корпуса.

Улучшение каждого вида анализа надо осуществлять на основе частотности встречаемого явления. Например, прежде чем бороться с омонимией, надо сделать ее частотный анализ и заняться самыми частотными случаями.

Мера F1 - надежное средство для проверки качества анализа.

Для каждой задачи обработки текста с целью тестирования разрабатываемых методов создается эталонный мини-корпус (набор текстов с эталонной разметкой), на котором разработчики будут тестировать все улучшения.

Практика показывает, что такие мини-корпуса с ручной разметкой на 1000 - тыс. слов вполне достаточны на современном этапе развития отрасли ОЕЯТ.

Принцип 6. Ориентация на технологии извлечения информации из текста IE (Information Extraction).

Уже всем стало очевидно, что технология Information Extraction становится наиболее реальной альтернативной полному NLP, который в ближайшее десятилетие видимо, не достижим. Авторами проекта разработан метод извлечения отношений, существенно снижающий трудоемкость создания приложений, т.к. не требует большого набора обучающих примеров. Данный метод который планируется интегрировать в библиотеку в виде отдельного приложения для открытого извлечения информации.

Принцип 7. Ориентация на онтологии.

Онтологии, пожалуй, наиболее стандартизированный формат представления знаний (не всех, конечно, а только парадигматики), что позволяет встраиваться в уже существующие технологические стандарты. Языки представления онтологий (RDFS, OWL) в настоящее время начинают применяться для описания программных компонент (OWL-S) и наборов данных, которыми они оперируют (SKOS).

Принцип 8. Машинное обучение (МО).

Отказ от ручного способа описания языка. Не полный, конечно, но надо стараться создавать продукты с минимальными затратами труда лингвистов. Опыт создания проектов "смысл-текст" Мельчука, “Этап” группы Апресяна и NLC ABBYY показал, что это путь, нацеленный на многие десятилетия. Вместе с тем ориентация на технологии, не требующие большого объема ручного труда, такие как открытое извлечение информации (Open Information Extraction), позволит эффективно адаптировать создаваемые приложения к платформе облачных вычислений.

Принцип 9. Многоязычность.

Архитектура и отдельные модули не должны препятствовать созданию многоязычных систем (поиска, машинного перевода и т.д.) Принцип 10. Многофункциональность.

При том, что функции ОЕЯТ будут достаточно хорошо стандартизованы, применение всей системы и ее частей может быть самым разным.

Принцип 11. Применение облачных вычислений в качестве одного из вариантов реализации сервиса ОЕЯТ.

Технология облачных вычислений представляются наиболее подходящим способом организации обработки естественного языка. Это снимает целый ряд вопросов, связанных с производительностью техники, доступностью сервисов из-за высоких технологических и ценовых барьеров, которые необходимо преодолеть фирмам – новичкам и исследовательским группам, создающим приложения для интеллектуального анализа текста в любой предметной области.

За рубежом кроме широко распространенных Amazon Web Services (AWS), Windows Azure и Google App Engine большую популярность получили проекты OpenNebula (European Commission Expert Group Report. "The Future of Cloud Computing”) и Ubuntu Enterprise Cloud (http://help.ubuntu.com/community/UEC).

Принцип 12. Открытость в части функционала.

Применение стандартных платформ типа GATE, открытость на уровне стандартов алгоритмов и форматов данных дает возможность непрерывного развития функционала систем ОЕЯ. Известным является факт, что большинство фирм и исследовательских групп не могут заниматься этой проблемой из-за ограничений доступа к эффективным библиотекам обработки текстов, а самостоятельная разработка подобных библиотек занимает много времени и дорого стоит. Даже при наличии свободно распространяемых библиотек встает вопрос об их установке, запуске и интеграции. Создание комплекса средств языковой обработки на единой технологической платформе упростит решение и этой проблемы.

Принцип 13. Принцип коммерциализации промежуточных результатов НИР.

Не надо ждать полного решения задачи понимания текста, необходимо находить полезные задачи в сфере ОЕЯ, которые могут быть коммерциализированы уже сейчас.

Создание библиотек программных продуктов на перечисленных принципах позволит резко стимулировать научно-исследовательские и прикладные работы в сфере ОЕЯ, повысит интерес к этой сфере со стороны крупного и среднего бизнеса, создаст благоприятную почву для создания целой гаммы инновационных продуктов в данной сфере.

АРХИТЕКТУРА Архитектура программного комплекса представлена на Рис. Рис. 1 Предлагаемая архитектура программного комплекса лингвистического процессора.

Архитектура предполагает следующие новации, существенно повышающие гибкость ПК, масштабируемость задач, унификацию стандартов данных и, как следствие, существенное повышение эффективности решения задачи ОЕЯТ при снижении затрат на разработку и сопровождение.

1. Разделение вспомогательных инструментальных средств для создания и поддержки лингвистического обеспечения (на схеме – область I), средств для индексирования текстов (на схеме – область II), прикладное ПО (ППО) – на схеме область III, массивы данных – на схеме область IV. Выделение инструментальных средств для создания и поддержки лингвистического обеспечения (лингвистических баз данных, знаний и словарей) в отдельную часть позволит существенно сэкономить на сроках и трудоемкости разработки, так как эта часть не зависит от масштабов обработки текстовых данных. Следовательно, этот модуль системы делается автономным и унифицированным.

Модуль не требует высокой скорости обработки данных, его можно реализовать на языках программирования, обеспечивающих переносимость ПО на различные платформы (Java, C++) в клиент-серверной архитектуре, с использованием SQL-сервера и технологии Интернет/Интранет.

2.Индексирующий модуль весьма чувствителен к объемам индексируемых текстов.

Его целесообразно делать в трех исполнениях, т.е.

2.1. В виде настольного (десктоповского) варианта для персонального компьютера.

Такой лингвистический процессор и поисковая система на его основе могут встраиваться в различные прикладные разработки персонального пользования, имеющие большие массивы текстов (библиотечные системы, справочные системы юридического содержания, энциклопедии).

2.2. В виде клиент-серверного варианта для сети пользователей (клиентов). Такой лингвистический процессор может стать основой интеллектуальной информационной поисковой системы (ИИПС) или информационной аналитической системы (ИАС) для корпоративных нужд. Это может быть хранилище текстов СМИ, массив электронных корпоративных документов и т.д. Этот вариант исполнения имеет существенный потенциал масштабирования задачи за счет усиления серверной составляющей системы.

2.3. В виде клиент-серверного варианта на основе облачных вычислений. Такой лингвистический процессор может стать основой облачного сервиса в сети Интернет для обслуживания широкого спектра пользователей, например, социальной сети.

Преимуществом такой архитектуры является то, что структура индексных данных остается неизменной для всех трех вариантов, что существенно ускоряет разработку.

Важным моментом является то обстоятельство, что современные технологии обработки тестовых массивов данных не ориентируются на технологии баз данных в силу низкой производительности этой технологии на этапе доступа к данным и требуют существенных усилий по организации высокоскоростного доступа к массивам текстовых и лингвистических данных. Это требует решения задач конвертации массивов лингвистических данных из формата SQL –сервера в файловых формат (для использования в индексирующем модуле), и конвертации файловых индексов в формат SQL—сервера для использования в прикладной системе.

В части функционирования системы индексирования предлагается масштабное использование технологий машинного обучения, позволяющих достраивать в автоматическом режиме (вариант - в полуавтоматическом с ручным контролем) морфологические парадигмы новых слов, онтологическую структуру - новыми концептами.

Таким образом, в проекте реализуется общий подход – делать все на максимуме возможного с учетом опыта предыдущих исследований и разработок.

Открытый принцип – максимальная прозрачность и распространение научных результатов. Предполагается создать сайт с публикациями в электронном виде словарей и библиотек.

Переход от декларативного принципа описания лингвистических ресурсов к процедурному – описание правил и эвристик.

Использование новых когнитивных принципов:

- открытость словарей и лингвистических ресурсов к пополнению;

- самообучаемость системы на основе технологии машинного обучения;

- итеративность в решении задачи индексирования текста;

- опора на имеющиеся в открытом доступе когнитивные и семантические ресурсы;

И в то же время, учет современных тенденций в ИТ: скорость, компактность, переносимость, стандартизация, машиночитаемые словари, масштабируемость, облачность, параллельные вычисления, Интернет-доступ.

Независимо от исполнения (десктоповское, клиент-серверное, или облачное), структура индекса позволяет иметь доступ ко всей информации.

Для дескотоповского и клиент-серверного исполнения индексирующий модуль реализуется на языке Java, так как он обеспечит переносимость и эффективность.

Инструментальные вспомогательные средства для организации лингвистических БД выполняются на переносимых средствах (JAVA+SQL), чтобы не дублировать работу.

Скорость здесь не важна.

Интерфейсы прикладных систем делаются на C#, чтобы ускорить работу при создании Web-интерфейсов.

С точки зрения архитектуры базовой библиотеки ОЕЯТ, можно рассмотреть два альтернативных варианта:

- интегрированная обработка текста.

- конвейерная обработка текста;

Интегрированная обработка текста отличается тем, что все программные модули загружаются в память компьютера сразу и вызываются из общей программы – монитора.

Данные хранятся в общем массиве.

Конвейерная обработка текста отличается тем, что текст обрабатывается по принципу конвейера. Вся процедура обработки разбивается на максимально однородные с точки зрения данных и выполняемых вычислительных операций этапы. По мере наступления этапов происходит загрузка и исполнение библиотек для частных задач (этапов). На стыке этапов данные выгружаются во внешние по отношению к программам массивы, структура которых унифицирована. Обработчик каждого этапа получает данные от предыдущего и передает их последующему.

Преимущество интегрированной технологии в том, что время на загрузку кода и данных (и, при необходимости, псевдо-компиляцию) тратится один раз и далее задержек с этим не будет.

Преимущество конвейерной обработки видится в том, что • происходит максимальная унификация и стандартизация этапов и последовательности задач ОЕЯТ, что потенциально делает возможным участие в развитии методов ОЕЯТ сторонних разработчиков и исследовательских групп;

• за счет этого замена и обновление библиотек для каждого этапа становится более простым и быстрым делом;

• однородность задач и данных дает потенциальный выигрыш в скорости обработки текста за счет распараллеливания;

• конвейерная обработка принята в таких известных архитектурах ОЕЯТ как GATE и UIMA.

В итоге выбор был сделан в пользу конвейерной обработки текстов.

СОСТАВ ЗАДАЧ Вопрос о составе задач, входящих в базовую библиотеку;

Вопрос о составе задач решался, исходя из баланса желаемого и максимально возможного на текущий момент развития науки технологии и практики ОЕЯТ.

В классической постановке [11] считается, что процесс обработки текстов на русском языке делится на три этапа:

• морфологический анализ;

• синтаксический анализ;

• семантический анализ.

Однако, детальное изучение состояния дел в сфере ОЕЯТ показывает, что 1) Такая постановка не учитывает таких важных этапов, как предобработка текста (преобразование форматов, кодировок, очистка от управляющих символов), токенизация (выявление цепочек символов, обработка экстралингвистических данных), прагматическая обработка текста (выявление ценности информации по отношению к решаемой задаче и т.д., привязка к контексту);

2) Уровень проработанности задач на каждом макро-этапе из трех перечисленных весьма отличается. Так можно сказать, что Этап морфоанализа проработан достаточно хорошо не только с научной, но и с инженерной точки зрения.

Этап синтаксического анализ проработан с научной точки зрения, однако с точки зрения программной инженерии еще предстоит выполнить существенную работу по поиску оптимальных решений с позиций производительности системы.

Этап семантического анализа имеет много пробелов и еще далек от завершения исследовательских работ. Хотя некоторые элементы семантическолго анализа (онтологии, семантические роли) проработаны уже достаточно подробно для того, чтобы заниматься их инженерной реализацией.

С учетом этих обстоятельств рабочей группой был выработан список и последовательность задач ОЕЯТ, которые было решено включить в состав базовый программной библиотеки ОЕЯТ. Этот список приведен в таблице 1.

Таблица 1. Список компонентов библиотеки базового ПО.

N пп Наименование компонента ПО Токенизация- Морфоанализ- Стемминг Предсказание морфохарактеристик Сегментация- Токенизация- Выявление устойчивых словосочетаний Построение расширенного грамматического вектора.

Чанкинг- 10 NER (Named Entity Recognition) 11 IER (Identified Entity Recognition) 12 NPR (Noun Phrase Recognition) Морфоанализ-2.

Снятие омонимии-1.

Сегментация- Тематическая классификация текста.

Выявление коммуникативного значения запросов.

N пп Наименование компонента ПО Привязка к онтологии.

Снятие омонимии -2.

Снятие полисемии -1.

Выявление ядра текста.

Чанкинг- Синтаксический анализ-дерево-1.

Референциальный анализ-1.

Выявление семантического падежа.

Привязка к онтологии-2.

Снятие омонимии -3.

Снятие полисемии -2.

Синтаксический анализ-дерево-2.

Референциальный анализ-2.

Коннотативная классификация.

Выявление новых концептов в онтологии.

О предобработке.

Этап предобработки текстов не включен в таблицу 1, однако занимает важное место в общей технологии ОЕЯТ.

Об итерациях.

В таблице 1 предусмотрены итерации по ряду этапов, так в частности, • этап «Токенизация» выполняется два раза (1 и 6), • этап «Морфоанализ» выполняется 2 раза (2 и 13), • этап «Сегментация» выполняется 2 раза (5 и 14), • этап «Чанкинг» выполняется 2 раза (9 и 19 ), • этап «Снятие омонимии» выполняется 3 раза (13, 17, 23), • этап «Снятие полисемии» (лексической многозначности) выполняется вместе с этапом привязки к онтологии также дважды (17 и 23);

• этап «Синтаксический анализ-дерево» выполняется два раза (20 и 24);

• этап «Референциальный анализ» выполняется два раза (21 и 25);

Это связано с общей и хорошо-известной проблемой обработки естественного языка. Проблема заключается в том, что почти на каждом из последовательных этапов возникает неоднозначность, которая может быть разрешена только с привлечением информации, полученной на последующих этапах анализа.

О семантике. О прагматике. О референции.

Как уже отмечалось, одним из главных принципов при выборе функционального состава базовой библиотеки ОЕЯТ было соотношение баланса между желаемым и достижимым уровнем ОЕЯТ.

В основном граница раздела между существующими реальными возможностями ОЕЯТ и полным спектром таких возможностей, проходит по степени обработки синтагматики в тексте.

Можно говорить о том, что большинство задач связанных с обработкой морфологии и синтаксиса включены в базовый набор функций библиотеки. И из семантики в нее включены задачи, которые базируются преимущественно на парадигматических структурах знаний (онтологии, семантические роли, референциальные связи и значения). Все же, что касается синтагматических отношений (темпоральные, пространственные, каузальные и т.п. связи и отношения) пока остаются за пределами базовой библиотеки ОЕЯТ. Вместе с тем, это не означает, что они вовсе не могут быть выявлены. Они остаются на стороне конечных приложений, что связано как с неполной определенностью в стандартах семантической обработки текстов, так и с высокой вычислительной трудоемкостью этой обработки. К тому же, очевидно, что семантическая обработка полностью базируется на заданном наборе функций, входящих в базовую библиотеку.

Учитывая выше сказанное можно говорить о новом стандарте ОЕЯТ, который вводится в данной НИОКР. Этот стандартный набор функционала можно назвать парадигматически-ориентированная обработка текста, или сокращенно ПООТ.

ВЫБОР ИНСТРУМЕНТАЛЬНЫХ СРЕДСТВ В работе тщательно рассмотрен вопрос о выборе инструментальных средств для разработки (ОС, языки программирования).

Перед исследователями стояли следующие вопросы:

1. Какой язык программирования обеспечивает максимальную скорость исполнения программ при условии масштабирования и переносимости приложений.

Сравнивались три языка: C#, C++, Java.

2. Какая операционная система обеспечивает максимальную скорость исполнения программ при условии масштабирования и переносимости приложений. Сравнивались две ОС: Linux и Windows.

3. Какой эффект может быть получен за счет распараллеливания вычислений и каким образом это распараллеливание можно организовать.

Выбор языка программирования.

Анализ проводился как по опубликованным данным сравнительных испытаний компиляторов языков C#, C++, Java [7-10], так и путем проведения собственных сравнительных испытаний.

В целом же по результатам экспериментального тестирования компиляторов для языков C#, C++ и Java можно сделать следующие выводы:

Среди выбранных языков (C#, Java, C++) язык C# безоговорочно уступает двум остальным по скорости исполнения программ обработки текстов. Языки Java и C++ (в выбранных вариантах исполнения) являются сопоставимыми по скорости исполнения программ. Эти результаты находят свое подтверждение и в материалах по сравнительному испытанию компиляторов, приведенных в литературе (ссылки).

Выбор ОС.

Сравнительных выводов о производительности ОС Windows и Linux на основании данной методики пока сделать невозможно, так как в экспериментах использовались различные технические среды. Это планируется сделать на последующих этапах НИОКР.

Однако априорно можно предположить, что Linux быстрее Windows.

Эффект от распараллеливания По результатам экспериментов распараллеливание на уровне ядер процессора дает существенный выигрыш в скорости исполнения программ, в некоторых случаях превышающий уровень 2-ух кратного ускорения.

Также проведенные эксперименты могут служить подтверждением идеи конвейерной обработки текстов, так как именно в этом случае достигается максимальный эффект от распараллеливания на уровне задачи на одном процессоре между ядрами.

Второй способ распараллеливания (на уровне файлов [17]) рекомендуется использовать при задействовании кластерной или распределенной (облачные вычисления) обработки. В этом случае достигается мультипликативный эффект от двух способов Отметим, что речь идет в первую очередь об операциях со строками.

распараллеливания, что обещает существенное ускорение работы базовой библиотеки ОЕЯТ.

Заключение Перечислим основные новации, предложенные в НИОКР, которые ранее не применялись в промышленных разработках по ОЕЯТ или применялись в более ограниченном масштабе, в том числе:

• Итеративность;

• Чанкинг;

• Расширенный грамматический вектор;

• Коммуникативная классификация;

• Коннотативная классификация по объектам;

• Ядро теста (Градуированное);

• Автоматическое достраивание онтологии;

• Улучшенное разрешение неоднозначности (морфологической, лексической, синтаксической);

• Использование механизма семантических ролей;

• Технология классификация текстов Rubryx [15, 16];

• Лексико-синтаксические портреты [14];

• Ориентация на высокопроизводительные вычисления.

Следующие уникальные характеристики предлагаемой библиотеки программ отличают ее от указанных аналогов:

• Разрешение лексической многозначности • Привязка к онтологии • Привязка к рубрикатору • Индексирование по именам собственным с привязкой к лексической онтологии • Извлечение семантических отношений и целых событий из текста, включая полностью автономные методы, не требующих трудоёмкого набора обучающих примеров • Индексирование по коммуникативным целям • Кросс-лингвистическая обработка текста • Сочетание частичного (чанкинг) и полного (дерево) синтаксического анализа.

Важной особенностью предлагаемого решения является его гибкость, позволяющее настраивать комплекс программных библиотек под различные прикладные задачи. Открытость (в части функционала) обеспечивает возможность развития системы в будущем.

Предлагаемые технологии базируются на последних достижениях в области Semantic Web и онтологических систем.

ЛИТЕРАТУРА [1] АОТ. Автоматическая Обработка Текста. URL: www.aot.ru [2] RCO. Russian Context Optimizer. Технологии анализа и поиска текстовой информации. URL: www.rco.ru [3] DICTUM. "Диктум" - инновационная компания, создающая технологии анализа текстов на естественном языке. URL: www.dictum.ru [4] GATE. General Architecture for Text Engineering. URL: http://gate.ac.uk/ [5] Apache UIMA. Unstructured Information Management applications. URL:

http://uima.apache.org/ [6] Apache OpenNLP. The Apache OpenNLP library is a machine learning based toolkit for the processing of natural language text. http://opennlp.apache.org/ [7] Анализ популярности языков программирования в 2011 году.

URL: http://www.opennet.ru:8101/opennews/art.shtml?num= [8] Сравнительное тестирование производительности платформ.Net, Java и Mono.

URL: (http://www.ketzer.ru/?p= [9] Update For Java Benchmark. URL: http://www.stefankrause.net/wp/?p= [10] Производительность C++ vs. Java vs. PHP vs. Python. Тест «в лоб».

URL: http://habrahabr.ru/post/66562/ [11] Попов Э.В.Общение с ЭВМ на естественном языке.М.:Наука,1982.-360 с.

[12] Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Dan Jurafsky, James H. Martin. Prentice Hall, 2009 - 988 pages.

[13] HANDBOOK OF NATURAL LANGUAGE PROCESSING. SECOND EDITION.

Edited by NITIN INDURKHYA FRED J. DAMERAU. CRC Press. 2010, 666 p.

[14] Кузьмин Ю.Г., Поляков В.Н., Шмагина Е.В. МЕТОД ЛЕКСИКО СИНТАКСИЧЕСКИХ ПОРТРЕТОВ И ЗАДАЧА РАЗРЕШЕНИЯ ЛЕКСИЧЕСКОЙ МНОГОЗНАЧНОСТИ. Труды Казанской школы по компьютерной и когнитивной лингвистике (TEL-2006), Казань, Отечество, 2007, с. 139-147.

[15] V. Polyakov, V. Sinitsyn. Method for automatic classification of web-resource by patterns in text processing and cognitive technologies. In: Text Collection, No.6, Publ. House Otechestvo, p. 120-126, 2001 (rus.) [16] V.Polyakov, V. Sinitsyn. RUBRYX: technology of text classification using lexical meaning based approach. In: Proc. of Intern. Conf. Speech and Computing (SPECOM-2003), Moscow, MSLU, p. 137-143, [17] Поляков В.Н., Сидякин О.А., Сидякин Д.А., Пермяков Е.M. Модель параллельных вычислений в задаче с интенсивным обменом с дисковой системой (на примере индексирующего модуля лингвопроцессора). // Труды Казанской школы по компьютерной и когнитивной лингвистике (TEL-2007), Казань, Отечество, 2008.

ТЕХНОЛОГИИ ИЗВЛЕЧЕНИЯ ИЗ ТЕКСТОВ ИНФОРМАЦИИ О СОБЫТИЯХ В РЕАЛЬНОМ ВРЕМЕНИ Соловьев Валерий Дмитриевич (ИТИС К(П)ФУ) Аннотация:

Среди различных задач обработки текстов и поиска в них информации выделяется область Information Extraction, в которой акцент делается на извлечение информации в форме фреймов о типовых ситуациях и/или сущностях. В статье дается краткая характеристика и классификация подходов к решению этой задачи, существующих сфер применения систем извлечения информации, качественной и количественной оценки качества работы таких систем. Отмечаются ограничения на архитектуру таких систем в случае, когда приходится обрабатывать тексты в реальном времени.

1. ВВЕДЕНИЕ Задача автоматического извлечения из текстов информации уже более трех десятилетий привлекает внимание исследователей. По мере увеличения объемов выкладываемой в Интернет информации она становится все более актуальной. В дальнейшем мы будем для краткости именовать ее IE по английскому названию Information Extraction. Кроме IE существуют и другие задачи, связанные с поиском в текстах нужной информации. Это поиск по ключевым словам, успешно реализованный современными поисковиками, и полное понимание текста компьютером – практически недостижимая цель раздела под названием Искусственный интеллекта. IE занимает в этом ряду промежуточное положение. IE требует много более глубокого анализа, чем просто поиск ключевых слов, но не предполагает углубления во все нюансы текста.

IE имеет существенное практическое значение во многих областях: для сбора информации коммерческого, государственного, военного характера из большого числа источников;

семантического поиска в WEB, требующего нечто большее, чем поиск по ключевым словам;

анализа блогов;

поиска в научных коллекция, в том числе, специализированных коллекциях по генетике, биохимии, медицине;

в системах поддержки принятия решений;

для создания баз данных из больших текстовых коллекций;

в персонализированных новостных системах;

системах анализа рисков [1-7] и т.д.

Основной поток исследований в IE посвящен, разумеется, обработке текстов на английском языке. Разрабатывались системы и для других языков (более 20), в том числе, и для русского. Однако в представительном обзоре [8] из 83 публикаций в списке литературы только 1 посвящена русскому языку. Это указывает на крайне малый вклад российских исследователей в эту область.

Во многих случаях достаточно выделить из текста только имена людей, или компаний, или другие собственные имена. Эта задача называется извлечением именованных сущностей или NER (Named Entity Recognition, [9]). При одновременном извлечении имен нескольких типов требуется определить и их тип. Поэтому иногда используется термин Named Entity Recognition and Classification (NERC). NERC активно развивался более 20 лет и в настоящее время эта задача считается решенной. Более сложной является проблема извлечения (бинарных) отношений между именованными сущностями. Еще более сложной – задача извлечения произвольных событий со многими участниками.

Важными параметрами системы IE являются полнота извлечения, точность извлечения, а также время извлечения. В ряде случаев требуется уметь очень быстро извлекать события – в реальном времени. Например, сообщения из мира бизнеса – о выплате дивидендов, слиянии компаний и т.д. могут вызвать резкие изменения кодировок акций, так что тот, кто, получит эту информацию первым, сможет извлечь существенную финансовую выгоду.

При разработке систем реального времени требуется особое внимание к разработке быстрых алгоритмов. Во многих системах IE используется синтаксический анализ, однако это медленно работающая процедура и в системах реального времени полный (глубокий) синтаксический анализ не может быть использован. Вместо него иногда используется частичный синтаксический анализ или чанкинг.

Важную роль в развитии IE сыграла серия конференций Message Understanding Conference (MUC, http://www.itl.nist.gov/iaui/894.02/related_projects/muc/proceedings/ muc_7_toc.html), проводившаяся с 1987 г. по 1997 г. при поддержке Американского агентства DARPA (Defense Advanced Research Projects Agency). В рамках этих конференций проводились соревнования систем, разработанных в разных исследовательских группах, что в значительной степени стимулировало обмен идеями и прогресс исследований в области IE, в частности, это способствовало установлению стандартов оценивания качества систем IE.

Следующим важным шагом явилась программа развития IE технологий - Automatic Content Extraction (ACE, http://www.itl.nist.gov/iad/mig/tests/ace/), предложенная в 1999 г. В рамках этой инициативы был создан корпус текстов, являющийся стандартом для оценки IE систем. Нововведением ACE явился акцент на извлечение информации из аудио и графических файлов, а не только текстов. По сравнению с MUC в ACE произошло и еще одно смещение акцентов. Если MUC ориентировался на поиск в текстах слов, именующих сущности, то ACE предлагает искать именно сами сущности, что является более абстрактной задачей.

В данной статье мы дадим общий обзор современного положения дел в области IE, ограничиваясь подходами и системами, не использующими глубокий синтаксический анализ.

2. ОБЩАЯ КЛАССИФИКАЦИЯ IE ЗАДАЧ Разнообразие задач IE достаточно велико и их можно классифицировать по ряду параметров.

Прежде всего, поступающая на вход системы текстовая информации может быть либо неструктурированной или полуструктурированной. Обычный текст (скажем, новостное сообщение) является неструктурированным. Хотя и в нем есть определенный элемент структуры – заголовок отделяется от основного текста сообщения. Однако это лишь минимальная структурированность.

Полностью структурированной является информация, хранящаяся в базах данных.

Вопросы поиска информации в базах данных решаются средствами СУБД и эта область не относится к IE. Есть и промежуточный вариант – полуструктурированная информация.

Это, например, перечень публикаций в конце научной статьи. Ссылка на публикацию имеет строгую структуру, формализованную в ГОСТе: имя автора, название публикации и т.д., причем различные части ссылки отделяются друг от друга стандартным образом – с помощью пунктуационных знаков //, ‘.’ ‘– ‘. Другой пример (из [9]) – объявление о семинаре или конференции с четким указанием названия, места, времени.

Laura Petitte Department of Psychology McGill University Thursday, May 4, 12:00 pm Соответственно, при извлечении информации из полуструктурированных текстов BakerHall можно используют знания об их структуре.

Следующий параметр классификации – однодокументное или многодокументное IE. Большинство созданных систем ограничивается поиском информации в отдельных документах. Однако в ряде случаев уместно рассматривать и одновременно несколько документов. Например, одно и то же событие в сообщениях разных информационных агентств может описываться по-разному. Одновременный учет всех сообщений позволит получить более полную информацию об интересующем событии.

При этом возникает следующая очевидная проблема: как определить, что разные сообщения посвящены одному и тому же событию? Эта проблема известна как Co reference Event Problem, и она пока далека от решения. Это не единственная проблема в многодокументным IE. В разных сообщениях об одном и том же событии может содержаться противоречивая информация. Так что требуется умение обнаруживать и обрабатывать противоречия.

Часто в исследованиях ограничиваются даже уровнем отдельного предложения, предполагая, что вся ключевая информация о событии будет включена в одно предложение. По сравнению с IE на уровне предложения, IE на уровне целого документа сталкивается с двумя основными проблемами: кореференции сущностей и “сборкой” события из описания его фрагментов в различных предложениях документа.

Еще одним важным аспектом систем IE являются исходные предположения о входных документах. Первое из них – “relevant-only documents”, т.е. предположение о том, что все входящие документы содержат релевантную информацию, надо лишь ее извлечь. Хотя такая ситуация бывает далеко не всегда, в ряде случаев с помощью предобработки текста можно отсеять нерелевантные документы.

Другое предположение – “single-event documents”, допускающее, что каждый документ содержит информацию об одном событии. Вероятно, это допущение часто бывает справедливо в новостных сообщениях.

В общем же случае никакое из этих допущений не выполняется, что предполагается в соревнованиях, проводившихся на конференциях серии MUC.

Важнейшей частной задачей является распознавание в тексте именованных сущностей. Первыми именованными сущностями, попавших в сферу внимания исследователей, были имена людей, названия компаний, географические названия. Эти три категории известны как “enamex” (MUC-6). Все они являются именами собственными, в частности, пишутся с заглавной буквы. При необходимости в каких-то прикладных задачах могут вводиться более дробные классификации: для географических названий это города, страны и т.д.

Затем, в силу практической необходимости, к ним были добавлены даты и денежные суммы. Дальше этот перечень неуклонно расширялся. В ACE рассматривались категории оружие, сооружение, средства передвижения, геополитические сущности. В [10] рассматривались категории фильм и ученый, в [11, 12] – e-mail адреса и номера телефонов, в [13] – названия проектов и области исследований, в [11, 14],– названия книг, в [15] – должности, в [16] – бренды.

Бурный рост числа публикаций по генетике и биоинформатике вызвал потребность и в специализированных системах поиска данных в этих публикациях. В работе [17, 18] рассматривались такие типы как пртеины, ДНК, РНК, генов, типов клеток и т.д. В [19] речь шла о лекарствах, а в [20] о химических терминах.

В последнее время появилось значительное число публикации по извлечению событий из исторических текстов [21] и проектов, связанных с культурным наследием [ – 24].

3. АРХИТЕКТУРА СИСТЕМ IE Вся идеология систем IE основана на том, что информация извлекается из поверхностных признаков слов и текста, без полного понимания всего смысла, содержащегося в тексте. Значения признаков извлекаются из текста средствами NLP – Natural Language Processing. Таким образом, системы IE имеют дело скорее с наборами значений признаков, чем со словами. Общая архитектура системы IE выглядит следующим образом:

Рис. 1. Общая архитектура системы извлечения информации (из [9]) NLP блок осуществляет предобработку текста, включая токенизацию (деление на фрагменты – слова, числа и т.д. []), сегментацию, нормализацию текста. Далее выполняются операции морфологического анализа, размечаются части речи, осуществляется разрешение многозначностей (в той или иной степени), а также синтаксический анализ, обычно частичный. В некоторых случаях подключается глубокий синтаксический анализ, алгоритмы семантического и прагматического анализа.

Из документов также извлекаются метаданные и информация структурного характера. Все это поступает на вход собственно IE компоненты. На этой стадии последовательно извлекаются именованные сущности, отношения между ними, в том числе n-местные, т.е. события. При работе на уровне документа приходится использовать и модуль разрешения кореференции.

Важной идеей, выкристаллизовавшейся на серии конференций MUC, является идея каскадной обработки текста конечно-автоматными преобразователями [25]. Весь процесс собственно IE можно представить как последовательное выделение в тексте следующих структурных компонент: сложные слова, базисные группы, сложные группы, события.

Под сложными словами понимаются именованные сущности и устойчивые словосочетания. Базисные группы (basic phrases по-английски) являются существительные вместе со всеми левыми определениями (прилагательными, числительными, причастиями, местоимениями, артиклями) и глаголы также вместе с левыми модификаторами:

наречиями, вспомогательными глаголами. Сложные группы это полные именные и глагольные группы. По сравнению с базисными они осложнены расположенными справа определительными конструкциями, причастными оборотами, сочинительными конструкциями и т.д. Наконец, итогом работы системы является выделение событий, представляющих собой связанные семантическими отношениями именованные сущности.

Установлено, что все эти структурные компоненты могут выделяться последовательно с применением таких простых вычислительных устройств, как конечно автоматные преобразователи.

В результате работы системы формируется база знаний, представляющая собой набор фреймов событий с заполненными слотами (терминология, принятая в искусственном интеллекте [26]). Пример фрейма.

Наименование фрейма: Покупка компаний Слоты:

Кто покупает:

Кого покупают:

Дата покупки:

Стоимость покупки:

Важным вопросом является выбор признаков. Наиболее часто выделяются следующие группы признаков [8].

Уровень слова. Это такие признаки как: начинается ли токен с заглавной буквы, написан ли он только заглавными буквами, является ли он числом и т.д.

Уровень словарей. Присутствует ли слово во внешних, подключаемых словарях.

Уровень пунктуации. Является ли символ точкой, запятой, открывающей скобкой и т.д.

Уровень морфологии. Часть речи, число, род, падеж слова и некоторые другие.

Уровень контекста. Частота слова, общие признаки документа или корпуса и т.д.

4. МЕТОДЫ И ПОДХОДЫ Существует два подхода к извлечению информации: так называемые, knowledge base approach и data-based approach.

4.1. МЕТОДЫ, ОСНОВАННЫЕ НА ЗНАНИЯХ Этот подход предполагает привлечение экспертов в области IE совместно с экспертами в предметной области для описания правил, позволяющих извлекать знания из текстов. Приведем два простых примера правила.

Пусть Name и Surname обозначают словари имен и фамилий людей. Тогда правило:

(1) Name Surname - Person означает, что если в тексте найдены рядом стоящие слова из словарей имен и фамилий, то они образуют наименование персоны. Для записи правил и разметки текста используется специальные средства, например, TextMarker [27]. На языке TextMarker это же правило выглядит так:

(2) Name Surname {- MARK(Person, 1, 2)} Здесь MARK – собственно оператор маркирования, цифры 1 и 2 означают, какие именно по порядку элементы шаблона войдут в маркировку персоны.

Второй пример. Пусть Buy – словарь, содержащий слова, обозначающую ситуацию покупки {buy, sell, …}. Тогда правило:

(3) Company Buy Company Acquisition (1, 2, 3) означает, что если в тексте уже найдены и размечены как компании две сущности и между ними расположено слово из словаря Buy, то все вместе они описывают ситуацию покупки – Acquisition, в которую включены все три компонента.


Обычно системы содержать сотни и даже тысячи правил. Поэтому, ясно, что данный подход является весьма трудоемким. Например, для создания системы UMass, участвовавшей на конференции MUC-4, потребовалось по оценкам ее создателей, около 1500 человеко-часов [28].

Другим ключевым компонентом этого подхода является набор словарей. Часто используется словарь общей лексики, а также специализированные словари: имена людей, наименования компаний, географические названия и т.д. Для конкретных прикладных задач бывают нужны и другие словари. Например, для поиска наименований компаний полезными являются, так называемые, индикаторы или триггеры – слова, часто входящие в наименования компаний. Это, например, Ltd., Corp. для английского языка и ООО, ЗАО – для русского.

4.2. МЕТОДЫ, ОСНОВАННЫЕ НА ДАННЫХ Большая трудоемкость подхода, описанного в предыдущем разделе, заставила искать другие пути для IE. Был предложен класс методов, основанных на использовании техники машинного обучения.

Можно выделить две группы методов: обучение с учителем (Supervised Learning) и без учителя (Unsupervised Learning). Обе они используют большие корпусы текстов для обучения. В первом случае в корпусе размечены искомые объекты. Хотя это тоже трудоемкая работа, но она проще, чем создание набора правил, и требует только квалификации в предметной области (но не в IE). Во втором случае используется неразмеченный корпус, а котором осуществляется поиск статистически значимых закономерностей.

Общая схема для обеих групп методов обучения приведена на рис. 2.

Рис. 2. Общая архитектура систем машинного обучения (из [9]) Предварительно система должна быть обучена. На этой стадии с использованием тех или иных методов машинного обучения происходит извлечение шаблонов из (размеченных или неразмеченных) обучающих текстов. При этом могут использоваться внешние источники знаний – тезаурусы, онтологии. После завершения стадии обучения возникает набор шаблонов, и система функционирует также, как если бы они были созданы экспертами.

В качестве методов обучения используются различные модели [28]: Bayesian Models, Support Vector Machines, Hidden Markov Models, Maximum Entropy Classiers, Conditional Random Fields и др.

Предпринимались попытки создавать и смешанные (гибридные системы). Во многих случаях их архитектура носит весьма простой характер: простые случаи, вроде определения дат, анализируются написанными вручную правилами, более сложные – с помощью методов машинного обучения.

4.3. СРАВНЕНИЕ МЕТОДОВ Качественное сравнение этих методов проводится по признакам: трудоемкость, размер требуемых данных, интерпретируемость результатов. Результаты суммированы в следующей таблице.

Таблица 1. Качественное сравнение методов Метод Трудоемкость Объем данных Интерпретируемость Методы, основанные на высокая малый высокая знаниях Методы, основанные на Средняя или низкая большой низкая данных Объем тренировочного корпуса для методов, основанных на данных, составляет порядка 10 тыс. предложения [29]. Для методов, основанных на знаниях, оценка проводится часто на корпусах, содержащих 100–200 предложения [29]. Трудоемкость методов, основанных на данных с обучением с учителем, определяется затратами времени на разметку корпуса, что можно сделать за несколько недель [29]. Обучение без учителя не требует разметки, но качество таких систем пока оставляет желать лучшего.

Несомненным недостатком методов, основанных на данных, является низкая интерпретируемость результатов, что обуславливается применением сложных моделей обучения и сложными форматами представления данных и результатов. В то же время методы, основанные на знаниях, выдают результаты в форме, допускающей относительно простую интерпретацию, что позволяет обнаруживать недостатки в наборах правил и улучшать их.

Рассматриваются и другие свойства систем: интероперабельность, портируемость, расширяемость, чувствительность к ошибкам данных, скорость работы и требования к объему памяти.

5. ОЦЕНКИ Большая работа по выработке методики оценки систем IE была проведена в рамках серии конференций MUC. В результате общепринятой является следующая методика. Для оценки результатов работы системы используется опять-таки размеченный экспертами корпус. Сравнение разметки экспертов с разметкой системы осуществляется по следующим формулам. Вводятся параметры tp, fp, fn, tn, значения которых понятно из нижеприводимой таблицы (из [9]).

Таблица 2. Параметры оценки Здесь tp + fn общее число релевантных сущностей в корпусе, fp + tn – общее число нерелевантных, tp + fp – число извлеченных системой сущностей, fn + tn – число не найденных системой сущностей. tp + tn + fp + fn – общее число объектов рассмотрения.

Основными оценками системы являются следующие. Точность P = - доля правильных ответов из числа всех ответов системы, полнота R = - доля релевантных сущностей, найденных системой. Иногда используются также ошибки E = - доля ошибочных реакций системы на все рассматриваемые объекты и аккуратность A = - доля правильных реакций на все рассматриваемые объекты.

В ряде случаев бывает необходимо использовать единый параметр вместо нескольких. В этом случае используется комбинированная оценка (F-мера) с параметром, регулирующим относительную значимость точности и полноты F = (2 + 1)PR/(2P + R) (4) Для NER в настоящее время достигнута оценка F 90%, что для большинства практических задач достаточно, и эта проблема считается почти решенной. В то же время для задачи извлечения событий не удается получить результаты, превышающие по F-мере 60%. Причем этот уровень достигнут уже давно – более 15 лет назад и с тех пор существенного прогресса не видно. Похоже, что здесь мы сталкиваемся с фундаментальной проблемой понимания текста.

5. ЗАКЛЮЧЕНИЕ В статье дан взгляд “с высоты птичьего полета” на текущее положение дел в области Она представляет собой широкую и активно information extraction.

развивающуюся область исследования. IE имеет многочисленные приложения, однако, явно далеко не исчерпала свой прикладной потенциал. В теоретическом плане были развиты интересные модели и технологии извлечения информации, в результате чего задача извлечения именованных сущностей решена на уровне, сопоставимом с человеческим. Однако задача извлечения событий еще очень далека от решения и потребуется много усилий и новые идеи.

Благодарности. Работа выполнена при поддержке Министерства науки и образования РФ.

ЛИТЕРАТУРА 1. GERBER, M., GORDON, A. S., AND SAGAE, K. Open-domain commonsense reasoning using discourse relations from a corpus of weblog stories. In Proceedings of the NAACL HLT 2010 First International Workshop on Formalisms and Methodology for Learning by Reading (Stroudsburg, PA, USA, 2010), FAM-LbR ’10, Association for Computational Linguistics, pp. 43–51.

2. DEY, L., MAHAJAN, A., AND HAQUE MIRAJUL, S. Document clustering for event identication and trend analysis in market news. In Advances in Pattern Recognition, 2009.

ICAPR ’09. Seventh International Conference on (feb. 2009), pp. 103 –106.

3. Borsje, J., Hogenboom, F., Frasincar, F.: Semi-Automatic Financial Events Discovery Based on Lexico-Semantic Patterns. International Journal of Web Engineering and Technology 6(2), 115-140 (2010).

4. Capet, P., Delavallade, T., Nakamura, T., Sandor, A., Tarsitano, C., Voyatzi, S.:

Intelligent Information Processing IV, IFIP International Federation for Information Processing, vol. 288, chap. A Risk Assessment System with Automatic Extraction of Event Types, pp. 220 229. Springer Boston (2008).

5. Frasincar, F., Borsje, J., Levering, L.: A Semantic Web-Based Approach for Building Personalized News Services. International Journal of E-Business Research 5(3), 35-53 (2009).

6. Kamijo, S., Matsushita, Y., Ikeuchi, K., Sakauchi, M.: Trac monitoring and accident detection at intersections. IEEE Transactions on Intelligent Transportation Systems 1(2), 108 118 (2000).

7. Wei, C.P., Lee, Y.H.: Event detection from Online News Documents for Supporting Environmental Scanning. Decision Support Systems 36(4), 385-401 (2004).

8. David Nadeau, Satoshi Sekine. A survey of named entity recognition and classification.

9. Pavel Smr and Michal Mrnutk. Decipher-D4.1.1-WP4-BUT State of the art of event detection methods-PU. Report. Brno University of Technology, 2011.

10. Etzioni, Oren;

Cafarella, M.;

Downey, D.;

Popescu, A.-M.;

Shaked, T.;

Soderland, S.;

Weld, D. S.;

Yates, A. 2005. Unsupervised Named-Entity Extraction from the Web: An Experimental Study. Artificial Intelligence 165.91-134, Essex: Elsevier Science Publishers.

11. Witten, Ian. H.;

Bray, Z.;

Mahoui, M.;

Teahan W. J. 1999. Using Language Models for Generic Entity Extraction. In Proc. International Conference on Machine Learning. Text Mining.

12. Maynard, Diana;

Tablan, V.;

Ursu, C.;

Cunningham, H.;

Wilks, Y. 2001.

Named Entity Recognition from Diverse Text Types. In Proc. Recent Advances in Natural Language Processing.

13. Zhu, Jianhan;

Uren, V.;

Motta, E. 2005. ESpotter: Adaptive Named Entity Recognition for Web Browsing. In Proc. Conference Professional Knowledge Management.

Intelligent IT Tools for Knowledge Management Systems.

14. Brin, Sergey. 1998. Extracting Patterns and Relations from the World Wide Web. In Proc. Conference of Extending Database Technology. Workshop on the Web and Databases.

15. Cohen, William W.;

Sarawagi, S. 2004. Exploiting Dictionaries in Named Entity Extraction: Combining Semi-Markov Extraction Processes and Data Integration Methods. In Proc. Conference on Knowledge Discovery in Data.


16. Bick, Eckhard 2004. A Named Entity Recognizer for Danish. In Proc. Conference on Language.

17. Shen Dan;

Zhang, J.;

Zhou, G.;

Su, J.;

Tan, C. L. 2003. Effective Adaptation of a Hidden Markov Model-based Named Entity Recognizer for Biomedical Domain. In Proc.

Conference of Association for Computational Linguistics. Natural Language Processing in Biomedicine. Resources and Evaluation.

18. Settles, Burr. 2004. Biomedical Named Entity Recognition Using Conditional Random Fields and Rich Feature Sets. In Proc. Conference on Computational Linguistics. Joint Workshop on Natural Language Processing in Biomedicine and its Applications.

19. Rindfleisch, Thomas C.;

Tanabe, L.;

Weinstein, J. N. 2000. EDGAR: Extraction of Drugs, Genes and Relations from the Biomedical Literature. In Proc. Pacific Symposium on Biocomputing.

20. Narayanaswamy, Meenakshi;

Ravikumar K. E.;

Vijay-Shanker K. 2003. A Biological Named Entity Recognizer. In Proc. Pacific Symposium on Biocomputing.

21. SEGERS, R., VAN ERP, M., VAN DER MEIJ, L., AROYO, L., SCHREIBER, G., WIELINGA, B., VAN OSSENBRUGGEN, J., OOMEN, J., AND JACOBS, G. Hacking History: Automatic Historical Event Extraction for Enriching Cultural Heritage Multimedia Collections. In Proceedings of the 6th International Conference on Knowledge Capture KCAP (2011), pp. 1–4.

22. VOSSEN, P., SCHREIBER, G., AND VAN HARMELEN, F. The semantics of history: model, methods and application. http://www2.let.vu.nl/oz/cltl/semhis, 2009.

23. RIZZI, V., GIUNCHIGLIA, F., TRECARICHI, G., TEYSSOU, D., MURDOCK, V., DE POLO, A., AND MEZAOUR, A.-D. Project GLocal, Deliverable D1.1 – requirements for event modelling, representation and use, 2010.

24. COLLINS, T. D., MULHOLLAND, P., AND ZDRAHAL, Z. Using mobile phones to map online community resources to a physical museum space. Int. J. Web Based Communities (November 2009), 18–32.

25. Ахо А., Ульман Дж. Теория синтаксического анализа, перевода и компиляции.

М.: Мир, 1978.

26. Рассел С., Норвиг П. Искусственный интеллект: современный подход = Artificial Intelligence: a Modern Approach / Пер. с англ. и ред. К. А. Птицына. — 2-е изд. — М.: Вильямс, 2006.

27. Kluegl P., Atzmueller M., and Puppe F. TextMarker: A Tool for Rule-Based Information Extraction // Proc. Unstructured Information Management Architecture UIMA, 2nd UIMA@GSCL Workshop. 2009 Conference of the GSCL Gesellschaft fr Sprachtechnologie und Computerlinguistik. 2009.

28. Nitin Indurkhya and Fred J. Damerau. Handbook of Natural Language Processing (2nd ed.). 2010. Chapman & Hall/CRC.

29. Hogenboom F., Frasincar F., Kaymak U., and Franciska de Jong. An Overview of Event Extraction from Text // Workshop on Detection, Representation, and Exploitation of Events in the Semantic Web (DeRiVE 2011) at Tenth International Semantic Web Conference (ISWC 2011), Vol. 779. pp. 48-57. CEUR-WS.org, 2011.

ПРОБЛЕМЫ РАЗРАБОТКИ ПРИКЛАДНОЙ ОНТОЛОГИИ ДЛЯ ОБЛАСТИ НАНОМАТЕРИАЛОВ Иванов Владимир Владимирович (ИТИС КПФУ) Поляков Владимир Николаевич (НИТУ МИСИС) Красильникова Юлия Олеговна (НИТУ МИСИС) Abstract An ontology of nanomaterials and nanotechnologies is discussed. This ontology was proposed as a basic structure of the knowledge base supporting “Engineered nanomaterials” activity of National nanotechnological network. The top-down process of ontology development was based on the methodology proposed by N. Noy and D. McGuinnes. Additional ontological resources including Nanoparticle Ontology for Cancer Nanotechnology Research, Ontology for Nanoscience and British Standards Institution resources were also investigated and exploited. An OWL-version of the ontology is available online at BKNano Portal (http://bknano.ru). The ontology includes 168 classes and 138 relationships. A specific RDBMS to OWL mapping and a data transformation algorithm were developed to fill the knowledge base with facts.

ВВЕДЕНИЕ В современном информационном обществе все большую роль играют процесса автоматического обмена накопленными знаниями, необходимыми для эффективного развития исследований, технологий и производства в некоторой фиксированной отрасли.

Однако, такие процессы зачастую сопровождаются большими издержками и потерями смысла передаваемых знаний, в силу различных несовместимых способов интерпретации, из-за отсутствия общей модели, формализующей представление знаний. В данной статье предпринята попытка создания такой единой модели (или онтологии) для области конструкцонных наноматериалов. Основным назначением созданной онтологии является определение структур для представления знаний (в форме понятий и отношений), необходимых для поддержки процессов интеграции информации о научных исследованиях, технологических решениях, рыночных показателях этой интенсивно развивающейся предметной области. В статье излагается подход к построению онтологии, основанный на работе [1], рассматриваются проблемы, возникающие при создании онтологии и наполнении базы знаний фактами, предложены соответствующие решения.

Обзор онтологических ресурсов в области наноматериалов и нанотехнологий После формулировки требований к охвату в рамках проекта был выполнен поиск и анализ аналогичных или близких онтологий, которые могут быть основой для формирования базисной структуры онтологии по конструкционным наноматериалам.

Проведенный анализ выявил несколько ресурсов онтологического типа, относящихся к области материаловедения или наноматериалов и нанотехнологий. Эти ресурсы были условно разбиты на 3 группы: схемы (классификаторы) предметной области, терминологические системы и собственно онтологии. Рассмотрим их последовательно.

Схемы предметной области 1) Классификация исследовательской деятельности в области нанотехнологий (Proposed Ontology for Nanoscience) [3], 2) Атлас по нанотехнологиям (Atlas of Nanotechnology), предназначенный для поддержки образовательной деятельности в этой области.

Терминологические ресурсы 1) Тезаурус по нанотехнологиям и наноматериалам (http://www.portalnano.ru/read/tezaurus).

2) Словарь нанотехнологических и связанных с нанотехнологиями терминов (http://thesaurus.rusnano.com/).

Онтологии 1) Онтология наночастиц для исследований в области лечения рака (NanoParticle Ontology for Cancer Nanotechnology Research, NPO) [2].

2) Онтология величин, единиц измерения и типов данных (Quantities, Units, Dimensions and Types, QUDT).

Классификация исследовательской деятельности в области нанотехнологий и наноматериалов.

Отдельный интерес для формализации и построения онтологии представляют ресурсы Британского института стандартов (British Standards Institution), в особенности документы PAS 71:2005 (Vocabulary – Nanoparticles), PAS 132:2007 (Terminology for the bio-nano interface) и PAS 136:2007 (Terminology for nanomaterials), а также рекомендации Еврокомиссии по определению термина «наноматериал». В частности, они содержат определения базисных типов сущностей (ключевых понятий): материалы, методы и технологии, задачи, которые легли в основу онтологии по конструкционным наноматериалам Все перечисленные ресурсы имеют свои недостатки и преимущества, однако наиболее близкой с точки зрения охвата предметной области онтологией является NPO. Данная онтология построена на основе формальной онтологии верхнего уровня BFO (Basic Formal Ontology). Онтология имеет фокус на представлении знаний на интенсиональном уровне, в рамках т.н. TBox (Terminology Box). Иными словами, разработчики предполагали, что классы онтологии NPO не должны иметь явных экземпляров, поэтому в соответствующей базе знаний их создание не предусмотрено.

Стоит отметить, что онтология содержит довольно большое количество классов (всего 1815), выступающих элементами при определении более сложных конструкций (ограничений, аксиом). Но большинство из этих классов являются однотипными. Так, например, для каждого из химических элементов и атома данного элемента в NPO вводится по одному классу (результатом является определение более 100 пар классов, которые отличаются только названиями – именем химического элемента). Набор отношений онтологии NPO, напротив, достаточно ограничен: в онтологии определены всего 50 свойств, для большей части которых не определены ограничения на домен (класс, для которого свойство определено) и диапазон (класс, в котором находятся значения свойства). Можно сказать, что онтология NPO строилась исходя из предположения о том, что набор понятий ограничен (хотя и содержит сотни концептов велик), а набор отношений описывает только типы взаимодействий между различными типами частиц и физико-химические процессы на нано- или микроуровне.

Онтология NPO, загруженная в редактор Protg.

Для предметной области создаваемой в рамках данного проекта онтологии по наноматериалам характерна противоположная ситуация: требуется охватить сравнительно небольшим набором классов и свойств потенциально неограниченный (точнее – неограниченно расширяемый) набор объектов, процессов и явлений, характеризующих деятельность по созданию новых наноматериалов, производству и использованию существующих, а также круг явлений, определяющих динамику и направления развития предметной области в целом (включая такие понятия, как объем рынка наноматериалов, динамика цен и т.п.). Указанная особенность ведет к необходимости описывать помимо ключевых понятий (таких как наноматериал, технология, персона, организация, задача и т.п.) ряд физических и социальных явлений, учитывать темпоральный (т.е. временной) аспект, а также создавать механизмы для явного описания экземпляров для каждого из вводимых классов (понятий). Всё эти рассуждения привели к решению о том, что заимствование определений из NPO практически нецелесообразно. При разработке онтологии было принято решение о выборе подхода к ее построению «сверху-вниз», т.е.

путем выбора некоторой онтологии верхнего уровня и расширения ее понятиям и отношениями до уровня, требуемого для решения задач, возлагаемых на онтологию по конструкционным наноматериалам. Основными источниками информации для формирования понятий были выбраны монографии по наноматериалам. Кроме того, исходными данными служили результаты опроса и анкетирования экспертов в данной предметной области.

МЕТОДОЛОГИЯ, ПРОЦЕСС ПОСТРОЕНИЯ ОНТОЛОГИИ И НАПОЛНЕНИЕ БАЗЫ ЗНАНИЙ ПО КОНСТРУКЦИОННЫМ НАНОМАТЕРИАЛАМ. ОПРЕДЕЛЕНИЕ СОДЕРЖАНИЯ И ГРАНИЦ ПРЕДМЕТНОЙ ОБЛАСТИ КОНСТРУКЦИОННЫХ НАНОМАТЕРИАЛОВ онтологии Область охвата (предметная область) по конструкционным наноматериалам определяется набором существенных понятий и отношений, используемых в различных видах деятельности, связанных с исследованием свойств, производством, обработкой, потреблением и утилизацией конструкционных наноматериалов и продуктов, получаемых с их участием. Комплекс задач, возлагаемых на онтологию, с одной стороны определяется необходимостью формализации знаний о данной предметной области, а с другой – необходимостью получения нетривиальных заключений (фактов в базе знаний) которые могут быть сгенерированы средствами логического вывода. Задачи, связанные с формализацией знаний о предметной области, решаются очевидным образом путем выбора диалекта языка представления знаний OWL DL, основанного на дескриптивной логике, а также представлением основных понятий и отношений на этом языке. Прикладные задачи, связанные с анализом методов и технологий, а также сравнением научно-технических решений в области конструкционных наноматериалов, прогнозированием появления новых научно технических решений, возлагаются на базу знаний, построенную на основе онтологии, и включающую помимо исходных фактов и утверждений, правила вывода, необходимые для генерации новых знаний и решения перечисленных видов задач. Еще одним приложением разработанной онтологии и базы знаний является информационная Основные понятия и определения, принятые в области создания и применения онтологий приведены в Приложении 3.

поддержка процессов принятия решений при планировании деятельности в области внедрения научно-технических результатов в промышленности. Ниже приведены требования, предъявляемые к области охвата онтологии, которые являются результатом анализа предметной области понятий и отношений. Онтология должна явно определять структурные элементы (понятия и отношения) для представления семантики следующих видов сущностей и их характеристик.

1) Идентификация любого объекта, явления или процесса, входящего в область компетенции онтологии, на основе глобально уникальных идентификаторов.

2) Классификация любого объекта, явления или процесса, входящего в область компетенции онтологии, в соответствии с динамически изменяемой и настраиваемой классификацией. Возможность одновременно использования для классификации произвольного числа независимых систем классификации.

3) Ссылки на источники, в которых упоминается или описывается объект, явление или процесс, представленный в онтологии.

4) Спецификация в явном виде как химических, так и физических свойств, особенностей, структуры наноматериалов и других внутренне присущих материалам и веществам характеристик и параметров.

5) Спецификация в явном виде контекста создания и существования наноматериалов. В частности связи между наноматериалами и:

Персоналиями;

Организациями;

Продукцией, получаемой из наноматериалов и сырьем, необходимым для производства наноматериалов;

Исследовательскими, инженерными и производственными задачами, возникающими при создании новых наноматериалов, их производстве, использовании и утилизации;

Технологиями получения, технологическими процессами производства и методами исследования, соответствующим оюорудованием и т.д.

Правовыми аспектами, связанными с защитой интеллектуальной собственности в сфере наноматериалов;

Особенностями воздействия конкретных видов наноматериалов на окружающую среду и живые организмы.

6) Аналитические и прогнозные данные, результаты экспериментов, проводимых с образцами материалов для изучения их свойств.

7) Значения экономических показателей, связанных с областью конструкционных наноматериалов, в том числе данные исследований соответствующих рынков, необходимые для принятия управленческих решений.

Определенные таким образом содержание и границы предметной области конструкционных наноматериалов с одной стороны дают точное представление о целях и классах задач, которые возлагаются на онтологию, а с другой – четко определяют область ее компетенции. Понятия верхнего уровня определяются следующим перечнем.

1) Постоянные и Временные сущности, 2) Концептуальные и Материальные сущности, 3) Виды деятельности и их отношения с другими понятиями, 4) Агенты, 5) Временные интервалы (промежутки времени) и местоположения.

Для представления результатов измерений, величин, значений наилучшим образом подходит онтология QUDT. Основные классы и отношения этой онтологии приведены ниже.

Структура классов и отношений онтологии QUDT Из QUDT онтологии QUDT были заимствованы следующие понятия и их взаимосвязи:

1) Величины и их типы 2) Размерности 3) Единицы измерения Указанные онтологии (NPO, QUDT) вместе с онтологией верхнего уровня формируют объектную структуру предметной области конструкционных наноматериалов. В процессе создания онтологии по конструкционным наноматериалам было выполнено расширение онтологии верхнего уровня.

Иерархия была дополнена характерными для предметной области понятиями и отношениями. Фрагменты иерархии классов онтологии проиллюстрированы ниже (карты понятий построены с помощью модуля OntoGraf, который позволяет также реализовать навигацию по базе знаний в виде концептуальной карты).

Структура понятий верхнего уровня онтологии NMO.

Иерархия подклассов класса «Концептуальный предмет»

РАЗРАБОТКА СТРУКТУРЫ БАЗЫ ЗНАНИЙ ДЛЯ АНАЛИЗА МЕТОДОВ И ТЕХНОЛОГИЙ В ОБЛАСТИ КОНСТРУКЦИОННЫХ НАНОМАТЕРИАЛОВ.

Основное содержимое и структуру БЗ составляют множество экземпляров понятий онтологии связи и множество связей, установленных между экземплярами на базе определенных в онтологии типов отношений. В совокупности эти множества формируют набор утверждений (в терминологии дескриптивной логики – ABox). Каждое из утверждений имеет вид тройки: «субъект-предикат-объект».

В основу подхода к представлению базы знаний на языке OWL DL были положены следующие принципы:

- учет многоязычности/независимость от естественного языка - использование URI в качестве идентификаторов для всех классов, свойств и экземпляров - использование типов данных XML Schema использование дескриптивной логики который, в частности - SHIN(D), поддерживается в редакторе Protg и позволяет выполнять логический вывод средствами стандартных ризонеров (например, Pellet).

Ниже приведены количественные характеристики базы знаний по конструкционным наноматериалам. Как видно из приведенной иллюстрации, для более чем 60% свойств определены обратные (инверсные, см. значение метрики «Properties with an inverse specified») свойства, что позволяет выполнять инверсные запросы к базе знаний.

НАПОЛНЕНИЕ БАЗЫ ЗНАНИЙ ФАКТАМИ И ТЕРМИНОЛОГИЧЕСКИМИ ЗАПИСЯМИ ИЗ ОБЛАСТИ КОНСТРУКЦИОННЫХ НАНОМАТЕРИАЛОВ.

Все описанные выше проектные решения легли в основу создания базы знаний по конструкционным наноматериалам. Основой для наполнения базы знаний были данные научных исследований, публикации, сведения, получаемые из исследований рынка наноматериалов и отчетах о состоянии данной предметной области. Выбор в качестве исходных ресурсов большого числа неоднородных источников информации обусловлен необходимостью постоянной актуализации содержимого базы знаний вследствие высокой динамичности и широты охвата предметной области.

В рамках выполнения работ по проекту предложено несколько вариантов заполнения базы знаний:

- ввод фактов и правил вручную инженером по знаниям на основе анализа авторитетных источников информации, используя средства редактора Protg.

- полуавтоматический ввод: загрузка фактов из внешних источников таких, как БД ФГУП ЦНИИ конструкционных материалов "Прометей".

- ввод через пользовательский интерфейс (портал bknno.ru) в БД и последующая автоматическая синхронизация содержимого БД и БЗ.

Пример отображения таблиц базы данных на понятия онтологии представлен ниже.

Формальное представление отображения связанных таблиц базы данных на онтологическую структуру необходимо для автоматизации процесса синхронизации.

Другим важным компонентом базы знаний являются правила вывода, представленные в виде логических формул и позволяющие из утверждений, введенных в БЗ в явном виде, получать логически следующие из них утверждения. Таким образом, правила формируют структуру базы знаний и представляют механизм ее пополнения.

Ниже представлены примеры правил, позволяющих делать заключения и получать факты, необходимые для решения прогнозирования появления новых решений в области конструкционных наноматериалов.

Частица(?x) 'имеет характерный размер (нм)'(?x, ?size) swrlb:lessThanOrEqual(?size, 100) Наночастица(?x) Применение механизма SPARQL-запросов для генерирования новых фактов в базе знаний Задачи прогнозирования появления новых решений в области конструкционных наноматериалов могут иметь различную постановку. Рассмотрим постановку, когда условием задачи выступает положительная оценка динамики производства и/или потребления некоторого класса наноматериалов относительно других классов. Решением задачи является перечень потенциально перспективных наноматериалов с указанием соответствующих областей и тенденций. Следующий запрос, построенный на языке SPARQL позволяет сравнивать показатели рынка нанопорошков для нанопорошков оксидов и металлов.



Pages:   || 2 | 3 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.