авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 |   ...   | 11 | 12 || 14 | 15 |   ...   | 26 |

«Электронные библиотеки: Перспективные Методы и Технологии, Электронные коллекции English Труды RCDL 2010 ...»

-- [ Страница 13 ] --

сети «Вопрос – ответ – реакция» (ЛСС Работа специалиста-профессионала с фондами ВОР), адекватной смыслу текста. Такая по- предполагает наличие системы каталогизации и исковая система позволит пользователю классификации материала. В рамках заданной про получить ответ на вопрос, сформулирован- блемной темы предмета предлагается технология ный на естественном языке. Излагаются формирования и поддержки «каталожной» службы, имеющийся опыт и наработки в данной об- которая обеспечивает эффективный поиск ответов ласти. Приводится краткий обзор известных на вопросы. Стержнем такой «каталожной» службы вопросно-ответных поисковых систем. Об- является упорядоченное открытое множество мно суждается возможность применения такого жеств ЛСС ВОР. Множество исходных документов подхода для поиска и навигации в элек- фонда представляются как корпус, ориентирован тронном архиве Объединенного института ный не только на пользовательские вопросно ядерных исследований (ОИЯИ). ответные потребности, но и на возможность его использования для решения лингвистических задач, 1 Введение связанных с языковыми особенностями документов фонда. Результаты решения лингвистических задач Информационные потребности пользователей могут служить базой для семантической дифферен научных электронных библиотек (ЭБ) определяются циации ЛСС ВОР.

задачами, которые они решают в процессе своей профессиональной деятельности. Этими задачами 2 Семантические поисковые системы могут быть: исследование, экспертиза, инженерная задача, конструкторская задача, научное руково- Стандартные поисковые системы выдают список дство и пр. Коммуникация специалистов- ссылок на найденные ресурсы. Навигацией в масси профессионалов в данной предметной области эф- ве найденных ссылок, анализом страниц и поиском фективна, когда она происходит по принципу во- необходимой информации пользователь вынужден прос – ответ. Когда пользователь решает некоторую заниматься самостоятельно.

задачу, то, обращаясь к информационной системе, В настоящее время семантические поисковые он хочет получить ответ на свой вопрос. Но, при- системы активно создаются, развиваются и совер ступая к решению новой для себя задачи, пользова- шенствуются. Они дают лучший результат, чем тра тель может неточно и/или неполно сформулировать диционные поисковые системы, т. к. понижается свой вопрос. Это естественно, т. к. полная ясность уровень информационного шума за счет исключе наступает, когда задача уже решена. Или пользова- ния спама и рекламы, другой лишней информации.

тель, задающий вопрос, не является профессиона- Но, тем не менее, это не ответ на вопрос пользова лом в данной предметной области. Следствие – дру- теля, а список ресурсов, где он может найти ответ.

гой ответ. Тогда возникает типичная проблема: от- Поэтому поиск ответов на вопросы пользователей, вет есть в системе, но он не найден, т. к. вопрос заданных на естественным языке, – актуальная за сформулирован неточно. Зачастую пользователю дача.

трудно понять, является ли полученный им ответ 2.1 Краткий обзор информационно-поисковых систем «Вопрос – ответ»

й Труды 12 Всероссийской научной конференции «Электронные библиотеки: перспективные методы Вопросно-поисковая система (QA-система) – это и технологии, электронные коллекции» – информационно-поисковая интеллектуальная спра RCDL’2010, Казань, Россия, 2010 вочная система с естественно языковым интерфей сом. Первые QA-системы появились в 1960-е гг. и ного интеллекта в 1993 г., является универсальной использовались как естественно-языковые оболочки системой. В настоящее время может ответить на для экспертных систем. миллионы вопросов на английском языке об объек Среди современных национальных разработок тах (города, страны, водоемы, координаты, погода, следует упомянуть – Nigma (http://www.nigma.ru), карты), фильмах (названия, актеры, режиссеры), AskNet (http://www.asknet.ru), Генон (http://www. персоналиях (даты рождения, биографии), терминах genon.ru/), среди зарубежных – Lexxe (http://www. и др.

lexxe.com/), Start (http://start.csail.mit.edu/), Hakia Поисковая машина Hakia производит поиск во (http://hakia.com), Powerset (http://www.powerset. всех сегментах, включая веб-новости, блоги, гале com). Ниже приводится краткое описание перечис- реи. Новости, блоги, галереи обрабатываются на ленных систем. основе собственной технологии, называемой Интеллектуальная поисковая система Nigma.ru – QDEXing. Веб, видео и изображения обрабатывают – первая кластеризующая поисковая система в Ру- ся Hakia с помощью алгоритма SemanticRank.

нете. Цель проекта – создание программного обес- Проведение глубокого исследования этих систем печения, позволяющего анализировать проиндекси- затруднено из-за того, что не для всех перечислен рованные документы и выдавать конкретную ин- ных систем представлена в открытом доступе необ формацию на запрос пользователя, а не ссылки на ходимая для полномасштабного исследования ин другие сайты. Созданы такие сервисы, как Nigma- формация. Поэтому был проведен экспресс-анализ в математика, Nigma-химия и Nigma-музыка. Разра- виде следующего эксперимента – в системы вво ботки ведутся при участии Стэнфордского универ- дился один и тот же вопрос, на который заведомо ситета. известен однозначный правильный ответ. В данном Другой пример – система AskNet, которая обес- случае это был вопрос «Где был открыт 105-й эле печивает поиск ответов на запросы пользователей мент периодической таблицы?». В англоязычные на русском и английском языках. В качестве ре- системы вводился тот же вопрос на английском зультата поиска непосредственно выдаются ответы. языке. Оценивались показатели: общее количество Поисковая машина AskNet Global Search осуществ- полученных ответов на первой итерации поиска (), ляет поиск информации с использованием интернет- количество ответов после фильтрации при наличии сервисов существующих поисковых систем и ин- в системе соответствующих фильтров (F), количе тернет-энциклопедий по запросам удаленных поль- ство релевантных ответов (R). Результаты пред зователей. ставлены в таблице, из которой видно, что наиболее Система Генон является симбиозом вопросно- высокие показатели наблюдаются у AskNet:

ответных и поисковых систем. В Геноне реализова- Система F R Примечание на модель накопления и хранения проверенной ин- Powerset 6 — формации вместе с вопросами, на которые эта ин Lexxe 100 — формация отвечает. Добавлять свои знания может Start 0 — каждый человек. Ответы и вопросы создаются Ав Hakia 0 — торами, зарегистрировавшимися на Геноне, и про AskNet 24 — веряются Редакторами на предмет соответствия написания вопросов и ответов правилам Nigma 25 000 9800 7 Из первых (http://www.genon.ru/rules.aspx). Таким образом, ба- зу Генона формируют вопросы, на которые есть Генон 10 — однозначные, полные и актуальные ответы, не со Качество поиска в описанных системах, несо держащие какого-либо информационного мусора и мненно, выше, чем в традиционных поисковых ма прямой рекламы товаров или услуг.

шинах. Эти системы являются универсальными и Поисковая машина Lexxe использует полностью позволяют задавать любые вопросы по всем облас автоматическую технологию поиска без участия тям знаний. В основе их работы лежат лингвистиче редактирования пользователем. Большинство отве ские механизмы – морфологический и синтаксиче тов приходит из неструктурированных текстов и ский анализ. Все вопросно-ответные машины ори веб-страниц в интернете. В Lexxe применяется вы ентированы на получение релевантных ответов на числительная лингвистика, что позволяет получить вопросы в широких тематических предметных по более релевантные результаты, чем от обычных по лях. Теоретические основы таких машин имеют исковых систем. Lexxe достигает этой цели путем общие и частные подходы. Но они не могут служить анализа и извлечения значения из поискового за основой для создания «каталожной» основы корпу проса. Lexxe распознает, когда запрос является во са научных документов.

просом, а затем пытается найти ответ в Сети, извле Подход, излагаемый в данной статье, предпола кая потенциальные ответы с веб-страниц. Если за гает создание социотехнической системы {Эскперт прос не является вопросом, производится поиск по + Инструмент}. Основная идея – создать дополни ключевым словам.

тельный инструментарий для специализированного Поисковая система Start была разработана груп фонда документов, содержащий научные тексты, пой InfoLab в Массачусетском технологическом протоколы, проекты и т. д.

институте информатики и лаборатории искусствен • ЛСС являются основой структурирования зна 3 Семантическая поисковая система на ний предметной области;

основе логико-семантической сети «Во • поиск релевантной информации по запросу прос – ответ – реакция»

может осуществляться на основе унифицированно Рассматриваемый в статье подход является экс- го механизма поиска на ЛСС.

периментальным и основан на качественном анали- Таким образом, создание семантической поиско зе научных текстов. вой системы на основе ЛСС ВОР включает как ста Информационный поиск документов по запросу дии разработки:

• теоретических положений технологии поиска всегда подразумевает определенную степень осоз нания пользователем: прежде чем составить инфор- ответов на вопросы для специализированных науч мационный запрос, пользователь либо осознанно ных корпусов;

представляет себе, на какой вопрос хочет получить • автоматизированной технологии формирова ответ, либо не может сформулировать вопрос и ния и поддержки специализированных научных представляет себе, какая ему необходима информа- корпусов;

ция, чтобы удовлетворить информационную по- • структурно-функциональной модели семанти требность. В последней ситуации он реализует по- ческой-поисковой системы на основе ЛСС ВОР;

иск методом проб и ошибок, в процессе которого • прототипов компонент системы;

может либо ясно осознать, на какой вопрос искал • технического задания.

ответ, либо не получить желаемого. Для профес сионалов всегда есть осознание той информации, 3.1 Общие положения системы «Вопрос – ответ»

которая является ответом на его вопрос. В этом Вопросы возникают там, где есть познавательная случае ему проще сформировать вопрос и иметь неопределенность. Вопрос не является суждением, возможность при получении ответа с помощью спе но в основе его всегда лежат суждение или сово циализированного навигатора либо уточнять во купность суждений. Раздел логики, изучающий во прос, либо его углублять, получая соответствующие просы (эротетическая логика), рассматривает логи связки (вопрос – ответ). Тем самым пользователь ческую связку «вопрос – ответ» как «единицу мыс может получить расширенные, углублённые, уточ ли».

нённые или новые знания. При этом за счёт реакции Развитие научных и практических знаний проте пользователь может контролировать согласован кает как переход от ранее установленных суждений ность смыслового собственного понимания вопро к новым, более точным и богатым по содержанию и сов и ответов и понимания вопросов и ответов, за представляет собой последовательность этапов: по ложенных в семантической поисковой системе. По становка вопроса;

поиск новой информации;

фор скольку система открытая, пользователь в процессе мирование ответа на поставленный вопрос.

взаимодействия может уточнять и расширять саму Познавательная функция вопроса связана с вос ЛСС.

полнением, уточнением и конкретизацией ранее Общие положения, которые легли в основу дан полученных общих представлений о предметах и ной работы, таковы:

явлениях действительности. В процессе познания • структурированная, слабо структурированная вопросы не возникают сами по себе. Любой вопрос информация предметной области может быть пред всегда опирается на уже известное знание, высту ставлена в виде логико-семантических сетей «Во пающее его базисом и выполняющее роль предпо прос – ответ – реакция»;

сылки вопроса (datum questionis).

• логико-семантическая сеть отражает опреде Познавательная функция вопроса реализуется в лённую тему предметной области;

форме ответа на поставленный вопрос. Ответ пред • предметная область представляется множест ставляет собой новое суждение, уточняющее или вом тем;

дополняющее прежнее знание в соответствии с по • предметная задача может быть представлена в ставленным вопросом. Поиск ответа предполагает форме вопроса (или совокупности вопросов);

обращение к конкретной области теоретических или • решение задачи может быть представлено в эмпирических знаний, которую называют областью форме ответа или совокупности ответов;

поиска ответа. Полученное в ответе знание может • способ решения задачи может быть представ- служить базисом для постановки новых, более глу лен унифицированным механизмом поиска реакций боких вопросов о предмете исследования. Поста на множестве логико-семантических сетей;

новка вопроса и поиск информации для конструи • качество решения задачи представляется как рования ответа составляют вопросно-ответную ло уровень релевантности ответов заданному вопросу. гическую форму развития знаний.

Предполагается, что: Формулирование вопроса связано с его познава • логико-семантические сети «Вопрос – ответ – тельной функцией, направленной на получение реакция» являются основой для структурирования уточняющей информации, или расширенного зна произвольных текстов научно-технической инфор- ния, или углубленного знания, или нового знания об мации;

объекте исследования. Вопрос, представленный в форме текста, включает ключевые слова и словосо четания, относящиеся к предмету исследования. необходимо сформулировать точный и определен Между ключевыми словами и словосочетаниями ный вопрос.

зафиксированы (формой предложения вопроса) оп- Под точностью и определенностью в данном ределённые отношения. Множество ключевых слов случае имеется в виду логическая, т. е. понятийно вопроса и отношений между ними образует так на- структурная характеристика вопроса. Она выража зываемую онтологическую модель вопроса (ОМВ). ется в точности употребляемых понятий и вопроси Процесс формирования вопроса должен опираться тельных слов, а также в рациональном использова на внутреннюю логику его организации, которая нии сложных вопросов. Двусмысленные понятия отражается в ОМВ. Это обстоятельство является нередко используются в улавливающих или «про основой для технологии формирования вопроса. вокационных» вопросах, в которых содержится Процесс поиска ответа на вопрос направлен на скрытая информация. Неопределенность в ответах поиск информации в области предмета исследова- может быть результатом неясности используемых ния или расширенной области знаний об объекте при постановке вопроса понятий.

исследования. Ответ, представленный в форме тек- Итак, • качество ответа зависит от качества вопроса;

ста, содержит ключевые слова и отношения между ними. Множество ключевых слов и отношений об- • под качеством вопроса и ответа следует пони разуют онтологическую модель ответа. Онтологи- мать точность и определённость;

ческая модель ответа и система правил, устанавли- • под точностью и определенностью имеется в вающая целостность системы «вопрос – ответ» – виду понятийно-структурная характеристика вопро основа для технологии поиска ответа на вопрос. са и ответа;

Процесс установления связи вопроса и ответа • понятийно-структурная характеристика вопро направлен на выявления возможных несоответствий са выражается в точности употребляемых понятий и в ответе. В этом случае необходимо расширить либо вопросительных слов, а также в рациональном ис область поиска ответа, либо область предпосылки пользовании сложных вопросов;

вопроса или предмета исследования. Это должно • понятийно-структурная характеристика ответа привести к формированию вопроса, либо его уточ- выражается в точности употребляемых понятий, а нению, либо расширению. также в рациональном использовании сложных от Любой возможный ответ на тот или иной вопрос ветов.

должен удовлетворять стандартным «постулатам Хэмблина» [1]: 3.2 Формальная структура вопроса и ответа • ответ на вопрос должен быть сформулирован в Будем считать, что логическая структура вопро виде высказывания или предложения;

са включает следующие составляющие: тему вопро • возможные ответы на вопрос образуют исчер са (ТВП);

содержание вопроса (СВП);

объём вопро пывающее множество взаимно исключающих аль са (ОВП).

тернатив;

Под темой вопроса будем понимать предпосыл • значение вопроса известно, если и только если ки вопроса (знания об объекте и предмете исследо известно, что может считаться ответом на этот во вания, к которым относится вопрос).

прос;

иными словами, сущность вопроса можно Под содержанием вопроса будем понимать отождествить с множеством возможных ответов на предметы, явления, процессы, технологии, инстру него [3].

менты, теории, относящиеся к объекту и предмету По содержанию и структуре ответ должен стро исследования, связи между ними посредством фик иться в соответствии с поставленным вопросом.

сации общих и специфических признаков. Будем Лишь в этом случае ответ расценивается как реле считать, что содержание вопроса отражается в клю вантный, т.е. как ответ по существу поставленного чевых терминах и отношениях между ними, т. е. в вопроса, выполняющий свое основное назначение – онтологической модели вопроса.

уточнить неясную или неопределенную и доставить Под объёмом вопроса будем понимать множест новую информацию.

во адекватных ответов, удовлетворяющие заданно Если в качестве ответа приводят хотя и истин му уровню качества.

ные, но содержательно не связанные с вопросом Таким образом, структура вопроса (CТВП) пред суждения, то их расценивают как ответы не по су ставляется как СТВП =СТВП(ТВП, СВП, ОВП).

ществу вопроса и обычно исключают из рассмотре Будем считать, что логическая структура ответа ния. Появление таких ответов в дискуссии – либо включает следующие составляющие: тему ответа результат заблуждения, когда отвечающий не уло (ТОТ);

содержание ответа (СОТ);

объём ответа вил смысл вопроса, но пытается отвечать на него, (ООТ).

либо сознательное стремление уйти от невыгодного Под темой ответа будем понимать область поис ответа на поставленный вопрос.

ка (знания об объекте и предмете исследования, к Логическая зависимость между вопросом и отве которым относится вопрос).

том означает, что качество ответа во многом опре Под содержанием ответа будем понимать пред деляется качеством вопроса. На расплывчатый и меты, явления, процессы, технологии, инструменты, двусмысленный вопрос трудно получить ясный от теории, относящиеся к объекту и предмету исследо вет. Для получения точного и определенного ответа вания, связи между ними посредством фиксации 3. формирования базовых вопросов, на которые общих и специфических признаков. Будем считать, отвечает текст.

что содержание ответа отражается в ключевых тер- На полученном таким образом материале далее минах и отношениях между ними, т. е. в онтологи- строится ЛСС нижнего уровня:

ческой модели ответа. 1. Из названия научного текста извлекаются Под объёмом ответа будем понимать множество ключевые слова;

формируется тезаурус;

адекватных вопросу ответов, удовлетворяющее за- 2. Выдвигаются гипотезы, о чем идет речь в тек данному уровню качества. Таким образом, структу- сте;

ра ответа (СТОТ) представляется как 3. Текст разбивается на несколько частей (ин СТОТ=СТОТ(ТОТ, СОТ, ООТ). формационных блоков), к которым применяются фильтры F1, F2, F3, F4;

3.3 Формальная связь вопроса и ответа 4. Для частей текста, которые попали в фильтр F4, формулируется основная мысль – несколько Будем считать, что вопрос и ответ образуют це предложений;

таким образом, мы получаем сжатое лостную систему, если удовлетворяются следующие изложение (выжимку) текста.

условия:

Сопоставив полученную выжимку с выдвину A. Тема вопроса совпадает с темой ответа, т. е.

тыми гипотезами, мы получаем возможность делать ТВП=ТОТ (знак «=» означает совпадение, со выводы о том, насколько название текста соответст гласованность, адекватность тем);

вует его реальному содержанию. После этого этапа B. Содержание ответа не больше содержания во можно приступать к формированию ЛСС нижнего проса (число ключевых терминов в вопросе не уровня: формулирование вопросов к выделенным меньше числа ключевых терминов в ответе и информационным блокам;

выделение ответов из пересечение множества терминов вопроса и анализируемого текста и ссылок на них;

формиро множества терминов ответа не пустое);

вание реакций вопросов и ответов;

для ЛСС научно C. Объём вопроса не меньше объёма ответа (мно го текста (нижнего уровня) реакции вопросов и от жество ответов вопроса на предпосылках во ветов формируются из информационных блоков по проса больше чем множество ответов области фильтру F1.Общая часть, а также по библиографи поиска).

ческим ссылкам;

формирование графа вопрос – Из сказанного следуют ситуации:

ответ – реакция.

• если содержание и объем вопроса совпадает с содержанием и объемом ответа, то ответ и вопрос 3.5 Логико-семантическая сеть «Вопрос – ответ – удовлетворяют качеству и образуют полную сис реакция»

тему;

Прототип семантической поисковой системы на • если содержание ответа является частью со основе ЛСС описан в работе [2]. Логико держания вопроса и объём ответа соответствует семантическая сеть – это множество вопросов, отве части объёма вопроса, то ответ частично и качест тов и связей между ними, образующее целостную венно соответствует вопросу, и они образуют не систему [1]. Целостность ЛСС определяется сле полную систему;

дующими свойствами:

• если содержание ответа не соответствует со множество «Вопрос – ответ – реакция» относит держанию вопроса, то вопрос и ответ не образуют ся к определённой теме предметной области;

системы и не удовлетворяют качеству.

это множество иерархически упорядочено по 3.4 Методика анализа научных текстов принципу «от общего к частному»;

на нечётном уровне иерархии расположены во Данная методика применима только к научным просы, на чётном уровне – ответы и реакции;

текстам. Документ исследуется экспертом с точки вопросы i-го уровня иерархии связаны только и зрения:

только с ответами i+1-го уровня;

1. смыслового соответствия названия и содер вопросы i+1-го уровня могут быть связаны с жания;

ответами i-го уровня;

2. набора фильтров:

вопрос i-го уровня семантически связан с отве • F1 – общая часть;

включает анализ проблемы, тами i+1-го уровня, если удовлетворяет опреде ее историю, обзор, актуальность;

ленному условию ‘A’ или ‘B’. В случае удовле • F2 – авторские понятия;

включает вводимые творения условию ‘А’, например, имеет место авторами новые термины, общеупотребительные конечная вершина, а в случае удовлетворения термины с авторской интерпретацией, сужающие условию ‘B’ из данного ответа следуют вопросы семантику;

i+2-го уровня;

• F3 – примеры и иллюстрации;

предназначен на i=1-м уровне находятся вопросы, которые для пояснения сложных мест в тексте, позволяет раскрываются множеством ответов i=2-го уров сократить размер текста при строгих ограничениях ня, частично или полностью охватывающим те по объему;

му предметной области;

• F4 – идея автора;

описывает и раскрывает ос- на i=3-м уровне находятся вопросы, которые новную авторскую идею;

дополняют и уточняют ответы i=2-го уровня.

Таким образом, ЛСС ВОР можно представить в ви- верситет природы, общества и человека «Дубна», де графа (рис. 1). кафедра САУ. – 2009, Вып. 2. –http://www.sanse.ru/ Вопрос – это выраженный в форме вопроси- archive/11. Здесь не представляется возможным дать тельного предложения запрос, направленный на полное описание процесса вместе с разметкой тек развитие – уточнение или дополнение знаний. ста указанной статьи, поэтому в Приложении при Ответ – это реализация познавательной функ- веден только полученный граф ЛСС. Отражена ции вопроса в форме вновь полученного суждения. сквозная нумерация вопросов и ответов, выполнен При этом по содержанию и структуре ответ должен ная экспертом, работавшим с текстом. По свойствам строиться в соответствии с поставленным вопросом. ЛСС она может быть преобразована к виду (ij), где i Лишь в этом случае ответ расценивается как реле- – номер уровня, j – номер вопроса/ответа данного вантный, т. е. как ответ по существу поставленного уровня.

вопроса.

3.6 Формальное представление предметной об Реакция – это смысловое описание вопроса и ласти ответа [1].

Ввод реакций помогает пользователю понять, Любая научно-практическая область знаний получил ли он релевантный ответ на свой вопрос. В включает предмет исследования, который может качестве реакций могут выступать дополнительная быть представлен проблемным полем (перечнем информация по теме вопроса и ответа, ссылки на проблемных вопросов), являющийся основой для сайты, словари, рубрикаторы, каталоги и т. д. Таки- научной и практической деятельности. Проблемные ми реакциями могут сопровождаться как вопрос, вопросы могут быть представлены в виде иерархи так и ответ, что позволит пользователю лучше и ческого дерева по принципу «от общего к частно быстрее сориентироваться в предметной области. му». Для некоторых вопросов уже существуют воз Типы реакций: можные альтернативные ответы и способы их реа • реакции вопроса – это описание предобласти лизаций (реакции). Для понимания вопроса также вопроса (для осознания обстоятельств и причин необходима определённая реакция. В свою очередь возникновения вопроса и дальнейшего установле- ответы могут порождать вопросы. Таким образом, ния смыслового соответствия с областью ответа);

проблемный вопрос соотносится к определённой • реакции ответа – это описание области ответа теме предметной области и раскрывается семанти (для осознания смысла вопроса и смысловой связи с ческой структурой вопрос – ответ – реакция, кото ответом). рая, вообще говоря, является открытой (т. е. попол няемой, изменяемой) во времени. Другими словами, знания, накопленные в предметной области, могут быть представлены открытым множеством логико семантических сетей, упорядоченных по предмет ным темам. Задача предметной области может быть сформулирована в форме вопроса. Выявление в во просе таких смыслов, как тема, содержание и объем вопроса, позволяет найти релевантные ЛСС, в кото рых могут содержаться как ответы, так и объясне ния (реакции). Под предметной областью будем понимать область научно-практической деятельно сти человека, характеризуемую объектом и предме том исследования. Предметом исследования явля ются проблемы и задачи, связанные с объектом.

Рис. 1. Граф ЛСС «Вопрос – ответ – реакция» Теории, методы, инструменты, опыт специалистов, научные и эмпирические знания и метазнания – ре Процесс постановки вопроса, поиска ответа на сурс, который используется специалистами для ис него и формирования реакций вопроса и ответа – следования проблем, продуцирования новых зна сложный многоэтапный процесс, описанный под- ний, разработки теорий и технологий решения на робно в работе [4]. учных и практических задач. Будем считать, что В целом ЛCC ВОР полностью отвечает постула- накопленные знания предметной области представ там Хэмблина. лены в научных отчётах, монографиях, статьях, Реакция для вопроса – это описание области учебных материалах, информационных фондах, предпосылки вопроса. Реакция ответа – это описа- справочниках, словарях и т. д. Будем считать, что ние области поиска ответа информацию можно представить множеством тема Описанная выше методика была применена для тических разделов, каждый из которых отражает построения ЛСС научной статьи: Белага В.В., Сем- определенный аспект знания предметной области.

чуков П.Д., Стеценко М.С. Разработка программной Каждой теме можно поставить в соответствие ЛСС оболочки для мультимедийного образовательного ВОР. В этом случае знания предметной области продукта // Электронный журнал «Системный ана- формально можно представить следующим обра лиз в науке и образовании», Международный уни- зом.

Обозначим ПрОб – наименование предметной каталожной службы является трудоёмким ручным области, Тмi – наименование i-й темы предметной процессом. Поэтому для создания технологии фор области, ЛССij – наименование j-й ЛСС i-й темы. мирования и поддержки каталога ЛСС требуется Тогда предметная область представляется как максимальная автоматизация, чтобы предоставить АРМ аналитикам, которые будут заниматься фор mj n ПрОб = U Тмi ;

Тмi = U ЛССij, мированием ЛСС документов и предметных облас i =1 j = тей. При успешной реализации этой системы поль I Тм Тм 0 для i j, зователям ЭБ будет предоставлена новая возмож причём i j ность – получать ответы на вопросы, заданные на I ЛСС ЛСС 0 для i k и j r. естественном языке.

iji kr Представленные выше теоретические основы логи 4.1 Имеющиеся наработки ко-семантических сетей ВОР позволяют описать предметную область множеством ЛСС, объединён- Разработки ведутся в НИЦ Управления знания ных в тематические классы. ЛСС предметной об- ми и распределёнными вычислениями Университе ласти могут служить основой для создания поиско- та «Дубна». К настоящему времени:

вых информационных систем. Механизм поиска • предложена методика и технология формиро информации в предметной области на основе ЛСС вания ЛСС документа;

может обеспечивать следующие режимы: • разработано ПО для ввода, редактирования, • движение по ЛСС, управляемое пользователем;

накопления ЛСС в БД – прототип автоматизирован • поиск информации по заявке (вопросу). ного рабочего места (АРМ) разработчика ЛCC ВОР.

Формы интерфейса АРМ разработчика ЛСС поис 4 Организация поиска в электронных ково-информационной консультативной системы (ПИКС) представлены на рис. 2;

раздел «Тема» по библиотеках на основе ЛСС зволяет просматривать, находить и корректировать Семантические поисковые системы на основе темы предметной области;

раздел «ЛСС» дает воз ЛСС ВОР могут иметь широкий спектр применимо- можность просматривать, редактировать и созда сти, в том числе и в электронных библиотеках. Для вать ЛСС;

реализации подобной системы в рамках конкретной • разработаны методика поиска ответа на вопрос ЭБ необходимо: построить множество ЛСС;

реали- для корпуса документов и программное обеспече зовать механизм поиска информации в режиме от- ние (в частном случае) поисковой машины;

вета на вопрос;

разработать навигационный меха- • на примерах осуществлена ручная апробация низм движения по ЛСС как вверх (от частного к методик.

общему), так и вниз (от общего к частному). Методики апробированы в учебном процессе для Построение множества ЛСС возможно на не- различных дисциплин (Корпусная лингвистика, скольких уровнях (слоях). Первый слой (самый Теоретические основы автоматизированного управ нижний) содержит ЛСС конкретного информацион- ления, Системное моделирование и т. д.). В резуль ного ресурса (документа). Следующим слоем может тате совместно с Технопарком г. Дубна в рамках быть ЛСС, построенная на базе функционирующего проекта «Разработка портала «Содействие иннова в данной ЭБ тематического рубрикатора, и т. д. Та- ционной деятельности» разработана ЛСС «Поиск ким образом, мы получим многоуровневый связан- инвестора».

ный набор графов, который обеспечивает поиск и навигацию в горизонтальном и вертикальном на- 4.2 О возможности семантического поиска на правлениях. Навигационный механизм здесь играет основе ЛСС в архиве научных и научно важную роль. Пользуясь им, пользователь получает организационных документов ОИЯИ возможность корректировать вопросы, на которые в В настоящее время многие научные и образова системе не существует адекватных ответов. В ре тельные организации во всем мире создают собст жиме вопрос – ответ реализуется расчет меры бли венные электронные репозитории (архивы) ), раз зости вопроса, заданного пользователем, к уже су мещая в них различные документы как научного, ществующим в ЛСС. Если такого вопроса нет, то он так и организационного характера и предоставляя к в дальнейшем может быть внесен в систему.

ним открытый доступ для всего мирового сообще С точки зрения пользователя такая система по ства.

зволяет в большинстве случаев найти ответ на по В зависимости от профиля организации эти ар ставленный вопрос. Пользователь задает вопрос и хивы могут различаться тематической направленно получает на него ответ с дополнительной информа стью: фундаментальная или прикладная физика, цией в виде реакций вопроса и ответа, которые по астрономия, математика, химия, медицина и т. п.

могают скорректировать вопрос либо воспользо ОИЯИ является международным центром исследо ваться уточняющими или обобщающими вопроса ваний в области физики частиц высоких энергий и ми.

физики атомного ядра. Однако, спектр тематиче Создание, наполнение и сопровождение такой ских направлений этими двумя дисциплинами не системы требует большой и серьезной работы, как исчерпывается и включает математику, технологической, так и организационной. Создание Рис. 2. Формы интерфейса АРМ разработчика ЛСС ПИКС химию, прикладную физику, информационные и ния знаний и как следствие получения нового зна нанотехнологии. Созданный на базе библиотечного ния.

сервера JDS электронный архив содержит, кроме Основной проблемой создания предлагаемой во научных публикаций сотрудников ОИЯИ, являю- просно-ответной системы является максимальная щихся основным типом документов, еще различные автоматизация процесса создания и поддержки «ка материалы, связанные с научно-организационной, таложной службы» фонда, возможность осуществ педагогической и административной деятельно- ления такого проекта.

стью. Типы документов, загружаемых в состав ар- Методики анализа научной информации апроби хива, помимо препринтов и статей в журналах рованы авторами в учебном процессе на различных включают диссертации, книги, годовые отчеты, ма- дисциплинах.

териалы семинаров, тексты докладов, презентаций и Состоятельность и актуальность излагаемого материалы видеоконференций. Наличие развитого подхода на данном этапе исследований и разрабо пользовательского интерфейса и необходимого ток подтверждается экспресс-анализом сущест библиотечного сервиса, обеспечиваемого пакетом вующего положения QA-систем.

CDS Invenio, превращает архив JDS в электронную Литература библиотеку. Для повышения качества поиска нуж ной информации в архиве JDS представляется пер- [1] Hamblin C.L. Questions// Australasian J. of Phi спективным организация поиска на основе концеп- losophy. – 1958. – V. 36. – P. 159-158.

ции ЛCC. Разнообразие тематических направлений [2] Аверьянов Л.Я. Почему люди задают вопросы? – и типов документов потребует формирования ЛCC М.: «Социолог», 1993.

для каждого направления, включающей описание [3] Белнап Н., Стил Т. Логика вопросов и ответов. – предметных областей, возможность обработки и М.: Прогресс, 1981. – 44 c.

отображения химических и математических выра- [4] Добрынын В.Н., Лобачева М.В. Прототип се жений, специализированных знаков и символов. мантической поисковой системы на основе ло Поскольку библиографические описания докумен- гико-семантической сети «ВОПРОС – ОТВЕТ – тов в JDS формируются с помощью метаданных, РЕАКЦИЯ» // Электронный журнал «Систем создание множества ЛCC в слоях выше первого ный анализ в науке и образовании», Междуна (нижнего) облегчается возможностью машинной родный университет природы, общества и чело обработки данных. века «Дубна», кафедра САУ. – 2009, Вып.2. – http://www.sanse.ru/archive/11.

5 Заключение The search based on the logical semantic network Существующие проблемы и разработки QA "Question – answer –reaction" систем пересекаются с проблемами вопросно ответных систем для фондов-корпусов научной ин V.N. Dobrynin, I.A. Filozova формации. Авторами предлагается создание «ката ложной службы» и её поддержки для информаци- The technology of semantic search in digital libraries онных фондов, создание вопросно-ответного нави- based on the framework of Logical Semantic Network гатора, обладающего особенностями, обеспечи- (LSN) "Question – response – reaction" is described.

вающие такие качества, как возможность в процессе Such a system allows one to get an adequate response поиска ответов уточнения вопросов, углубление on the question, formulated in human language. The понимания смысла вопроса, возможность в процес- possibility of the usage of this approach for search and се поиска ответа уточнения, углубления и расшире- navigation in JINR digital archive is discussed.

Приложение. Граф ЛСС «Вопрос – ответ – реакция» информационного ресурса Qn – n-й вопрос;

RQ Q An – ответ на вопрос Qn;

RQn – реакция вопроса Qn;

RAn – реакция ответа An;

Pn#k – ссылка на часть текста, содер RA жащую ответ, где.

A Pn – n-й информационный блок, P3#3;

k – метка в тексте P4# RA Q Q Q Q 2 5 6 RA RA A A2 A5 A6 P23#33;

P7#9;

P24#34;

# P13#14 P15# #10;

# Q Q Q Q Q Q Q 3 10 7 8 9 11 RA A A3 A10 A7 A8 A11 A P10#15 P18#26 P16#21 P17#23 – # P16#22 P18#27 P27# RQ Q Q Q Q Q 4 12 18 RA A4 A14 A12 A18 A P12#16 P20#30 P18#28 P25#38-38 P28# Q Q Q Q 15 13 A15 A A13 A P21#31 P22# P19#29 P28# Q A P28# Модель семантического поиска в коллекциях математических документов на основе онтологий © Е.В. Биряльцев, А.М. Елизаров, Н.Г. Жильцов, В.В. Иванов, О.А. Невзорова, В.Д. Соловьев НИИММ им. Н.Г. Чеботарева Казанского (Приволжского) федерального университета стоящей статье, – использовать вышеуказанные Аннотация особенности математических текстов для расшире Предложена модель семантического поиска в элек- ния возможностей стандартного полнотекстового тронных коллекциях математических документов. поиска. Раздел 2 раскрывает специфику математи Рассмотрены вопросы представления математиче- ческих текстов в контексте задачи поиска. Разделы ских документов на основе онтологий, классифика- 3 и 4 описывают формат семантической разметки и ции и формальной интерпретации поисковых запро- методы ее получения, которые ориентированы на сов с учетом семантики исходных текстов. разные аспекты представления исходных математи ческих документов. В разделе 5 приводятся класси 1 Введение фикация и формальная интерпретация поисковых запросов, учитывающих семантику математических Поиск по математическим документам [18] – ак текстов.

туальная и быстроразвивающаяся область исследо ваний. Современные математические поисковые 2 Структура математического документа системы условно можно разделить на две группы [16]. Большинство математических документов, осо К первой относятся системы поиска научных бенно научных публикаций, имеет четкую логиче публикаций [3, 5], а также поисковые интерфейсы скую структуру: выделяются главы, определения, крупнейших научных коллекций [14, 19, 20]. Они формулировки теорем, доказательства, следствия, предлагают сервис полнотекстового поиска по клю- заключения и т. д. Зачастую структурные элементы чевым словам и индексируют значительные объемы выделяются явно, например, с помощью стилей актуальных научных статей в области математики, формата PDF или тэгов языка LaTeX. В последнее представленных в форматах PDF или LaTeX. десятилетие активно развивались подходы к пред Отличительная особенность поисковых систем ставлению логической структуры математических второй группы состоит в том, что они используют документов в целях различных приложений. В ча семантику математической нотации и реализуют стности, выделяется работа [7], в которой авторы поиск по формулам или выражениям [1, 6, 10]. Сто- представили онтологию DRa (Document Rhetorical ит отметить, что поисковые системы обеих групп aspect ontology), специфицирующую, помимо струк недостаточно принимают во внимание важную осо- турных элементов, еще и отношения логического бенность большинства математических документов следования между ними, в частности, отношения – их структурированность. В данной работе описы- использует (теорема использует определение), вается модель поиска, которая учитывает структуры обосновывает (доказательство обосновывает тео математического документа и объектов математиче- рему), ссылается (пример ссылается на теорему) и ского знания. т. д. Другой известный подход – формат OMDoc и Известные в России семантические поисковые онтология OMDoc [8, 12]. OMDoc имеет три уровня системы, как правило, не работают с естественно- – формул, утверждений и теорий. Логической научными публикациями или используют иной структуре документа отвечает уровень утвержде подход. Например, метапоисковик Nigma [23] пред- ний, который полно описывает семантические от лагает сервис для решения математических уравне- ношения между структурными элементами. Напри ний и поиск концептуальных объектов в виде таб- мер, формализуются утверждения вида «доказа лиц. Поисковик EXACTUS [25] ориентирован на тельство доказывает теорему», «пример относится обработку запросов на естественном языке и не к определению», «символ имеет определение».

специализируется на научных коллекциях. В контексте задачи поиска эксплицитная форма Основная цель подхода, представленного в на- представления структурных элементов позволит выполнять семантические поисковые запросы, ко Труды 12й Всероссийской научной конференции торые достаточно сложны для рассмотренных выше «Электронные библиотеки: перспективные методы и поисковых систем. Необходимо отметить и то, что технологии, электронные коллекции» – RCDL’2010, содержимое математических документов – описа Казань, Россия, ния объектов математического знания – имеет осо- Подход с привлечением терминологических ре бую внутреннюю структуру. Учет семантических сурсов достаточно распространен. Например, в ра связей между терминами, упоминающимися в ма- боте [22] описана процедура автоматизируемого тематических текстах, также позволяет рассчиты- получения тезауруса на основе коллекций естест вать на повышение точности поиска. венно-научных текстов уровня школьных и универ ситетских учебных программ.

Рис. 1. Фрагмент математического документа Рис. 2. RDF граф структурных элементов математического документа example.doc#corollary-proof omdoc:proves 3 Семантическая разметка математичес- example.doc#corollary.

кого документа example.doc#corollary-proof omdoc:dependsOn example.doc#theorem1.

Предлагаемая семантическая разметка основы Компоненты триплетов с префиксом example.doc – вается на известных ресурсах и технологиях Семан сгенерированные URI структурных элементов ма тического веба и специфицирует форму представ тематического документа example.doc, компоненты ления математических документов, учитывающую с префиксом omdoc – концепты и отношения онто структуры математического документа и объектов логии OMDoc, наконец, rdf:type – отношение, опре математического знания. В качестве онтологии деленное в языке RDFS. В виде RDF-графа структу структуры математического документа выбрана ра из примера показана на рис. 2.

OMDoc. Данная онтология, выраженная на языке Для представления объектов математического OWL-DL, концептуально описывает типовые струк знания – терминов и научных результатов матема турные элементы (теоремы, леммы, доказательства, тических теорий – предлагается использовать под формулы, определения) и отношения между ними.

ход на основе контролируемых словарей, которые Возьмем в качестве примера следующий фраг специфицируют математические термины и отно мент математической научной публикации [21] шения между ними. Примеры таких ресурсов – (рис. 1).

DBPedia [4] или математический тезаурус Кем Разметка структурных элементов и их отноше бриджского университета [13]. Связывание различ ний для данного примера на языке RDF/N3 выгля ных ресурсов производится с помощью дополни дит следующим образом:

тельных отношений, выраженных c привлечением example.doc#theorem1 rdf:type om онтологии SKOS [2] – онтологии представления doc:Theorem.

контролируемых словарей.

example.doc#corollary rdf:type om Определим дополнительное отношение doc:Corollary.

hasMention («упоминает») таким образом, что его example.doc#corollary-proof rdf:type om доменом является концепт om doc:Proof.

doc:MathematicalKnowledgeItem и дипазоном – кон цепт skos:Concept. С помощью этого отношения, также заголовков структурных элементов. Трудно например, можно выразить следующий факт для сти при определении типа элемента состоят в сле рассматриваемого фрагмента: дующем:

• объявление тэгов может быть вынесено в example.doc#corollary hasMention dbpe- отдельный стилевой файл;

в этом случае будут не dia:Nilpotent_group. доступны для обработки полезные конструкции вида \newtheorem{defns}{\hskip\parindent Определе Таким образом, конкретный структурный элемент ние}[section];

«следствие» содержит упоминание термина «ниль- • авторы математических публикаций часто потентная группа», определенного в DBPedia. Эта сокращают имена тэгов, например, встречаются информация дополняет рассмотренный ранее RDF следующие варианты аннотирования теорем:

граф структурных элементов исходного документа theorem, thm, thms, thmnonum и т. д.

(рис. 3). В качестве канонических имен для определения типов структурных элементов рассматривались тек стовые наименования концептов онтологии OMDoc.

Эксперименты, проведенные с разными алгоритма ми близости строк, показали, что для анализа имен тэгов оптимален строковый алгоритм N-gram. Дан ный алгоритм подсчитывает меру близости строк на основе количества общих подпоследовательностей длины N (обычно N=3) и возвращает число от 0 до 1. Эта мера показывает результаты мэппинга на уровне 85 % точности и 96 % полноты при значении Рис. 3. Терминологическая разметка меры, равном 0,26.

Анализ семантических отношений между струк 4 Семантическое аннотирование матема- турными элементами – более сложная задача, тре тических документов бующая отдельного исследования. Одним из ресур сов для ее решения является популярный механизм Получение семантической разметки для исход- меток/ссылок в LaTeX. Лингвистический анализ ных математических документов – центральная за- контекстов таких ссылок позволит определять тип дача, решаемая при моделировании семантического отношений.

поиска. Разрабатываемые авторами методы семан- Получение терминологической разметки.

тического аннотирования принадлежат двум смеж- Терминологическое аннотирование выполнено на ным направлениям – обработка размеченных и не- основе лингвистических технологий онтолингви размеченных исходных текстов. стической системы «OntoIntegrator» [24]. Обработка содержимого структурных элементов включает сег 4.1 Обработка размеченных документов ментацию текста на предложения, распознавание Получение структурной разметки. LaTeX – объектов текста (выделение формул, числовых по один из самых популярных форматов представления следовательностей, слов, знаков препинания, аббре математических публикаций. Стандартные средства виатур и др.), распознавание именных групп, в том LaTeX и специального пакета команд AMS-LaTeX числе содержащих термины прикладной онтологии, позволяют размечать такие структурные элементы, распознавание сложных синтаксических конструк как главы, формулировки теорем, доказательства, ций (групп сочинительного сокращения) и другие формулы и т. д. Пакет sTeX [9] расширяет эти воз- процедуры (например, выделение и классификация можности и предлагает средства для разметки не омонимов). В экспериментах, проведенных на кор только структурных элементов, но и отношений пусе статей по теории групп из коллекции журнала между ними, например, для указания связи между «Известия высших учебных заведений. Математи доказательством и теоремой. Данный пакет приме- ка», использовалась прикладная онтология (список чателен тем, что разработаны средства [11] для ге- терминов по теории групп из Wikipedia [17]), со нерации RDF-представления документа, аннотиро- держащая 79 терминов и терминологических слово ванного средствами sTeX, с помощью онтологии сочетаний. Терминологическое покрытие строилось OMDoc. Таким образом, для математического до- в границах именных групп, выделяемых по различ кумента, аннотированного с помощью команд из ным синтаксическим моделям и анализом состав данного пакета, можно автоматически получить ляющих именных групп на принадлежность терми эксплицитное представление его структуры. Для нологическому списку. Например, в рассматривае произвольного LaTeX-документа ставится задача мом фрагменте статьи выделены однословные и получения мэппинга LaTeX-тэгов на онтологию многословные именные группы на основании соот структуры математического документа. Формат ветствующих синтаксических моделей (конечная мэппинга фиксирует утилита LaTeXML [15]. В ка- группа;

силовская 2-подгруппа группы;

четверная честве подходов для решения этой задачи исследо- группа;

диэдральная группа;

неабелева нильпо вались методы на основе близости имен тэгов, а тентная группа и др.). Необходимо отметить, что математические тексты содержат большое число SELECT ?p WHERE {?p a omdoc:Proof.

слов с формульно-префиксными частями (p- ?p omdoc:proves omdoc:Theorem} подгруппа, 2-подгруппа), а также формульно постфиксными частями (группа G, подгруппа K). В Второй тип – поиск структурных элементов по качестве префикса могут быть использованы произ- символьным обозначениям математических терми вольные формулы и выражения. Такие объекты не нов. Пример – «найти определения, в которых содержатся в словаре системы и обрабатываются встречается символ диэдральной группы D». Для специальными методами, которые отсекают левый выражения запросов данного типа используются формульный префикс и работают по синтаксиче- словари языка разметки OpenMath, предназначен ской модели правой части слова. Обработка слов с ные для уточнения семантики математических фор формульно-постфиксными частями производится по мул:

синтаксической модели именной группы с аббре виатурой (группа G, подгруппа K). SELECT ?d WHERE {?d a omdoc:Definition.

?d omdoc:hasProperty ?p.

4.2 Обработка неразмеченных документов ?p omdoc:usesSymbol openmath:dihedral_group} Обработка исходно-неразмеченных текстовых до Третий тип – поиск структурных элементов и кументов связана с автоматическим семантическим объектов математического знания. Пример – «найти аннотированием, которое предлагается выполнить теоремы, упоминающие термины из теории групп».


на основе метода лексико-синтаксических шаблонов В этом случае осуществляется поиск структурных (ЛСШ) для выделения начальных и финальных тек элементов – определений, имеющих отношение к стовых позиций структурных элементов. Для реше конкретной области математического знания:

ния данной задачи необходимо:

• выделить множества ЛСШ структурных SELECT ?t WHERE {?t a omdoc:Theorem.

элементов на основе корпусных исследований кол ?t hasMention ?s.

лекций математических текстов;

?s skos:subject dbpedia:Group_theory} • описать лексический состав и синтаксиче ские модели ЛСШ;

Формулирование запросов этого типа зависит от • разработать методы распознавания ЛСШ в имеющегося в наличии терминологического ресур математических текстах, учитывающие потенци са. Кроме рассмотренного терминологического спи альную многозначность, которая в ряде случаев не ска из Wikipedia также в качестве терминологиче посредственно коррелирует с распознаванием типа ских источников могут использоваться такие объек ЛСШ (начальный или финальный классы).

ты, как иерархия с отношением КЛАСС – ПОДКЛАСС (пример – классификатор УДК);

те 5 Классификация поисковых запросов заурус с отношениями гипонимии, синонимии (под ходящий объект для его получения – приложения Проблема поиска по структуре математических учебников соответствующей прикладной области) и документов формулируется в терминах фактологи т. д. Логический вывод с использованием указанных ческого поиска в некоторой базе знаний. В рамках отношений позволит выполнять запросы, весьма не предлагаемого подхода база знаний представляет тривиальные для обычных систем полнотекстового собой RDF-хранилище, которое содержит факты, поиска.

извлеченные из исходных документов, в смысле представления, описанного в разделе 3. В данном 6 Заключение разделе рассматриваются классификация и фор мальная интерпретация поисковых запросов, обра В данной работе описывается модель семантиче батываемых в рамках предлагаемой модели поиска.

ского поиска в коллекциях математических доку Язык SPARQL выбран для описания как де-факто ментов. Рассматриваются формат семантической стандарт языка запросов к RDF-графам. Классифи разметки исходных документов, а также методы кация конкретизирует каждый тип поисковых за автоматического аннотирования документов и фор просов по характеру объектов, использованных в мального представления поисковых запросов. По запросе, а также с точки зрения применения опреде ставлена задача извлечения отношений между ленных терминологических словарей.

структурными элементами из исходных документов Первый тип запросов – поиск структурных эле на языке LaTeX. Требуют дальнейшего исследова ментов математического документа с использовани ния вопросы, связанные с выполнением поисковых ем отношений между ними. Это базовый тип запро запросов, обработкой и представлением поисковых сов, при формулировании которых используется результатов.

только онтология структуры математического до кумента в качестве терминологии. Пример поиско вого запроса данного типа – «найти доказательства теорем». На языке SPARQL данный запрос форму лируется следующим образом:

[24] Невзорова О.А. Онтолингвистические системы:

Литература технологии взаимодействия с прикладной онто [1] Altamimi M., Youssef A. An extensive Math логией // Ученые записки Казанского государ Query Language // SEDE. – 2007. – P. 57-63. ственного университета. Серия физико [2] Bechhofer S., Miles A. SKOS core vocabulary spe- математические науки. – 2007. – Т. 149. – cification // W3C Recommendation. – 2009. – С. 105-115.

http://www.w3.org/TR/2009/REC-skos-reference- [25] Осипов Г.С., Тихомиров И.А., Смирнов И.В.

20090818. Семантический поиск в сети Интернет средст [3] CiteSeerX. – http://citeseerx.ist.psu.edu. вами поисковой машины Exactus // Труды 11-ой [4] DBPedia. – http://dbpedia.org. национальной конф. по искусственному интел [5] Google Scholar. – http://scholar.google.com. лекту КИИ-2008. – 2008. – C. 323-328.

[6] Hashimoto H., Hijikata Y., Nishida S. Search ma thematical formulas by mathematical formulas // Ontology-based semantic search model for Human Interface and the Management of Informa the collections of mathematical documents tion. Designing Information Environments. – LNCS. – 2009. – V. 5617. – P. 404-411. E.V. Birialtsev, A.M. Elizarov, N.G. Zhiltsov, [7] Kamareddine F.et al. Narrative structure of mathe- V.V. Ivanov, O.A. Nevzorova, V.D. Solovyev matical texts // Calculemus MKM / LNCS. – 2007.

– V. 4573. – P. 296-312. The paper proposes a semantic search model for the [8] Kohlhase M. OMDoc – an open markup format for collections of mathematical documents. We consider mathematical documents. – Springer, 2006. the ontology-based representation of a mathematical [9] Kohlhase M. sTeX: Semantic Markup in document, classification and formalization of related TeX/LaTeX. – 2005. – https://svn.kwarc.info/ re- search queries.

pos/stex/trunk/sty/stex.pdf.

[10] Kohlhase M, Sucan I. A search engine for mathe- Работа выполнена при финансовой поддержке РФФИ matical formulae // LNCS. – 2006. – V. 4120. – (проект 09-07-12059 офи-м) P. 241-253.

[11] Lange C. An extensible XML - RDF extraction framework // CEUR Workshop Proceedings. – 2009. – V. 449.

[12] Lange C. SWiM – A Semantic Wiki for Mathe matical Knowledge Management // ESWC. – LNCS. – LNCS. – 2008. – V. 5021. – P. 832-837.

[13] Mathematical thesaurus. – http://thesaurus.maths.

org.

[14] Math-Net.Ru. – http://www.mathnet.ru.

[15] Miller B. LaTeXML: A LaTeX to XML converter, 2007. – http://dlmf.nist.gov/LaTeXML.

[16] Misutka J. Indexing mathematical content using full text search engine // WDS'08 Proc. of Contrib uted Papers. – 2008. – P. 240-244.

[17] Wikipedia. Словарь терминов по теории групп. – http://ru.wikipedia.org/wiki/Словарь_терминов_те ории_групп.

[18] Youssef A. Roles of Math Search in mathematics //Mathematical Knowledge Management, 5th Int.

Conf. – LNCS. – 2006. – P. 2-16.

[19] Zentralblatt MATH. – http://www.zentralblatt math.org/zmath.

[20] arXiv. – http://arxiv.org.

[21] Аминева Н.Н., Антонов В.А. О группах с отно сительно большими централизаторами // Изв.

высших учебных заведений. Математика. – 2003. – № 7. – С. 8-17.

[22] Добров Б.В., Лукашевич Н.В. Лингвистическая онтология по естественным наукам и техноло гиям для приложений в сфере информационного поиска // Физико-математические науки. – 2007.

– Т. 149.– С. 49-72.

[23] Интеллектуальная поисковая система Ниг ма.РФ. – http://nigma.ru.

Исследование качества базовых методов кластеризации новостного потока в суточном временном окне © Б.В. Добров1,2, А.М. Павлов2, Научно-исследовательский вычислительный центр МГУ им. М.В. Ломоносова, г. Москва АНО Центр информационных исследований, г. Москва Институт спектроскопии РАН, г. Москва dobroff@mail.cir.ru, apavlov_86@mail.ru зависимости от корпоративной политики (в том Аннотация числе и вручную редакторами), данных о запросах Рассматривается задача оценки методов пользователей или обсуждений в блогах.

кластеризации новостного потока тексто- Используемые на практике методы кластериза вых документов. Исследуется несколько ба- ции зависят от большого числа параметров, настро зовых методов кластеризации, качество ко- енных на реальные новостные потоки.

торых оценивается по разным метрикам от- Несмотря на огромное количество предложен носительно «золотого стандарта» (вручную ных методов кластеризации [4, 5, 7, 18, 22, 3], в том выполненной разметки на кластеры) рас- числе для кластеризации документов, отсутствуют пределения новостных кластеров по трем публикации по тестированию качества предложен дням новостной коллекции РОМИП 2006 ных методов на доступных коллекциях новостных (фрагмент архива ресурса Яндекс.Новости сообщений.

2003 – 2004 гг.). Проведенные эксперимен- Известны результаты оценки методов кластери ты показали, что рассмотренные базовые зации на коллекциях новостных сообщений Reuters методы показывают близкие результаты. [20, 21], где рассматривается тематическая класте ризация, в то время как в новостных агрегаторах 1 Введение производится событийная кластеризация, когда до кументы группируются вокруг некоторого события.

Новостная информация – сообщения информа В настоящей работе мы приводим полученные ционных агентств, документы средств массовой нами результаты для нескольких базовых методов информации – являются одними из самых востребо кластеризации на данных, доступных в рамках уча ванных среди пользователей интернета, аналитиче стия в программе РОМИП (Российского семинара ских служб корпораций.

по Оценке Методов Информационного Поиска) Новостные агрегаторы, которые интегрируют фрагментов коллекций Яндекс.Новости за 2003 – новости из тысяч источников в «новостные класте 2004 гг. (так называемая новостная коллекция ры», предоставляя пользователям доступ к ранжи РОМИП 2006 года).

рованным по значению и тематики сюжетам, явля ются одними из самых популярных ресурсов.

2 Новостные агрегаторы В Рунете широко известны такие новостные аг регаторы, как (в алфавитном порядке):


2.1 Задачи новостных агрегаторов Google.Новости (news.google.ru), Новотека Новостные агрегаторы представляют собой (novoteka.ru), Рамблер.Новости (news.rambler.ru), сложные программно-аппаратные комплексы, ре Яндекс.Новости (news.yandex.ru). В данных инфор шающие большой круг разнообразных задач. К ос мационных ресурсах реализуются разные стратегии новным задачам новостных агрегаторов относятся:

представления новостной информации пользовате - собственно, кластеризация;

лям.

- ранжирование документов внутри кластера, Ключевой проблемой новостных агрегаторов яв включая определение первоисточников инфор ляется решение задачи кластеризации – формирова мации, перепечаток, определения новизны, акту ние групп близких документов, моделирующих но альности и т. п.;

востные сюжеты. На практике результат автомати - обзорное реферирование;

ческой кластеризации может быть затем изменен в - выявление основных действующих лиц, прямой и косвенной речи;

Труды 12й Всероссийской научной конференции - ранжирование кластеров по их важности;

«Электронные библиотеки: перспективные методы и технологии, электронные коллекции» – RCDL’2010, Казань, Россия, - формирование и обновление главной страницы Таблица 1. Пример правильно выстроенного сервиса (значительно более посещаемой, чем ос- новостного сообщения тальные), определение «главных сюжетов»;

2009-10-05 19:41:34 AK&M - тематическая классификация, для формирования А.Чубайс вошел в список лиц, причаст заголовок тематических разделов, рассылок;

ных к аварии на СШГЭС - поиск по новостям, обычно, результатом являет- Экс-глава РАО «ЕЭС России» Анатолий ся поиск по кластерам, если хотя бы один доку- Чубайс назван одним из шести человек, мент кластера релевантен запросу;

основное которые, по мнению экспертов Ростех - обмен данными с другими сервисами портала, содержание надзора, были причастны к созданию условий аварии на Саяно-Шушенской например, участие в определении типа поиско ГЭС.

вого запроса как новостного;

Об этом говорится в … - и т. д.

подробности Кроме того, … Следует иметь в виду, что все время поступают Также … новые новостные документы, а вчерашние [16, 8] Напомним, авария на Саяно-Шушенской история «устаревают». ГЭС произошла 17 августа.

Также существуют достаточно жесткие требова- Саяно-Шушенский гидроэнергетический ния на время обработки новой порции документов и комплекс расположен на реке Енисей на внесения изменений в текущее распределение ново- юго-востоке Республики Хакасия в Са стей. янском каньоне – у выхода реки в Мину справка синскую котловину. Комплекс включает Задачи кластеризации решаются во временном Саяно-Шушенскую ГЭС и расположен окне величиной от одних до нескольких суток. При ный ниже по течению контррегулирую этом для (достаточно редких) длительных новост щий Майнский гидроузел.

ных сюжетов, более длительных, чем размер вре Кроме того, «идеальное» новостное сообщение менного окна, обычно производится «присоедине неявно соответствует идеальному сюжету, который ние» текущего кластера к хранимому в базе данных.

отслеживает эволюционно развивающееся идеаль В данной работе мы будем рассматривать суточ ное событие, или агрегирует разные подробности ное временное окно в течение 24 часов одного дня.

одного события (см. табл. 2).

2.2 Особенности новостного потока Таблица 2. Пример «идеального» сюжета для кластеризации Существуют определенные представления, как должны выглядеть «идеальные» новости, что отра- Время пуб- Заголовок Источник жается во многих книгах [2, 6, 8] в инструкции, как ликации «надо писать новости». 0,39 2009.10.05 Игрок сборной YTPO.ru Считается [6], что для содержимого новости 16:08:54 Аргентины забил должна быть справедлива формула, приписываемая головой с сорока метров еще римскому ритору Квинтилиану – (кто сделал? + 0,41 2009.10.05 Футболист забил ИА «Курсор»

что сделал? + какими средствами? + зачем? + когда?

16:16:00 головой с сорока + где?). В англоязычной интерпретации – закон метров «пять W и одно Н» – (Who? + What? + Where? + 0,40 2009.10.05 Аргентинский NEWSru.com Why? + When? + Нow?), приписываемый 16:26:00 форвард забил Р. Киплингу [8]. победный гол уда «Идеальное» новостное сообщение желательно ром головой с се должно быть посвящено одному событию. При этом редины поля структура «идеального» новостного сообщения (ВИДЕО) должна иметь следующий вид: 0,48 2009.10.05 Аргентинский Energyland 16:51:11 футболист забил - заголовок, который должен быть максимально гол ударом голо информативным;

вой с 40 метров - основное содержание – не более одного-двух 0,43 2009.10.05 Удар головой с 40 Футбол.

абзацев;

18:29:00 метров завершился Плюс. Хок - детализация и объяснение главной мысли сооб- голом (видео) кей щения;

1,00 2009.10.05 Аргентинский Футбол Рос - историческая справка;

19:57:16 футболист забил сии - энциклопедическая справка. гол ударом голо вой с 40 метров В табл. 1 приведен пример такого правильно вы (видео) строенного новостного сообщения.

Столбец «» отражает оценку близости доку Если бы все новостные сообщения строились по ментов к «главному» документу сюжета, точнее единой структуре, то решение задачи кластеризации функция (.) определена в разделе 3.

могло бы значительно упроститься. К сожалению, В реальности обычно часто в рамках новостного далеко не все сообщения соответствуют идеальным сюжета одновременно происходит несколько свя представлениям.

занных событий, причем один из источников счита такие, что любой из документов diCk, i=1,.., N, ет более значимым одно из них, кратко упоминая о других, другие источники вольны поступать наобо- k=1,.., K, и рот. В результате, образуется сложная структура U Ck.

D= сюжета, в котором сложно взаимодействуют разные k события и их «идеальное» разделение становится Мы будем рассматриваем так называемую «жест нетривиальной задачей (см. табл. 3).

кую» кластеризацию:

Таблица 3. Пример сложного новостного кластера, Ck I Cl = для любых k, l = 1, …, K.

«неоптимально» построенного одним из методов, описываемых в разделе В данной работе для решения задачи кластери Время Заголовок Источник зации новостного потока мы будем рассматривать публика метрические алгоритмы кластеризации [7], учиты ции вающие особенности новостных полнотекстовых 0,24 09.10.05 Шпилька в бок / chaskor.ru документов, т.е. произведем векторизацию задачи – 16:16:00 Износ 98%? – про представим документы в виде векторов в метриче должаем работать!

ском пространстве и введем меру близости.

:: Общество 0,30 09.10.05 Виновников траге- YTPO.ru 3.1. Мера близости между документами 19:15:27 дии на ГЭС назо вет СКП Введем меру близости между документами, в 0,40 09.10.05 Ростехнадзор ут- Ведомости – качестве которой будем рассматривать косинус ме 19:33:32 вердил методику лента новостей жду нормализованными векторами признаков доку проверок ГЭС ментов:

0,27 09.10.05 Дело об аварии на ПРАВО.RU 19:37:00 ГЭС передано d im d jm (di, dj ) = Главному управ.

лению СКП РФ di d j m 0,37 09.10.05 Списки лиц, от- РБК. Главные 19:42:56 ветственных за новости Матрица М={ij} = { (di,dj)} называется матрицей аварию на близости между документами.

СШГЭС, могут Собственно содержимое таблиц 2 и 3 наглядно быть расширены.

иллюстрирует основную проблему метрических 0,28 09.10.05 Ростехнадзор ут- Голос России – 19:52:32 вердил методику новости методов кластеризации. При значении косинусовой проверок ГЭС меры близости более некоторого порога (например, 0,20 09.10.05 Секреты долгожи- Svobodanews.ru 0,40) – документы заведомо близки. При значении 19:54:11 теля Чубайса меры близости меньше другого порога (примерно 0,45 09.10.05 Ростехнадзор про- Деловая газета 0,28) реальная семантическая близость между доку 20:06:14 должит изучать «Взгляд»

ментами (оцениваемая экспертами) может вступать последствия ава в противоречие с формальной мерой близости.

рии на СШГЭС 0,61 09.10.05 Ответственных за MIGnews.com.

3.2 Мера близости между кластерами 20:36:04 аварию на Саяно- ua – Украина Шушенской ГЭС Меру близости между разными кластерами, как станет больше частный случай, близость между отдельным доку 1,00 09.10.05 Ростехнадзор по- РегКорреспон ментом и кластером, можно определить разными 20:51:33 обещал расширить дент.net – Ук способами.

список виновных в раина – Россия 1. Расстояние ближнего соседа:

аварии на Саяно Шушенской ГЭС max (C k, Cl ) = max (d i, d j ).

d i C k 3 Формализация задачи кластеризация d j C l документов 2. Расстояние дальнего соседа:

Рассмотрим задачу кластеризации документов min (Ck, Cl ) = min (d i, d j ).

более формально.

d i C k Пусть имеются множество документов d j C l D = {d1, d2, …, dN} 3. Групповое среднее расстояние:

1 и распределение кластеров (d i, d j ).

average (Ck, Cl ) = | C k | | Cl | d i C k = {C1, C2, …, CK}, d j C l 4. Групповое расстояние между нормализован- 3.3.2 Концептуальный индекс ными центрами кластеров:

Также документы обрабатывались программным center (Ck, Cl ) = (d* (Ck ), d* (Cl ), обеспечением АЛОТ (Автоматизированная Лин гвистическая Обработка Текстов) [9], когда для до кумента производится:

где, например, - терминологический анализ (выявление терминов di || Общественно-политического тезауруса [10]), в d* (Ck ) =, d j || том числе разрешение многозначности;

diCk - тематический анализ, формирование тематиче d j Ck ского представления [9], то есть определение ос новных и второстепенных тематически связан d*(Cl) определяется аналогично. ных групп понятий тезауруса, что позволяет оп ределить для каждого понятия текста его вес в 3.3 Векторизация документов зависимости от места в тематическом представ лении.

3.3.1 Морфологические индексы Индекс по понятиям тезауруса мы обозначим как Документы подвергались морфологическому C-индекс.

анализу.

3.3.3 Модификация индексов Вес леммы для данного документа вычисляется по формуле TF IDF [15, 1], которая учитывает час- Использовались следующие модификации ин тоту вхождения слова в документ и количество до- дексов (настроенные ранее на реально работающем кументов коллекции, содержащих данное слово. Мы приложении кластеризации новостного потока):

используем вариант широко распространенный - использовались словари «стоп-слов», в том чис формулы TF IDF BM 25 INQUERY [1] – для лем- ле для понятий тезауруса, которые исключались из индексов;

мы (нормализованной словоформы) документа - слова с большой буквы получали несколько d:

больший вес (вес в соответствующем индексе TF IDFd ( ) = + (1 )tf d ( ) idf ( ), умножался на множитель 1,3);

- использовался специальный индекс, немного freqd ( ), tf d ( ) = повышающий значимость географических на dl (d ) freqd ( ) + 0,5 + 1,5 званий (множитель 1,1), а также понижающий avg _ dl вес «кросс-кластерных» слов и понятий (множи тель 0,3) – например, для слов «ДТП», «биржа», | c | +0,5 «ветер» и т. д.

df ( ) log Для каждого из L-, H-, C-индексов бралось не, idf ( ) = более 20 элементов с максимальным весом, при log(| c | +1) этом в качестве окончательной оценки близости рассматривалась мера:

где tf d ( ) (term frequency) – учет частотности лем LCH (di, d j ) = L L (di, d j ) + C C (di, d j ) + H H (di, d j ), мы в документе;

freqd ( ) – частотность леммы lв где L + C + H = 1. В дальнейшем, для обозначе документе, dld – мера длины документа (количест ния конкретного выбора способа LCH-векторизации во разных лемм), avg _ dl – средняя длина доку- используется обозначение вида 50:20:30, что соот мента, =0.4;

ветствует L =0,50, C =0,20, H =0,30.

idf ( ) (inverse term frequency) – фактически форма штрафования часто используемых в коллек- 4 Базовые методы кластеризация ции слов, |c| – количество документов в коллекции, В данной работе мы рассмотрим следующие из df ( ) – количество документов, где встретилось вестные методы кластеризации:

лемма.

- метод агломеративной кластеризации;

Слова, встретившиеся в документе, получают - метод k-средних;

ненулевой вес, вес остальных слов равен нулю.

- метод FOREL;

Морфологический индекс формуле TF*IDF обо - метод DBSCAN.

значим через L-индекс.

Опишем данные методы.

Аналогичным образом формировался индекс по заголовкам документов, который мы обозначим 4.1 Метод агломеративной кластеризации через H-индекс.

В методе агломеративной кластеризации [15] по степенно объединяются наиболее близкие кластеры, начиная с отдельных документов.

Краткое описание: o иначе – он образует новый кластер и становит - сначала каждый документ образует свой кластер;

ся его центром;

- до тех пор, пока существуют два достаточ- - далее производится конечное количество итера но близких кластера ций:

o делается шаг по алгоритму k среднего, но до (Ci, Cj) Config.Threshold, кумент относится к кластеру только в случае, если мера близости больше порога где Config.Threshold – параметр метода, самые Config.ClusterFirstThreshold;

близкие друг к другу кластеры объединяются.

o производится дополнительная очистка класте Для расчёта близости двух кластеров используем ра (операция Remaining) – после пересчета следующий алгоритм:

центра кластера из него удаляются «далекие»

- для одиночных кластеров (кластеров, состоящих документы, которые имеют меру близости с из одного документа) в качестве меры близости центром менее порога между ними берём близость их единственных Config.ClusterRemainingThreshold;

документов;

- дополнительно производится объединение кла - для других случаев рассчитываем меру по фор стеров (операция Glue), центры которых имеют муле Ланса – Вильямса [7, 17], позволяющей при между собой меру близости, большую порога соответствующих значениях параметров выби Config.ClusterGlueThreshold, после этого приме рать один из видов мер близости (см. п. 3.1.2).

няется завершающая операция Remaining с поро Результатом работы метода агломеративной кла гом Config.ClusterRemainingThreshold2.

стеризации становится иерархия объединяющихся кластеров. Задание параметра Config.Threshold Основная идея разработки модифицированного «разрезает» иерархию на итоговое распределение метода k средних – ввести дополнительные пара кластеров.

метры «свободы», настройка которых позволила бы 4.2 Метод k средних точнее отслеживать специфику задачи кластериза ции новостного потока (отслеживание актуально Алгоритм метода k средних (k means) [15] за сти, перепечаток и т. п.).

ключается в том, что:

4.4 Метод FOREL 1) фиксируется k центров кластеров;

2) все документы кластеризуются – относятся к Метод FOREL (ФОРмального ЭЛемента) пред ближайшему центру;

ложен Н.Г. Загоруйко и В.Н. Ёлкиной [11, 7].

3) затем производится пересчет центров кластеров;

Краткое описание алгоритма:

4) метод останавливается либо по количеству ите- - все документы помечаются как непросмотрен раций, либо по сходимости изменения движения ные;

центров кластеров. - до тех пор, пока есть непросмотренные докумен ты:

Классический метод k средних допускает центры o берём первый непросмотренный документ и кластеров, не совпадающие с каким-либо из доку делаем его новым кластером;

ментов. Мы рассматривали модификацию метода k o повторяем следующие итерации, пока кластер средних, так называемый метод k центров не перестанет изменяться;

(k medoids), когда на очередной итерации новым строим центр кластера через усреднение центром кластера становится один из документов векторов документов;

коллекции.

находим все близкие (с мерой близости 4.3 Модифицированный метод k средних больше заданного порога Config.ClusterThreshold) к центру кластера Метод k средних очень прост, допускает введе документы, помеченные как непросмотрен ние различных модификаций, но в классической ные, и делаем их документами нашего кла версии требует изначального задания числа класте стера;

ров k и может приводить к зацикливанию, а также фиксируем новый кластер, помечаем его плохо обрабатывает удаленные точки («outliers»).

документы как непросмотренные.

Поэтому вместо классического метода k средних мы рассматривали его модифицированный аналог: 4.5 Метод DBSCAN - количество кластеров не фиксируется, а опреде Метод DBSCAN (Density-Based Spatial Clustering ляется путем грубой оценкой на первой итера of Applications with Noise) относится к методам кла ции:

стеризации по плотности элементом множества o если для непросмотренного документа найдут (density clusterization) [17].

ся кластеры, центры которых находятся ближе, Неформальное описание:

чем порог Config.ClusterFirstThreshold, то но - все документы помечаются как непросмотрен вый документ присоединяется к ближайшему ные;

кластеру;

- до тех пор, пока есть непросмотренные докумен- сравнением результатов кластеризации с коллек ты: циями, размеченными вручную. Проведение ручной o берём первый непросмотренный документ и разметки кластеров считается очень трудоемкой находим ближайшие к нему;

задачей.

o если есть достаточное количество близких Известны работы, когда оценка кластеризации документов, то рассматриваемый документ выполняется сравнением с результатами классифи образует новый кластер, в который также кации, когда каждому документу приписывается входят близкие документы (при условии, что ровно одна рубрика, что, например, практически они не вошли до сих пор в другой кластер), и выполняется для коллекции Reuters-21578. К сожа к новым документам рекурсивно применяет- лению, для задачи кластеризации полного новост ся та же процедура;

ного потока таких коллекций не известно. Тем не o если близких документов недостаточно, до- менее, авторы поставили и решили задачу создания кумент считается шумом и помечается, как «золотого стандарта» для рассматриваемой задачи, просмотренный. что позволило получить реальные оценки качества Подробное описание. рассматриваемых методов кластеризации.

- Пусть: docset – множество всех документов, 5.1 Тестовая коллекция noiseset – пустой список;

- В цикле: пока docset не пусто: Мы рассматривали новостную коллекцию вер o берём первый документ doc из docset (таким сии 2006 года, доступную по программе РОМИП образом удаляем его из docset);

(Российского семинара по Оценке Методов Инфор o ищем документы с близостью к doc не мень- мационного Поиска,), содержащую подколлекции ше, чем Config.ClusterThreshold;

новостного агрегатора Яндекс.Новости за три неде o если их количество меньше, чем ли 2003 – 2004 гг. (http://romip.ru/ru/collections/news Config.MinNumber, то помещаем doc в collection.html).

noiseset;

Для оценки качества кластеризации новостей в o иначе создаём новый кластер Ci = {doc}: суточном окне мы рассмотрели три дня, являющи создаём workset и помещаем в него близкие мися средами соответствующих недель (см. табл. 4).

к doc документы, содержащиеся в docset Таблица 4. Характеристики дней новостной коллек (с удалением из docset);

ции, отобранных для оценки близкие к doc документы, содержащиеся в noiseset, помещаем в Ci (с удалением из Недели Дни Количество noiseset);

документов пока workset не пусто:

• берём первый docj из workset, удаляем Неделя Шеварднадзе 2003-11-20 его из workset, добавляем в Ci и ищем близкие к нему документы;

• если их количество не меньше, чем Обычная неделя 2003-12-03 Config.MinNumber, переносим те из них, что содержатся в noiseset в Ci, а Неделя выборов 2004-04-02 те, что содержатся в docset, – в worklist. 5.2 «Золотой стандарт»

Метод DBSCAN имеет простую интерпретацию.



Pages:     | 1 |   ...   | 11 | 12 || 14 | 15 |   ...   | 26 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.