авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 |   ...   | 12 | 13 || 15 | 16 |   ...   | 26 |

«Электронные библиотеки: Перспективные Методы и Технологии, Электронные коллекции English Труды RCDL 2010 ...»

-- [ Страница 14 ] --

Для каждого из рассматриваемых дней одним из Если представить множество документов в виде методов кластеризации было получено «прибли графа, когда ребро между вершинами графа (доку женное» распределение кластеров. Затем с помо ментами) проводится при условии, что мера близо щью специального программного обеспечения ре сти между ними не меньше, чем дактирования распределения кластеров авторы не Config.ClusterThreshold. Тогда в кластер отбираются зависимо формировали «идеальное» распределение.

те вершины графа, которые имеют не менее задан Программное обеспечение редактирования по ного количества ребер с уже отобранными верши зволяет эффективно выполнять следующие опера нами.

ции:

В своей работе мы немного модифицировали ал - визуализировать кластеры – как упорядоченный горитм – после его окончания мы итерационно при список, сортированный по размеру кластеров;

меняли тот же метод к оставшимся документам, для каждого кластера просмотреть его состав в уменьшая каждый раз порог по количеству ребер.

документах, сортируя из по времени публика ции, близости к центру;

для каждого документа 5 Эксперимент по оценке методов клас можно просмотреть текст;

теризации - для каждого кластера выводятся также близкие кластеры (кандидаты на «склейку»);

Оценка методов кластеризации традиционно - можно объединять («склеивать»), разделять су считается сложной проблемой [4, 12 – 14]. Наиболее ществующие кластеры.

доверенные оценки качества могут быть получены На практике оказалось, что после некоторого пе- полнота кластеризации риода освоения технологии редактирования распре R = Recall = N11 / (N11 + N10), деления кластеров трудоемкость разметки одного дня для новостной коллекции РОМИП составляло F1-мера 3 – 4 человека-часа.

F1 = 2PR / (P + R).

5.3 Метрики сравнения Планировалось проводить усреднение по «иде альным» распределениям, полученным при сравне Теоретическое сравнение различных метрик нии методов кластеризации разными экспертами.

оценки методов кластеризации приведено в работе Однако оказалось, что при сравнении «идеальных»

[19]. Мы для сравнения двух распределений исполь распределений разных экспертов F1-мера превыша зовали F1-меру по парам документов.

ла 95 %, поэтому результаты сравнивались только с Пусть:

одним из «идеальных» распределений.

- N11 – количество пар документов, таких, что и в эталонном, и в исследуемом распределениях па 5.4 Сравнение разных методов ра в одном кластере;

N00 – количество таких пар, Для каждого из методов мы подбирали лучшие что и в эталонном, и в исследуемом распределе параметры LCH-векторизации (см. п. 3.3.3), метод нии пара – в разных кластерах;

вычисления меры близости между кластерами - N10 – количество таких пар, что в эталонном (см. п. 3.2.1), пороги Config.*Threshold методов.

распределении пара документов – в одном кла Среднее время полного расчета по одному методу с стере, а в исследуемом распределении – пара в выбранным набором параметров составляло около разных кластерах;

трех минут, включая построение индексов.

- N01 – количество таких пар, что в эталонном Результаты по сравнению методов, описанных в распределении пара документов – в разных кла разделе 4, приведены в табл. 5. Лучшие результаты стерах, а в исследуемом распределении пара – в по каждому дню и усреднено по трем дням выделе одном кластере.

ны полужирным шрифтом.

Тогда:

Оказалось, что результаты полученные для раз точность кластеризации ных методов, достаточно близки.

P = Precision = N11 / (N11 + N01), Таблица 5. Сравнение различных базовых методов кластеризации по трем дням отдельно и усредненному (Result – наилучшее значение метрики F1, Ratio – отношение лучшего результата к рассматриваемому, LCH – способ векторизации, Method – метод расчета связей, Threshold – параметры радиус близости) Метод 2003-11-21 2003-12-03 2004-04-02 Среднее FOREL/ Result = 0,5282 Result = 0,8383 Result = 0,7364 Result = 0, LCH = 60:20:20 Ratio = 1,092 Ratio = 1,036 Ratio = 1,073 Ratio = 1, Method = center Method = center Method = average Method = center Threshold = 0,32 Threshold = 0,34 Threshold = 0,24 Threshold = 0, DBSCAN/ Result = 0,5173 Result = 0,8648 Result = 0,7504 Result = 0, LCH = 60:20:20 Ratio = 1,115 Ratio = 1,004 Ratio = 1,053 Ratio = 1, Number = 8 Number = 5 Number = 3 Number = Threshold = 0,28 Threshold = 0,30 Threshold = 0,32 Threshold = 0, Modified Result = 0,8515 Result = 0,7616 Result = 0, Result = 0, K-Means/ Ratio = 1,020 Ratio = 1,038 Ratio = 1, Ratio = 1, LCH = 60:15: Iterations = 0,22 Iterations = 0,22 Iterations = 0, Iterations = 0, Remaining = 0,22 Remaining = 0,22 Remaining = 0, Remaining = 0, Remaining2 = 0,10 Remaining2 = 0,06 Remaining2 = 0, Remaining2 = 0, Glue = 0,28 Glue = 0,32 Glue = 0, Glue = 0, Agglomerative/ Result = 0,5470 Result = 0,8250 Result = 0,7549 Result = 0, LCH = 60:15:25 Ratio = 1,054 Ratio = 1,053 Ratio = 1,047 Ratio = 1, Method = center Method = average Method = min Method = center Threshold = 0,26 Threshold = 0,18 Threshold = 0,30 Threshold = 0, Agglomerative Result = 0,5716 Result = 0,8685 Result = 0,7904 Result = 0, Ratio = 1,008 Ratio = 1,000 Ratio = 1,000 Ratio = 1, LCH = 40:40:20 LCH = 40:30:30 LCH = 20:50:30 LCH = 40:30: Method = average Method = center Method = center Method = center Threshold = 0,22 Threshold = 0,32 Threshold = 0,34 Threshold = 0, Таблица 6. Сравнение эффективности использования различных способов векторизации для метода кластеризации Agglomerative LCH = (0, 0, 100) LCH = (100,0, 0) LCH = (x,0,100-x) LCH = (x,y,100-x-y) Result =0,4972 Result =0,5767 Result =0,6866 Result = 0, Ratio = 1,457 Ratio = 1,256 Ratio = 1,055 Ratio = 1, LCH = 70:00:30 LCH = 40:30: Method = center Method = center Method = min Method = center Threshold = 0,38 Threshold = 0, Threshold = 0,38 Threshold = 0, Несколько лучшие результаты показали метод кластеризации новостного потока надо исполь агломеративной кластеризации и модифицирован- зовать коллекции большего размера;

ный метод k средних. - «идеальные» коллекции, составленные незави Отметим, что наблюдается достаточно сущест- симо разными экспертами, очень близки;

таким венный разброс в качестве кластеризации между образом, показана возможность проведения пря разными днями – от 57,7 % F1-меры для дня 2003- мой оценки качества методов кластеризации 11-21 до 86,9 % для дня 2003-12-03. сравнением с «золотым стандартом»;

Среднее по трем дням составляет 72,4 % по F1- - все основные методы кластеризации показывают мере. примерно одинаковые результаты при соответ ствующих оптимальных наборах параметров;

в 5.5 Влияние выбора способа векторизации наших экспериментах метод агломеративной кластеризации и модифицированный метод В табл. 6 приведены результаты исследования k средних показали немного лучшие результаты;

влияния выбора LCH-векторизации на качество кла - в среднем качество по F1-мере по парам доку стеризации для метода агломеративной кластериза ментов составляет 72,4%, при этом для одного из ции (при усреднении по трем дням).

дней 57,7%.

Если пытаться кластеризовать документы только К сожалению, исследуемые коллекции РОМИП по заголовкам, то будут получены достаточно низ 2005 содержат достаточно мало документов в су кие результаты (F1=49,7%), что в определенной ме точном окне, что приводит к небольшому количест ре подтверждает обоснованность выбранной метри ву кластеров с размерами более 10 документов, что ки.

существенно отличается от характеристик совре Используя только результаты морфологического менных потоков новостных сообщений.

анализа, особое выделение заголовков (лучшая век Желательно провести аналогичное исследование торизация LCH = 70:00:30) дает результат F1=68,7% для более представительных новостных коллекций.

против F1=57,7% для случая без выделения заго ловков (улучшение 19%).

Литература Применение тезауруса и тематического пред ставления улучшает результаты еще на 5,5% до [1] Агеев М.С., Добров Б.В., Лукашевич Н.В., Си F1=72,4%.

доров А.В. Экспериментальные алгоритмы по иска/классификации и сравнение с «basic line» // 6 Выводы Российский семинар по оценке методов инфор мационного поиска. Труды второго российского Мы реализовали несколько базовых методов семинара РОМИП’2004 (Пущино, 01.10.2004) – кластеризации, для которых выполнили подбор оп СПб: НИИ Химии СПбГУ. – 2004. – С. 62-89.

тимальных параметров для новостных подколлек [2] Амзин А. Новостная интернет-журналистика. – ций Яндекс.Новости 2003 – 2004 гг. по трем дням (в http://kebati.ru/journ/journ.pdf.

среднем 1750 документов в день).

[3] Андреев А.М., Березкин Д.В., Морозов В.В., Проведенные эксперименты по оценке методов Симаков К.В. Метод кластеризации документов кластеризации на трех «суточных» подколлекциях текстовых коллекций и синтеза аннотаций кла новостной коллекции РОМИП 2006 показали:

стеров // Труды 10-й Всерос. науч. конф. «Элек - трудоемкость создания «золотого стандарта»

тронные библиотеки: перспективные методы и при наличии несложного специального про технологии, электронные коллекции»

граммного обеспечения не является чрезмерной;

RCDL’2008. – Дубна, 2008. – С. 220-229.

отметим, что это обстоятельство может влиять [4] Антонов А.В., Баглей С.Г., Мешков В.С. Под на один из основополагающих принципов семи ход к выявлению подмножеств похожих доку нара РОМИП при сравнении методов разных ментов // Труды 10-й Всерос. науч. конф.

систем – невозможность ручной «подкрутки» ре «Электронные библиотеки: перспективные ме зультатов – для доверительной оценки качества тоды и технологии, электронные коллекции» research // J. of Machine Learning Research. – RCDL’2008. – Дубна, 2008. – С. 197-199. 2004. – V. 5. – P. 361-397.

[5] Васильев В.Г., Кривенко М.П. Методы автома- [21] Sanderson M. Reuters test collection // Proc. of the тизированной обработки текстов. – М.: ИПИ Sixteenth Research Colloquium of the British РАН, 2008. – 302 с. Computer Society Information Retrieval Specialist [6] Васильева Л.А. Делаем новости! – Учебное по- Group, Drymen, 1994.

собие. – М.: Аспект Пресс, 2003. [22] Zhong S., Gosh J. A unified framework for model [7] Воронцов К.В. Лекции по алгоритмам кластери- based clustering // J. of Machine Learning Re зации и многомерного шкалирования. – search. – 2003. – V. 4. – P. 1001-1037.

www.ccas.ru/voron/download/Clustering.pdf.

[8] Григорян М. Пособие по журналистике. – Basic line for news clusterization methods М.: «Права человека», 2007. – 192 с. evaluation [9] Добров Б.В., Лукашевич Н.В. Автоматическая B. Dobrov, A. Pavlov обработка больших массивов англоязычных текстов // Труды межд. семинара «Когнитивное The paper is devoted to evaluation of several news clus моделирование», Пущино, 1999. – fccl.ksu.ru/ terization methods – agglomerative, k means, DBSCAN winter.99/cog_model/englproc.pdf.

and FOREL. The authors made manual partition for [10] Лукашевич Н.В., Салий А.Д. Представление three Wednesdays of data collection ROMIP знаний в системе автоматической обработки (http://romip.ru/en/collections/news-collection. html).

текстов // НТИ. Сер. 2. – 1997. – № 3 – www.cir.

All studied methods shown similar results in F1 ru/docs/ips/publications/1997_nti_thes.pdf.

measure with average value about 72 % with difference [11] Загоруйко Н.Г., Ёлкина В.Н., Лбов Г.С. Алго from 58 % up to 87 % for different days.

ритмы обнаружения эмпирических закономер ностей. – Новосибирск: Наука, 1985.

[12] Кондратьев М.Е. Анализ методов кластериза ции новостного потока // Труды 8-й Всерос. на уч. конф. «Электронные библиотеки: перспек тивные методы и технологии, электронные кол лекции» RCDL’2006. – Суздаль, 2006. – С. 108 114.

[13] Пескова О.В. Разработка метода автоматическо го формирования рубрикатора полнотекстовых документов. – Дис. … канд. техн. наук. – Моск ва, МГТУ им. Н. Э. Баумана, 2008.

[14] Amigo E., Gonzalo J., Artiles J. A comparison of extrinsic clustring evaluation metrics on formal constraints // Information Retrieval. – 2009.

[15] Christopher D.M., Prabhakar R., Hinrich S. Intro duction to information retrieval. – Cambridge Uni versity Press, 2008. – http://nlp.stanford.edu/IR book/information-retrieval-book.html.

[16] Dezs Z., Almaas E., Lukacs A., Racz B., Szaka dat I., Barabasi A.-L. Dynamics of information ac cess on the web// Physical Review. – 2006. – E 73, 066132.

[17] Ester M., Kriegel H.-P., Sander J., Xu X. A den sity-based algorithm for discovering clusters in large spatial databases with noise // E. Simoudis, J.

Han, U.M. Fayyad. Proc. of the Second Int. Conf.

on Knowledge Discovery and Data Mining (KDD 96). AAAI Press. – 1996. – P. 226-231.

[18] Jain A.K., Murty M.N., Flynn P.J. Data clustering:

a review // ACM Computing Surveys (CSUR) Ar chive. – 1999. – V. 31, Issue 3. – P. 264-323.

[19] Wu J., Xiong H., Chen J. Adapting the right meas ures for K-means clustering // Proc. of the 15th ACM SIGKDD Int. Conf. on Knowledge Discov ery and Data Mining. – Paris, France, 2009. – P. 877-886.

[20] Lewis D.D., Yang Y., Rose T.G., Li F. RCV1: a new benchmark collection for text categorization Методы семантической разметки веб-документов © К.А. Кудим Институт программных систем НАН Украины, г. Киев kuzmaka@mail.ru ческой разметки – микроформаты [3] и RDFa [4], Аннотация краткому рассмотрению которых и посвящена на Обсуждаются такие методы дополнитель- стоящая работа. Рассматривается также альтерна ной семантической разметки внутри тивный способ внедрения семантических структур в XHTML-страниц, как микроформаты, RDFа, гипертекст, основанный на расширении языка eRDF и XML. XHTML новыми элементами.

1 Введение 2 Семантическая разметка Последнее десятилетие ведутся активные работы Как было сказано во введении, современные по поиску путей структурирования массива инфор- стандарты XHTML [2] позволяют в определенной мации в интернете. Основа этих работ – концепция степени структурировать гипертекстовую инфор семантической паутины [1], то есть идея создания мацию по смыслу.

такой сети, в которой данные были бы связаны не Семантическая разметка (или семантическая просто гиперссылками, но смысловыми отноше- верстка) – это метод разметки гипертекста, при ко ниями. На основе новых стандартов предполагается тором выбор того или иного элемента языка раз создать всемирную семантическую сеть данных, метки осуществляется не на основе предписанного предназначенную для эффективной автоматической ему способа отображения браузером, а на основе обработки и существующую параллельно обычной значения заключенных в нем данных.

гипертекстовой сети. Такая сеть связанных данных Подмножество языка XHTML, отвечающее создается медленно, поскольку подавляющее боль- принципам семантической верстки, и соответст шинство веб-разработчиков не заинтересовано в венно размеченный текст называют семантическим создании дополнительной функциональности с рас- XHTML, а также обозначают иногда аббревиатурой четом на неясные преимущества в будущем, так как POSH (Plain Old Semantic HTML – простой старый реально полезных и достаточно распространенных семантический HTML).

веб-сервисов, которые использовали бы преимуще- Чтобы подчеркнуть отличия семантической раз ства семантического представления данных, все еще метки, перечислим несколько рекомендаций по ис нет. В то же время, сама полезность такого пред- пользованию некоторых элементов XHTML:

ставления почти не вызывает сомнений. Проблема • использовать элемент TABLE только для кроется в том, что семантическую паутину прихо- разметки таблиц, но не для форматирования взаим дится создавать как бы заново, с нуля, параллельно ного расположения логически не связанных эле существующей многонаполненной гипертекстовой ментов страницы;

для этой цели лучше подойдет сети. Один из эволюционных путей преодоления элемент DIV или один из более специфичных эле этого разрыва – постепенно делать разметку гипер- ментов, подходящий по смыслу, например, текста все более приближенной к семантическому ADDRESS для контактной информации и т. п.;

представлению. В какой-то мере такая семантиче- • исключить использование всевозможных ская разметка может быть осуществлена с помощью элементов XHTML, предназначенных для изменения стандартных средств языка XHTML [2], например, внешнего вида;

не использовать изображе при простом цитировании или создании простого ния-заполнители для создания отступов и т. п.;

списка терминов. Но его возможностей в настоящий • исключить использование элемента BR для момент явно недостаточно даже в самых простых разделения блоков текста;

для самих блоков ис случаях, как, например, нет специальных элементов пользовать наиболее подходящий по смыслу эле и атрибутов для создания списка библиографии или мент, например, P или H1;

описания человека. Хорошо развились два конку • исключить использование элементов B и I рирующих способа такой дополнительной семанти для смыслового выделения;

для этой цели лучше подойдут элементы EM и STRONG;

Труды 12й Всероссийской научной конференции • использовать как можно более узкий по «Электронные библиотеки: перспективные методы и смыслу элемент, например, для разметки цитат технологии, электронные коллекции» – RCDL’2010, следует предпочесть элементу DIV элементы Q и Казань, Россия, BLOCKQUOTE в сочетании с CITE. 3.1 Примеры использования микроформатов Использование подобных правил позволяет На рисунках 1 и 2 приведены примеры разметки с максимально реализовать возможности XHTML для помощью микроформатов hCalendar и hCard. Из этих создания семантической разметки без дополни двух примеров можно видеть, что использование тельных средств.

микроформатов не выходит за рамки обычной раз метки, разве что для определения стилей количество 3 Микроформаты классов избыточно.

На рис. 3 приведен пример использования мик Выразительные возможности семантического роформата rel-nofollow. Автоматическое добавление XHTML ограничены небольшим набором элементов такого простого атрибута, например, при публика и атрибутов для часто встречающихся случаев раз ции комментариев посетителей ресурса, позволяет метки, в то время как существуют и другие часто ограничить пути искуственного повышения рейти используемые структуры данных, которым нет со нга внешнего сайта в поисковых машинах.

ответствия в XHTML. Для разметки некоторых та На рис. 4 показано использование микроформата ких структур применимы так называемые микро XFN. Применение этого простого микроформата в форматы [3].

блогах позволило создать такие инструменты, как Микроформат – это определенная модель данных rubhub.com, где реализована навигация по социа и соответствующая структура разметки, исполь льным связям между различными веб-ресурсами.

зующая атрибуты XHTML, такие, как class, rel и rev, для выражения конкретного семантического значе 4 RDFa ния размеченного блока. Микроформаты не расши ряют язык XHTML, а лишь декларируют, какие Рассмотрим ещё одну технологию для обогаще значения атрибутов и какую структуру элементов ния гипертекста семантической информацией – следует использовать для того, чтобы разметка RDFa [4]. RDFa – это метод семантической разметки трактовалась определенным образом, и, наоборот, с помощью нескольких дополнительных как интерпретировать такую разметку. Стоит отме XHTML-атрибутов, значения которых выбираются тить, что с точки зрения микроформатов атрибут из некоторого набора словарей, который может быть class рассматривается не только как возможность расширен. Как и рассмотренные выше методы, RDFa обозначить стиль элемента, но и, более широко, как направлен на то, чтобы превратить информацию, тип элемента вообще.

предназначенную для прочтения человеком, в ма На уровне стабильных версий существуют сле шинно-читаемую без дублирования данных, а лишь дующие микроформаты:

за счет дополнительной разметки.

• hCalendar – служит для разметки событий;

RDFa более универсален и имеет несколько су • hCard – описание людей и организаций;

щественных отличительных особенностей по срав • rel-license – обозначает, что ресурс по нению с микроформатами, хотя они и предназна ссылке является лицензией для ссылающейся стра- чены для выполнения той же задачи. Далее пере ницы;

числены основные отличия от микроформатов:

• rel-nofollow – указание поисковой машине, • RDFa чаще использует новоопределенные что не следует учитывать эту ссылку для подсчета артибуты XHTML и совсем не использует атрибут рейтинга страницы по ссылке (запрет перехода по class;

ссылке);

• значения атрибутов не специфицируются • rel-tag – указывает, что данная ссылка яв- централизованным стандартом, как в случае мик ляется ссылкой на тематическую рубрику (тэг) для роформатов, а берутся из различных словарей в сети, ссылающейся страницы или ее части;

например, FOAF или DC;

• VoteLinks – указывает отношение автора • поскольку в разных словарях один и тот же ссылки к ресурсу по ссылке, используется одно из термин может использоваться для обозначения раз трех возможных значений: «за», «нейтрально», личных сущностей, в RDFa для каждого словаря «против»;

определяется своё пространство имен;

в то же время • XFN – описание отношений между людьми микроформаты используют глобальное простран с помощью гиперссылок;

ство имен для определяемых значений атрибутов;

• XMDP – микроформат для описания мик- • RDFa может расширить любой пользова роформатов;

тель, для этого достаточно создать свой словарь и • XOXO – описание произвольной XML описать семантику вводимых значений для третьих структуры в рамках XHTML. лиц;

напротив, создание нового микроформата осу Еще 17 микроформатов находятся в состоянии ществляется централизованно и контролируется черновиков, то есть спецификации для них уже хо- одним сообществом;

рошо проработаны, но еще не окончательны и могут • модель данных каждого микроформата же подвергаться изменениям. стко прописана в его спецификации и отличается для разных микроформатов;

модель данных RDFa уни версальна и базируется на модели данных RDF, то DIV CLASS="VEVENT"    a href="http://isofts.kiev.ua" class="url"     span class="summary"Конференция УкрПрог/span   /a проводится    abbr title="20100217" class="dtstart"17/abbr     abbr title="20100221" class="dtend"21/abbr февраля 2010 г.

  в span class="location"Институте программных систем/span   div class="description"Конференция посвящена проблемам программирования/div /DIV  Рис. 1. Пример использования микроформата hCalendar div class="vcard"   span class="fn n"     span class="familyname"Кудим/span     span class="givenname"Кузьма/span     span class="additionalname"Алексеевич/span   /span   div class="org"ИПС/div   a class="email" href="mailto:kuzma@isofts.kiev.ua"kuzma@isofts.kiev.ua/a   div class="adr"     span class="locality"Киев/span,     span class="countryname"Украина/span   /div   div class="tel"0675889125/div /div Рис. 2. Пример использования микроформата hCard a href="http://myspam.ua" rel="nofollow"Посмотри, клёвая вещь!/a Рис. 3. Пример использования микроформата rel-nofollow a href="http://my.blog.ua" rel="me"Мой сайт/a a href="http://some.blog.ua" rel="friend colleague neighbor"Платон/a мне друг, коллега и  сосед.

Рис. 4. Пример использования микроформата XFN есть на представлении структуры данных в виде новых атрибутов, и гибкостью RDFa, которая дос графа с помеченными ребрами, где узлы – это дан- тигается введением дополнительных атрибутов.

ные, а ребра, определяемые атрибутами, – это связи Подход этот называется RDF, встраиваемый в между данными. XHTML (embeddable RDF, eRDF) [5].

Обобщая перечисленные отличия, можно ска- По аналогии с микроформатами, eRDF не ис зать, что микроформаты покрывают только наиболее пользует новых атрибутов XHTML. Для семанти очевидные и часто используемые структуры в ческой разметки используются атрибуты class, id, rel, веб-документах, стараясь максимально упростить rev. Специальный синтаксис позволяет обрабатывать разметку этих структур. Идеологи микроформатов значения этих атрибутов и преобразовывать в утверждают, что этого должно быть достаточно в RDF-тройки. Для иллюстрации возможностей раз подавляющем большинстве случаев. Совсем иной метки с его помощью ограничимся примером на подход RDFa, который базируется не на ad hoc ре- рис. 6.

шениях, а на универсальной формальной модели, что eRDF реализует только ту часть RDF, которую несколько затрудняет его использование, но зато можно выразить ограниченными средствами, без обеспечивает охват всевозможных структур данных. введения новых атрибутов, но, тем не менее, этот Из примера на рис. 5 можно видеть, что синтак- метод более гибок, чем микроформаты.

сис RDFa достаточно прост, от аналогичного при мера для микроформата hCard (рис. 2) он отличается 6 XML только повсеместным указанием префикса в значе С одной стороны, как микроформаты, так и RDFa ниях соответствующих атрибутов и именами этих подвержены критике в той части, где они переносят атрибутов.

структуру документа в атрибуты, тем самым скрывая её: микроформаты – из идейных соображений, чтобы 5 Встраиваемый RDF не вносить никаких изменений в XHTML, а RDFa – Существует компромиссный вариант между же- из-за универсальности, чтобы можно было произ сткой структурой микроформатов, не использующих вести разметку любой сложности с использованием div class="vcard" xmlns:v="http://www.w3.org/2001/vcardrdf/3.0#"     span property="v:Family"Кудим/span     span property="v:N"Кузьма/span     span property="v:Given"Алексеевич/span     div class="v:ORG"ИПС/div     a rel="v:EMAIL" href="mailto:kuzma@isofts.kiev.ua"kuzma@isofts.kiev.ua/a     div role="v:ADR"         span property="v:Locality"Киев/span,          span property="v:Country"Украина/span     /div     div role="v:TEL"         span property="v:Value"0675889125/span     /div /div Рис. 5. Пример использования RDFa div id="kuzma"    span class="vcardFamily"Кудим/span   span class="vcardN"Кузьма/span   span class="vcardGiven"Алексеевич/span   div class="vcardORG"ИПС/div   a class="vcardEMAIL" href="mailto:kuzma@isofts.kiev.ua"kuzma@isofts.kiev.ua/a   div class="vcardADR"      span class="vcardLocality"Киев/span,     span class="vcardCountry"Украина/span   /div    div class="vcardTEL"0675889125/div /div Рис. 6. Пример использования eRDF vcard     familyКудим/family     nameКузьма/name     givenАлексеевич/given     orgИПС/org emaila href="mailto:kuzma@isofts.kiev.ua"kuzma@isofts.kiev.ua/a/email     adr         localityКиев/locality,         countryУкраина/country     /adr     tel type="mobile"0675889125/tel /vcard Рис. 7. Пример использования XML любых словарей, опираясь на единый синтаксис. С целом он близок к микроформатам: семантика эле другой стороны, стандарт XHMTL, как вообще ментов должна быть где-то централизованно опи принято для XML, отражает структуру данных не- сана, для каждого случая требуется вводить отлич посредственно на уровне элементов разметки. ную структуру разметки.

Учитывая, что XHTML является расширяемым Следует также отметить, что любой такой до модульным языком [5], можно реализовать разно- полненный XHTML можно привести с помощью образные структуры внутри XHTML-разметки более XSL-преобразований [6] к соответствующему мик элегантно. Рис. 7 иллюстрирует, насколько яснее роформату либо RDFa.

становится разметка при наличии необходимых элементов. Здесь каждый элемент уже сам несёт 7 Заключение смысловую нагрузку, заместив более общие эле В связи с растущим интересом веб-сообщества к менты DIV и SPAN. Поскольку клиентским прило представлению информации не только для понима жениям нововведенные элементы не известны, то ния человеком, но и для повышения эффективности для правильного отображения необходимо связать ее автоматической обработки, в последнее десяти их с таблицей стилей.

летие стали активно развиваться технологии по Данный подход не является распространенным. В обогащению гипертекста дополнительной структу рой и семантическими метаописаниями. Два наибо- Литература лее распространенных и стандартизованных на се [1] W3C Semantic Web Activity. – http://www.w3.org/ годняшний день метода семантической разметки 2001/sw/.

XHTML – микроформаты и RDFa. Микроформаты [2] XHTML 1.1 – Module-based XHTML. – http:// создавались с прицелом на простоту, минимали www.w3.org/TR/xhtml11/.

стичность дополнительной разметки и призваны [3] Microformats. – http://microformats.org/.

обеспечить решение задачи семантической разметки [4] RDFa primer. Bridging the human and data Webs. – в наиболее очевидных и распространенных случаях.

http://www.w3.org/TR/xhtml-rdfa-primer/.

Принцип RDFa – универсальность, возможность [5] XHTML Modularization 1.1. – http://www.w3.org/ обеспечить всю полноту семантического представ TR/xhtml-modularization/.

ления в рамках гипертекста, что привело к некото [6] XSL Transformations (XSLT). – http://www.w3.

рому расширению языка XHTML. Оба подхода org/TR/xslt.

можно упрекнуть в перенесении структуры доку мента в атрибуты, в то время как идеология XML, на Methods of web document semantic markup котором основан XHTML, предполагает отражение структуры явно на уровне элементов разметки. В этой связи рассматривается еще одна возможность – K. Kudim введение в XHTML необходимых дополнительных The paper is about methods of complementary semantic элементов разметки.

markup inside XHTML pages such as microformats, RDFa, eRDF and XML.

Методы и средства доступа к потоковым данным из предметных посредников © А.Е. Вовченко, Л.А. Калиниченко, М.Ю. Костюков ИПИ РАН, г. Москва itsnein@gmail.com, leonidk@synth.ipi.ac.ru, klarell@gmail.com В то же время, все чаще появляются ресурсы по Аннотация токовых данных (РПД), предоставляющие большие В последнее время получил широкое рас- потоки данных в реальном времени. Вместе с ресур пространение новый класс задач, требую- сами появляются и задачи, требующие как обработ щих обработки данных большого объема, ки потоковых данных, так и интегрированного дос представленных в виде потоков. Все чаще тупа к подобным ресурсам.

появляются ресурсы потоковых данных В последнее время получил широкое распро (РПД), предоставляющие большие потоки странение новый класс задач, в которых данные данных в реальном времени. В инфраструк- представляются в виде потоков данных. Примеры туре предметных посредников важную роль подобных задач включают финансовые приложения играют адаптеры, реализующие унифици- (Traderbot [2]), сетевой мониторинг (мониторинг рованный интерфейс доступа посредника к click streams в Google, Yahoo и.т. д.), задачи безо разнородным информационным ресурсам. пасности (iPolicy Networks [3]), управление теле В статье дано описание особенностей и коммуникационными данными, задачи в науке, се семантики модели потоковых данных, тевые приложения и многие другие.

представлены подход к реализации различ- В настоящее время существует несколько техно ных видов запросов в адаптере потоковых логий, включая готовые к использованию процессо данных (АПД), а также архитектура адапте- ры обработки потоков данных в реальном времени.

ра, после чего описан пример решения за- В то же время традиционные технологии, такие, как дач в разработанной архитектуре. СУБД, поддерживающие базы данных в основной памяти (main memory DBMS), и процессоры правил 1 Введение (rule engine), могут быть также «перенацелены» на решение вышеуказанных задач. Тем не менее, ни Настоящий период развития науки характеризу одно из готовых решений не предоставляет возмож ется взрывоподобным процессом накопления ин ности к интеграции потоковых данных, что немало формационных ресурсов и сервисов обработки ин важно для решения сложных задач, когда данные формации, число которых экспоненциально растет.

поступают не из одного источника.

При этом данные в ресурсах могут быть представ Модель потоковых данных отличается от при лены в различных моделях данных, таких, как мо вычной реляционной модели данных. В модели по дель данных XML, реляционная модель данных, токовых данных все данные или некоторая их часть объектно-реляционная модель данных, онтологиче недоступны для извлечения из памяти, а поступают ская модель данных и другие. Для решения научных как один или несколько непрерывных потоков дан задач зачастую требуется доступ к неоднородным ных. Отличия от реляционной модели заключаются информационным ресурсам, что требует создания в следующем:

особой информационной инфраструктуры.

• элементы в потоке данных появляются в В основе такой инфраструктуры лежит идея режиме реального времени;

предметных посредников [1]. Схема посредника • система не контролирует порядок, в кото определяется приложением и не зависит от схемы ром элементы данных поступают, как внут ресурсов. Релевантные посреднику ресурсы регист ри одного потока, так и между потоками;

рируются как взгляды над виртуальными классами • потоки данных потенциально не ограниче схемы посредника. При решении задач запросы по ны в размере;

средника формулируются в терминах его схемы.

• как только элемент из потока данных обра Посредник переписывает запрос в терминах локаль ботан, он отбрасывается и более не учиты ных ресурсов. Ресурсы возвращают объединенный вается или же архивируется. Храниться в результат посреднику для выполнения дальнейших памяти такие данные не могут ввиду огра операций в ходе решения задачи. Ресурсы регист ниченного объема памяти.

рируются в посредниках независимо друг от друга.

Запросы в модели потоковых данных можно Труды 12ой Всероссийской научной конференции разделить на 4 вида: одиночные, одиночные с вре «Электронные библиотеки: перспективные методы и менными ограничениями, непрерывные [4] не мате технологии, электронные коллекции» – RCDL’2010, риализованные, непрерывные материализованные.

Казань, Россия, В инфраструктуре предметных посредников го, так и не ограниченного. Поток относится к неог важную роль играют адаптеры [5, 6], реализующие раниченному мультимножеству подобного вида.

унифицированный интерфейс доступа посредника к Важно, что и само окно относится к ограниченному разнородным информационным ресурсам. Целью мультимножеству подобного вида, таким образом, настоящей работы является разработка архитектуры допустимо определение окна над окном, например:

адаптера потоковых данных (АПД), обеспечиваю- TW(DTW(S), t1,t2) Одиночные запросы – это запросы, аналогичные щего возможность использования РПД в архитекту запросам в традиционных СУБД. При этом поток в ре предметных посредников интегрировано с дру общем случае непрерывен, и объем результата ог гими информационными ресурсами.

раничивается системой управления потоковыми В следующем разделе представлено описание данными. Для ограничения используется механизм особенностей и семантики запросов к потоковым окон. При этом используются как временные окна данным. Затем представлен подход к реализации по умолчанию, так и окна с количественным огра различных видов запросов в АПД, после чего опи ничением.

сывается архитектура разработанного адаптера по Одиночные запросы с временными ограничения токовых данных. Наконец, в завершение представ ми – это запросы, где явно указано ограничение для лен пример решения задач с использованием адап потока по времени. Фактически в этом запросе явно тера потоковых данных.

указываются границы для временного окна.

Пример (пусть текущая дата: 5.05.2005) 2 Особенности и семантика запросов к Select * from streamTable where time 10.12. ресурсам потоковых данных and time 10.12. Непрерывные запросы – это запросы, которые Определение 1. Поток S представляет собой выполняются непрерывно во времени. При этом в мультимножество пар s, t, где s – это кортеж, со каждый момент времени t1 предполагается, что все ответствующий схеме S, а t – это время элемента.

события, относящиеся ко времени t t1, уже обра Определение 2. Временным слепком потока ботаны, и непрерывный запрос порождает резуль (Time Stream Snapshot) TSS(S, t1) потока S является тат, относящийся только к моменту времени t1.

мультимножество пар s, t потока S, для которых t Непрерывные запросы бывают не материализо = t1.

ванными и материализованными. Результатом не Замечание. Мультимножество может быть од материализованных непрерывных запросов является нозначно отображено во множество путем припи новый поток. Результатом материализованных не сывания каждому элементу еще одного атрибута, прерывных запросов является временное окно TW.

его кратности (multiplicity) в исходном мультимно Таким образом, гарантируется, что в любой момент жестве.

времени t’ t1 в результате (потоке или временном Определение 3. Классом C называется множест окне) не могут оказаться элементы, соответствую во объектов заданного абстрактного типа данных щие времени t t1.

(АТД).

Непрерывные не материализованные запросы – Определение 4. Отображение потока-в-класс это запросы, которые определяются один раз, и к представляет собой операцию, принимающую на результату их выполнения можно обратиться в лю вход поток S и возвращающую класс C. При этом бой момент. Аналогом этих запросов являются тип объектов класса C включает все атрибуты, опи взгляды (views) в СУБД. Этот тип запросов наибо санные в схеме S, а также время t и кратность эле лее распространен в системах потоковых данных, мента.

т. к. определение подобного запроса есть определе Таким образом, каждой паре s, t из потока S ние нового потока данных.

ставится в соответствие объект, содержащий дан Определение 8. Пусть дан поток S, содержащий ные {s(1), s(2), …, s(n), t, multiplicity}, где s(i) – i-й множество пар s, t. Тогда результатом непрерыв атрибут кортежа s.

ного нематериализованного запроса CQ является При этом в каждый момент времени t1 должен поток CQS, представляющий собой мультимноже быть вычисляем TSS(S, t1) по потоку S и времени ство пар s1, t. При этом в любой момент времени t1. Кортежи из мультимножества TSS(S, t1) добав временное окно по умолчанию DTW(CQS) пред ляются в качестве объектов в класс.

ставляет собой результат выполнения одиночного Определение 5. Временным окном (Time Win запроса CQ над потоком S. Если учесть семантику dow) TW(S,t1,t2) называется мультимножество пар одиночных запросов, то он, фактически, представ s, t потока S, для которых t t1 и t t2.

ляет собой результат выполнения одиночного за Определение 6. Временным окном по умолча проса CQ над временным окном по умолчанию нию (Default Time Window) DTW(S) называется DTW(S).

временное окно TW(S, now-time, now), где now – Непрерывные материализованные запросы от текущее время, а time – это максимальный срок личаются от не материализованных тем, что накап хранения устаревших данных, задаваемый админи ливают данные, соответствующие запросу. Немате стратором системы.

риализованный запрос – это, по сути, новый поток, Замечание. Окна определяются для любого и на него действуют те же ограничения системы, мультимножества пар вида s, t, как ограниченно что и на обычные потоки. Если используется меха- При этом подходе в АПД помимо таблиц, хранящих низм окон, то результат лимитируется временными данные из потоков C1, C2, C3, создается таблица, рамками, если ограничивается объем результата, то представляющая собой взгляд (view) над таблицами ограничивается объем. Таким образом, данные в C1, C2, C3. Создание выглядит так:

Create view CQ1 as нематериализованных запросах могут устареть или Select c1,c2,c3 from C1, C2, C3 where C1.a1 = же не быть включенными в результат из-за ограни C2.a2 and C1.a1 = C3.a чений объема.

И тогда в посреднике по потребности могут регист Напротив, в материализованных непрерывных рироваться любые из классов ресурса C1,C2,C3,CQ запросах данные устареть не могут. По сути, дан как взгляды, выраженные через MC1, MC ный вид запроса – это указание системе накапли Непрерывные материализованные запросы вать поступающий поток данных в некотором буфе В посредниках предполагается использовать ре (таблице) с возможностью в любой момент счи предопределенные непрерывные тать данные из таблицы. Таким образом, в общем материализованные запросы. Посредники виртуаль случае данные могли бы накапливаться бесконечно.

ны. И в посредниках нет такого понятия, как мате Определение 10. Пусть дан поток S, содер риализованные взгляды, именно поэтому этот тип жащий мультимножество пар s, t. Пусть в момент запросов в виде взглядов выразить нельзя. Поэтому времени t1 задан непрерывный материализованный данные предполагается накапливать в базе адаптера.

запрос CQ. Тогда результатом непрерывного мате В СУБД нередко для похожих целей использу риализованного запроса CQ является мультимноже ются материализованные взгляды. Данные в них ство CQM, представляющее собой мультимножест представляют слепок (snapshot) с текущего взгляда во пар s1, t. CQM представляет собой временное исходной таблицы. Если исходная таблица обновля окно TW(S, t1 – time, now), где now – текущее вре ется, то обновляется и материализованный взгляд.

мя, time – это максимальный срок хранения уста Невозможность использования материализованных ревших данных, задаваемый администратором сис взглядов заключается в том, что при обновлении темы для временных окон по умолчанию.

данные как добавляются в материализованный взгляд, так и удаляются, в случае, если эти же дан 3 Подход к реализации разных видов за ные были удалены из исходной таблицы. В случае просов к потоковым данным в адаптере же материализованных непрерывных запросов дан потоковых данных (АПД) ные нужно накапливать, т. е. те данные, что уже удалены из исходной таблицы, должны сохраняться Одиночные запросы в таблице-результате материализованного непре В посредниках в АПД используется механизм рывного запроса.

окон. Адаптер позволяет задавать одиночные запро При этом важным свойством материализован сы к данным за некоторый временной промежуток, ных взглядов является то, что для обновления иными словами, запрос задается к временному окну взглядов не требуется заново перестраивать всю по умолчанию над всем потоком. Размер временно таблицу, а изменения касаются лишь данных, кото го окна задается администратором при инициализа рые изменились в исходной таблице. Этим же свой ции адаптера. Таким образом, объем данных всегда ством и обладает результат непрерывных материа ограничен, что делает возможным реализацию дан лизованных запросов.

ного типа запросов.

Рассмотрим пример. Пусть определены в ресур Одиночные запросы с временными ограничения се классы C1 (a1,b1,c1), C2 (a2, b2, c2) C3 (a3, b3, ми c3). В посреднике определены классы При регистрации АПД схема РПД дополняется MC1(a1,b1,c1,a2), MC2(b2,c2,a3,b3,c3).

временным атрибутом, который хранит время, когда Пусть требуется реализовать непрерывный ма данные были получены. Таким образом, поддержи териализованный запрос вида вается возможность выполнения одиночных запро Select c1,c2,c3 from C1, C2, C3 where C1.a1 = сов с временными ограничениями.

C2.a2 and C1.a1 = C3.a Непрерывные не материализованные запросы В ресурсе создается таблица MCQ1 (Materialized В посредниках предполагается подобный вид за Continuous Query). Запрос для создания выглядит просов реализовать как взгляды при регистрации.

следующим образом:

Рассмотрим абстрактный пример (пример реаль Create table MCQ1 as ной задачи представлен в разделе 5):

Select c1,c2,c3 from C1, C2, C3 where C1.a1 = Пусть определены в ресурсе классы C C2.a2 and C1.a1 = C3.a (a1,b1,c1), C2 (a2, b2, c2), C3 (a3, b3, c3);

Кроме того, запрос В посреднике определены классы Select c1,c2,c3 from C1, C2, C3 where C1.a1 = MC1(a1,b1,c1,a2), MC2(b2,c2,a3,b3,c3);

C2.a2 and C1.a1 = C3.a Пусть нам нужно реализовать непрерывный не регистрируется в АПД для того, чтобы АПД, обнов материализованный запрос вида ляя данные новой порцией, обновлял и таблицу Select c1,c2,c3 from C1, C2, C3 where C1.a1 = MCQ1. Далее классы C1,C2,C3,MCQ1 могут быть C2.a2 and C1.a1 = C3.a3.

зарегистрированы в посреднике.

Рис. 1. Архитектура StreamIterator-а и выполняются над базой адаптера, в которую зара нее помещается исходный поток.

4 Архитектура адаптера потоковых дан Компонент StreamIterator Supervisor связывает ных все компоненты воедино и определяет алгоритм поведения компонента StreamIterator.

Архитектура адаптера в среде посредников для Транслятор схем необходим для преобразования реляционных СУБД остается неизменной, за тем схемы на языке СИНТЕЗ в схему на языке SQL.

исключением, что в качестве ресурса выступает не Данная операция необходима для инициализации совокупность таблиц, а СУБД промежуточных дан юазы данных адаптера, а также в случае, если адми ных DB Adapter. С самим ресурсом потоковых дан нистратору нужно получить схему в виде специфи ных связь осуществляется компонентом StreamItera кации на SQL. Подобное может понадобиться в tor, который осуществляет поддержку работоспо случае, если непрерывные запросы определяются на собности адаптера потоковых данных.

языке SQL, как на языке СУБД. В случае, если за На рис. 1 изображена архитектура компонента просы задаются на языке запросов Syfs или Asyfs АПД StreamIterator. Данный компонент не может посредника, они в начале преобразуются в SQL быть универсальным для всех РПД. Вместе с тем, трансляторами Asyfs2SQL или Syfs2SQL, после че лишь малая часть его функциональности зависит от го отправляются на выполнение в СУБД.

конкретных РПД.

Компонент DB Initializer отвечает за инициали Компоненты SchemaTranslator, Syfs2SQL, зацию БД адаптера. В частности, в БД создаются Asyfs2SQL, StreamIterator Supervisor, DB Initializer, таблицы в соответствии со схемой, полученной от Tuples Loader, ContinuousQuery Loader являются РПД.

общими для всех StreamIterator-ов. Только компо Компонент Tuples Loader выполняет три задачи:

ненты Schema Builder и Stream Receiver зависят от загрузку новых объектов, получаемых из потока, в конкретного интерфейса РПД, и именно их необхо БД адаптера, удаление из БД адаптера устаревших димо разрабатывать под каждый отдельный РПД.

объектов, обновление непрерывных материализо Важно отметить, что необходимости в трансляторе ванных запросов всякий раз, когда обновляются запросов из языка посредника в язык ресурса РПД данные в БД адаптера.

нет, так как поток всегда помещается а базу адапте Компонент ContinuousQuery Loader отвечает за ра полностью в исходном виде, без каких либо из выполнение непрерывных запросов. Если это не менений. Именно за это и отвечает компонент материализованный запрос, то просто создается Stream Receiver. Если РПД поддерживают SQL взгляд в БД адаптера;

если запрос материализован подобный язык запросов, то этим компонентом вы ный, то создается таблица, а также запрос запоми полняется запрос вида Select * from. Запросы же от посредника транслируются реляционным адаптером нается и в будущем используется компонентом Tu- POINT_DEC: string;

ples Loader при обновлении данных. IMG_START_DATE: string;

Компонент Schema Builder конструирует схему IMG_START_TIME: string;

на языке СИНТЕЗ, описывающую данные в потоке COUNTS: string;

РПД. Его реализация зависит от конкретного РПД. STD_DEV: string Компонент Stream Receiver позволяет получать PH2_ITER: string ERROR_CODE: string;

данные из РПД. Функциональность компонента по } зволяет получить текущий кортеж из РПД. Этой Наиболее важными параметрами для задачи яв функциональностью пользуется компонент StreamI ляется название Title, а также координаты Point_RA, terator Supervisor, который, получая данные из РПД, Point_DEC. Для этих трех параметров был создан загружает их в базу.

непрерывный нематериализованный взгляд:

5 Пример решения научной задачи Create view GRB_ALERT_CQ as Select TITLE, POINT_RA, POINT_DEC Задача определения вторичных стандартов для from GRB_ALERT фотометрической калибровки оптических компо В посреднике описывался тип GRB_ALERT_CQ, нентов космических гамма-всплесков сформулиро и соответствующий ему класс grb_ALERT_CQ.

вана ИКИ РАН. Задача определения стандартов рас {GRB_ALERT_CQ;

in: type;

сматривается как одна из задач, решаемых в рамках name: string;

виртуальной обсерватории (ВО). Задача заключает ra: real;

ся в том, что по координатам гамма-всплеска, необ de: real;

ходимо отобрать ряд стандартных звезд (звезд с } хорошо изученными параметрами) на основании {grb_ALERT_CQ;

in: class;

различных параметров. Задача возникает в связи с instance_section: GRB_ALERT_CQ;

тем, что после гамма-всплеска многие обсерватории } начинают наблюдать ту область неба, где произо Координаты в типе посредника в отличие от ре шел гамма-всплеск. Почти сразу же начинают по сурса представлены не строковыми типами, для их ступать большие объемы сырых наблюдаемых дан преобразования на этапе регистрации использова ных, которые требуют калибровки. Для калибровки лись функции разрешения конфликтов.


используются стандартные звезды.

Также в посреднике описаны две функции реше Данные о гамма-всплесках поступают непре ния задачи получения стандартов по координатам и рывно по электронной почте. Пример сообщения:

радиусу:

TITLE: GCN/SWIFT NOTICE {chooseStandards;

in: function;

NOTICE_DATE: Wed 28 Jul 10 10:48:41 UT params: {+ra/real, +de/real, +radius/real, NOTICE_TYPE: Swift-XRT Nack-Position standards/{set;

type_of_element: Standard;

}};

TRIGGER_NUM: 430172, Seg_Num: }, POINT_RA: 44.040d {+02h 56m 10s} (J2000) {showStandards;

in: function;

POINT_DEC: +0.269d {+00d 16' 08"} (J2000) params: {+ra/real, +de/real, +radius/real, IMG_START_DATE: 15405 TJD;

209 DOY;

10/07/ +standards/{set;

type_of_element: Standard;

}, IMG_START_TIME: 38012.85 SOD {10:33:32.85} image/Image};

UT, 97.0 [sec] since BAT Trigger Time };

COUNTS: 17 Min_needed= Функция chooseStandards описывает собственно STD_DEV: 0.00 Max_StdDev_for_Good=28.44 [arc задачу поиска стандартов. В качестве входных дан sec] ных функция принимает координаты центра пло PH2_ITER: 1 Max_iter_allowed= щадки и радиус. Функция возвращает множество ERROR_CODE: звезд, удовлетворяющих всем требованиям для вы COMMENTS: SWIFT-XRT Nack Position.

бора в качестве стандартов.

COMMENTS: No source found in the image.

Функция showStandards нужна для того, чтобы Количество подобных сообщений составляет пользователь мог представить потенциальные стан 3 – 5 сообщений в день. Для обработки сообщений о дарты на изображении (с помощью Aladin), тем са гамма-всплесках был использован адаптер потоко мым визуально представляя результат.

вых данных. В качестве времени хранения данных Процесс решения задачи сводится к тому, что выбран один месяц, т. к. для более ранних гамма для каждого объекта из класса grb_ALERT_CQ всплесков наверняка стандарты уже найдены и сы (фактически для каждого гамма-всплеска) по его рые данные откалиброваны. В качестве схемы ис координатам, а также по некоторому радиусу, вы пользовались все данные из письма:

бираемому пользователем, выполняются две функ {GRB_ALERT;

in: type;

ции: выбора стандартов (choseStandards) и отобра TITLE: string;

жения их на изображении (showStandards). При ре NOTICE_DATE: string;

шении задачи выполняется следующий параметри NOTICE_TYPE: string;

зованный запрос к посреднику (параметр radius – TRIGGER_NUM: string;

POINT_RA: string;

задается пользователем, в задаче использовался (адаптера). Данная задача была выполнена полно 0.1deg): стью. Эффект от предложенного подхода становит r(x/[title, standards, image]) ся понятным при решении комплексных задач :- grb_ALERT_CQ (x1/[title: name, ra, de]) (пример описан в разделе 5), требующих доступа к & choseStandards(ra, de, 0.1, standards) множеству неоднородных распределенных инфор & showStandards(ra, de, 0.1, standards, image) мационных ресурсов, среди которых могут быть и Функция choseStandards представляет собой по- ресурсы потоковых данных.

ток работ, включающий в себя обращение к двум Литература посредникам. Схематично поток работ включает в себя следующие шаги. [1] Брюхов Д.О., Вовченко А.Е., Захаров В.Н., Же Шаг 1. На первом шаге среди всех астрономиче- ленкова О.П., Калиниченко Л.А., Марты ских объектов мы выбираем те, что попадают в ука- нов Д.О., Скворцов Н.А., Ступников С.А. Архи занную площадку (по координатам и радиусу, зада- тектура промежуточного слоя предметных по ваемым параметрами функции). При этом нас инте- средников для решения задач над множеством ресуют только координаты, магнитуды, тип объек- интегрируемых неоднородных распределенных та, собственное движение и качество данных. информационных ресурсов в гибридной грид Шаг 2. На втором шаге происходит кросс иден- инфраструктуре виртуальных обсерваторий// тификация объектов из разных каталогов, объеди- Информатика и ее применения. – 2008. – Т. 2, няющая магнитуды объектов. По сути это означает, Вып. 1. – С. 2-34.

что если среди данных есть два объекта, для кото- [2] Traderbot home page. – http://www.traderbot.com.

рых будет установлено, что они идентичны (по бли- [3] iPolicy Networks home page. – http://www. ipoli зости координат), то в результате мы получим толь- cynetworks.com.

ко один объект, содержащей магнитуды обоих. Это [4] Terry D., Goldberg D., Nichols D., Oki B. Con необходимо, чтобы объединить данные магнитуд из tinuous queries over append-only databases//Proc.

разных ресурсов. of the 1992 ACM SIGMOD Int. Conf. on Man Шаг 3. На третьем шаге мы отсеиваем те объек- agement of Data, June 1992. – P. 321-330.

ты, которые не являются изолированными. Изоли- [5] Вовченко А.Е. Автоматизация создания адапте рованность означает отсутствие вблизи других объ- ров для сред неоднородных распределенных ектов. информационных источников// Сб. тез. XIV Шаг 4. На четвертом шаге мы выбираем только Межд. науч. конф. студентов, аспирантов и мо те объекты, для которых было проверено, что они лодых ученых «Ломоносов». – М.: МГУ, 2007. – не являются переменными (проверка переменности С. 14.

– это отдельный запрос к посреднику), что они яв- [6] Вовченко А.Е., Крупа А.В. Планирование за ляются звездами и для них в эталонном каталоге просов над множеством неоднородных распре (каталогах) не значится, что их тип – Галактика. Ко деленных информационных ресурсов в архитек всему этому выбираются лишь те объекты, для ко- туре средств поддержки предметных посредни торых собственное движение очень мало. Также ков// Тр. RCDL'2009. – Петрозаводск, 2009. – выбираются лишь те объекты, для которых данные С. 335-342.

качественны.

Methods and tools for subject mediators 6 Заключение access to the streaming data В работе предложена архитектура АПД, осно A.E. Vovchenko, L.A. Kalinichenko, M.U. Kostukov ванная на ранее разработанном реляционном адап тере в среде посредников. Разработана архитектура Recently a new class of problems that require intensive программного средства StreamIterator, обеспечи stream data processing becomes widespread. Also the вающего в АПД взаимодействие с РПД. Составные number of streaming resources, providing large data части StreamIterator разделены на компоненты, об streams in real time increasingly grows. Wrappers play щие для всех StreamIterator-ов и уникальные для an important role in subject mediator infrastructure.

каждого конкретного РПД. Все общие компоненты Wrapper provides a uniform interface to access hetero были реализованы. Все компоненты, уникальные geneous information resources from mediator.

для конкретного РПД, реализованы для конкретного The paper describes characteristics and semantics of потокового РПД.

streaming data model. An approach of implementation Предлагаемый подход разрабатывался в среде of the various types of queries in the streaming wrapper предметных посредников, осуществляющих реше is described. Also streaming wrapper architecture is ние научных задач над неоднородными информаци presented. It is shown how streaming wrapper may be онными ресурсами. Для доступа к неоднородным used for scientific problem solving.

ресурсам используется механизм адаптеров с фик сированным интерфейсом. Именно поэтому основ- Работа выполнена при частичной финансовой поддерж ной целью работы была разработка возможности ке РФФИ (проекты 08-07-00157 и 10-07-00342) использования потоковых данных из предметных посредников, посредством стандартного интерфейса Гибкая подсистема визуализации онтологии и информационного наполнения порталов знаний на протяжении их жизненного цикла © З.В. Апанович1, П.С. Винокуров1, Т.А. Кислицина Институт систем информатики им. А.П. Ершова СО РАН, г. Новосибирск Новосибирский государственный университет apanovich@iis.nsk.su гия, составляющая основу информационного порта Аннотация ла, может быть представлена в виде графа, вершины Рассматривается компонента визуализации которого изображают сущности, такие, как классы, наполнения информационных порталов, ос- объекты и атрибуты онтологии, а ребра изображают нованных на онтологиях. В этой компонен- отношения между этими сущностями. Просматри те реализован принцип декомпозиции, на вая изображение различных подграфов, генерируе основе отношений. Пользователь имеет мых по описанию данной онтологии и информаци возможность выбирать одно или несколько онного наполнения, разработчик системы может отношений, просматривать классы или объ- обнаружить как ошибки данных, возникшие при екты, связанные выбранными отношения- ручном вводе информации, так и ошибки проекти ми, а также выбирать методы визуализации, рования, незаметные при просмотре текстовых учитывающие типы конкретных отноше- форм.

ний, и комбинации отношений разного ти- Следует отметить, что в настоящее время име па. ется значительное количество работ, посвященных визуализации онтологий. Эти работы развиваются в 1 Введение двух базовых направлениях. Во-первых, постоянно возникают новые методы визуализации и навигации Процесс разработки онтологии и информаци для графов общего вида. Затем эти методы начина онного наполнения веб-портала является весьма ют применяться для визуализации различных пред длительным и трудоемким и требует усилий боль метных областей, в том числе и онтологий. Приме шого коллектива разработчиков. Многие данные ром движения по этому пути является использова вводятся вручную, что потенциально опасно ошиб ние для визуализации онтологий таких известных ками ввода, которые нелегко обнаружить, просмат программ общего назначения, как GraphViz [7]. С ривая одну за другой текстовые формы. По мере другой стороны, онтологии имеют четко опреде своего развития информационные порталы накап ленную структуру, которая должна приниматься во ливают все больше разнородной информации и ста внимание при визуализации. Поэтому такие извест новятся бесценным источником информации, при ные редакторы онтологий, как Protege и OntoEdit годной для всевозможных форм анализа. Поэтому [11, 15], используют специализированные методы возникает задача анализа развивающегося инфор визуализации. Достаточно полный обзор методов мационного наполнения с целью выявления различ визуализации онтологий представлен в работе [12].


ных закономерностей. Так, например, в случае ин Несмотря на значительное количество сущест формационного портала, посвященного некоторому вующих методов визуализации онтологий и баз научному направлению, весьма актуальной является знаний, эта проблема далека от своего окончатель задача наукометрического анализа его наполнения, ного решения. Это объясняется сложностью и в частности, выявления шаблонов сотрудничества большим объемом визуализируемой информации, а между различными научными сообществами.

также тем, что каждая предметная область имеет Общепризнанным инструментом, обеспечи особенности, требующие специализированных ме вающим понимание больших объемов абстрактной тодов визуализации. Одним из важнейших условий информации, является визуализация информации с успешной визуализации является разработка мето применением графовых моделей [1, 4, 6]. Онтоло дов, зависящих от семантики визуализируемых свя зей и объектов.

Труды 12й Всероссийской научной конференции Существенной особенностью информационно «Электронные библиотеки: перспективные методы го наполнения порталов знаний является наличие и технологии, электронные коллекции» – большого количества информационных объектов и RCDL’2010, Казань, Россия, 2010 онтологических отношений. Тестовые данные, с • которыми осуществлялась большая часть наших реализованы дополнительные окна описа экспериментов, содержали четыре тысячи онтоло- ний атрибутов вершин, выбираемых в окне визуали гических объектов, связанных пятнадцатью тысяча- зации.

ми онтологических отношений. Для обеспечения Общий вид панели управления визуализацией понимаемости таких объемов информации необхо- показан на рис. 1. В верхней части окна визуализа димо предоставить пользователю гибкие средства ции находится семь закладок, соответствующих декомпозиции информационного наполнения. Сред- основным режимам визуализации: Классы, Отно ства декомпозиции должны позволять, с одной сто- шения, Ассоциативность и вложенность, Отно роны, выбирать осмысленные фрагменты информа- шения между объектами, Отношения между ции, объем которых не превышает лимитов их по- классами, Размеры классов, Дерево классов.

нимаемости. С другой стороны, при декомпозиции не должно происходить потери существенной ин формации. В основу нашего подхода была положена декомпозиция информационного наполнения, осно ванная на отношениях. Пользователь имеет воз можность выбирать одно или несколько отношений, просматривать классы или объекты, связанные вы бранными отношениями, а также выбирать методы визуализации, учитывающие типы конкретных от ношений и комбинаций отношений разного типа.

2 Пользовательский интерфейс компо ненты визуализации Компонента визуализации информационного наполнения принимает входные данные в виде двух xml-файлов, первый из которых (ontology.xml) со держит информацию о классах и отношениях клас- Рис. 1. Общий вид панели визуализации сов, а второй файл (data.xml) содержит информацию о конкретных объектах и их отношениях. Эти дан- Закладки Дерево классов и Размеры классов ные преобразуются во внутренний формат, после соответствуют двум различным режимам визуали чего на экране появляется окно управления визуа- зации отношения наследования между классами.

лизацией. Использование xml-файлов не является Закладка Отношения между классами позво существенным ограничением. В ходе работы прово- ляет получить изображение любого выбранного дились также эксперименты с данными, представ- подмножества отношений между классами.

ленными в RDF-формате. Закладки Отношения между объектами и Ас Структура пользовательского интерфейса под- социативность и вложенность позволяют про чинена основной задаче: дать пользователю как сматривать изображения любого выбранного под можно больше возможностей анализа информаци- множества отношений между объектами и комби онного наполнения портала. С этой целью были наций ассоциативных отношений с отношениями реализованы следующие решения: вложенности.

• пользовательский интерфейс состоит из на- Закладки Классы и Отношения являются бора закладок, соответствующих основным «сре- вспомогательными и используются для настройки зам» онтологии и информационного наполнения параметров визуализации.

портала;

Далее будет показано, каким образом указан • пользователь имеет возможность выбирать ные режимы помогают пользователю разобраться в методы визуализации, учитывающие типы конкрет- структуре портала знаний и его информационном ных отношений и комбинаций отношений разного наполнении.

типа;

• имеется широкий набор возможностей 3 Изображение связей между классами взаимодействия с информационным наполнением, онтологии позволяющий выбирать нужные подграфы указани ем интересующих отношений между классами или Знакомство с информационным наполнением объектами, а также содержащий набор геометриче- портала предлагается начинать с изображения от ских трансформаций изображения выбранных под- ношений наследования между классами. Одним из графов;

стандартных способов представления этой инфор • по усмотрению пользователя на экране мо- мации являются списки с отступами, как это пока гут быть размещены названия выбранных вершин, зано на рис. 2.

отношений, значений атрибутов;

Такой способ изображения имеет несколько недостатков. Во-первых, для того чтобы получить глобальную информацию об онтологии, необходи мо раскрыть все уровни этого иерархического спи- ния партономии, большой спектр транзитивных ска, но при таком раскрытии список очень быстро отношений (к которым, в частности, относится от становится необозримым. Во-вторых, список с от- ношение включения), а также большое разнообра ступами не дает никакой информации о прочих от- зие ассоциативных отношений. Возможность про ношениях, существующих между элементами ин- смотра ассоциативных отношений между классами формационного наполнения. Поэтому в нашей под- в дополнение к уже изображенному отношению системе визуализации реализовано еще несколько наследования является весьма важной для понима дополнительных возможностей для изображения ния структуры портала. В настоящий момент эта отношения наследования. Пример изображения от- возможность предоставляется пользователю в двух ношений наследования при помощи радиального режимах.

алгоритма показан на рис. 3.

Рис. 2. Изображение отношения наследования классов в виде списка с отступами Рис. 4. Изображение относительного количества объектов в каждом классе В режиме «Наследование классов» доста точно выбрать при помощи мыши произвольный класс на изображении всей онтологии, и в результа те этого действия к изображению будут добавлены ребра с метками, изображающие ассоциативные связи выбранного класса, как это показано на рис. 5.

Одновременно на панели «Связи», расположенной слева от окна визуализации, будут высвечены на звания этих отношений с указанием количества эк земпляров данного отношения.

Рис. 3. Изображение отношения наследования при помощи радиального алгоритма Такой способ изображения позволяет пользо вателю визуально оценить сбалансированность он тологии. Кроме этого, названия пустых классов, в которых еще нет объектов, высвечиваются более светлым цветом. Это сделано для того, чтобы при влечь внимание пользователя к таким классам и дать ему возможность подредактировать онтоло гию.

В подсистеме визуализации реализована также версия радиального алгоритма, в которой размер секторного сегмента, изображающего каждый Рис. 5. Иерархия классов с высвеченными ассоциа класс, пропорционален количеству объектов в этом тивными отношениями класса Персона классе (рис. 4).

Помимо отношения наследования в онтологии информационного портала используются отноше Этот тип изображения является весьма полез- жение выбранных классов и связей этих классов с ным инструментом при исследовании свойств су- другими классами. Такие изображения могут быть ществующей онтологии. В частности, при разработ- удачной подсказкой для разработчика онтологии.

ке онтологии не всегда легко отделить классы и подклассы, связанные отношениями наследования, от объектов одного класса, связанных ассоциатив ным отношением включения. При анализе мы исхо дим из предположения, что подкласс имеет право на самостоятельное существование, если он имеет от ношения и атрибуты, отсутствующие у класса-отца.

Например, онтология археологического порта ла содержит класс Персона, у которого есть под классы Студент и Исследователь. Объектами всех этих классов являются физические лица. При этом класс Персона связан с другими классами следую щими ассоциативными отношениями:

Знакомые (класс Персона), Участник-события (класс Событие), Ресурс-Человека (класс Инфор мационный_Ресурс), Применяет-Метод (класс Метод_Исследования), Ученик (класс Исследова тель).

Рис. 6. Все существующие отношения между Подкласс Исследователь, помимо отношений, классами данной онтологии наследуемых от класса Персона, имеет дополни Например, на рис. 7 изображены связи между тельные отношения с другими классами: «Направ классами Персона и Исследователь. Ребро зелено ление-исследований» (класс Раздел_Науки), Автор го цвета соответствует отношению наследования (класс Публикация), Изучает-Период (класс Пе между этими классами, а ребра голубого цвета изо риод), Участник-Проекта (класс Проект), Ученик бражают ассоциативные отношения. При просмотре (класс Персона).

ассоциативных отношений класса-отца Персона и В то же время подкласс Студент класса Пер класса-наследника Исследователь у пользователя сона своих собственных отношений с другими может возникнуть вопрос, почему отношение классами не имеет. Это свойство легко обнаружива «Применяет-Метод» связывает класс Метод Ис ется при выделении мышью данного подкласса в следования с классом Персона, а не с классом Ис режиме «Наследование классов». Исходя из обна следователь.

руженных свойств, можно рекомендовать инженеру знаний либо дополнить подкласс Студент отноше ниями, отличающими его от классов Персона и Ис следователь, либо удалить его из множества клас сов. Аналогичным образом можно быстро исследо вать все подклассы имеющейся онтологии. Ввиду небольшого количества классов в исследуемой он тологии такая проверка требует всего нескольких минут.

Другой вариант визуализации ассоциативных отношений совместно с отношением наследования показан на рис. 6. В этом случае отношение насле дования показано при помощи кругового алгоритма.

Ассоциативные отношения показаны при помощи иерархических жгутов ребер [9]. Достоинством это го типа изображения является то, что оно позволяет увидеть ВСЕ ассоциативные связи данной онтоло Рис. 7. Изображение ассоциативных связей двух гии одновременно. Кроме этого, с первого взгляда классов, связанных отношением наследования видны также классы, не имеющие собственных от ношений.

4 Изображение связей между объектами При исследовании онтологии достаточно важ информационного наполнения ной является также возможность увидеть более де тальную картину отношений между классами, инте Закладка Отношения между объектами пред ресующими пользователя. Этой цели в системе ви назначена для изображения объектов, принадлежа зуализации служит закладка Отношения между щих классам, выбранным пользователем, и связей, классами. Она позволяет пользователю выбрать также выбранных пользователем. Для построения произвольное подмножества классов в списке изображения объектов и связей между ними можно «Классы» панели управления и получить изобра выбрать при помощи мыши интересующие отноше- ность ввода данных. Имеющиеся на данный момент ния на диаграмме классов и перейти в режим визуа- методы визуализации позволяют, по крайней мере, лизации отношений между объектами. Можно так- сформулировать критерии для такой автоматиче же выбрать нужные отношения из списка имею- ской проверки.

щихся отношений, перечисленных в компоненте выбора отношений. При выборе мышью одного или 5 Изображение комбинации отношения нескольких отношений из предлагаемого списка вложенности и ассоциативных отноше отношений справа появляется список объектов, свя ний занных выбранным отношением. Из списка объек тов можно выбрать произвольное подмножество и Другой важной особенностью нашей компо заказать его изображение. Программа разделяет ненты визуализации является возможность комби граф связей объектов на компоненты связности, а нированного изображения отношений. Для этого затем применяет к ним один из имеющихся алго- введен режим визуализации «Ассоциативность и ритмов размещения. В настоящий момент для ви- вложенность». Дело в том, что в онтологиях порта зуализации имеющихся данных используются алго- лов знаний имеется большое количество ассоциа ритмы Kamada-Kawai [10] и Fruchterman-Reingold тивных отношений, связывающих объекты, которые [8]. являются частью иерархии, индуцированной отно Визуализация объектов и связей между ними шением вложенности (партономии). Например, оказалась весьма удобным инструментом, позво- имеется большая иерархия объектов из класса Ме ляющим быстро идентифицировать как ошибки, тод исследования, связанных отношением Метод возникающие при ручном вводе информационного Включает. В то же время объекты класса Метод наполнения портала, так и ошибки, возникшие на исследования связаны ассоциативным отношением этапе проектирования онтологии. Часто признаком Применяет-Метод с объектами класса Исследова ошибочного ввода данных является наличие циклов тель. Отношения партономии обычно достаточно в графе связей объектов, а также наличие петель, то просто обнаружить визуально на уровне изображе есть ребер, соединяющих вершину с самой собой. ния отношений между классами. Эти отношения (но Такие ошибки обнаруживаются при визуализации не только они) изображаются ребром-петлей. Если отношений между объектами одного и того же визуализировать соответствующий граф без учета класса (петля на графе ассоциативных отношений отношения вложенности, изображение может ока между классами). Например, при визуализации от- заться весьма запутанным, как это показано на ношения Исторически следует для объектов класса рис. 9. Эта запутанность частично связана с тем, что Период был обнаружен цикл, связывающий объек- отношение вложенности (в данном случае Метод ты «Нижний палеолит», «Средний палеолит» и Включает) изображается при помощи ребер, соеди «Верхний палеолит» (рис. 8). няющих вершины-объекты. Если изобразить факт наличия отношения вложенности между объектами при помощи геометрической вложенности вершин объектов, рисунок упростится благодаря исчезнове нию существенного количества ребер. Понимае мость структуры отношений при этом только улуч шается, как это можно видеть на рис. 10.

Рис. 8. Наличие циклов в подграфе объектов типа Период, связанных отношением Исторически следует В настоящий момент единственным способом обнаружения подобных ошибок является просмотр всех имеющихся отношений по одному, а также в комбинации с отношениями вложенности, что мо жет оказаться весьма длительной и трудоемкой проблемой. Поэтому желательно проанализировать заранее семантику имеющихся в онтологии отно- Рис. 9. Совместное изображение отношения шений и выделить те средства анализа, которые партономии и одного из ассоциативных отношений позволяли бы автоматически определять коррект- при помощи силового алгоритма Поэтому возникает задача построения специа- номии накладывается изображение выбранного ас лизированной визуализации ассоциативного отно- социативного отношения. Этот способ визуализа шения и отношения партономии на уровне объек- ции позволяет анализировать базу знаний информа тов. Мы разработали и реализовали два алгоритма ционного портала в любой момент его существова визуализации такой комбинации. Первый алгоритм ния. Продемонстрируем это свойство на примере размещает дерево вложенностей при помощи гео- извлечения из базы знаний сетей соавторства и их метрической вложенности окружностей. В его ос- визуализации.

нове лежит эвристический алгоритм построения Заметим, что порталы, с которыми мы работа вложенных окружностей [4]. В каждой окружности ли [2, 3], содержат большое количество информации размещаются объекты, связанные ассоциативным о научных публикациях, и эта информация со вре отношением с соответствующей вершиной дерева менем эволюционирует. Ее можно анализировать, вложенностей. визуализируя сети соавторства, сети цитирования и коцитирования. Исследование сетей соавторства в При выделении некоторого объекта к данному настоящее время является весьма популярной науч изображению добавляются связи, показывающие ной задачей, поскольку совместные исследования все вершины дерева вложенностей, связанные с вы стали доминирующим и наиболее многообещаю бранным объектом.

щим способом производства высококачественного На рис. 10 изображено дерево вложенностей научного результата [5, 14, 16]. При этом специали отношения «Метод Исследования-включает». Цен зированные информационные порталы содержат, тральная окружность соответствует объекту «Мето помимо библиографической, огромное количество дика раскопок». Методы, которые включает «Мето дополнительной информации: о научных организа дика раскопок», соответствуют вложенным окруж циях и разделах науки, в которых работают иссле ностям. Каждая окружность содержит вершины, дователи, о предметах исследования и различных изображающие персон, связанных с этой структу видах научной деятельности, таких, например, как рой отношением Применяет метод. Дополнитель научные экспедиции, и т. д. Поэтому весьма инте ные ребра указывают на все методы исследования, ресной видится задача сопоставления отношения применяемые выбранной персоной.

сотрудничества с другими подструктурами, которые можно выделить в информационном наполнении портала.

Заметим, что в исходной тестовой онтологии не существовало таких отношений, как соавторство, цитирование и др. Эти отношения генерируются на уровне подсистемы визуализации. В данном случае отношение соавторства было построено как супер позиция отношения авторства и его инверсии. Затем сгенерированное новое отношение может быть ви зуализировано в комбинации с другими отноше ниями, имеющимися в онтологии информационного портала.



Pages:     | 1 |   ...   | 12 | 13 || 15 | 16 |   ...   | 26 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.