авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 |   ...   | 22 | 23 || 25 | 26 |

«Электронные библиотеки: Перспективные Методы и Технологии, Электронные коллекции English Труды RCDL 2010 ...»

-- [ Страница 24 ] --

(5) сравнение режима щью библиотеки jQuery. Динамическое изменение эволюции генов с режимом эволюции фенотипиче интерфейса удобно использовать, когда существуют ских признаков организмов. Второй конвейер вы зависимости между параметрами исполняемых мо- полняет аналогичные процедуры для аминокислот дулей. Например, в модуле, описывающем задачу ных последовательностей. При этом вычисления в множественного выравнивания белковых последо- каждом узле конвейера могут быть выполнены од вательностей программой Mafft, выбор матрицы ним из нескольких способов. Так, например, для сравнения аминокислот обуславливает ряд допол- множественного выравнивания пользователю пред нительных опций, которые зависят от ее типа. При лагается выбрать один из двух вариантов алгорит выборе матрицы на веб-странице отображаются мов.

только опции, связанные типом выбранной матри цы.

6 Заключение Предложенный подход позволил создавать каче ственные и эргономичные веб-интерфейсы для лю- Предложенный подход позволяет реализовывать бых вычислительных модулей в автоматическом системы расчета биоинформатических задач в виде конвейера. Система не требует от пользователя про режиме.

В текущей версии интерфейса доступны сле- граммирования, необходимо только описать пара метры вычислительных модулей в определенном дующие базовые опции управления конвейером:

• установка входных файлов, параметров и формате. Интерфейс конвейера генерируется в ав томатическом режиме. С помощью системы реали опций для каждого вычислительного модуля в зованы конвейеры по анализу молекулярной эволю конвейере;

ции генов и белков.

Литература [1] SAMEM – Computer System for Analysis of Mo lecular Evolution Modes, 2010. – http://pixie. bio net.nsc.ru/samem/.

[2] Rowe A., Kalaitzopoulos D., Osmond M., M.

Ghanem, Guo Y. The discovery net system for high throughput bioinformatics// Bioinformatics. – 2003.

– V. 19. – P. 225-231.

[3] Altintas I., Berkley C., Jaeger E., Jones M., Lud scher B., Mock S. Kepler: towards a grid-enabled system for scientific workflows// Workflow in Grid Systems Workshop in GGF10, Berlin, March 2004.

[4] Deelman E., Blythe J., Gil Y., Kesselman C. Work flow management in GriPhyN. – In J. Nabrzyski, J.

Schopf, J. Weglars (Eds). Grid resource manage ment. – Kluwer, 2003.

[5] Oinn T., Addis M., Ferris J., Marvin D., Senger M., Greenwood M., Carver T., Glover K., Pocock MR., Wipat A., Li P. Taverna: a tool for the composition and enactment of bioinformatics workflows. – Bio informatics. – 2004. – V. 20. – P. 3045-3054.

[6] Hoon S., Ratnapu K., Chia J., Kumarasamy B., Juguang X., Clamp M., Stabenau A., Potter S., Clarke L., Stupka E. Biopipe: a flexible framework for protocol-based bioinformatics analysis. – Ge nome Res. – 2003. – V. 13, No 8. – P. 1904-1915.

BioinfoWF – web-services and workflow management for bioinformatics analysis M.A. Genaev, K.V. Gunbin, D.A. Afonnikov To perform workflow data processing for bioinformat ics we developed BioinfoWF system. The BioinfoWF runs under command line on the UNIX-like systems or as a web-service. The workflow or its part can also per form on the multiprocessor cluster systems under Sun Grid Engine.

* Работа выполнена при финансовой поддержке РФФИ (проект 09-04-01641);

интеграционных про ектов СО РАН №№ 113, 26, 109;

Программы РАН «Происхождение и эволюция биосферы»

Инструментарий публикации данных и метаданных для распределенной информационной системы по количественной спектроскопии © А.Ю. Ахлёстин, Н.А. Лаврентьев, М.М. Макогон, А.И. Привезенцев, А.З. Фазлиев Институт оптики атмосферы СО РАН имени В.Е. Зуева, г. Томск faz@iao.ru низации [1 – 6], другие из нескольких организаций, Аннотация и в этом случае центр данных является распреде Описаны некоторые компоненты инструмента- ленной информационной системой [7].

рия публикации данных и метаданных, создан VAMDC является одним из таких центров, соз ного в проекте «Виртуальный центр атомных и даваемых в рамках европейского инфраструктурно молекулярных данных» (VAMDC). Две из них, го проекта седьмой рамочной программы. Его осно связанные с проверкой достоверности данных и вой является распределенная информационная сис манипуляцией с данными, описаны детально.

тема, содержащая распределенные неоднородные по Рассмотрены проверки двух типов ограниче интенсионалам данные по атомной и молекулярной ний. К первому из них относятся ограничения на значения физических величин, следующие из спектроскопии. Каждый узел этой системы поддер математических моделей процессов и объектов живается автономно разными организациями. Вир количественной спектроскопии, в частности, туальность VAMDC подразумевает централизацию правил отбора. В качестве примера рассмотрены метаданных, связанных с данными распределенной результаты проверки данных из более 700 статей информационной системы. Одной из частей мета по спектроскопии воды.

данных является реестр данных распределенной Другой тип ограничений связан с фактом системы [8], содержащий перечень информацион публикации данных (ограничения существова ных ресурсов, названия организаций, создавших и ния). Эти ограничения применялись для части поддерживающих ресурсы и т. д. Наряду с этими массива данных HITRAN, относящихся к изото померам молекулы воды. Декомпозиция, ис- традиционными метаданными, связанными с описа пользуемая для проверки этого ограничения, ос- нием абстрактного ресурса, существуют метадан нована на использовании полного набора опуб- ные, характеризующие свойства данных, относя ликованных данных, собранного группой дан щиеся к предметной области.

ных проекта IUPAC (Международный союз чис Для создания виртуального центра необходимо той и прикладной химии).

решить ряд прикладных задач, в частности, задачу построения инструментария публикации данных и 1 Введение метаданных, которая разбивается на ряд подзадач, некоторые из которых описаны в данной работе.

Научная статья возникает в результате синтеза К числу этих подзадач относятся задача вычис ее авторами результатов исследований объектов и ления достоверности информационных ресурсов, процессов предметной области. Обязательной ее публикуемых центром данных, и задача автомати компонентой являются новые утверждения об ис зации манипуляций с данными на разных этапах их следованных объектах, основанные на существую публикации и при формировании пользователем щих данных и информации о предметной области.

нужных ему структур данных.

Появление глобальной информационной систе Авторы являются участниками проекта VAMDC, мы (Web) значительно облегчило поиск и доставку в котором они разрабатывают систему публикации данных и информации исследователям и иницииро данных, метаданных для однородной по программ вало работы по созданию виртуальных центров ному обеспечению распределенной информацион данных. В таких центрах (например, [1 – 7]) соби ной системы по количественной молекулярной раются, систематизируются, хранятся, публикуются спектроскопии, развиваемой ими в России [9].

и предоставляются пользователям решения задач предметных областей. Структура центров данных 2 Особенности предметной области может быть различной: одни состоят из одной орга Целью VAMDC является построение «безопас ной, документированной, гибкой, легко доступной и й Труды 12 Всероссийской научной конференции интероперабельной цифровой инфраструктуры для «Электронные библиотеки: перспективные методы атомарных и молекулярных данных». После приня и технологии, электронные коллекции» – RCDL’2010, Казань, Россия, 2010 тия участниками проекта XML-схемы [10], характе • ризующей структуру данных спектроскопии, коли- рецензирование статьи (в настоящее время ре чественный аспект спектроскопии оказался глав- цензенты своими силами организуют проверку ным. целостности данных и логических выводов ав Количественная спектроскопия является сфор- тора);

мировавшейся дисциплиной, относящейся к оптике. • переписку рецензентов и редактора с авторами, В ней сформировалась концептуализация и по- • механизм принятия решения о публикации и строены основы логической теории. Появляющиеся размещение статьи и приложений в информа новые методы расчета значений спектральных ха- ционной системе издательства или посредни рактеристик используют новые базисные функции, ков;

что в свою очередь приводит к новой интерпрета- • систему представления статей и приложений к ции результатов и дополнениям в концептуализа- ним.

цию. Такая ситуация является типичной для физи- Статья представляет собой информационный ре ческих наук. сурс, который можно представить в виде трех час Особенностью количественной спектроскопии тей: данных предметной области, метаданных и ло является огромное число данных, получаемых в гической теории (онтологии), связанной с предмет расчетах значений физических величин (например, ной областью этими данными и метаданными. Ав для изотопомера молекулы воды HDO [11] число томатизация работы с каждой из этих частей осно переходов составляет около семисот миллионов). вана на использовании языков их спецификаций. В Характерной чертой получаемых в измерениях нашей работе такими языками являются XML, RDF спектральных данных, является то, что в разных и OWL DL [14].

диапазонах частот переходов молекул и атомов ис- Публикация данных в виртуальном центре дан пользуются устройства, основанные на разных фи- ных позволяет сделать степень автоматизации про зических процессах. Не существует устройства, по- цесса публикации существенно большей по сравне зволяющего измерить с высоким разрешением спек- нию с традиционной публикацией статьи. Во тральные функции молекулы во всем диапазоне первых, авторы могут до начала процедуры публи изменений частоты излучения или поглощения. Это кации предварительно загрузить собственные дан означает, что значения спектральных характеристик ные и ознакомиться с наборами свойств этих дан в разных диапазонах их изменений определяются с ных, созданными системой. Набор таких свойств разной точностью. включает в себя результаты проверок формальных Значительный объем данных рассматриваемой ограничений, в том числе стандартные отклонения предметной области определяет структуру публи- со всеми опубликованными данными (в настоящее куемых статей, которая, как правило, включает таб- время такие наборы данных в ИС W@DIS сущест лицы, содержащие значения физических величин. вуют для молекул воды, углекислого газа и серово Представление статей в цифровом виде привело к дорода) и ограничения существования данных.

тому, что в последнее десятилетие получила широ- Автоматизация механизма публикации может кое распространение практика публикации данных в расширить возможности следующих этапов, связан виде файлов в приложении к статье. Наряду со ных с публикацией данных:

стандартным механизмом публикации данных в 1. Загрузка структурированных данных и генера текстах статей или приложений к ним используется ция предметных метаданных;

размещение данных, которые из-за значительных 2. Рецензирование данных и автоматическое вы размеров не публикуются издательствами, в интер- числение стандартных отклонений с данными, нет доступных информационных системах или ftp- опубликованными за всю историю существо серверах [12] организаций, в которых проводятся вания спектроскопии;

исследования. Эти системы и являются составными 3. Извлечение данных и метаданных предметной частями распределенной информационной системы области, в том числе детальное описание стан по количественной спектроскопии. дартных отклонений.

Расширение возможностей процедуры загрузки 3 Публикация данных и инструментарий данных состоит в том, что к числу типовых мета данных (авторы, дата поступления в редакцию и Обратимся к анализу процесса публикации дан т. д.), предназначенных для формирования реестра ных в таких системах и связанных с ним составных публикаций, автоматически добавляются:

частей инструментария публикации данных. В ин • метаданные, описывающие структуру данных;

формационной системе в цикле жизни данных и • метаданные, характеризующие интервалы из метаданных [13] этап публикации тесно связан с менения физических величин;

этапами приобретения данных системой и их извле • метаданные, связанные с проверками ограниче чением из системы пользователями. По этой причи ний (проверка целостности данных), следую не существующий механизм публикации статьи в щими из математических моделей молекул;

цифровых журналах содержит • метаданные, определяющие парные отношения • систему ее загрузки и приложений к ней в ин загруженных данных со всеми данными, формационную систему издательства;

имеющимися в системе;

• метаданные, описывающие мереологию [15] не может их использовать. Другими словами, эти ресурсы для приложений не существуют. К числу данных (не опубликованные ранее части дан несуществующих ресурсов в такой трактовке отно ных, опубликованная часть данных и их при сятся неопубликованные решения, в том числе по надлежность к публикациям и т. д.).

тенциально вычислимые по известным алгоритмам.

Расширение возможностей рецензирования за Этой группе ограничений соответствует проверка ключается в упрощении для эксперта рутинной час истинности утверждения ( X)D.

ти проверок достоверности данных. За экспертом остается необходимость проведения неформальных 4.2 Ограничения на значения проверок данных, связанных с ними метаданных и неформальных логических конструкций. В количественной спектроскопии выбор иссле Наконец, расширение возможностей в извлече- дователем математической модели молекулы озна нии данных пользователем состоит в том, что с реа- чает выбор предметной области, а значит и ряда лизацией сервисов, обеспечивающих ему манипу- критериев достоверности данных. Заметим, что в ляции с данными, пользователю становятся доступ- количественной спектроскопии используются раз ными более сложные действия по формированию ные математические модели одной и той же моле его личных массивов данных. Эти действия кулы, а значит и для проверки достоверности ис реализуются с помощью унарных и бинарных пользуются разные наборы критериев. Например, операций над пространственно распределенными проверка допустимых интервалов изменения физи данными. Система строится с помощью веб- ческих величин (вакуумных частот, интенсивно сервисов и основана на реестре информационных стей, уровней энергии и т. д.), типов данных значе ресурсов, общем для всех узлов РИС. ний спектральных величин и соответствия кванто вых чисел правилам отбора трактуется как проверка 4 Публикация данных и инструментарий достоверности ограничений на значения.

Не для всех ограничений на значения можно по строить разрешимый алгоритм проверки, т. е. такой, 4.1 Интерпретация достоверности который выполняется компьютером за конечный Прежде всего, стоит отметить, что в разных интервал времени. Связано это с тем обстоятельст предметных областях определение достоверности вом, что некоторые ограничения имеют эвристиче данных разное [16]. По этой причине программное ский характер и не являются формализуемыми.

обеспечение, реализующее проверку достоверности, Принятие решения о соответствии данных этим будет разным для разных предметных областей. критериям осуществляется экспертами предметной Определим, в каком смысле используется понятие области.

достоверности информационных ресурсов предмет- Следовательно, инструментарий публикации, в ной области в данной работе. В данной работе мы части проверки достоверности на ограничения фи рассматриваем только такие определения достовер- зических величин, должен содержать два набора ности данных, которые позволяют проводить ком- программ. Один – для вычислений достоверности пьютерную проверку достоверности. по формальным критериям, а другой – для ввода Проверка достоверности связана с проверкой ог- результатов экспертной оценки. Соответствующее раничений на информационные ресурсы предмет- программное обеспечение было создано для ИС ной области. В работе рассмотрены две группы ог- W@DIS, представляющей информационные ресур раничений: ограничения на значения физических сы, относящиеся к спектроскопии некоторых моле величин и ограничения на существование этих зна- кул, и использовалось для анализа достоверности чений. данных из ~ 1400 статей о спектральных свойствах Первая группа ограничений связана с математи- молекул воды, сероводорода и углекислого газа и их ческими моделями молекул и физическими ограни- изотопомеров по критерию ограничения на значе чениями на рассматриваемые в предметной области ния.

процессы. Характерным для количественной спек- Детали формирования модели предметной об троскопии примером являются правила отбора для ласти, положенные в основу формирования про переходов, следующие из математической модели граммного обеспечения, были ранее описаны в [18, молекулы. С формальной точки зрения этим огра- 19], а предварительные результаты работы пред ничениям соответствует проверка истинности ут- ставлены в работе [20].

верждения ( X)D, где Х – данные, а D – предмет- Данные, отнесенные к одной молекуле и полу ная область. ченные одним методом, назовем источником дан Вторая группа ограничений связана с интерпре- ных. Источник данных, содержащий только данные, тацией существования информационных ресурсов удовлетворяющие ограничениям на значения, будем [17], которыми в количественной спектроскопии называть приведенным к канонической форме.

являются решения ее задач. Эти ограничения обу- В табл. 1 приведены результаты классификации словлены тем фактом, что решения задач являются источников данных по спектроскопии воды для двух входными данными для приложений интернет дос- групп прямых и обратных задач. В ней используют тупных информационных систем, и если они не ся следующие обозначения. Первое число в колонке опубликованы (т. е. не имеют URI), то приложение соответствует общему числу источников данных, а в скобках – числу источников, содержащих только значения физических величин, относящиеся к оди достоверные данные. наковому набору квантовых чисел и описывающие переход между состояниями, совпадают. Пусть Как следует из табл. 1, только 60% публикаций, содержащих решения задач Т2, Т6 (определение и 2 – сравниваемые частоты, характеризуемые частот перехода изолированной молекулы), не со одинаковым набором квантовых чисел. Будем счи держат ошибок, связанных с правилами отбора. Для тать их совпадающими, если их разность удовле решений задач Т3 и Т5 (определение параметров творяет неравенству спектральных линий при нормальных условиях) 1 2.

процент публикаций, не содержащих ошибок, со- (1) ставляет 78%.

В количественной спектроскопии связана с Таблица 1. Результаты проверки достоверности разрешающей способностью измерительных уст ройств. Величина является разной для разных первичных источников информации о решениях задач спектроскопии воды [8] диапазонов значений сравниваемых частот.

В качестве примера разложения экспертных мас Молекулы Задача Т2, Т6 Задачи Т3, Т5 сивов данных приведем фрагмент разложения мас H2O 5(0), 91 (47) 5 (0), 183 (167) сива спектральных данных для изотопомера воды H217O 5(1), 40 (31) 4 (0), 19 (16) HDO, взятого из банка данных HITRAN [21], вы полненного с точностью в диапазоне частот пе H218O 5(1), 59 (35) 4 (0), 29 (17) HDO 3(0), 83 (56) 2 (0), 8 (3) рехода 0-20000 cm-1. Интерфейс для выбора источ HD17O 2(0), 3 (3) 2 (0), 6 (6) ников данных показан на рис. 1.

HD18O 2(0), 6 (6) 2 (0), 7 (7) Декомпозиция проведена для разных интерва D2O 3(0), 38 (26) 3 (0), 10 (7) лов, т. к. точность измерения в них является разной.

D217O 1(0), 3 (3) 2 (0), 1 (1) В каждом из интервалов декомпозиция проводилась D218O отдельно по источникам данных, содержащих дан 2(0), 6 (6) 2 (0), 1 (1) ные измерений (верхняя строка подраздела табли 28(2), 318 (207) 26(0), 264 (225) цы) и вычислений (нижняя строка).

На рис. 2 показан интерфейс для задания допус Стоит отметить, что анализ составных источни тимой ошибки определения частоты (вакуумных ков данных по спектроскопии, таких, как HITRAN волновых чисел) и выбора способа разложения [21] и GEISA, для ряда изотопомеров воды выявил (разложение по данным расчета и/или данных изме наличие десятков переходов, не удовлетворяющих рений).

правилам отбора.

При разложении массива HITRAN по данным 4.3 Ограничения существования измерений молекулы HDO получено, что число не содержащихся в публикациях переходов равно Решения задач спектроскопии, полученные ис 2212, из общего числа 13238, что составляет 17%.

следователями, как правило, публикуются в печати Разложение по опубликованным данным измерений, или, в последние 10 лет, в интернете. На практике в дает остаток, равный 3704 переходам. Разложение научном сообществе спектроскопистов принято по публикациям, содержащим данные вычислений ссылаться на публикации только в ограниченном из первых принципов, дает остаток в 63 перехода.

списке журналов или сайтов.

Заметим, что точность в десятую долю обратного Назовем источник данных по количественной сантиметра является очень грубой во всем спек спектроскопии первичным источником данных, ес тральном диапазоне измеряемых частот перехода, ли все данные из него опубликованы в одной статье.

тогда как для вычисляемых из теории значений она Предположим, что существует полный набор является удовлетворительной.

первичных источников данных в предметной облас Проверка ограничения существования информа ти, и все источники данных в нем приведены к ка ционных ресурсов при создании инструментария нонической форме. Для изотопомеров молекулы публикации в центре данных, необходима в первую воды H217O, H218O, HDO, HD17O и HD18O такой пол очередь для экспертов, принимающих решения о ный набор описан в статье [22, 23].

возможности публикации того или иного массива Тогда уместна постановка следующей задачи о спектральных данных. Она также может быть по разложении (декомпозиции) произвольного массива лезна при планировании экспериментов для уточне спектральных данных по данным из полного набора ния значений физических величин, описывающих первичных источников данных, приведенных к ка спектры молекул.

ноническому виду.

В спектроскопии сравниваемые физические ве личины должны характеризоваться одинаковыми квантовыми числами. Значения же сравниваемых физических величин могут отличаться, тем не ме нее, физическая сущность, описываемая этими ве личинами (например, переход), интерпретируется как одна и та же. Уточним критерий, по которому Рис. 1. Интерфейс для выбора источника данных с целью его декомпозиции по первичным источникам данных Рис. 2. Результат декомпозиции данных об изотопомере HDO из банка данных HITRAN с точностью 0.1 см- при разложении по расчетным и экспериментальным данным в диапазоне частот переходов 0-20000 см- Таблица 2. Декомпозиция данных HITRAN по изотопомеру воды (HDO), выполненная по полному набору источников данных, собранному группой данных IUPAC [17, 18] Частотный NHi- Источники данных из полного набора [6] Остаток интервал tran 0 – 10 cm-1 10-1 cm-1 65 1946_ToMe, 1948_StWeHiWa, 1949_Strandbe, 1949_Jen, 1953_BuSt, 1953_BeWe, 1953_PoSt, 1953_JeBiMa, 1955_WeBeHe, 1956_ErCo, 1957_Posener, 1962_TrBe, 1964_ThKrLo, 1968_VeBlDy, 1967_BlVeDy, 1970_BeSt, 1970_StBe, 1971_LuCoHeGo, 1973_ClBeKlRo, 1985_Johns, 1993_GoFeDeDu 10-1 cm-1 2000_ScPa 2007_ScPaTa_b, 2007_ScPaTa_a - 10-3 cm- 10 – 30 cm 76 1971_LuCoHeGo, 1976_FlGi, 1984_MeLuHe, 1985_Johns 10-2 cm-1 2000_ScPa, 2007_ScPaTa_b, 2007_ScPaTa_a 30 – 50 cm-1 10-2 cm-1 76 1976_FlGi, 1984_MeLuHe, 1985_Johns 10-2 cm-1 2000_ScPa, 2007_ScPaTa_b, 2007_ScPaTa_a 50 – 200cm-1 10-1 cm-1 599 1978_KaKaKy, 1985_Johns, 1995_PaHo 10-1 cm-1 2000_ScPa, 2007_ScPaTa_b, 2007_ScPaTa_a 10-1 cm- 200 –10000 8825 1956_BeGaPl, 1973_CaFlGuAm, 1978_KaKaKy, cm-1 1982_PaCaFlGu, 1982_ToGuBr, 1983_Guelashv, 1983_ToBr, 1985_Johns, 1986_FlCaMaGu, 1989_OhSa, 1991_SaTaIrNa, 1991_RiSmDeBe, 1991_RiSmMeBe, 1992_RiSmDeBe, 1993_Toth, 1995_PaHo, 1997_Toth_a, 1997_Toth_b, 1999_Toth, 2000_WaHeHuZh, 2000_SiBeMaMa, 2001_PaBeZoSh, 2003_JaTeBeZo, 2003_BeNaCa, 2004_NaVoHu, 2005_ToNaZoSh, 2005_ToTe, 2007_JeDaReTy, 2007_JeDaReTy, 2007_MiLeKaCa, 2008_Guelashv_calib 10-1 cm-1 2000_ScPa, 2007_ScPaTa_b, 2007_ScPaTa_a 10-1 cm- 10000 – 3483 1997_VoFaPlRiNe, 1998_LaPeSiZh, 1999_NaBeCa, 20000 cm-1 2000_NaCA, 2000_CaBeNa, 2000_NaBeCa, 2000_NaBeCaSc, 2000_BeNaCa, 2001_JeMeCaCo, 2004_NaHuHeCa, 2005_CaVaNa, 2005_ToNaZoSh, 2007_VoNaCaCO, 2008_NaVoMaTe 10-0 cm-1 2000_ScPa, 2007_ScPaTa_b, 2007_ScPaTa_a Заметим, что общее число публикаций, собран- сероводорода, дает результат еще более несуразный.

ных группой IUPAC по изотопомеру молекулы Из более чем 35 опубликованных работ по перехо HDO, составляет около 90 статей. В первой колонке дам в банке данных HITRAN используются данные таблицы указан частотный интервал, для которого из 11 работ, причем 70% данных из банка данных проводилось разложение. Сделано это по причине HITRAN не опубликованы [24].

зависимости точности измерений от величины час- Включение неопубликованных данных в экс тоты. Наиболее точные измерения (до 9 знаков) пертные массивы данных не является необычным проводятся в микроволновом диапазоне (0 –10 см-1). фактом. Решение об использовании такого меха Во второй колонке указано число переходов из экс- низма определяется соответствующим научным пертного массива данных HITRAN, попадающих в сообществом. Однако с точки зрения автоматиче данный частотный диапазон. В третьей колонке ука- ской обработки данных агентами невозможность зана величина, входящая в формулу (1), указы- найти данные в информационном пространстве бу дет означать их «несуществование». Именно в та вающая на точность, с которой проводилась деком ком аспекте и рассмотрен критерий существования позиция. В четвертой колонке дан перечень статей, данных в нашей работе.

в которых найдены частоты с заданной точностью.

Мы не приводим библиографию в виду ее обширно 5 Заключение сти и отсылаем читателя к работе [23] в которой дано подробное описание коллекции данных. Отме В работе дано краткое описание задачи вычис тим, что теоретические списки переходов взяты из ления достоверности информационных ресурсов, работ 2000_ScPa, 2007_ScPaTa_b, 2007_ScPaTa_a.

публикуемых центром данных. Решение этой задачи Наконец, в последней колонке находится число пе использовано для создания прототипа инструмента реходов, не содержащихся в полном наборе публи рия публикации для виртуального центра молеку каций.

лярных данных, созданного в рамках информацион Отметим, что разложение части банка данных ной системы W@DIS (http://wadis.saga.iao.ru). Даль HITRAN, относящейся к основному изотопомеру нейшее развитие созданного инструмента публика ций будет осуществляться в рамках европейского молекулярной спектроскопии. – Дисс. … канд.

инфраструктурного проекта VAMDC (Virtual Atom- техн. наук. – Томск, 2009. – 238 с.

ic and Molecular Data Center) как для атомных, так и [20] Privezentsev A., Fazliev A., Tsarkov D., Tennyson, молекулярных данных для широкого круга задач J. Computed kknowledge base for description of in спектроскопии. Оно потребует детализации количе- formation resources of water spectroscopy. – ственных ограничений на точность измерений по http://www.webont.org/owled/2010/.

спектральным интервалам. [21] Rothman L.S., Gordon I.E., Barbe A. et al. The HITRAN 2008 molecular spectroscopic database// J.

Литература Quant. Spectr. Rad. Transfer. – 2009. – V. 110. – P. 533-535.

[1] NASA Langley Research Center (Radiation Budg [22] Tennyson J., Bernath P.F., Brown L.R. et al. IUPAC et, Clouds, Aerosols, Tropospheric Chemistry). – critical evaluation of the rotational-vibrational http://eosweb.larc.nasa.gov/.

spectra of water vapor. Part I. Energy levels and [2] Earth Resources Observation and Science (EROS) transition wavenumbers for H217O and H218O// J.

Center. – http://eros.usgs.gov/.

Quant. Spectr. Rad. Transfer. – 2009. – V. 110. – [3] Solar Influences Data Analysis Center (SIDC). – P. 573-596.

http://sidc.oma.be/.

[23] Tennyson J., Bernath P.F., Brown L.R. et al. IUPAC [4] The British Atmospheric Data Center (BADC). – critical evaluation of the rotational-vibrational http://badc.nerc.ac.uk/home/index.html.

spectra of water vapor. Part II. Energy levels and [5] Data Center for Astrophysics. – http://www.isdc.

transition wavenumbers for HD16O, HD17O and unige.ch/.

HD18O// J. Quant. Spectr. Rad. Transfer. – 2010 (to [6] Atomic Mass Data Center. – http://amdc.in2p3.fr/.

[7] Virtual Atomic and Molecular Data Center. – appear).

http://vamdc.eu/. [24] Naumenko O.V., Brown L.R., Campargue A. et al.

[8] Реестр проекта VAMDC. – http://registry.vamdc. Critical evaluation of the vibrational-rotational eu/vamdc_registry/main. transitions of hydrogen sulphide and its [9] Информационная система W@DIS. – http:// isotopologues from 0 to 16500 cm1// Proc. of 11-th wadis. saga.iao.ru. HITRAN Database Conference, 2010. – P. 76.

[10] XML Schema for Atoms, Molecules and Solids (XSAMS). – http://www-amdis.iaea.org/xsams.

Data and metadata publishing tools [11] Voronin B.A., Tennyson J., Tolchenov R.N. et al.

for a distributed information system A high accuracy computed line list for the HDO on quantitative spectroscopy molecule // Monthly Notices of the Royal Astronomical Society. – 2010. – V. 402. – P. 492- A.Yu. Akhlyostin, N.A. Lavrentiev, M.M. Makogon, 496. A.I. Privezentsev, A.Z. Fazliev [12] Public Astronomical Catalogues and Lists. – ftp://cdsarc.u-strasbg.fr/pub/cats/.

In our report some features of publication tools, partially de [13]De Roure D., Jennings N., Shadbolt N. A future e veloped by our group in the framework of VAMDC project, science infrastructure // Report Commissioned for are discussed. Two of them, namely, data validity and data EPSRC/DTI Core e-Science Programme, 2001. – manipulation, are the main topic of the report.

78 p. The following two types of constraints are discussed. The [14] WWW Corporation. – http://w3c.org/ standards/. first one is the restrictions on the values of physical quantities [15] Pietruszczak A. Pieces of mereology// Logic and derived from the mathematical model of processes, in particu Logical Philosophy. – 2005. – V. 14. – P. 211-234. lar, selection rules. The results of the verification of more than [16] Зиновьев А.А. Основы логической теории зна- 700 primary data sources related to water spectroscopy are ний. – М.: Наука, 1967. – 260 с. discussed.

Another type of restrictions relate to the fact of data publi [17] RFC 2396, Uniform Resource Identifiers. – cation (existence constraint). The results of the checkup ap http://www.ietf.org/rfc/rfc2396.txt.

plied to Hitran data for a series of water isotopomers are dis [18] Быков А.Д., Науменко О.В., Родимова О.Б. и др., cussed. These checkups are based on the data collected by Информационные аспекты молекулярной IUPAC group. The problem of creation of an information спектроскопии. – Томск, Изд-во ИОА СО РАН, system containing a complete set of published data for a series 2008. – 256 с. of atmospheric molecules is discussed. The state of the art of the problem developed in IAO SB RAS is described.

[19] Привезенцев А.И., Организация онтологических баз знаний и программное обеспечение для описания информационных ресурсов в Работа выполнена при финансовой поддержке РФФИ (проект 08-07-00318) и 7-й рамочной программы ЕС (грант 239108) Международная виртуальная обсерватория:

десять лет спустя © О.Ю. Малков1,2, О.Б. Длужневская1, О.С. Бартунов3, И.Ю. Золотухин Институт астрономии РАН, 2Физический факультет МГУ, г. Москва Государственный астрономический институт им. Штернберга, г. Москва malkov@inasan.ru зации описания, поиска, доступа и публи Аннотация кации данных. Одним из основателей и Международная виртуальная обсерватория важным участником Альянса является Рос представляет собой реализацию концепции сийская виртуальная обсерватория.

электронной науки в астрономии. Это мощ- Проект «Международная виртуальная ная виртуальная среда, предназначенная обсерватория» появился 10 лет назад, и ос для увеличения возможностей астрономи- новные его достижения в науке и техноло ческих исследований и научного выхода гии обсуждаются в настоящей работе. Раз данных. Виртуальная обсерватория интег- работаны стандарты для доступа к большим рирует в единую среду гигантские астроно- астрономическим массивам данных различ мические архивы и базы данных, распреде- ной организации: каталогам, изображениям, ленные по всему миру, а также инструмен- спектрам и рядам наблюдений. Сюда вклю ты анализа данных и вычислительный сер- чены стандарты для метаданных, форматов вис, используя при этом набор однородных данных, языка запросов и пр. Разработаны стандартов и технологий. Международная сервисы для объединения больших распре виртуальная обсерватория объединяет все деленных наборов данных, полученных в значительные национальные и междуна- различных спектральных диапазонах и с родные проекты по созданию виртуальных различным разрешением. Обеспечиваются обсерваторий, основная цель которых – эффективные механизмы для публикации объединить существующие архивы назем- данных и результатов их обработки. Инст ных и космических инструментов и обеспе- рументы анализа данных включают в себя чить исследователям и общественности выборку требуемых источников, измерение удобный доступ к ним. Эта задача пред- параметров, классификацию, извлечение ставляется весьма значительной не только данных из каталогов, изображений и пр., а из-за колоссального объема астрономиче- также средства многопараметрической ви ских данных, но и их спектрального разно- зуализации и статистического анализа. Об образия (от рентгена до радио). Каждый суждается также развитие прототипов сер спектральный диапазон предоставляет висов виртуальной обсерватории и исполь свою, уникальную информацию о небесном зование средств, применяемых для анализа объекте или явлении;

при этом требуется данных в существующих центрах данных и специализированная экспертиза для пра- обсерваториях.

вильной интерпретации. Вся эта информа ция также интегрируется в Международной 1 Международная виртуальная обсерва виртуальной обсерватории и позволяет син тория тезировать данные, чтобы использовать их в конкретных научных приложениях. В конце прошлого века в связи со значительны Для функционирования Международной ми достижениями в наблюдательных, регистри виртуальной обсерватории необходим на- рующих и вычислительных технологиях астроно бор однородных стандартов и технологий, мия столкнулась с лавинообразным увеличением которые разрабатывает, внедряет и поддер- количества получаемых данных. Эти наборы дан живает Альянс «Международная Виртуаль- ных покрывают небо в различных диапазонах длин ная обсерватория» – международный союз волн, от гамма- и рентгеновского диапазона, через национальных обсерваторий, призванный ультрафиолетовый, оптический и инфракрасный, до координировать деятельность по стандарти- радио-диапазона. Для решения большинства астро физических задач даже сейчас накопленного на Труды 12й Всероссийской научной конференции блюдательного материала уже достаточно. С учетом «Электронные библиотеки: перспективные методы и появления недорогих технологий хранения данных технологии, электронные коллекции» – RCDL’2010, и наличия высокоскоростных сетей концепция Казань, Россия, мульти-терабайтных, бесшовных интероперабель- работки для многократных операций и другие дей ных баз данных уже не является надуманной. Все ствия. Их повторное использование зачастую огра большее и большее количество астрономических ничено или вовсе не представляется возможным.

каталогов становятся взаимосвязанными, поисковые При этом собственно интеллектуальные усилия, машины все более и более усложняются, а результа- анализ и интерпретация подготовленного научного ты анализа таких данных становятся столь же бога- материала, имеющие решающее значение во всем тыми, как и для данных, полученных с реальных процессе, занимают несравнимо меньшее время.

телескопов. Предназначенные для обзоров телеско- Миссией Виртуальной обсерватории в широком пы наземного и космического базирования могут смысле является разделение творческого, интеллек поставлять изображение всего неба за несколько туального, высокоуровневого процесса от низко дней и производить, таким образом, данные в объе- уровневых операций, которые должны либо проис мах, измеряемых в петабайтах. Эти технологиче- ходить прозрачно (незаметно) для исследователя, ские достижения фундаментально изменяют харак- либо быть максимально пригодными для повторно тер астрономических исследований, а эти изменения го использования в ходе работы над последующими радикально влияют на социологию самой астроно- научными задачами. Таким образом, на первое ме мии. сто выходят абстрагированные от конкретных инст За прошедшие годы концепция Виртуальной об- рументов и наблюдателей данные, готовые к науч серватории (ВО, Virtual Observatory, VO), призван- ному использованию, сервисы для доступа к ним и ная удовлетворить существующим требованиям к широкий набор соглашений для обеспечения про управлению данными, их анализу и распростране- зрачности рутинных операций. Всем этим в той или нию, завоевала широкую популярность. ВО – это иной степени занимается Виртуальная обсервато система, в которой распределенные по всему миру рия. Ее успехи к настоящему моменту и само теку гигантские астрономические архивы и базы данных щее положение дел уже несет в себе новые возмож интегрированы в единую среду вместе с инструмен- ности для эффективных научных исследований, тами анализа данных и вычислительным сервисом. обходящихся без рутинной низкоуровневой состав Современная астрономия стоит у границ новых от- ляющей.

крытий, возможности которых предоставляются К настоящему времени в мире созданы и функ современными информационными технологиями, а ционируют 17 национальных и международных также политической и технической международной проектов Виртуальных обсерваторий. Их осуществ кооперацией. ление не лимитируется национальными границами.

Необходимо отметить, что Виртуальная обсерва- В проектах используются наблюдательные данные в тория является мощным инструментом демократи- широком диапазоне длин волн, полученные с кос зации астрономии, поскольку даже небольшие на- мических и наземных инструментов, используемых учные, а также образовательные астрономические международным астрономическим сообществом.

учреждения получают, по существу, те же возмож- Цель каждого проекта – вооружить астрономов ности для проведения научных исследований на мощными механизмами современного исследования современном наблюдательном материале, что и ве- наблюдательных данных, механизмами, которые дущие астрономические организации мира. могут быть использованы и нашими коллегами из Собственно Виртуальная обсерватория пред- смежных наук.

ставляет собой реализацию концепции электронной Для того чтобы Международная виртуальная об науки в астрономии;

это мощная виртуальная среда, серватория (МВО) стала реальностью, необходимо предназначенная для увеличения возможностей ас- определить ее задачи и шаги, требующиеся для их трономических исследований и научного выхода достижения, как координируемые международные данных. В несколько упрощенном описании увели- усилия. Каждый из существующих национальных чение научного выхода данных означает получение проектов имеет собственные научные и технологи большего количества научных результатов (напри- ческие задачи. В то время как это разнообразие мер, опубликованных статей или представленных представляется достаточно благотворным для успе докладов на конференциях) с каждого гигабайта ха МВО, существуют также некоторые общие эле данных, приходящих с данного конкретного инст- менты, которые необходимо согласовывать для эф румента. Это, в конечном счете, означает увеличе- фективного конструирования МВО. Большинство ние влияния каждого гигабайта данных на общее таких общих элементов связано со стандартами развитие науки – в точности так же, как публикация данных и интерфейсов. Другой вид общих (или ис научной работы помимо журнала еще и на сервере пользуемых совместно) элементов – это пакеты препринтов увеличивает ее влияние и роль в отрас- программ и библиотеки исходных текстов. Еще ли. один пример целесообразности международного В традиционном подходе к научной работе сотрудничества – проблемы безопасности, финан львиная доля времени и усилий исследователя за- сирование, другие политические вопросы. Доста трачивается на разнообразные низкоуровневые опе- точно рано на пути создания МВО должны быть рации: конвертация форматов, редукция данных и решены вопросы стандартов интероперабельности подготовка их к научному анализу, поиск информа- используемых источников данных. Чрезвычайно ции, написание сценариев автоматизированной об- целесообразными для приобретения доверия широ ких слоев астрономического сообщества представ- вместо них используются браузеры данных (напри ляются демонстрации новых возможностей вирту- мер, astrogrid vo desktop, cds aladin, nvo datascope);

альных обсерваторий на различных уровнях слож- (2) искушенные пользователи достаточно часто ис ности. Необходимо предоставить возможности для пользуют средства для работы с ресурсами из ко открытого обмена информацией и опытом между мандной строки – curl или wget в WWW и анало различными ВО проектами. Следовательно, требу- гично stilts или astro-runtime в VO;

(3) наконец, су ется разработать прозрачный для сообщества путь к ществуют специализированные клиенты, которые созданию МВО. Некоторые цели на этом пути уже используют WWW/VO-протоколы в качестве ин достигнуты, другие будут достигнуты в ближайшем фраструктуры и/или транспорта данных, например, будущем. ВО сообщество, таким образом, потребо- picasa и google earth и их аналоги в VO, например, вало механизма для облегчения международного visivo.

сотрудничества в деле достижения общих целей. В последние годы Виртуальная обсерватория Таким механизмом явился Альянс «Междуна- достигла существенного прогресса. Со стороны родная виртуальная обсерватория» (International IVOA мы имеем достаточно широкий набор стан Virtual Observatory Alliance, IVOA, http://ivoa.net). дартов, которые охватывают форматы данных Идея объединить усилия национальных проектов и (VOTable), описания метаданных ресурсов создать МВО обсуждалась уже на XXIV Генераль- (Resource Metadata), модель данных для одномер ной ассамблее Международного астрономического ных спектров (Spectrum Data Model) и значительно союза (август 2000). Альянс включает в себя пред- более сложную и емкую Characterisation Data Model, ставителей всех финансируемых ВО проектов, ко- язык запросов к данным (ADQL), протоколы досту торые встречаются и общаются на регулярной осно- па к спектрам и изображениям (SIAP, SSAP), прото ве для согласования решений по общим проблемам кол коммуникаций между различными приложе и достижения консенсуса при выработке общего ниями на рабочей станции пользователя (SAMP), базиса, без чего МВО не сможет функционировать. механизмы аутентификации и авторизации, и дру Совещания Альянса происходят два раза в год, при- гие. Многие стандарты находятся еще на разных чем, поскольку эта международная организация стадиях разработки. К настоящему моменту в Вир обладает высоким научным авторитетом и пользу- туальной обсерватории стало возможным работать ется в мире заслуженным признанием, эти меро- даже с чрезвычайно сложными наборами данных – приятия проходят на высоком уровне с участием например, 3D-спектроскопией и результатами N руководителей академий наук и государственных body симуляций.

деятелей высокого уровня. Принять у себя совеща- В то же самое время разработчики приложений ние Альянса считается большой честью для при- создали впечатляющий набор VO-инструментов, глашающей организации, и каждый раз вопрос ре- начиная от самых общих и заканчивая узкоспециа шается путем конкурса приглашений. В сентябре лизированными клиентскими средствами.

2006 года совещание Альянса прошло в Москве, в Поставщики данных и сервисов внесли свой Институте Астрономии РАН, ГАИШ МГУ и здании вклад в VO, предоставляя доступ к огромным кол Президиума РАН. лекциям и архивам данных в диапазоне длин волн Виртуальную обсерваторию иногда называют от радио до гамма. Совсем недавно стали появлять всемирной сетью (World Wide Web, WWW) для ас- ся сервисы доступа к теоретическим моделям (на трономов. И на самом деле между ними существует пример, коллекция теоретических спектров звезд замечательное сходство. ных атмосфер в Spanish-VO или синтетические мо a) IVOA играет ту же самую роль для VO, что и дели звездных популяций PEGASE в VO-France, W3C (World Wide Web Consortium, консорциум доступ к результатам космологических симуляций в всемирной сети) для WWW: это административные Italian VO). Также нельзя не упомянуть первые про организации, ответственные за разработку и вне- тотипы сервисов для анализа данных и научно дрение стандартов обмена различными видами ин- значимых сервисов, ассоциированных с архивами формации между сторонами-участниками соответ- данных, например моделирование спектрофотомет ствующих процессов. В качестве примеров в дан- рических свойств взаимодействующих галактик в ном случае можно привести спецификации базе данных GalMer.

HTML/XHTML, разработанные W3C, и стандарт VOTable, разработанный IVOA. 2 Российская виртуальная обсерватория b) Ресурсы являются неотделимой частью обоих Виртуальные обсерватории начали создаваться в концепций. В случае WWW ими являются (1) веб разных странах с 2000 года, и одной из первых была сайты;

(2) порталы и директории;

(3) веб-сервисы. В Российская виртуальная обсерватория (РВО). Ини Виртуальной обсерватории на их месте стоят (1) циаторами создания РВО стали Центр астрономиче архивы данных;

(2) сервисы доступа к каталогам ских данных Института астрономии РАН и Специ (например, SDSS) (3) астрономические веб-сервисы.

альная Астрофизическая обсерватория РАН. В на c) Инструменты доступа к ресурсам являются стоящее время проект РВО осуществляется на осно еще одним краеугольным камнем в основании VO и ве Соглашения, подписанного директорами Инсти WWW: (1) в WWW мы имеем веб-браузеры (напри тута Астрономии РАН, Института Проблем Инфор мер, internet explorer, firefox, safari), тогда как в VO матики РАН, Государственного астрономического Для предоставления российским астрономам института имени Штернберга МГУ и Специальной удобного доступа к зарубежным источникам дан Астрофизической обсерватории РАН. ных в Центре астрономических данных (ЦАД) Научный совет по астрономии Отделения физи- ИНАСАН размещен ряд зеркал известных зарубеж ческих наук Российской академии наук в декабре ных баз данных и поддерживается их функциониро 2001 года одобрил инициативу создания Российской вание (ADS, VizieR, INES). Планируется зеркалиро виртуальной обсерватории, конечной целью кото- вать в ЦАД другие популярные зарубежные астро рой является обеспечение российским астрономам номические информационные ресурсы, в том числе доступа к обширным источникам данных и мета- важнейшую базу звездных данных SIMBAD. В данных, создаваемых в результате работы наблюда- ближайшее время в ЦАД будет размещена База тельных проектов. Работы по созданию РВО явля- данных о двойных звездах BDB. Предусмотрено ются важнейшей частью плана научно- также зеркалирование в ЦАД некоторых популяр исследовательских работ Секции 13 «Базы данных и ных российских астрономических информационных информационное обеспечение» Научного совета по ресурсов, доступ к которым на месте их создания по астрономии ОФН РАН. каким-либо причинам затруднен.

Актуальность создания РВО определяется, в ЦАД также предоставляет доступ к астрономи первую очередь, тем, что с распадом СССР россий- ческим off-line ресурсам, так как в фондах Центра ская астрономия практически лишилась инструмен- постоянно пополняется коллекция компакт-дисков, тальной базы – обсерваторий на юге СССР. Весьма издаваемых, преимущественно, ведущими запад затруднена или вообще оказалась невозможной на- ными обсерваториями и содержащих астрономиче учная работа в Абастуманской астрофизической ские каталоги, базы данных, архивы изображений и обсерватории в Грузии, Шемахинской обсерватории другие виды ресурсов, а также вычислительные в Азербайджане, Майданакской обсерватории в Уз- средства работы с данными.

бекистане. Закрыта наблюдательная станция Санкт- Проблема интеграции и предоставления зару Петербургского университета в Бюракане, станция бежному сообществу исчерпывающего описания Шорбулак Главной астрономической обсерватории формы и содержания российских астрономических на Памире, туманны перспективы, ожидающие информационных ресурсов, выполненных по стан Крымскую астрофизическую обсерваторию – быв- дартам Международной виртуальной обсерватории, шую лучшую обсерваторию Советского Союза. Ос- также решается в рамках информационной системы тавшаяся в России Специальная астрофизическая ЦАД. В частности, завершена работа по созданию обсерватория на Северном Кавказе не в состоянии структурированного перечня российских (и ряда полностью обеспечить наблюдательные потребно- стран бСССР) астрономических Интернет-ресурсов, сти столичных и региональных астрономических ряда ресурсов, предоставляемых в режиме off-line и учреждений. Оптимальным выходом из сложив- ресурсов, находящихся в стадии разработки [2]. Пе шейся ситуации является интеграция российского речень, содержащий более 50 оригинальных ресур астрономического сообщества в мировую информа- сов астрономических данных, получил высокую ционную сеть астрономических данных, прежде оценку зарубежных коллег. Он будет постоянно всего, в западные наблюдательные архивы. пополняться.

Вклад РВО в задачу объединения мировых ас- Одним из обязательств ЦАД перед международ трономических ресурсов может быть весьма значи- ным сообществом является обработка, проверка и телен. В России действует около 30 астрономиче- передача в Страсбургский Центр Данных таблиц ских институтов и организаций, многие из которых данных из статей, опубликованных в русских астро располагают обширными архивами данных и со- номических журналах и звездных каталогов, подго трудничают с ИНАСАН в создании РВО. Одним из тавливаемых в российских астрономических орга преимуществ российских астрономических данных низациях, в том числе и каталогов, созданных со является возможность создания объединенных с трудниками ЦАД. В ЦАД создаются англоязычные данными обсерваторий других стран продолжи- машиночитаемые версии опубликованных россий тельных рядов наблюдений. Это обусловлено тем, ских каталогов, а также осуществляется консульта что многие обсерватории в России, которая занима- тивная помощь авторам при подготовке каталогов.


ет 9 часовых поясов по долготе и простирается до Создан исчерпывающий двуязычный список почти сороковой параллели по широте, расположе- российских астрономических учреждений. В список ны на противоположной относительно большинства также включены некоторые астрономические орга крупных мировых обсерваторий стороне земного низации стран бывшего СССР. Планируется модер шара. низация этого списка с целью облегчения доступа к Основными целями Проекта РВО являются пре- информации об организациях как отечественным, доставление российскому астрономическому сооб- так и зарубежным пользователям.

ществу удобного и эффективного механизма досту- В Институте проблем информатики (ИПИ) РАН па к зарубежным источникам данных и объединение реализована архитектура промежуточного слоя российских астрономических информационных ре- предметных посредников для решения научных за сурсов как важного компонента для интеграции в дач над множеством интегрируемых неоднородных Международную виртуальную обсерваторию [1]. распределенных информационных ресурсов в гиб ридной грид-инфраструктуре. Архитектура реали- 3 Научные исследования с Международ зована как объединение системы поддержки Вирту- ной виртуальной обсерваторией альных обсерваторий АстроГрид, разработанной в После нескольких лет интенсивного технологи Великобритании, и средств поддержки предметных ческого развития ресурсы Виртуальной обсервато посредников, созданных в ИПИ РАН. Реализован рии достигли уровня зрелости, достаточного для их подход, при котором для класса приложений опре каждодневного использования в научных исследо деляется спецификация соответствующей этому ваниях. Виртуальная обсерватория находится на той классу предметной области независимо от сущест стадии развития, когда астрономы начинают про вующих информационных ресурсов. Существенно, зрачно для себя использовать её в рутинной науч что такая спецификация одновременно является ной работе. В данном разделе приводится несколько концептуальной схемой посредников, обеспечи проектов разного уровня, основанных на использо вающих взаимодействие приложений с конкретны вании ресурсов Виртуальной обсерватории, которые ми информационными ресурсами. Создание прото ведут к научно значимым результатам и практиче типа гибридной архитектуры потребовало сопряже ски полностью основываются на повторном исполь ния исполнительных механизмов двух инфраструк зовании существовавших ранее данных.

тур (АстроГридa и средств поддержки предметных Первой работой с научно-значимым результатом посредников), разработки средств переписывания стало открытие коричневых карликов в совместном запросов к посредникам в планы их реализации над исследовании обзоров 2MASS и SDSS [5] с после конкретными информационными ресурсами, созда дующим подтверждением их природы спектроско ния адаптеров для сопряжения конкретных инфор пическими наблюдениями на телескопе Keck. За мационных ресурсов с посредниками. Одновремен этой работой последовало открытие оптически сла но с этим для указанной инфраструктуры разрабо бых запыленных квазаров (т. н. квазаров II типа) в тан прототип средств Унификатора информацион работе [6], которая стала примером исследования во ных моделей, позволяющий создавать расширяемую многих диапазонах длин волн, выполненного пол каноническую информационную модель, применяя ностью в рамках инфраструктуры VO. Три года автоматизированные средства приведения различ спустя исследования запыленных AGN (Active ных моделей ресурсов (структурированных, объ Galaxy Nuclei, активные ядра галактик) были про ектных, процессных, онтологических) к канониче должены [7]. Несколько уникальных объектов с по ской модели [3].

мощью инструментов VO было открыто представи Проблема эффективного комплексного исполь телями испанской Виртуальной обсерватории [8, 9].

зования нескольких астрономических ресурсов с Многие другие исследования использовали ин помощью создания посредников, которые поддер струменты и инфраструктуру Виртуальной обсерва живают взаимодействие между исследователем и тории в сочетании с доступом к непубличным дан соответствующими источниками данных и сервисов ным для их анализа. Например, в [10] авторы ис для данного класса задач, решалась в Специальной пользовали механизмы Виртуальной обсерватории астрофизической обсерватории (САО) РАН. Основ для обнаружения и доступа ко всей имеющейся ин ной задачей проекта «Большое Трио», осуществ формации об определенном объекте.

ляемого в САО РАН, является анализ источников Отождествление рентгеновских двойных систем радиоизлучения в области неба, исследованной в в оптическом и ИК диапазонах представляет собой глубоком обзоре с телескопом РАТАН-600 в работу большой важности, поскольку в силу естест году, с целью получения максимальной информа венных причин координаты многих подобных объ ции об источниках. Применение для этой цели ектов известны с невысокой степенью точности, что предметного посредника описано в [4].

затрудняет их дальнейшие исследования. Между В течение ближайших лет в рамках проекта Рос тем обнаружение их оптических двойников не толь сийская виртуальная обсерватория предполагается ко открывает новые возможности для изучения (с осуществить оцифровку фотографических пласти помощью, например, спектральных исследований) нок, накопленных в российских обсерваториях (и малочисленных популяций рентгеновских двойных, некоторых обсерваториях СНГ). В настоящее время но и несет в себе информацию об их оптической работа ведется совместными усилиями ИНАСАН и светимости. Она может быть использована для ГАИШ. Аналогичная работа ведется в обсерватори уточнения моделей генерации оптического излуче ях Болгарии, Венгрии и Германии. Сканы заносятся ния в аккреционных дисках, равно как и для нало в базу данных, разработанную в Астрономическом жения физических ограничений на конфигурации институте Болгарской Академии наук. Работы по двойных систем и эволюционные процессы, проте сохранению информации стеклянных библиотек кающие в них. В традиционном подходе к данной выполняются под эгидой Международного астро задаче требуются значительные наблюдательные номического союза.

усилия для отождествления каждого объекта. Одна Результаты деятельности по проекту РВО отра ко анализ архивных данных, использование совре жены на постоянно обновляющемся веб-сайте РВО менных фотометрических обзоров плоскости Галак http://www.inasan.rssi.ru/rus/rvo.

тики и методов Виртуальной обсерватории зачас тую позволяют избежать необходимости в проведе нии новых наблюдений и выполнить отождествле- ля, не соответствует только разнице расстояний и ние только лишь на основе повторного использова- значений межзвездного поглощения. Проблема от ния уже существующих данных. В результате при- несения фотометрических измерений к единой ла менения этого подхода в оптическом и ИК диапазо- бораторной системе решается с помощью k нах было отождествлено несколько рентгеновских поправок, но существовавшие до настоящего вре двойных систем из плоскости и балджа Галактики мени способы их вычисления либо обладают суще [11]. ственными ошибками, либо требуют избыточной Обсуждая уровень наших знаний о галактиче- информации о каждой конкретной галактике, что ских рассеянных звездных скоплениях, необходимо вызывает зачастую непреодолимые сложности. В заметить, что в настоящее время известно лишь результате анализа большой однородной выборки около 2% от их общего ожидаемого числа. Инфор- близких галактик из обзоров SDSS и UKIDSS, пред мация о них накапливалась десятилетиями и даже принятого в рамках работы [15], оказалось возмож столетиями в результате усилий множества иссле- ным предложить простую аналитическую аппрок дователей. Существующий набор информации о симацию для вычисления k-поправок, которая, вне галактических рассеянных звездных скоплениях всякого сомнения, в силу своей простоты и точно обладает по этой причине в высшей степени неод- сти будет востребована во многих будущих внега нородными свойствами и, следовательно, малопри- лактических исследованиях. С помощью получен годен для систематического анализа. В [12] предла- ных результатов произведено исследование оптиче гается однородный метод поиска и единообразного ских и ИК цветов близких галактик на большой вы определения основных физических параметров рас- борке объектов, что позволило провести предвари сеянных скоплений. Его применение к участку 16 x тельную интерпретацию в рамках современных мо 16 градусов небесной сферы из обзора 2MASS по- делей звездного населения и указать на недостатки зволило утроить количество достоверной информа- этих моделей.

ции о звездных скоплениях в этой области. Кроме Свойства компактных эллиптических галактик того, данный метод лег в основу Каталога рассеян- (пример – спутник Туманности Андромеды галак ных скоплений ГАИШ, в который входит сейчас тика M32) до недавнего времени можно было изу более 200 новых рассеянных скопления, открытых чать лишь на шести известных объектах. Инстру по данным обзора 2MASS. Множество рассеянных менты Виртуальной обсерватории позволили увели скоплений было открыто также по данным из ката- чить их популяцию как минимум на 20 объектов и лога ASCC [13]. примерно столько же кандидатов в эти небольшие, Для понимания строения и эволюции Галактики но чрезвычайно плотно населенные галактики [16].


необходимо иметь представление о ее газо-пылевой Это позволяет гораздо увереннее сравнивать (и объ составляющей, проявляющейся, в частности, как яснять) их наблюдательные свойства – в частности, поглощающая свет звезд материя. В [14] впервые обилие звезд с высоким содержанием металлов – с было предложено построить трехмерную модель предсказаниями эволюционных моделей.

межзвездного поглощения по многоцветной фото- Нельзя не упомянуть о серьезных достижениях метрии сотен миллионов звезд, содержащихся в Виртуальной обсерватории на поприще клиентского современных больших фотометрических обзорах. программного обеспечения, предназначенного не Разработанная процедура позволяет оценить спек- посредственно для взаимодействия с исследовате тральные классы этих звезд, расстояния до них и лем. Примером может служить работа [17] об ана значения межзвездного поглощения, для чего, в ча- лизаторе SED (Spectral Energy Distribution, распре стности, используются современные инструменты деление энергии в спектре) в Виртуальной обсерва работы с данными, предлагаемые Виртуальной об- тории, то есть о сервисе внутри Виртуальной обсер серваторией. Разработано программное обеспече- ватории, предназначенном для анализа данных, и ние, позволяющее получать значение межзвездного его применении к конкретному исследовательскому поглощения как функцию небесных координат и проекту. Эта отрасль планомерно развивается, за расстояния и сравнивать результат с существующи- полняя все новые и новые ниши, связанные с ру ми моделями. Методика была апробирована на не- тинной астрономической работой. Кажется, уже не большой площадке на небесной сфере и будет при- осталось ни одной сферы деятельности, в которую менена к обзорам 2MASS, SDSS, DENIS, UKIDSS, не добрались бы VO-приложения, помогая за счи GALEX, USNO-B и ряду других в областях их осу- танные минуты решать задачи, на которые пару де ществления. Полученная трехмерная модель может сятилетий лет назад потребовались бы месяцы и быть использована для решения ключевых задач даже годы. Отдельные приложения перестают быть звездной астрономии и планирования космических средствами для быстрого просмотра данных, разви миссий. ваясь в мощные пакеты для специализированного В области внегалактических исследований важ- анализа. Приложения, существовавшие в эпоху до ную методическую роль играет возможность срав- Виртуальной обсерватории, обзаводятся VO нения фотометрической информации разных выбо- функциональностью, интегрируясь в общее посту рок галактик. Из-за эффектов красного смещения, пательное движение. В последние два года намети разница звездных величин двух идентичных галак- лась отчетливая тенденция к объединению разно тик, удаленных на разные расстояния от наблюдате- родных специализированных VO-приложений в единую мощную виртуальную среду на рабочей Мы благодарим наших коллег по проекту Рос станции пользователя, благодаря появлению общих сийская виртуальная обсерватория за постоянную протоколов обмена данных между гетерогенным помощь и сотрудничество.

программным обеспечением. Это дает уникальную возможность прозрачно объединять отдельные Литература средства анализа и даже исследователей, удаленных [1] Dluzhnevskaya O. et al. //Astronomical and Astro друг от друга, в единый организм, способный рабо physical Transactions. – 2003. – V. 22. – P. 375.

тать с данными на качественно новом уровне, не [2] Malkov O., Dluzhnevskaya O., Kovaleva D. // 21st заботясь о низкоуровневых проблемах, сконцентри Int. CODATA Conf., Kyiv, Oct 2008. – P. 357. – ровавшись на чисто исследовательских задачах.

ISBN 966-8993-86-0.

Данный краткий обзор новейших исследований с [3] Kalinichenko L., Stupnikov S., Martynov D.

применением Виртуальной обсерватории свиде SYNTHESIS: a language for canonical information тельствует о ее готовности к более широкому ис modeling and mediator definition for problem solv пользованию. В ближайшее время появятся работы, ing in heterogeneous information resource envi эксплуатирующие VO на качественно более слож ronments. – Moscow: IPI RAS, 2007. – 171 p.

ном уровне, с применением более утонченных и [4] Zhelenkova O. et al. // ASP Conf., 2006. – общих моделей данных и технологических дости Ser. 351. – P. 244.

жений.

[5] Berriman B. et al. IAU JD 8. Large Telescopes and Virtual Observatory, 2003. – P. 60.

4 Заключение [6] Padovani P. et al. // A&A. – 2004. – V. 424. – Традиционная парадигма открытий астрономи- P. 545.

ческих объектов подразумевает изобретение, созда- [7] Richards A. et al.// A&A. – 2007. – V. 472. – ние и использование новых телескопов и наблюда- P. 805.

тельных методов. Виртуальная обсерватория позво- [8] Caballero J., Dinis L.//AN. – 2008. – V. 329. – ляет видоизменить эту концепцию, поскольку для P. 801.

новых открытий используются существующие дан- [9] Caballero J., Solano E. // A&A. – 2008. – V. 485. – ные из архивов и каталогов. Собственно, этот под- P. 931.

ход применим не только к астрономии. Он может [10] Chilingarian I., Mamon G.// MNRAS. – 2008. – быть реализован в любой науке, где данные выстав- V. 385, L83.

ляются во всеобщий доступ. Этой модели все боль- [11] Zolotukhin I., Revnivtsev M., Shakura N.// ше следуют и физики, и геологи, и представители MNRAS. – 2010. – V. 401, L1.

других наук, однако, астрономы раньше других по- [12] Koposov S., Glushkova E., Zolotukhin I. // A&A. – няли преимущества такой открытости (при этом 2008. – V. 486. – P. 771.

сохраняются и вполне объяснимы временные мора- [13] Piskunov A. et al. // A&A. – 2006. – V. 445. – тории на публикацию данных и прочие «атавиз- P. 545.

мы»). [14] Malkov O. //2003, Baltic Astronomy. – 2003. – Основная же трудность подобного подхода за- V. 12. – P. 514.

ключается в том, что объем публикуемых данных [15] Chilingarian I., Melchior A.-L., Zolotukhin I.// начинает существенно превосходить возможности MNRAS. – 2010 (in press).

их обработки любыми стандартными методами. [16] Chilingarian I. et al. // Science. – 2009. – No 326. – Системы автоматического поиска и анализа имею- P. 1379.

щихся в публичном пространстве данных, которые [17] Bayo A. // A&A. – 2008. – V. 492. – P. 277.

предоставляет Виртуальная обсерватория, являются единственным выходом из сложившейся ситуации.

Создание первой очереди Международной Вир- International Virtual Observatory:

туальной обсерватории предполагается закончить в 10 years after ближайшее время. В результате осуществления это O. Malkov, O. Dluzhnevskaya, O. Bartunov, го проекта российские астрономы смогут с помо I. Zolotukhin щью средств Российской Виртуальной обсервато рии получить всю доступную в данное время в мире International Virtual Observatory (IVO) is a collection информацию для интересующих их объектов. Вир of integrated astronomical data archives and software туальная обсерватория переросла «демонстрацион tools that utilize computer networks to create an envi ный» уровень и стала реальным исследовательским ronment in which research can be conducted. Several инструментом: в работе обсуждаются научные ре countries have initiated national virtual observatory зультаты, базирующиеся на «сквозном» использо programs that will combine existing databases from вании инструментов виртуальной обсерватории. В ground-based and orbiting observatories and make them дальнейшем Международная виртуальная обсерва easily accessible to researchers. As a result, data from тория будет пополняться новыми данными и серви all the world's major observatories will be available to сами, позволяющими решать актуальные научные all users and to the public. This is significant not only проблемы.

because of the immense volume of astronomical data but also because the data on stars and galaxies have been compiled from observations in a variety of wave lengths: optical, radio, infrared, gamma ray, X-ray and more. Each wavelength can provide different informa tion about a celestial event or object, but also requires a special expertise to interpret. In a virtual observatory environment, all of this data is integrated so that it can be synthesized and used in a given study.

The International Virtual Observatory Alliance (IVOA) represents 17 international projects working in coordination to realize the essential technologies and interoperability standards necessary to create a new research infrastructure. Russian Virtual Observatory is one of the founders and important members of the IVOA.

The International Virtual Observatory project was launched about ten years ago, and major IVO achieve ments in science and technology in recent years are discussed in this presentation. Standards for accessing large astronomical data sets were developed. Such data sets can accommodate the full range of wavelengths and observational techniques for all types of astronomical data: catalogues, images, spectra and time series. The described standards include standards for metadata, data formats, query language, etc. Services for the federation of massive, distributed data sets, regardless of the wave length, resolution and type of data were developed. Ef fective mechanisms for publishing huge data sets and data products, as well as data analysis toolkits and ser vices are provided. The services include source extrac tion, parameter measurements and classification from data bases, data mining from image, spectra and cata logue domains, multivariate statistical tools and multi dimensional visualization techniques. Development of prototype VO services and capabilities implemented within the existing data centers, surveys and observato ries are also discussed.

We show that the VO has evolved beyond the dem onstration level to become a real research tool. Scien tific results based on end-to-end use of VO tools are discussed in the presentation.

Работа поддержана РФФИ (проекты 08-02-00371, 09-02 00520, 10-02-00426, 10-07-00342), программой «Научные школы» (НШ-4354.2008.2), ФЦП «Научные и научно педагогические кадры инновационной России» на 2009 – 2013 годы (контракт П1195), а также Федеральным агент ством по науке и инновациям (02.740.11.0247) Программные средства создания и наполнения полнотекстовых электронных библиотек © Г.И. Назаренко1, В.А. Плотникова1, И.В. Смирнов2, И.В. Соченков2, И.А. Тихомиров Медицинский центр Банка России Учреждение Российской академии наук Институт системного анализа РАН, г. Москва ivs@isa.ru граммные средства полнотекстовых электронных Аннотация библиотек (ПС ПЭБ), и медицинская электронная В работе представлены программные сред- библиотека (МЭБ), функционирующая на их основе.

ства полнотекстовых электронных библио- ПС ПЭБ, обеспечивает автоматическое наполнение тек с сервисами автоматического наполне- коллекций электронной библиотеки документами из ния документами, автоматического опреде- различных источников и высокоточный поиск до ления полей метаданных документов и вы- кументов в электронной библиотеке.

сокоточного семантического поиска ин 2 Автоматическое наполнение полно формации. Указанные программные сред текстовой электронной библиотеки ства позволяют быстро сформировать тема тические коллекции электронных докумен Электронная библиотека состоит из коллекций тов из различных сетевых источников и электронных документов. Каждая коллекция содер обеспечивают высокорелевантные резуль жит документы по одной теме. Документы загру таты поиска документов.

жаются автоматически из сетевых ресурсов (интер 1 Введение нет, интранет) или заносятся вручную. Как уже бы ло отмечено, перспективным является способ авто Полнотекстовые электронные библиотеки явля- матического наполнения, когда для каждой коллек ются эффективным инструментом для поиска ин- ции задаётся набор сетевых и локальных ресурсов, формации в научной и образовательной среде. На- из которых необходимо автоматически загружать учные знания делятся на узконаправленные облас- документы (обычно это веб-сайты) для пополнения ти, по каждой из которых существует множество коллекции.

электронных источников информации, включая Для автоматического наполнения электронной специализированные журналы, сборники трудов библиотеки из сетевых ресурсов разработан про научных конференций и другие информационные граммный модуль – краулер, который обходит веб ресурсы. Электронные библиотеки с тематическими сайты по гипертекстовым ссылкам и загружает коллекциями полнотекстовых документов позволя- электронные документы в библиотеку.

ют получать достоверную информацию в одной Сложность автоматического наполнения коллек определенной области человеческой деятельности, ций электронной библиотеки электронными доку исключая недостоверную и рекламную информа- ментами из источников в интернете заключается в цию, что отличает их от традиционных поисковых том, что на сайтах содержится много сопутствую машин. В связи с этим актуально создание темати- щей информации – новости, содержание выпусков ческих коллекций электронных документов и объе- журналов, контактная информация и проч., в то динение их в электронные библиотеки с сервисами время как в электронную библиотеку должны по полнотекстового поиска. пасть только целевые документы. Для решения этой Известно, что большинство научных и научно- задачи в краулере реализована специальная проце популярных изданий размещают в свободном дос- дура, которая на основании HTML-структуры и тупе электронные версии публикаций. Это даёт других характеристик страниц сайта определяет, возможность автоматически наполнять электронные какие документы необходимо загружать в библио коллекции документами из ресурсов интернета. При теку, а какие нет. Эта процедура использует шабло этом могут быть отобраны только достоверные про- ны на основе регулярных выражений и XPath веренные ресурсы, соответствующие тематике элек- выражений, которые применяются к URL и к DOM тронной коллекции. В то же время при работе с деревьям HTML-документов соответственно.

большими объёмами полнотекстовых документов Шаблоны формируются вручную на основе ана возникают задачи обеспечения точности поиска лиза структуры сайта и выделения подразделов, информации. содержащих целевые документы, и хранятся в кон Институтом системного анализа РАН совместно фигурационном файле, создаваемом отдельно для с Медицинским центром Банка России созданы про- каждого сайта.

Подключение нового источника загрузки доку- 4 Высокоточный полнотекстовый поиск ментов заключается в создании конфигурационного документов и поиск по метаданным файла, что занимает от 10 до 30 минут в зависимо Поисковые сервисы являются неотъемлемой ча сти от сложности структуры сайта. Для каждого стью полнотекстовой электронной библиотеки. Из сетевого ресурса задаётся периодичность обхода, вестно, что традиционные подходы к поиску ин что позволяет автоматически пополнять коллекции формации основываются на статистических харак новыми публикуемыми документами и поддержи теристиках слов документов (используются, напри вать их в актуальном состоянии.

мер, TFIDF веса слов), при этом поиск документов Таким образом, уже на этапе наполнения элек сводится к поиску по ключевым словам, в лучшем тронной библиотеки производится отсечение неце случае с учётом морфологии языка. Очень часто левой информации, что впоследствии способствует такой подход даёт слаборелевантные результаты.

повышению точности информационного поиска и В течение последних лет были созданы ориги значительному уменьшению объёмов хранимых нальные методы информационного поиска, которые данных.

объединяют статистические и лингвистические 3 Автоматическое определение метадан- подходы к обработке текстов на естественном языке ных документов: авторов, названий, дат [4, 5, 7]. В частности, эти методы позволяют выпол нять семантический поиск информации, т. е. поиск публикации по смыслу запросов.

Документы в электронных коллекциях структу- Семантический поиск информации основан на рированы по метаданным. Это означает, что для лингвистической теории, описывающей законы пе каждого документа, как правило, известны авторы, редачи осмысленной информации в естественном название, дата публикации, источник публикации. языке [2]. Опираясь на эту теорию, смысл высказы Структурированность документов обеспечивает ваний на естественном языке можно представить с более точный поиск информации и позволяет созда- помощью неоднородных семантических сетей, ко вать систематические каталоги по авторам, изда- торые позволяют реализовать смысловое сравнение тельствам, названиям документов. текстов запроса и документов и определить смы При автоматическом наполнении электронной словую близость между ними. Для выполнения се библиотеки документами из сетевых ресурсов воз- мантического поиска все документы электронной никает задача автоматического определения значе- библиотеки подвергаются морфологическому, син ний метаданных загружаемых документов. Решение таксическому и семантическому анализу.

этой задачи основывается на анализе структуры Использование методов семантического поиска в целевых документов и промежуточных гипертек- электронной библиотеке обеспечивает высокоточ стовых страниц, содержащих оглавления выпусков ный поиск документов по их полным текстам по журналов, подборок статей и т. п. Обычно эти стра- запросам на естественном языке [6]. Кроме того, ницы имеют регулярную HTML-структуру и пред- семантический полнотекстовый поиск позволяет ставляют собой списки публикуемых документов с находить не только документы в электронной биб указанием авторов, названий и другой информации, лиотеке, но и непосредственно ответы на интере включая ссылки на сами документы. Это позволяет сующие пользователя вопросы по выбранной теме краулеру автоматически выделять значения полей (коллекции). При этом у пользователя сохраняется документов на основании правил, которые также возможность формулировки запроса в виде набора задаются в конфигурационном файле для каждого ключевых слов, если он считает этот вид поиска отдельного ресурса. наиболее подходящим для удовлетворения собст Для выделения значений метаданных докумен- венной информационной потребности.

тов реализована специальная процедура, которая В разработанных ПС ПЭБ существует возмож определяет значения полей двумя путями: ность поиска документов не только по полнотексто • непосредственно из целевых документов;

вому содержанию, но и по автору, названию, дате • из промежуточных документов в формате публикации и источнику, с которого был получен HTML, содержащих ссылки и описания целевых документ. Авторы и название задаются в поисковом документов. запросе в произвольной форме на естественном Работа процедуры основана на применении языке, при этом результаты поиска по этим полям XPath-шаблонов к DOM деревьям HTML- объединяются логикой «И».

документов. Таким образом, средства полнотекстового се Автоматическое выделение полей метаданных мантического поиска и поиска по метаданным до позволяет организовать в электронных коллекциях кументов повышают эффективность поиска необхо не только эффективный полнотекстовый поиск ин- димой информации в полнотекстовой электронной формации, но также такой вид поиска, когда поль- библиотеке.



Pages:     | 1 |   ...   | 22 | 23 || 25 | 26 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.