авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 |   ...   | 17 | 18 || 20 | 21 |   ...   | 26 |

«Электронные библиотеки: Перспективные Методы и Технологии, Электронные коллекции English Труды RCDL 2010 ...»

-- [ Страница 19 ] --

читатель (аноним) – пользователь с минималь Conferences Announcements  ным набором прав для поиска/просмотра коллек Lectures  ций;

Notes of Schools and Seminars  Handbooks & Manuals  автор – зарегистрированный пользователь (со- мет цитирования интересующего вас сотрудника или его статьи (рис. 2). Эти ссылки в сочетании с трудник ОИЯИ), которому доступна процедура количеством обращений к данной статье и числом депонирования в режиме самоархивирования;

загрузок читателями, фиксируемыми модулем Bi каталогизатор – пользователь-эксперт, осуществ brank, и являются одними из важных показателей ляющий контроль с правами отклонения загрузки творческой активности и популярности автора.

и удаления некорректных документов;

Размещение публикации в репозитории открытого менеджер данных осуществляет депонирование доступа способствует более быстрому продвиже публикаций по доверенности;

  нию новых идей, открытой дискуссии и обсужде администратор архива осуществляет общее ад нию ее заинтересованными читателями, большей министрирование.  цитируемости и т. п.

Кроме того, сбор данных из JDS может быть осуществлен внешними пользователями по прото колу OAI-PMH.

Пользователи имеют возможность создавать в среде JDS свои индивидуальные коллекции, орга низовываться в группы по интересам, участвовать в обсуждении работ авторов, предлагающих но вые, неординарные решения актуальных проблем.   3 Перспективы развития JDS Изначально репозиторий на сервере JDS пред Рис. 2. Извлечение ссылок из полного текста назначался для депонирования рукописей статей, статьи и числа обращений к ней для последующей которые в кратчайшие сроки становились доступ оценки ПРНД ными заинтересованным читателям для обсужде В перспективе планируется интеграция инфор ния и критических замечаний. По мере опублико мационных ресурсов ОИЯИ, разнородных по вания этих рукописей (препринтов) в реферируе структуре и контенту, в единое информационное мых журналах библиографические записи моди пространство с развитой моделью структуры дан фицируются и дополняются ссылками и полными ных (на уровне метаданных) и средствами визуа текстами опубликованных статей. В дальнейшем лизации поиска и навигации.

типы и тематика загружаемых документов будут расширены, и помимо препринтов и статей в жур налах в состав архива будут включаться диссерта- 4 Социальная научная сеть на базе ин ции, книги, годовые отчеты, материалы семинаров, формационных ресурсов ОИЯИ тексты докладов, презентаций и материалы видео конференций. Наличие развитого пользовательско- Наличие множества информационных ресур го интерфейса и необходимого библиотечного сер- сов, объединенных в единое информационное про виса, обеспечиваемого пакетом CDS Invenio, пре- странство, позволяет авторам устанавливать связи вращает репозиторий ОИЯИ на JDS в электронную между объектами (данными), содержащимися в библиотеку. В ближайшее время на сервере будет них. Конфигурации связей могут быть следующих функционировать архив конференций, который типов:

создается с помощью пакета Indico, разработанно- • между ученым (его персональным профилем) го в ЦЕРН. Архив будет включать информацию и и организацией – местом его работы;

материалы состоявшихся и будущих рабочих со- • между ученым и его авторскими электронны вещаний, официальных встреч, конференций, ко- ми материалами (в институтских ЭБ, научных митетов и советов. Согласованный формат мета- журналах и т. п.);

данных в обоих архивах позволит обмениваться • между авторскими электронными материалами документами по протоколу OAI-PMH. ученого и другими материалами, которые бы Один из аспектов анализа результатов научной ли им использованы (процитированы) при работы – публикации научных сотрудников, часто- подготовке своих работ, что позволяет уста та обращения к ним читателей, цитирование их в навливать содержательные связи между раз других работах. Эти данные и их статистический личными учеными и научными материалами и анализ могут быть получены средствами сервера подсчитывать уровень их использования в на JDS. Для применения такого анализа между базой учном сообществе.

данных ПИН и JDS разработан канал обмена мета- CDS Invenio имеет настраиваемый модуль данными по протоколу OAI-PMH, являющемуся WebStat, обеспечивающий сбор статистических стандартом для обмена между репозиториями от- данных о таких параметрах, как количество обра крытого доступа. Модуль RefExtract извлекает щений, количество загрузок, наиболее популярные ссылки из полного текста статьи, которые далее документы и пр. Есть возможность оценки доку заносятся в соответствующие поля библиографи- ментов читателями (модуль WebComment). Таким ческого описания и затем анализируются на пред- образом, модуль статистики WebStat совместно с другим инструментарием – модулями WebBasket, электронные коллекции», RCDL'2009 – Петро WebGroup, WebMessage, WebComment – лежит в заводск: КарНЦ РАН, 2009. – С. 451-458.

основе социальной функции сети, позволяет учи- [4] CDSware Overview. – http://cdsware.cern.ch/ тывать ee социальные особенности. Модуль Web- invenio/index.html.

Comment обеспечивает социально-ориентирован- [5] Prefuse: Information Visualization Toolkit. – ный инструмент ранжирования документов чита- http://prefuse.org/.

телями и передачи своих замечаний, обмен мне ниями по документам. WebMessage реализует кла- Open Access Archive of scientific стеризацию (возможно, анонимных) пользователей publications: JINR Document Server в группы через веб-форумы. Пользователи JDS V.F. Borisovski, I.A. Filozova, S.V. Kuniaev, имеют возможность взаимодействовать между со G. Musulmanbekov, G. Shestakova, P. Ustenko, бой посредством сервиса для обсуждения публи T. Zaikina кации, образуя таким образом сеть коммуникаций в научном сообществе в рамках информационной The paper concerns with the problems of building the системы. Анализируя эти связи, можно получать OAI-compliant archive (repository) of the JINR staff дополнительную важную информацию о характере members publications — JINR Document Server этих взаимодействий. Например, по интенсивности (JDS).

связей между авторами, работающими в одном научном направлении (теме, проекте), можно су дить о степени активности развития данного на правления.

Для такого анализа становится актуальной за дача визуализации социальной научной сети, по скольку визуализация позволяет делать быстрый и наглядный вывод о характере взаимодействия ав торов, не прибегая к другим методом анализа сети.

В настоящее время для решения этой задачи про водится тестирование свободно распространяемого пакета Prefuse, обладающего большой функцио нальностью и широкими возможностями визуали зации социальных сетей. Prefuse поддерживает богатый набор функций для передачи данных мо делирования, визуализации и взаимодействия, предоставляет оптимизированные структуры дан ных для представления таблиц, графиков, а также деревьев, поддержку анимации, динамические за просы, комплексный поиск и подключение базы данных. К настоящему моменту разработана и оп робована модель пользовательского интерфейса к JDS со средствами визуальной навигации и поиска, позволяющая строить графы, связывающие между собой соавторов и их публикации. В дальнейшем предполагается подключить систему PIN для соз дания профилей авторов в узлах научной социаль ной сети.

Литература [1] Antelman K. Do open-access articles have a greater research impact// College and Research Libraries. – 2004. – V. 65. – P. 372-382.

[2] Gentil-Beccot A., Mele S., Brooks T.C. Citing and reading behaviors in high-energy physics// Scientometrics. – 2010. – No 84. – P. 345.

[3] Борисовский В.Ф., Кореньков В.В., Куняев С.В., Мусульманбеков Ж.Ж., Никонов Э.Г., Филозова И.А. Организация открытого архива научных публикаций сотрудников ОИЯИ // Труды XI Всерос. конф. «Электронные биб лиотеки: перспективные методы и технологии, Открытый архив публикаций по рыночной экономике и наукометрические измерения * © М.Р. Когаловский1, С.И. Паринов2, Е.М. Ильменская Институт проблем рынка РАН, г. Москва Центральный экономико-математический институт РАН, г. Москва kogalov@cemi.rssi.ru, sparinov@gmail.com, lenail@cemi.rssi.ru формационным ресурсам в глобальном коммуника Аннотация ционном пространстве интернета. Технологии элек Активно осуществляемые разработки науч- тронных библиотек активно развиваются. Исследо ных электронных библиотек позволяют эф- вания и практические разработки в этой области фективно поддерживать инициативу откры- привлекают внимание научных коллективов во мно того доступа к результатам научных иссле- гих странах.

дований, которая весьма популярна в на- Проблематика информационных технологий стоящее время в международном научном электронных библиотек довольно обширна. В самом сообществе. Эта инициатива, в свою оче- агрегированном виде ее можно представить как со редь, стимулирует разработки научных вокупность четырех составляющих: методология электронных библиотек. Многие из них разработки электронных библиотек, методы цифро создаются на основе технологии открытых вого сохранения информационных ресурсов и соз архивов OAI. Главными достоинствами дания контента электронных библиотек, сервисы этой технологии являются обеспечение ин- электронных библиотек и их технологическая ин тероперабельности независимо созданных фраструктура.

электронных библиотек и виртуальной ин- Многие пласты информационных технологий, теграции их информационных ресурсов. которые используются в электронных библиотеках, Последняя задача решается путем материа- имеют значительно более широкую сферу примене лизованной интеграции метаданных откры- ния – они используются также в разработках ин тых архивов, представляемых стандартным формационных систем различного другого назначе образом, с использованием протокола сбора ния и не предназначены только для создания элек метаданных OAI-PMH. В работе кратко об- тронных библиотек. Поэтому новые достижения во суждаются основы технологии открытых многих сферах информационных технологий суще архивов, рассматривается открытый архив ственным образом способствуют прогрессу в разра научных публикаций Института проблем ботках электронных библиотек. Вместе с тем, раз рынка РАН, который интегрирован в среду витие исследований и разработок в области элек системы Соционет. Это позволяет исполь- тронных библиотек, а также повышение требований зовать различные полезные сервисы систе- пользователей, в свою очередь, создают предпосыл мы, в частности, наукометрические серви- ки и стимулируют развитие таких общих техноло сы, функции которых и перспективы разви- гий. Так, поскольку электронные библиотеки пред тия также обсуждаются в работе. ставляют собой класс информационных систем, функционирующих и доступных пользователям в 1 Введение среде Всемирной паутины, совсем не случайно, что в разработках электронных библиотек находят ши Благодаря появлению Всемирной паутины стало рокое применение веб-технологии. В частности, это возможным создание функционирующих в ее среде одна из тех немногих сфер, где предпринимаются информационных систем нового типа, называемых активные попытки использования технологий Се электронными (цифровыми) библиотеками [1]. Та мантического Веба.

кие системы активно разрабатываются в последнее Наиболее продвинутыми возможностями обла десятилетие для поддержки различных видов жиз дают в настоящее время научные электронные биб недеятельности. Электронные библиотеки обеспе лиотеки [2]. Их электронные коллекции могут со чивают хранение, поиск и анализ коллекций цифро держать неоднородные информационные ресурсы.

вых данных различной природы. Они предоставля Среди них значительное место занимают текстовые ют пользователям онлайновый доступ к таким ин документы, представляющие результаты научных исследований, – публикации в периодике, моногра Труды 12й Всероссийской научной конференции фии, научные отчеты, доклады, рецензии, эксперт «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» – RCDL’2010, ные заключения, диссертации, авторефераты дис Казань, Россия, сертаций и т. п. Коллекции информационных ресур- публикаций социально-экономического содержания сов научных электронных библиотек могут содер- в последние годы активно проводится в институтах жать также структурированные данные результатов Отделения общественных наук РАН. Создан и под научных экспериментов и наблюдений, геоданные, держивается 21 открытый архив публикаций в раз аудио- и видеозаписи, карты звездного неба, много- личных областях общественных наук. Среди первых слойные цифровые карты Земли и многое другое. в 2007 г. был создан открытый архив научных пуб Однако все-таки в настоящее время в научных элек- ликаций по рыночной экономике в Институте про тронных библиотеках доминируют коллекции тек- блем рынка РАН. Все указанные архивы были соз стовых документов. даны и поддерживаются с помощью предназначен Важной целью создателей научных электронных ного для этой цели сервиса системы Соционет [7] – библиотек является расширение в максимально глобального научно-образовательного информаци возможной степени круга ученых и представителей онного пространства в области социально образовательного сообщества, которые могли бы экономических исследований, поддерживаемого и получать доступ к электронным публикациям, со- развиваемого в настоящее время ЦЭМИ РАН. Ин держащимся в коллекциях информационных ресур- формационный контент системы Соционет пред сов данной библиотеки, и таким образом обеспече- ставляет собой открытый архив, в который наряду с ние более высокого уровня востребованности этих другими интегрированы и указанные институтские публикаций научно-образовательным сообществом. открытые архивы.

Эта цель хорошо согласуется со стремлением созда- Научные электронные библиотеки, большинство телей крупных научных электронных библиотек из которых предоставляет пользователям свобод обеспечить в их рамках доступ пользователям не ный доступ в среде Веб к их коллекциям информа только к собственным информационным ресурсам ционных ресурсов, являются основным инструмен этой электронной библиотеки, но и к представляю- том реализации Инициативы открытого доступа к щим для них интерес коллекциям информационных результатам научных исследований, активно пропа ресурсов других библиотек. Удовлетворение этих гандируемой и поддерживаемой в последние годы совпадающих интересов в настоящее время вполне международным научным сообществом. В свою достижимо. Для этого необходимо обеспечить ин- очередь, эта инициатива является действенной тероперабельность цифрового информационного предпосылкой для активизации разработок научных контента разрабатываемых электронных библиотек. электронных библиотек.

При выполнении этого условия электронная биб- Далее в данной работе кратко обсуждаются клю лиотека может выступать интегратором ее собст- чевые принципы технологии открытых архивов, венных информационных ресурсов с ресурсами влияние Инициативы открытого доступа к результа других электронных библиотек. С другой стороны, там научных исследований на активизацию разра ее информационный контент может быть интегри- боток открытых архивов. Рассматривается состав рован в среду других электронных библиотек. коллекций информационных ресурсов и другие ха Эффективный подход к достижению указанной рактеристики открытого архива научных публика цели был предложен в рамках Инициативы откры- ций Института проблем рынка РАН, рассматрива тых архивов (Open Archives Initiative, OAI) [3, 4]. В ются функциональные возможности наукометриче 2001 г. был опубликован ключевой элемент предла- ских сервисов системы Соционет, используемых гаемой технологии – Protocol for Metadata Harvesting при эксплуатации данного архива, и некоторые ре (OAI PMH), который быстро получил широкое при- зультаты измерений, осуществляемых их средства знание и стал стандартом де-факто в разработках ми.

электронных библиотек. Позднее, в 2002 г. была 2 Технология открытых архивов опубликована его версия OAI-PMH 2.0 [5], дейст вующая в настоящее время. Как уже отмечалось, главная цель технологии Теоретически предложенная технология инте- открытых архивов – обеспечение возможности ин грации информационных ресурсов OAI применима теграции информационных ресурсов, содержащихся к источникам информационных ресурсов любой в источниках текстовых документов. Для достиже природы. В спецификации указанного протокола в ния этой цели потребовалось решить проблему явном виде не фиксируется природа интегрируемых обеспечения интероперабельности открытых архи информационных ресурсов. Однако авторы подхо- вов. Один из возможных подходов к решению этой да, тем не менее, акцентируют внимание на коллек- проблемы был предложен авторами Инициативы циях научных публикаций. открытых архивов (OAI) [3].

Открытые архивы по технологии OAI активно Следует заметить, что используемый в этой тех создаются в настоящее время. Существуют между- нологии термин открытый архив вовсе не предпола народные реестры открытых архивов, например гает свободного доступа к содержащимся в нем ин Registry of Open Access Repositories (ROAR) [6], в формационным ресурсам. Предоставление пользо которых они могут регистрироваться, и заинтересо- вателям полномочий доступа и введение или отсут ванные специалисты могут получать таким образом ствие ограничений доступа остаются полностью в информацию о них. В нашей стране работа по соз- компетенции владельца ресурсов архива. Откры данию открытых архивов электронных научных тость архива следует понимать в технологическом смысле, означающем следование при его реализа- тизация интерфейсов репозиториев метаданных ции открытым стандартам, т. е. широко распростра- обеспечивает их гомогенизацию и тем самым инте ненным стандартам де-факто. Именно это обстоя- роперабельность.

тельство обеспечивает требуемую интероперабель- Но для обеспечения интероперабельности мета ность открытых архивов. данных, представленных в репозиториях метадан Каким же образом решается эта проблема? ных различных открытых архивов, также необхо Предложенная OAI технология не предусматривает дима стандартизация представления этих метадан создания какого-либо материализованного источни- ных. Технология OAI допускает использование в ка, содержащего копии самих документов из интег- каждом репозитории метаданных одного или не рируемых источников. Коллекции документов этих скольких (в том числе и одновременно) форматов источников могут быть организованы различным представления метаданных. Так, возможно исполь образом, должны храниться и поддерживаться их зовать набор элементов Дублинского ядра [8], стан владельцами, а также должны быть доступны в сре- дарты MARC [9], rfc1807 [10] и др. При этом ис де Всемирной паутины. Например, это могут быть пользуются XML-представление метаописаний ин веб-сайты с полнотекстовыми электронными пуб- формационных ресурсов и XML-схемы для верифи ликациями. Интеграция информационных ресурсов кации таких описаний. Сборщик метаданных может обеспечивается путем создания информационного запросить (это один из шести указанных выше ви репозитория, но не самих документов, а описываю- дов запросов) в репозитории метаданных, какие щих их стандартизованных метаданных. форматы представления метаданных в нем исполь Для такого интегрированного репозитория мета- зуются. Запрашивая собственно метаданные, он данных должен существовать и поддерживаться может указать, в каком формате их представить в какой-либо сервис, обладающий интерфейсом для результате обработки его запроса.

конечных пользователей, который бы позволял Технология OAI имеет сегодня множество кон пользователям осуществлять доступ к этим мета- кретных реализаций в различных электронных биб данным, осуществлять поиск и другую их обработ- лиотеках, создан ряд реестров открытых архивов.

ку, а также получать доступ к текстам описываемых OAI поддерживается, в частности, в системе Социо документов, если они представлены в Веб, путем нет [7], в Едином научном информационном про навигации по гиперссылкам, содержащимся в мета- странстве ЕНИП РАН [11], в системах OAIster [12], данных этих документов. Digital Repository Infrastructure Vision for European Вместе с тем, аналогичные репозитории мета- Research (DRIVER) [13], The Directory of Open данных должны существовать для каждого отдель- Access Repositories OpenDOAR [14] и др. Благодаря ного источника информационных ресурсов, и для таким разработкам повышается уровень открытости таких репозиториев также должны существовать доступа к опубликованным в подобных информаци сервисы с интерфейсами конечных пользователей. онных средах результатам научных исследований, Предоставляемые через такие интерфейсы функции, создаются благоприятные условия для их интегра конечно же, могут быть различными в разных репо- ции и обработки в автоматическом режиме.

зиториях. Но важно отметить, что каждый из репо 3 Открытые архивы и поддержка Ини зиториев метаданных, в том числе, и интегрирован циативы открытого доступа ный, должен также обладать специальным (техни ческим) интерфейсом, соответствующим протоколу Широко известно, что в международном науч OAI-PHM. Этот интерфейс используется сборщика- ном сообществе сформировалось мощное общест ми метаданных (metadata harvester) для интегриро- венное движение за открытый доступ к результатам ванных репозиториев, в которых зарегистрированы исследований [15 – 19].

соответствующие репозитории – источники мета- Инициатива открытого доступа призывает все данных. Он обеспечивает для сборщика метаданных исследовательские организации создавать открытые возможность выполнять запросы всех шести видов, электронные репозитории, библиотеки или архивы определенных протоколом OAI-PMH. для размещения в публичном доступе всех закон В спецификации протокола OAI-PMH репозито- ченных результатов открытых исследований, про рием метаданных называется сервер, доступный в водимых в соответствующей организации и финан среде Веб, который может обрабатывать запросы сируемых за счет общественных фондов. Активная шести видов, определенных в спецификации этого разработка открытых архивов, снабженных репози протокола. Сборщик метаданных для интегриро- ториями метаданных, которые поддерживают стан ванного репозитория метаданных является клиент- дарты Инициативы открытых архивов, является ским приложением этого сервера, которое может одним из откликов на эту инициативу. В последние издавать такие запросы. годы имеет место существенный рост количества Таким образом, первым из факторов, обеспечи- электронных библиотек, обладающих интерфейса вающих возможности интеграции источников ин- ми, которые поддерживают протокол OAI-PMH.

формационных ресурсов, который предусматрива- Масштабы и динамику этих процессов в реальном ется технологией OAI, является предложенная ар- времени иллюстрирует Реестр репозиториев откры хитектура поддержки и интеграции распределенно- тых архивов (Registry of Open Access Repositories, го множества репозиториев метаданных. Стандар- ROAR) [6]. Отслеживание количества научных ор ганизаций, включая научные фонды, уже обязавшие ния российской экономики в систему мирохозяйст поддерживаемых ими ученых депонировать все за- венных связей. Исследования в указанных областях конченные результаты открытых исследований, экономической науки выполняются коллективами ведет также другой международный регистр – научных сотрудников под руководством ученых, Registry of Open Access Repository Material Archiving известных в нашей стране и за рубежом.

Policies (ROARMAP) [20]. Информационные ресурсы рассматриваемой Росту числа открытых архивов научных публи- электронной библиотеки включают полные тексты каций способствует увеличение количества научных и аннотации опубликованных в периодических из коммерческих журналов, официально объявивших о даниях статей, фрагменты монографических изда согласии с размещением авторами в открытом дос- ний, тезисы, полные тексты и презентации докла тупе своих статей, которые были переданы на рас- дов, представленных на крупных научных конфе смотрение или уже опубликованы в таких журна- ренциях, полный аннотированный архив научных лах. Сведения о таких изданиях поддерживаются в отчетов по выполненным в институте исследовани рамках проекта ROMEO [21]. Согласно этому ис- ям, начиная с основания института, авторефераты и точнику, на апрель 2009 г. 97% зарегистрированных полные тексты диссертаций, защищенных научны научных издательств объявили о согласии с этим ми сотрудниками, аспирантами и докторантами ин положением (как правило, с определенными ого- ститута, препринты, работы, депонированные в ворками). ВИНИТИ, библиографические указатели по некото Идеи открытого доступа получили государст- рым направлениям исследований института, мате венную поддержку в ряде стран в виде появления риалы докладов, обсуждавшихся на заседаниях национальных программ по созданию электронных Секции экономики ООН РАН и Ученого совета ин репозиториев открытого доступа, развития откры- ститута. Доступ пользователей к информационным тых архивов, создания на их основе научного ин- ресурсам электронной библиотеки осуществляется с формационного пространства, сбора онлайновой помощью электронного каталога, включающего наукометрической статистики и ее использования предметные, авторские и библиографические указа для стимулирования развития научных исследова- тели, а также рубрикатор по виду публикаций. Раз ний. витие и пополнение коллекций информационных Так, в Великобритании запущен специальный ресурсов библиотеки продолжается в настоящее проект в поддержку репозиториев (Repositories время как новыми научными публикациями, так и Support Project) [22]. В Австралии действует госу- оцифровкой ретроспективных работ.

дарственная программа поддержки деятельности При поддержке РГНФ (проект 06-02-12205) бы университетов, направленной на создание репози- ли проведены работы по интеграции информацион ториев открытого доступа Australian Scheme for ных ресурсов библиотеки в среду системы Социо Higher Education Repositories (ASHER) [23], преду- нет на основе технологии OAI. Репозиторий мета сматривающей выделение 25.5 миллионов долларов данных, описывающих информационные ресурсы на три года для поддержки создания и обновления библиотеки, создавался с использованием сервиса и цифровых репозиториев. ресурсов администратора этих ресурсов в системе Таким образом, в настоящее время существуют Соционет, называемых личной зоной. Личная зона серьезные стимулы для развития разработок откры- может быть учреждена в системе для каждого ново тых архивов научных электронных публикаций. го администратора информационных ресурсов сис Технология OAI является одним из получивших темы.

широкое признание подходов к эффективному ис- Формирование метаописаний большинства до пользованию содержащихся в них информационных кументов контента электронной библиотеки осуще ресурсов научным сообществом. ствлялось вручную с помощью интерфейсов ука занного сервиса системы. Для архива аннотаций научных отчетов был использован имеющийся в 4 Открытый архив ИПР РАН составе программного обеспечения системы Социо В Институте проблем рынка РАН с 1996 года нет генератор метаданных, который благодаря соот формируется электронная библиотека научных пуб- ветствующей настройке обеспечил автоматическое ликаций по актуальным направлениям исследова- формирование метаописаний каждого отдельного ний рыночной экономики. Основные из этих на- отчета. Использование этого инструмента стало правлений – разработка теории и методологии фор- возможным благодаря тому, что все веб-страницы мирования рыночной экономики, разработка прин- аннотаций научных отчетов имеют стандартную ципов функционирования и эволюции рыночной содержательную структуру. Генератор был настро инфраструктуры в экономике страны, формирова- ен на обработку заданной коллекции с помощью ние систем рычагов и механизмов государственного конфигурационного файла, в котором содержится регулирования рыночных процессов, разработка описание структуры страниц аннотаций на извест методологии эколого-экономического регулирова- ном языке регулярных выражений Regex. Управ ния рынка, моделирование процессов взаимодейст- ляемый этим описанием генератор просматривает вия и интеграции внутреннего и мирового рынков, страницу аннотации каждого отчета, распознает ее исследование экономических механизмов включе- структурные компоненты и на этой основе форми рует требуемые метаданные в принятом в системе ность в онлайновом режиме воспользоваться поис Соционет XML-формате. ковыми, наукометрическими и другими возможно Сгенерированные в личной зоне метаданные стями системы. Все представленные в системе Со рассматриваемой электронной библиотеки поддер- ционет информационные ресурсы свободно доступ живаются администратором, и периодически в со- ны.

ответствии с регламентом функционирования сис- Открытый архив ИПР РАН зарегистрирован в темы их копия в репозитории метаданных Соционет международном Реестре репозиториев открытых синхронизируется с контентом метаданных в лич- архивов ROAR [6] и тем самым стал доступным в ной зоне. международной инфраструктуре распространения В настоящее время в личной зоне администрато- научной информации. Создание открытого архива ра информационных ресурсов ИПР РАН и в репози- научных публикаций по актуальным проблемам тории метаданных системы Соционет поддержива- рыночной экономики можно рассматривать как от ются метаданные девяти коллекций: вет института на международные инициативы от • монографии (фрагменты монографий и анно- крытого доступа к результатам научных исследова ний.

тации) сотрудников ИПР РАН;

• научные статьи, опубликованные в различных 5 Наукометрические сервисы Соционет периодических изданиях и сборниках;

• научные отчеты Института проблем рынка и измерения в открытом архиве ИПР РАН;

РАН • электронные депоненты публикаций сотрудни Интеграция информационных ресурсов научной ков ИПР РАН в Соционет (работы, не опубли электронной библиотеки Института проблем рынка кованные иным способом);

РАН в среду системы Соционет позволила исполь • авторефераты и полные тексты предоставлен зовать развитые возможности этой системы для ге ных авторами диссертаций, защищенных в нерации открытого архива представленных в ней Диссертационном совете ИПР РАН;

информационных ресурсов, эффективной поддерж • библиографические описания публикаций со ки и развития его контента, а также для обеспечения трудников ИПР в периодике, для которых в онлайнового доступа пользователей к этим инфор распоряжении создателей электронной библио мационным ресурсам. Появились также разнообраз теки не имеется их полных текстов или анно ные возможности для проведения наукометрическо таций;

го анализа с помощью предусмотренных для этой • новости ИПР РАН;

цели сервисов в системе Соционет [25-28, 31]. Под • научная персоналия – данные о научных инте держиваемая в Соционет развитая структура связей ресах и другие сведения о научных сотрудни между информационными объектами различных ках ИПР РАН, являющихся авторами пред типов позволяет при этом генерировать разнообраз ставленных в открытом архиве публикаций (в ные агрегированные статистические наукометриче терминологии системы Соционет – «профили»

ские показатели.

актуальных и потенциальных авторов публи С помощью указанных сервисов можно в инте каций);

рактивном режиме получать разнообразную науко • коллекция цитат из публикаций, представлен метрическую информацию. В частности, для задан ных в Соционет, вне Соционет в Веб, а также ного периода времени можно ранжировать органи из других не электронных источников.

зации-владельцы информационных ресурсов, интег В 2007 году с помощью специального сервиса рированных в среду Соционет, по критерию убыва системы Соционет на основе представленных в сис ния числа просмотров или скачиваний публикаций теме Соционет метаданных, описывающих пред их сотрудников. По такому же критерию можно ставленные в электронной библиотеке ИПР РАН ранжировать открытые архивы, поддерживаемые публикации, был сгенерирован репозиторий мета Соционет, глобально в масштабе Соционет, в рам данных открытого архива ИПР РАН [24]. Этот ре ках отдельной организации-владельца открытого позиторий поддерживается на серверах системы архива ранжировать по такому же критерию входя Соционет, как и репозитории открытых архивов щие в его состав коллекции, а также авторов содер других институтов ООН РАН, созданных с помо жащихся в них публикаций. Для авторов публика щью сервиса системы Соционет. Доступ сборщиков ций можно ранжировать представленные в архиве метаданных по протоколу OAI-PMH к этому и дру его публикации.

гим репозиториям метаданных открытых архивов, Можно получать представленные в табличном поддерживаемых на серверах системы Соционет, или графическом виде временные ряды показателей осуществляется с помощью специального интер востребованности в заданном интервале времени фейса Соционет.

интегрально всех работ сотрудников данной орга Поддержка репозиториев открытых архивов в низации, отдельных сотрудников и отдельных пуб среде системы Соционет позволяет использовать ликаций. Для каждого автора можно узнать, какие предусмотренные в этой системе интерфейсы ко именно его работы запрашивались в данном интер нечных пользователей, которые дают им возмож вале времени и какими пользователями. Пользова тели идентифицируются при этом их IP-адресами. авторами системы совместно с создателями рас Используя известные сервисы можно по этим IP- сматриваемого здесь архива разрабатываются новые адресам выявить географию доступов. компоненты программного обеспечения системы В стадии разработки находятся сервисы, позво- Соционет, которые будут обеспечивать возможно ляющие получать по запросам пользователей стати- сти наукометрического анализа на основе поддер стические показатели и ранжировать группировки живаемых в Соционет тематических классификато публикаций отдельных авторов, коллекций, органи- ров публикаций, а также возможности анализа и заций и архива в целом по рубрикам классификато- измерений на основе использования связей цитиро ров, поддерживаемых в системе Соционет. вания [29]. Создаются полезные и для наукометрии Предусматриваются также возможности науко- механизмы поддержки технологии «живых» доку метрических измерений на основе содержащихся в ментов [30].

публикациях архива связей цитирования между публикациями с учетом атрибутов, характеризую- Литература щих свойства ссылок. Функциональные возможно [1] Когаловский М.Р., Новиков Б.А. Электронные сти находящихся в стадии разработки соответст библиотеки – новый класс информационных вующих сервисов системы Соционет подробно рас систем// Программирование. – МАИК «Нау смотрены в [29].

ка»/Интерпериодика, 2000. – № 3.

Результаты периодически проводимых науко [2] Когаловский М.Р. Особенности научных элек метрических измерений на открытом архиве ИПР тронных библиотек //Тезисы докладов науч.

РАН с помощью сервисов системы Соционет пока конф., «Электронные библиотеки и информаци зывают устойчивую высокую востребованность онное обеспечение научной деятельности», публикаций сотрудников института. Несмотря на посв. 10-летию РФФИ, Москва, 25 – 26 ноября небольшую численность научного персонала инсти 2002 г. – М.: Центр фотохимии РАН, 2002.

тута и связанное с этим сравнительно небольшое [3] Open Archives Initiative. – http://www. open количество публикаций в архиве (около 2000 еди archives.org/.

ниц) относительно архивов других институтов ООН [4] Лагозе К., Ван де Сомпель Х. Инициатива «От РАН, институт устойчиво на протяжении длитель крытые архивы»: создание среды с высокой ного времени занимает в рейтинге востребованно степенью интероперабельности //Электронные сти его научной продукции третье место после та библиотеки. – 2001. – Т. 4, Вып. 6. – http:// ких крупных научно-образовательных центров, как www.elbib.ru/index.phtml?page=elbib/rus/journal/ Высшая школа экономики и ЦЭМИ РАН. Довольно 2001/part6/LS.

высок и относительный персональный рейтинг вос [5] The Open Archives Initiative Protocol for Metadata требованности научных публикаций ряда сотрудни Harvesting. Protocol Version 2.0 of 2002-06-14.

ков ИПР РАН, а также рейтинг востребованности Document Version 2008-12-07T20:42:00Z. – некоторых коллекций публикаций открытого архива http://www.openarchives.org/OAI/2.0/openarchive института, например, коллекции научных отчетов.

sprotocol.htm.

Конечно же, нужно иметь в виду, что проводи [6] Registry of Open Access Repositories (ROAR). – мые наукометрические измерения базируются лишь http://roar.eprints.org/index.php.

на корпусе публикаций, представленных в интегри [7] Онлайновая научная инфраструктура Соционет.

рованных в систему Соционет открытых архивах.

– http://socionet.ru/.

Хотя образованное на федеративных принципах [8] ISO 15836:2003 (E). Information and Documenta научное информационное пространство Соционет tion – The Dublin Core metadata element set.

по состоянию на апрель 2010 г. включает около [9] MARCXML Architecture. MARC 21 XML Sche 4500 коллекций, принадлежащих главным образом ma. – http://www.loc.gov/standards/marcxml/.

большинству институтов Отделения общественных [10] Lasher R., Cohen D. Request for comments: 1807.

наук РАН, а также ряду ведущих отечественных A format for bibliographic records, 1995. – вузов, и содержит более 1 млн. информационных http://www.ietf.org/rfc/rfc1807.txt?number=1807.

объектов, этот полигон измерений пока еще все [11] Единое научное информационное пространство.

таки не следует рассматривать как достаточно пред – http://enip.ras.ru/.

ставительный для того, чтобы результаты получен [12] The OAIster® database. – http://visit.oclc.org/t?r= ных измерений имели значительный вес. Тем не 896&c = 1835072&l=73878&ctl= 2B47014:

менее, они весьма заслуживают внимания.

760F35AF1D4030B3DE0F89FDDE81B56E 10E03D1DAAD&.

6 Заключение [13] Digital Repository Infrastructure Vision for Euro В планах создателей открытого архива ИПР РАН pean Research (DRIVER). – http://www.driver остается дальнейшее развитие его контента и про- repository.eu/.

водимого на этом полигоне наукометрического ана- [14] The Directory of Open Access Repositories Open лиза. Предполагается использовать для этого разра- DOAR. – http://www.opendoar.org/.

батываемые в системе Соционет новые наукометри- [15] Берлинская Декларация об открытом доступе к ческие средства. В частности, в настоящее время научному и гуманитарному знанию, 2003 (пере вод Э.М. Мирского). – http://informika.ru/text/ науч. конф. «Электронные библиотеки: пер magaz/newpaper/messedu/2003/cour0311/200.htm. спективные методы и технологии, электронные [16] Berlin 3 (2005): Open Access: Progress in Imple- коллекции», Петрозаводск, 17 – 21 сентября menting the Berlin Declaration on Open Access to 2009 г. – Петрозаводск: КарНЦ РАН, 2009.

Knowledge in the Sciences and Humanities. Feb [31] Статистика Соционет. – http://www.socionet.ru/ 28th – Mar 1st. University of Southampton, UK. – stats.xml.

http://www.eprints.org/events/berlin3/outcomes.

html.

[17] Budapest Open Access Initiative (2002). – Open Archive of publications on market http://www.soros.org/openaccess/read.shtml.

economy and scientometric measuring [18] Паринов С.И. Программа «Открытый доступ к результатам исследований» в Отделении обще- Mikhail Kogalovsky, Sergey Parinov, ственных наук РАН». – Соционет: Электронный Elena Ilmenskaya депонент, 2006. – http://socionet.ru/publication.

xml?h=repec:rus:mqijxk:12&type=paper. Active development of scientific digital libraries allows [19] Паринов С.И. Развитие электронных библиотек an effective supporting of the Open Access Initiative – путь к открытой науке// Труды XI Всерос. на- (OAI), which is popular now in the international scien уч. конф. «Электронные библиотеки: перспек- tific community. OAI, in turn, stimulates development тивные методы и технологии, электронные кол- of the scientific digital libraries. Many of them are cre лекции» – RCDL’2009. – Петрозаводск, Россия, ated on the base of the Open Archives technology. The 2009. main advantages of this technology consist in interop [20] Registry of Open Access Repository Material Ar- erability support of independently created digital librar chiving Policies (ROARMAP). – http://www. ies and as result in capability of virtual integration of eprints.org/openaccess/policysignup/. their information resources. Last of the mentioned prob [21] Journal Policies – List of Publishers. – lems is solved by the materialized integration of the http://romeo.eprints.org/publishers.html. Open Archives standardized metadata by means of the [22] Repositories Support Project. – http://www.rsp.ac. metadata gathering protocol OAI-PMH. In the paper uk/. basic principles of the Open Archives technology are [23] The Australian Scheme for Higher Education Re- briefly discussed. The scientific Open Archive of the positories (ASHER). – http://www.innovation.gov. RAS Market Economy Institute integrated into envi au/Section/AboutDIISR/FactSheets/Pages/Australia ronment of the Socionet system is considered. Socionet nSchemeforHigherEducationReposito- allows to use its various useful services, in particular, ries(AHSER)FactSheet.aspx. scientometrics services, which functionality and devel [24] Institutional Open Archive Web Page. – opment perspectives are discussed also in the paper.

http://mei.socionet.ru/oai/ecoorg_inst-1/oai.xml.

* Работа выполнена при частичной финансовой поддерж [25] Когаловский М.Р., Паринов С.И. Метрики он ке РГНФ (проект 09-02-12117) лайновых информационных пространств // Эко номика и математические методы. – 2008, Вып. 2.

[26] Паринов С.И. Онлайновое будущее науки: нау кометрическая сигнальная система// Препринт WP2/2007/01. Серия WP2. Количественный анализ в экономике. – М.: ГУ ВШЭ, 2007.

[27] Когаловский М.Р., Паринов С.И. Информаци онные ресурсы, наукометрические показатели и показатели качества метаданных системы Со ционет// Труды 9-й Всерос. науч. конф. «Элек тронные библиотеки: перспективные методы и технологии, электронные коллекции» – RCDL’2007. – Переславль-Залесский, Россия, 2007.

[28] Когаловский М.Р., Паринов С.И. Сигнальная система Соционет// Соционет: Электронный депонент, 2007.

[29] Когаловский М.Р., Паринов С.И. Использование связей цитирования для наукометрических из мерений в системе Соционет// Соционет: Элек тронный депонент, 2009.

[30] Паринов С.И., Когаловский М.Р. Технология поддержки электронных научных публикаций как «живых» документов// Труды XI Всерос.

Разработка мультиаспектной методики поиска документальной информации © Е.И. Болотин Национальный исследовательский ядерный университет «МИФИ»

eugenebolotin@gmail.com дескрипторы. Нечеткие методы позволяют осущест Аннотация влять автоматизированный поиск документов с ис Описаны проблемы, с которыми сталкива- пользованием статистических характеристик и ин ются пользователи поисковых систем при формации о релевантных документах, выбранных осуществлении поиска документальной ин- пользователем.

формации. В зависимости от уровня компе- При использовании четких методов поиска поль тенции пользователей в предметной области зователь полностью контролирует процесс поиска, рассматриваются различные стратегии по- включая в поиск новые дескрипторы, тем самым иска и их результативность. В работе пред- расширяя запрос. Однако дескрипторы лишь при лагается подход к созданию методики, ре- близительно описывают тематическое содержание комендующей пользователям стратегию по- документов и запросов. Поэтому обычно выдача в иска, которая позволяет повысить качество ответ на тематический запрос не бывает полной и поиска для различных типов пользователей. точной. Одновременно с этим формулировка четко го запроса требует от пользователя понимания того, 1 Введение что и как он ищет. Это зависит от компетентности пользователя в предметной области поиска. Также В настоящее время наряду с популярными поис пользователям свойственно включение в запрос ковыми системами интернета развиваются системы контекстно-значимых терминов, статистические документального поиска, предоставляющие множе связи между терминами в заданной выборке неоче ство различных механизмов поиска. Поисковые ма видны для пользователя.

шины интернета обычно предлагают один единст С помощью нечетких методов возможно осуще венный механизм поиска, и основное развитие тако ствление автоматического расширения выдачи с го типа поисковых систем связано с разработкой включением статистически-значимых терминов.

алгоритмов оптимизации поиска, разработки мето Система предлагает пользователю документы, по дов ранжирования результирующих выборок, учета хожие на ранее выбранные им и отмеченные как гиперссылок. Использование единственного меха релевантные. Управление осуществляется полно низма поиска позволяет использовать поисковые стью системой, а не пользователем. С помощью не системы интернета неподготовленными пользовате четких методов могут быть выявлены статистиче лями, однако они являются менее управляемыми, ские связи, которые не очевидны при осуществле чем документальные системы поиска. Документаль нии поиска по дескрипторам. Данный метод прост ные поисковые системы предлагают различные ме для пользователя, так как требует только указания ханизмы поиска, однако требуют подготовки от ко группы релевантных документов. Таким образом, нечного пользователя. Процесс поиска в данном пользователь выбирает между методами точными, случае становится многоступенчатым, на каждом но требующими компетенции механизмами, и не этапе возможно использование различных механиз четкими, но простыми в использовании.

мов поиска. В настоящее время остается открытым В связи с этой проблемой возникает задача объе вопрос о стратегии поиска в документальных систе динения различных механизмов поиска в комплекс мах поиска.

ные методики для упрощения работы пользователей Механизмы поиска можно разделить на четкие и с системой и повышения качества поиска. Также не нечеткие. Четкие методы поиска позволяют искать исследована зависимость полноты поиска при раз документы, соответствующие строгому запросу личных стратегиях поиска.

пользователя – булевому выражению, содержащему Основными проблемами при решении данной задачи являются определение критериев использо Труды 12й Всероссийской научной конференции вания того или иного механизма поиска, а также «Электронные библиотеки: перспективные методы и комплексирование результатов поиска.

технологии, электронные коллекции» – RCDL’2010, Казань, Россия, ных документов, выполнения операций над множе 2 Стратегии использования механизмов ствами найденных документов. Студенты использо поиска документальных данных вали следующие механизмы поиска: вербальные – Схемы и механизмы поиска автоматизированной поиск по ключевым словам, по полю «реферат», по информационно-поисковой системы (АИПС) стро- всем полям, поиск с использованием автомаскиро ятся в предположении, что любая нетривиальная вания (для нормализации лексики), невербальный – реальная информационная потребность не может эвристический механизм поиска. Эвристический быть удовлетворена одним или несколькими сразу механизм позволяет осуществлять поиск докумен найденными документами, а требует проведения тов, похожих на усредненный документ выбранной серии поисков и выделения полезных фрагментов совокупности релевантных документов.

информации на каждой стадии развития запроса. Были обработаны 30 работ студентов. Получен Это осуществляется следующими путями: ные в результате эксперимента данные – точность и • переформулировкой и дополнением выра- полнота отдельных поисковых механизмов – были жения запроса, в том числе использованием других кластеризованы на две группы по соотношению по терминологических систем;

казателя полноты эвристического механизма поис • ка. Рассмотрим усредненные показатели обеих применением различных поисковых меха групп. Для первой группы получились следующие низмов с разной степенью жесткости критерия от показатели:

бора;

• использованием процедур поиска, основан Группа ных на технологии обратной связи по релевантно сти, обеспечивающих последовательное расширение Среднее Дисперсия пространства терминов и документов.

Ключевые p 0,430 0, Поисковые системы должны обеспечить воз слова r 0,458 0, можность использования различных механизмов поиска для реализации всех типов поисковых задач. p 0,386 0, Реферат Механизмы поиска по логическому выражению из r 0,398 0, терминов (вербальные) и поиска документов По всем p 0,386 0, аналогов (эвристические) образуют полную группу полям механизмов поиска [1], т. е. любой возможный ме- r 0,615 0, ханизм поиска документальных данных будет осно С автомаскиро- p 0,345 0, вываться на механизмах из данной группы.

ванием r 0,342 0, Рассмотрим типовые стратегии поиска с исполь зованием описанных выше механизмов: Эвристический p 0,284 0, • от вербального поиска к эвристическому;

поиск r 0,228 0, • от эвристического к вербальному;

Выбор одной из стратегий поиска зависит от Для второй группы:

компетентности пользователя в предметной облас ти, то есть от владения лексикой области. В случае, Группа если пользователь компетентен, то вербальный по Среднее Дисперсия иск будет обеспечивать получение наилучшего ре зультата. Однако вербальный поиск не может вы- Ключевые p 0,359 0, вести пользователя за пределы лексики, используе- слова r 0,261 0, мой в запросе. Эвристический поиск позволяется p 0,366 0, обнаруживать смежные области и может вывести Реферат пользователя на новую лексику, которую можно r 0,442 0, использовать для поиска новых релевантных доку По всем p 0,411 0, ментов. Если пользователь некомпетентен, то эври полям r 0,539 0, стический поиск позволит пользователю освоить лексику предметной области и в дальнейшем эф- С автомаскиро- p 0,400 0, фективно использовать вербальный поиск. Указан- ванием r 0,442 0, ные стратегии могут повторяться в рамках осущест Эвристический p 0,366 0, вления одного поиска с целью добиться наибольше поиск го показателя полноты поиска. r 0,326 0, Рассмотрим экспериментальные данные, собран ные на основе проведения лабораторных работ сту- Полученные результаты могут быть представле дентов 4-го курса НИЯУ МИФИ в рамках изучения ны в виде точечной диаграммы. Цифрами обозначе дисциплины «Информационные системы». Студен- ны механизмы поиска: 1 – поиск по ключевым сло там предлагалось осуществить проработку заданной вам, 2 – поиск по полю «реферат», 3 – поиск по всем темы с использованием АИПС «Irbis» [2]. Данная полям, 4 – поиск с автомаскированием, 5 – эвристи система предоставляет большой набор механизмов ческий поиск:


поиска, средства для оценки релевантности найден На определенной итерации поиска отсутствуют новые понятия, которые возможно включить в запрос для расширения области поиска. Как говорилось выше, это недостаток вербальных механизмов поиска, так как они не могут вывести пользователя за пределы лексики, используемой в запросе. В таком случае целесообразно применение невербальных механизмов поиска. В данной работе применялся эвристический механизм. Производи лось несколько итераций эвристического поиска до тех пор, пока он не переставал обнаруживать новые результаты. Рассмотрим усредненную кривую насыщения результативности эвристического Полученные на графиках результаты отражают механизма поиска:

разделение пользователей на две группы по призна ку компетентности в предметной области поиска.

Первая группа показывает наибольшие показатели полноты у вербальных механизмов поиска, эвристи ческий механизм обеспечивает наименьшую полно ту из рассмотренных механизмов. По описанным выше типовым стратегиям поиска эта группа отра жает результаты компетентных пользователей, ко торые имели четкое представление о терминологии рассматриваемой области и в меньшей степени по лагались на эвристические механизмы. Для второй группы эвристический механизм дает лучшие ре зультаты, чем поиск по ключевым словам. Это пока зывает, что пользователь изначально не был осве Данный график показывает, что после домлен о лексике, используемой в предметной об определенной итерации эвристический поиск пере ласти, и полагался на эвристические методы, вы стает обнаруживать новые результаты. Результатом полняющие всю работу в автоматизированном ре работы эвристического механизма является обнару жиме.

женная новая лексика, которая вновь позволяет про Также был проведен профессиональный эксперт изводить вербальный поиск. В данном эксперименте ный поиск по разработке темы «Исследования по в среднем производилось 3 цикла вербального использованию тория в реакторах» с привлечением невербального поиска, прежде чем поиск переставал эксперта в области ядерной физики для форми обнаруживать новые релевантные документы. Это рования исходного представления о проблемной также доказывает необходимости сочетания различ области. Для исследования заданной области была ных механизмов для обеспечения максимальной использована документальная база данных с полноты поиска.

материалами, касающимися исследований в сфере ядерной промышлленности. Интерфейс к БД также 3 Методика мультиаспектного докумен обеспечивала система Irbis. Базируясь на сведениях, предоставленных экспертом, был осуществлен тального поиска поиск по ключевым словам с расширением Как было показано выше, максимальные значе исходного запроса терминами, найденными в ния полноты поиска могут быть получены путем документах. Поиск по ключевым словам сочетания вербальных и невербальных механизмов.

неравномерен по количеству получения новых Суть методики мультиаспектного поиска состоит в результатов, т. к. каждое введенное понятие может циклическом использовании вербальных и невер определять различные подобласти исходной бальных механизмов с целью расширения исходной тематики:

лексики предметной области и нахождения доку ментов, соответствующих этой лексике.

Любой поиск начинается с формирования ис ходного запроса в виде множества T0 дескрипторов, исходя из начальных знаний пользователя о пред метной области. Так как формулировка запроса в виде дескрипторов наиболее естественна для поль зователя, первым этапом методики осуществляется вербальный поиск. На каждой итерации вербального поиска пользователь выбирает среди найденных документов релевантные Ri и релевантные термины Ti, которые могут расширить исходный запрос. От меченные релевантные документы и термины за- ния механизмов. Было обнаружено, что компетент полняют общее множество релевантных документов ные в предметной области пользователи успешно и терминов: используют вербальные механизмы, дающие в дан ном случае наибольшие показатели полноты поиска.

R = R U Ri, T = T U Ti.

Некомпетентные пользователи полагаются на эври стические механизмы, так как не владеют лексикой Вербальный механизм используется до тех пор, предметной области.

пока удается расширять выборку релевантных до Предлагается методика мультиаспектного поис кументов и терминов. Когда в результате работы ка, позволяющая обеспечить максимальную полноту вербального механизма новые термины не обнару для различных типов пользователей. Суть методики живаются, используется невербальный поиск для состоит в циклическом применении вербального и расширения лексики. Итерации невербального алго невербального механизмов. Вербальный поиск ис ритма позволяют пользователю обнаружить новые пользуется для обнаружения документов, соответ релевантные документы Ri и выделить среди деск ствующих лексике предметной области, обнаружен рипторов новые термины Ti предметной области. В ной на определенной итерации, и ее расширению за случае обнаружения пользователем новых дескрип счет новых терминов, выявленных в найденных до торов запрос по ключевым словам будет расширен и кументах. В случае, когда вербальный механизм не будет начат новый этап вербального поиска. Если обнаруживает новых терминов, предлагается ис невербальный поиск не обнаруживает новых реле пользование невербальных механизмов для выявле вантных документов, то алгоритм завершает работу.

ния смежных областей и обнаружения новой лекси Итак, входными данными алгоритма является ки предметной области.

исходный вербальный запрос. В результате работы Дальнейшая работа по развитию предложенной алгоритм дает следующие результаты:

• методики заключается в оптимизации методики с совокупность R найденных релевантных точки зрения повышения точности поиска, а также документов;

уменьшения общего количества просматриваемых • совокупность T найденных терминов (лек пользователем документов.

сики) предметной области.

В рамках эксперимента по разработке темы Литература «Исследования по использованию тория в реакторах» была испльзована данная методика [1] Голицына О.Л., Максимов Н.В., Попов И.И.

поиска. Были получены следующие результаты Информационные системы. – Форум: Инфра-М, насыщения результативности поиска при 2007, 496 с.

осуществлении итераций вербального и [2] Максимов Н.В. Документальная информацион невербального поиска:

но-аналитическая система xIRBIS: программа для ЭВМ / Максимов Н.В., Васина Е.Н., Голи цына О.Л. и др. // Свидетельство о гос. регист рации №2008611511 от 25.03.2008.

Development of a multiaspect method to search inside documents E.I. Bolotin This paper describes a number of problems that users of search systems in general face while looking for various document information. Depending on level of the com petence of users in a subject domain, strategy and pro В данном случае потребовался один цикл ductivity of their search will be various. The multi использования вербального и невербального поиска, aspect search technique is offering to raise quality of так как новых понятий в процессе использования search for various types of users.

эвристического механизма выявлено не было.

4 Заключение В данной работе проводилось исследование раз личных типовых стратегий поиска, используемых пользователями. Было показано, что использование единственного механизма не позволяет достичь той полноты, которая может быть достигнута при ис пользовании нескольких механизмов поиска. В за висимости от типов поисковых задач и типов поль зователей выбирается определенная схема примене Использование онтологического подхода к разработке каталога пользовательских предпочтений © Б.Г. Циркин Институт систем информатики им. А.П. Ершова СО РАН, г. Новосибирск bgdotmail@gmail.com данных на ресурсах очень часто отсутствует систе Аннотация ма, они слабо структурированы по интернет-сайтам, электронным библиотекам, архивам, что сущест Описан подход к организации прото венно ограничивает к ним доступ. Более того, по типа системы каталогизации пользова историческим, техническим и другим причинам тельских предпочтений, представлен тематически связанные данные сохраняются в раз ного в виде интернет-портала. Этот ных форматах под управлением различных систем портал решает задачу упорядочивания хранения и обработки данных.

введённой пользователями информа Такое положение дел приводит к тому, что раз ции на основе ключевых слов, которые нообразные коллекции, базы персоналий и публи её характеризуют. Предполагается, что каций, даже расположенные на одном физическом данные на портале представлены в ви сервере, зачастую имеют различные логические де гиперссылок на некоторые инфор входы и представляют собой разрозненные авто мационные объекты, снабженные на номные информационных ресурсы.

бором тегов. При этом тегом считается Картина значительно усугубляется следующими не только визуальное представление, факторами: неудобочитаемость;


дублирование и но и его окружение (контекст). Такой избыточность информации;

неопределенность, не портал имеет некоторую базовую он однозначность и многозначность в определениях тологию и позволяет каждому пользо понятий;

встречающиеся противоречия.

вателю уточнять её, создавая на ее ос Отсутствие связанности информационных ре нове свою онтологию. Рассматривает сурсов и унифицированного доступа к ним приво ся алгоритм работы интеллектуального дят к неполноте рассмотрения и учета существую агента, который на основе уже внесен щих данных и знаний при решении возникающих ных пользователем данных (как объек задач. Возможность получения необходимой ин тов, так и набора характеризующих их формации также недостаточно высока из-за отсут тегов) будет предлагать пополнение в ствия содержательного доступа к накопленным ин рамках каждой заданной предметной формационным ресурсам и знаниям.

области из данных, которые внесли Потребность в поиске, выявлении необходимых другие пользователи.

данных и организации к ним доступа невероятно велика. Существует огромное количество различ ных подходов к их организации с целью облегчения 1 Обзор проблемной области различной деятельности пользователей интернета (прежде всего поисковой). Невозможно представить С течением времени особую остроту приобрета себе пользователя интернета, который не использу ет проблема поиска релевантной информации. Лю ет поисковые машины, автоматически индекси бой процесс ныне сложно представить без упорядо рующие содержание веб-сайтов, такие, как Alta Vis ченной системы знаний, несмотря на то, что накоп ta, Google, Excite и др. Они обеспечивают поиск по ленных данных становится всё больше. В связи с любому слову из текста, обнаруженного на сайте.

этим особую остроту приобретает задача создания Кроме того, некоторую распространённость полу системы взаимоупорядоченных и взаимовлияющих чили также и интернет-справочники Yahoo, LookS друг на друга элементов, отражающих видение мира mart, About и другие. Они представляют подход, на языке данной области познания.

предполагающий вовлечение человеческого интел Это происходит из-за того, что в представлении лекта в процессы отбора и аннотирования веб сайтов. Такие каталоги составляются вручную и Труды 12й Всероссийской научной конференции поэтому требуют огромного времени как для созда «Электронные библиотеки: перспективные методы и ния, так и для сопровождения. Кроме этого, могут технологии, электронные коллекции» – RCDL’2010, существовать различия между критериями класси Казань, Россия, фикации понятий автора и пользователей, а также в linkomatic.ru) страдают слабостью взаимосвязей их восприятии. между блоками целого. Эти ресурсы концентриру В данной работе рассматривается проблема ка- ют внимание на наборе ключевых выражений (или талогизации уже найденных ресурсов, что должно тегов), заданных пользователями [2], что позволяет позволить ускорить повторный поиск данных. В строить облако понятий (совокупность тегов, ха идеальной ситуации система должна обеспечивать рактеризующих некоторый информационный объ быстрый и информативный переход к релевантной ект), связанных с тем или иным объектом. В неко информации. торых случаях теги можно собирать в группы, что, безусловно, упрощает решение части задач.

Однако данный подход содержит в себе немало 2 Обзор существующих подходов проблем. Прежде всего, не учитывается морфоло гия, что затрудняет обнаружение связей между 2.1 Подход сетевых библиотек сходными объектами. Кроме того, теги, являющиеся многозначными понятиями, затрудняют навигацию, Одним из подходов к решению поставленной за приводя к более широкому, чем ожидается, резуль дачи организации данных является применение тра тату. В результате такие ресурсы используются в диционных принципов каталогизации для описания основном лишь как средство хранения и, гораздо материалов интернета и предоставление к ним дос реже, обмена данными между пользователями ин тупа через онлайн-каталоги библиотек.

тернета.

Данное направление активно развивалось и до сих пор развивается как в библиотеках США, так и 2.3 Другие подходы в российском сегменте интернета (см. eLI BRARY.RU). Многие библиотеки являются инициа- Существуют также подходы к решению постав торами и участницами интересных проектов в этой ленной задачи, которые позволяют задавать инфор новой области каталогизации [1]. мационному объекту требуемые атрибуты сверх Существует также и альтернативный подход – уже зафиксированных. Однако в подобной системе расширение стандартного HTML специальными такие атрибуты оказывают влияние лишь на пред семантическими тэгами для внесения знаний прямо ставление пользовательских данных в рамках одной в страницы. Такие документы несут информацию о конкретной страницы (или набора страниц), но не взаимосвязях понятий и их семантических атрибу- на их каталогизацию. Интеллектуальное пополне тах в HTML-подобном формате, то есть не требуют ние на данный момент не использует данную техно внутреннего языка представления знаний. логию.

Это решение воплощено в рамках стандарта Кроме того, с участием автора разработан [3] на языка XML. Этот язык предназначается для размет- страиваемый портал научных знаний, однако этот ки синтаксической структуры документов, облег- портал не имеет личной онтологии, что уменьшает чающий использование таких документов в качест- его гибкость.

ве сообщений при общении множества агентов.

Для аннотаций документов с помощью XML 3 Подход к решению разработан формат описания ресурсов RDF. Мета информация, определяемая этим форматом, нередко 3.1 Общая схема размещается как некоторый блок внутри каждой страницы (аннотация каждого элемента страницы В качестве первой итерации построения систе непосредственно в тексте исходного документа не- матизированной базы знаний взята система элемен возможна, что приводит к их повторению с допол- тарного библиотечного каталога с тематическим нительной метаинформацией). Этот способ влечет рубрикатором (упорядоченная система «карточек», за собой многократное увеличение объемов инфор- соответствующих конкретным информационным мации. объектам). При этом различные варианты тегов, т. е.

Предлагалось и создание всемирной базы дан- ключевых выражений, описывающих некоторый ных документов, которые, в свою очередь, могли бы информационный объект, будут составлять набор включать в себя части объектов интернета и других данных для заполнения своеобразных «карточек».

документов этой базы данных с аннотациями к ним, Такие «карточки» обеспечат прозрачный и по написанными на специальном языке. Однако разви- нятный переход к данным, прежде всего, другим тия эта идея не получила, прежде всего, потому, что ссылкам, релевантным уже выбранной ссылке.

потребовался бы гигантский даже по нынешним Иными словами, ключевые выражения, характери временам объем предполагаемого хранилища. зующие конкретные информационные объекты, позволят осуществлять переход между присутст 2.2 Социальные сети закладок вующими в системе данными, соответствующими этим информационным объектам в рамках инфор Существует большое количество попыток по мационного значения тега [4]. Это поможет пони строения каталогов ссылок, но их использование манию не только содержимого информационного затруднено. Предпринятые на данный момент по объекта, но и его непосредственного окружения пытки (http://del.icio.us, http://socialpage.ru, http:// через совокупность ключевых выражений, которые между пользователями каталога. Каждый из них описывают этот объект и подобные ему объекты. должен иметь возможность не только хранить неко Для обеспечения единообразного представления торый набор аннотаций: набора ключевых понятий данных и учета связанности информации в рамках в рамках пользовательской онтологии, а также свя единой тематики необходима единая концептуаль- зей, соответствующих соотношениям между поня ная схема информационного содержания портала – тиями с точки зрения онтологии в отношении каж адекватная информационная модель портала, кото- дого объекта, включенного в каталог.

рая должна решать следующие основные задачи: Представляется естественным для простоты рас • смотрения принять в качестве такого объекта гипер организацию предметного каталога;

ссылку, которая, очевидно, может быть основой • наличие прозрачной системы взаимосвязей соответствия объекта и его представления в катало между тегами;

организация «личной онтологии»

ге.

(такая онтология, вероятно, будет отличаться от Подобный каталог, естественно, требует реше общей онтологии и использоваться как ее дополне ния задачи пополнения данными каталога каждого ние);

примерное соотношение между ними показано конкретного пользователя, основываясь на его на рис. 1;

представлении мира (онтологии), ведь представле • выбор способа пополнения онтологии;

это ние знаний уже достаточно давно рассматривается будут динамическое объединение или интеграция как удачный инструмент для организации и обмена этих двух онтологий, возможно, также потребуется информацией. Из-за сложности и достаточно высо отображение одной онтологии в другую.

кой временной стоимости построения онтологий довольно частым видится следующий образ поведе ния типичного пользователя и системы:

• оформление сферы интересов через по строение или уточнение (с точки зрения пользова теля) существующей онтологии;

• обнаружение определенных системой кор реляций между частями пользовательской онтоло гии и частями личных онтологий иных пользовате лей системы;

Рис. 1. Соотношение базовой и пользовательской • анализ пользователем степени полезности онтологий предлагаемых данных с возможным ранжированием В результате построения онтологии на ключевых по релевантности/полноте/доступности изложения и словах вероятны упрощение пользовательской на- т. п.;

вигации, а также более четкое очерчивание про • анализ системой полученных на предыду блемной области. Данный подход позволит доста щем шаге от пользователя оценок и ранжирование в точно просто облегчить решение второй и третьей связи с полученными результатами пользователей задач.

по степени схожести взглядов в конкретной пред Скорее всего, в рамках решения первой задачи метной области.

потребуется построение мета-онтологии, вернее, В результате крайне необходимо иметь способ решением первой задачи и будет являться такая он измерения различия между онтологиями схожих тология.

предметных областей, ведь ранжирование всегда Использование подхода «социальной сети» по лежало в самом сердце получения информации. Это зволит решить как проблему наполнения данными, стало особенно заметно с расширением интернета, так и задачу расширения как мета-онтологии, так и когда Google стал использовать PageRank, основан онтологии в целом.

ный на анализе гиперссылок. Однако сложно пред Важными, но не первоочередными проблемами ставить себе настолько идеальный случай, что поль являются:

зовательские онтологии связаны между собой в час • выбор подходящих критериев «схожести» ти, отличающейся от базовой онтологии, а такая для понятий;

ситуация делает PageRank или его аналоги беспо • проблема самообучаемости системы или лезными.

интеллектуального ассистента в построении связей В данном случае необходимо, чтобы система между ссылками и возможном добавлении тегов к могла измерить различие между онтологиями раз ним;

личных пользователей и в случае достаточно не • решение задачи влияния «жаргона» на ре- больших различий в какой-то части выделить связи левантность поиска в силу превалирования над пер- и данные для пополнения.

воначальным значением. Для определения полноты онтологии O относи тельно онтологии О' (рис. 2) можно использовать 3.2 Ранжирование пользовательских онтологий методику, предложенную в [5]. Результатом может Решение поставленной выше задачи представля- являться набор ключевых слов или гиперссылок для пополнения, а методика, предложенная в [6, 7], по ется неполным без эффективного взаимодействия зволяет проводить сравнения онтологий как на син таксическом (с использованием меры редактирова- Литература ния Дамерау – Левенштейна), так и на семантиче [1] Еременко Т.В. Каталогизация ресурсов Интер ском уровнях.

нета: Опыт библиотек США// Электронные ре сурсы в библиотеках. – http://www.eril.ru/ magazine/archive/2004/1/theme/yeryomenko.php.

[2] Mika P. Ontologies are us: a unified model of so cial networks and semantics// 4th Int. Semantic Web Conf. – http://www.cs.vu.nl/~pmika/research/ papers/ISWC-folksonomy.pdf.

[3] Андреева О.А., Боровикова О.И., Булгаков С.В., Загорулько Ю.А., Сидорова Е.А. Циркин Б.Г., Холюшкин Ю.П. Археологический портал зна ний: содержательный доступ к знаниям и ин формационным ресурсам по археологии // Тру ды 10-й национальной конф. по искусственному Рис. 2. Соотношение онтологий интеллекту.

[4] Halpin H., Robu V., Shepherd H. The complex Благодаря указанным методикам становится dynamics of collaborative tagging// 16th Int. World возможным использование следующего алгоритма:

Wide Web Conf.

• используя расстояние Дамерау – Левен [5] Кучеренко Е.И., Павлов Д.А. О проблемах вы штейна, обнаруживаем похожие объекты в онтоло явления неполноты и избыточности в онтологи гиях пользователей;

ческих пространствах объектов исследования. – • учитывая полученные данные, производим http://shcherbak.net/protivorechivost/ (блог PhD C.

сравнение онтологий в рамках выделенных пред Щербака).

метных областей;

в итоге получаем онтологии поль [6] Maedche A., Staab S. Comparing ontologies – si зователей, ранжированные в порядке убывания milarity measures and a comparison study// Tech схожести с онтологией выбранного пользователя;

nical Report 408, University of Karlsruhe.

• несколько первых из полученных онтоло [7] Alani H., Brewster C. Metrics for ranking ontolo гий проверяются на полноту относительно зафикси gies// 15th Int. Conf. for World Wide Web, 2006. – рованной онтологии, а зафиксированная онтология Edinburgh, UK.

проверяется на полноту относительно них.

В итоге получаем набор онтологических данных Using ontologies for implementation для пополнения. Кроме того, полученные на на of the catalogue of user predilections чальном шаге данные могут быть использованы в дальнейшем при вводе новых ключевых слов для B.G. Tsirkin контроля или уточнения введенных пользователем данных (например, для проверки правописания или The article presents the way of organization of intellec уточнения контекста вводимого слова или выраже- tual information system as social bookmaking system ния). based on ontologies. The suggested solution is com pared with traditional library and with existing social 4 Заключение bookmaking systems.

This system is based on global ontology, which can Выбранное решение использовано для разработ- be extended by each user. In addition there should be ки прототипа интеллектуальной системы каталоги- interaction between user ontologies and data provided зации пользовательских закладок. by them.

Данная система предполагает расширение вве- It is assumed, that data on the portal is represented дённых пользователем данных путём обнаружения by hyperlinks, which are pointing to any information соответствий с данными, уже присутствующими в object. Each information object has a collection of tags системе. При этом расширение касается не только (or key expressions), and both a visual presentation of информационных объектов, но и описывающих их tag itself and its context can be used as a tag.

тегов. Таким образом, происходит расширение кон- Algorithm of data-mining for user ontology and hy текста, в котором информационный объект может perlinks is also one of the themes of this work.

быть рассмотрен в терминах пользователя. The paper also speaks about main problems and На данный момент главной нерешённой пробле- tasks, which are presenting the most difficult part of the мой является проблема выбора адекватной схемы implementation and portal organization.

визуализации набора тегов, с учётом омонимов и жаргона. Возможно, одним из наиболее удачных решений будет создание специальной «карточки» с указателем на понятие для каждого многозначного случая.

Использование марковской модели максимальной энтропии для задачи извлечения собственных имен из текста © М.А. Глазова Санкт-Петербургский государственный университет fruindic@inbox.ru ность применения метода марковской модели мак Аннотация симальной энтропии к задаче извлечения собствен Рассматривается решение задачи извлече- ных имен из текста, а также сформулировать набор ния собственных имен из английских тек- характеристических функций для рассматриваемой стов. Для решения задачи выбрана марков- задачи. Кроме того, необходимо получить результа ская модель максимальной энтропии. Этот ты применения данной методики на некотором документ включает в себя описание харак- множестве английских текстов и исследовать зна теристических функций, сформулирован- чимость каждой из сформулированных функций.

ных для используемого метода. Приведены Так как исследуемый метод относится к так назы результаты экспериментов по использова- ваемым методам машинного обучения, то возникает нию различных словарей и правил для ав- вспомогательная задача – разметка обучающего томатической разметки обучающего мно- множества. В рамках данной работы также стави жества. лась задача исследования возможности проведения автоматической разметки обучающего множества с 1 Введение использованием различных словарей.

В настоящее время основная масса информации 3 Обзор литературы хранится и обрабатывается в электронном виде.

Практика показывает, что большинство деловых Упомянутые выше методы подробно рассмотре поисковых задач в интернете в той или иной степе- ны в литературе. Приведем здесь лишь краткий об ни связано с поиском имен собственных: имен лю- зор.

дей, названий организаций и географических объек- В качестве примера применения метода регуляр тов и т. п. Правильно выделять и распознавать соб- ных выражений к поставленной задаче можно рас ственные имена необходимо и при компьютерном смотреть программную систему Inex [6]. В этой ста анализе текстов, решении аналитических задач из тье описывается способ построения регулярных области компьютерной разведки. К тому же, задача выражений для извлечения информации из текстов.

извлечения собственных имен из текста является Для этого используются знания о структуре текста и критически важной технологией для создания во- особенностях построения в нем предложений. Ре просно-ответных систем, систем информационного зультаты, приведенные в указанной статье, показы поиска и понимания документов. вают, что применение данного метода неэффектив Можно выделить два основных подхода, кото- но для текстов, структура которых не известна зара рые применяются при решении задачи извлечения нее. Также метод неприменим в случае, когда нет собственных имен из текста: четко поставленной задачи (например, найти побе • методы с использованием словарей и пра- дителя соревнований по легкой атлетике). В такой вил (метод регулярных выражений;

метод опорных ситуации трудно составить регулярное выражение, векторов (SVM));

которое охватит все возможные варианты решений.

• методы, основанные на статистике встре- В то же время, очевидно, что данная модель чаемости искомых слов (скрытые марковские моде- весьма эффективна при условии, что структура по ли (HMM);

условные случайные поля;

марковские строения текстов известна и задача четко сформу модели максимальной энтропии (MEMM)). лирована: при поиске решений мы четко представ ляем себе, какие данные нам необходимы.



Pages:     | 1 |   ...   | 17 | 18 || 20 | 21 |   ...   | 26 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.