авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 |   ...   | 13 | 14 || 16 | 17 |   ...   | 26 |

«Электронные библиотеки: Перспективные Методы и Технологии, Электронные коллекции English Труды RCDL 2010 ...»

-- [ Страница 15 ] --

Рис. 10. Совместное изображение отношения партономии и одного из ассоциативных отношений при помощи вложенных окружностей и силового алгоритма Второй метод построения комбинированного изображения отношений вложенности и ассоциа тивных отношений использует алгоритм иерархиче ских жгутов ребер [9]. Этот метод работает сле дующим образом. Сначала строится изображение дерева, соответствующего отношению вложенности Рис. 11. Отношение соавторства между исследова на выбранном классе объектов. Это дерево изобра телями, работающими в разных городах жается при помощи радиального или кругового ал горитма. Затем на изображение отношения парто Например, на рис. 11 изображено отношение со- эффективной визуализации классов, содержащих авторства между научными сотрудниками, рабо- большое количество объектов и отношений, необ тающими в разных городах. В качестве основы изо- ходимо дополнить существующие алгоритмы мето бражения используется круговое изображение дере- дами кластеризации и размещения кластеров. Во ва, соответствующего отношению Место- вторых, необходимо исследовать типы отношений, включает. Маленькие черные кружочки изобража- имеющихся в онтологии, и определить наиболее ют географические объекты, такие, как страны, го- эффективные методы визуализации как для опреде рода, поселки и т. д. Прямолинейные ребра между ленных типов отношений, так и для различных ти этими объектами соответствуют отношению вло- пов подграфов, выделяемых при анализе информа женности, т. е. ребро, соединяющее объект Россия с ционного наполнения портала знаний. И, в третьих, объектом Иркутск, соответствует факту, что Ир- для эффективной работы с информационным на кутск находится в России. Маленькие светлые кру- полнением портала необходима разработка специа жочки изображают исследователей, а прямолиней- лизированных методов анализа и верификации это ные ребра, соединяющие исследователей с геогра- го наполнения. При разработке первой версии под фическими объектами, соответствуют тому, что системы визуализации использовалась свободно исследователь проживает в указанном месте. Свет- распространяемая библиотека классов Java, назы лые криволинейные шлейфы изображают отноше- ваемая JUNG [8].

ния соавторства между исследователями из разных городов, а более тонкие и более темные шлейфы Литература показывают отношения сотрудничества одного вы [1] Апанович З.В. Методы навигации при визуа бранного исследователя. Таким образом, можно лизации графов// Вестник НГУ. – 2008. – Т. 6, видеть, что выбранный для анализа исследователь Вып. 3. – С. 35-47.

(Холюшкин) имеет соавторов в Новосибирске, [2] Загорулько Ю.А., Боровикова О.И., Холюшкин Санкт-Петербурге, Красноярске и др., но не имеет Ю.П. Построение предметной онтологии для соавторов в Москве. Это же изображение показыва археологического портала научных знаний// ет и некоторые недоработки при введении данных.

Информационные технологии в гуманитарных Например, все российские города располагаются на исследованиях. – 2006. – № 10.

окружности, центром которой является вершина с [3] Холюшкин Ю.П., Гражданников Е.Д. Систем названием Россия. Но город Москва расположен по ная классификация археологической науки периметру другой окружности. Значит, в базе дан (элементарное введение в науковедение). – Но ных не хватает информации о том, что Москва на восибирск, 2000. – 58 с.

ходится в России. Таким же способом можно иссле [4] Apanovich Z.V., Vinokurov P.S., Elagin V.А. An довать зависимость отношения сотрудничества ме approach to visualization of knowledge portal con жду исследователями, работающими в разных раз tent// Bulletin of NCC. – 2009. – Issue 29. – P. 17 делах науки, в различных научных организациях, 32.

применяющих разные методы исследования, и т. д.

[5] Barabasi A.-L. The origin of bursts and heavy tails in human dynamics// Nature. – 2005. – No 435. – Заключение P. 207-211.

Подсистема визуального анализа информаци- [6] Di Battista G., Eades P., Tamassia R., Tollis I.G.

онного наполнения порталов знаний опробована на Algorithms for drawing graphs: an annotated bibli примере тестовых данных, описывающих знания по ography // Computational Geometry, Theory and археологии, компьютерной лингвистике, а также Applications. – 1994. – No 4. – P. 235-282.

сайта кафедры Программирования ММФ, основан- [7] Ellson J., Gansner E.R., Koutsofios L., North S., ного на онтологии. Опытная эксплуатация подсис- Woodhull G. Graphviz. Open source graph drawing темы показала ее полезность при работе с реальны- tools proceedings//Graph Drawing. – 2002. – ми данными, она действительно позволяет обнару- P. 483-484.

живать некоторые недоработки и ошибки ручного [8] Fruchterman T.M.J., Reingold E.M. Graph drawing ввода в предоставленных данных, которые весьма by force-directed placement software //Practice and затруднительно обнаружить в текстовом представ- Experience. – 1991. – V. 21 (11). – P. 1129-1164.

лении знаний, а также при помощи стандартных [9] Holten D. Hierarchical edge bundles: Visualization методов навигации по большим графам. Разрабо- of adjacency relations in hierarchical data // Trans танная подсистема визуализации может быть полез- actions on Visualization and Computer Graphics. – на как на этапе разработки онтологии информаци- 2006. – V. 5 (12). – P. 741-748.

онного портала, так и в процессе всего жизненного [10] Kamada T., Kawai S. An algorithm for drawing цикла портала, упрощая тестирование и анализ ин- general undirected graphs// Information Processing формационного наполнения портала знаний. Letters. – 1989. – V. 31. – P. 7-15.

Эксперименты с визуализацией информацион- [11] Katifori A., Torou E., Halatsis C., Lepouras G., ного наполнения портала знаний показали необхо- Vassilakis C. A comparative study of four ontology димость дальнейшего развития подсистемы визуа- visualization techniques in Protege: experiment se лизации в нескольких направлениях. Во-первых, для tup and preliminary results//Proc. of the Conf. on Information Visualization. – 2006. – P. 417-423.

[12] Katifori A., Halatsis C., Lepouras G., Vassilakis C., Giannopoulou E. Ontology visualization methods – a survey//ACM Comput. Surv. – 2007. – V. 39 (4).

[13] Madahain J.O., Fisher D., Smyth P., White Sс., Boey Y-B. Analysis and visualization of network data using Jung// J. of Statistical Software, VV(II).

[14] Newman M.E.J., Girvan M. Finding and evaluating community structure in networks// Physical Re view, E. – 2004. – P. 69.

[15] Sure Y., Erdmann M., Angele J., Staab S., Studer R., Wenke D. OntoEdit: collaborative ontology de velopment for the Semantic Web// Proc. of the first Int. Semantic Web Conference, June 9 – 12 2002, Sardinia, Italia.

[16] Wuchty S. Jones B., Uzzi B. The increasing domi nance of teams in production of knowledge// Sci ence Express. – 2007. – No 5827 (316). – P. 1036 1039.

A flexible subsystem of ontology and content of knowledge portals visualization throughout their life cycle Z.V. Apanovich, P.S. Vinokurov, T.A. Kislicina The process of development of an ontology-based knowledge portal and creation of its content is time consuming and labor-intensive. The life cycle of such portals is sufficiently long and they collect plenty of valuable information. This paper describes a subsystem for visual analysis of content of ontology-based knowl edge portals during their life cycle. This analysis is based on a flexible decomposition strategy. Browsing of the content of a knowledge portal is organized as a mul tilevel stepwise process. Appropriate placement algo rithms are used at each step of this process. They take into account certain types of ontological relations and their combinations.

Работа выполнена при финансовой поддержке РФФИ (проект 09-0700400) и РАН (проект 2/12) Благодарности. Авторы выражают благодарность Ю.А.

Загорулько и С.В. Булгакову за предоставленные тесто вые данные в xml-формате Автоматизация процесса извлечения онтологической информации из вербальных терминологических словарей (на примере терминологического словаря задачи межзвездного поглощения) © К.К. Боярский1, Е.А. Каневский1, Г.В. Лезин1, Л.А. Калиниченко2, Н.А. Скворцов Санкт-Петербургский экономико-математический институт РАН Институт проблем информатики РАН, г. Москва kirill@eu.spb.ru, {kanev, lezin}@emi.nw.ru, {leonidk, nskv}@ipi.ac.ru Терминологические словари по своей природе Аннотация онтологичны. Автоматическое выявление структур Рассматривается задача построения онтоло- ных взаимосвязей между терминами, как явно за гической модели предметной области по ее данных в словаре их определениями, так и скрытых, спецификации, заданной терминологиче- выявляемых в результате анализа явно заданных ским словарем. Алгоритмы извлечения он- связей, может быть одинаково полезным как при тологической информации из терминологи- создании нового словаря [4], так и при его исполь ческого словаря задаются набором продук- зовании при формировании и пополнении онтоло ционных правил, применяемых к результа- гий [3].

ту семантико-синтаксического анализа де- В рамках исследовательского проекта создания финиций словаря. Разработана программа новой информационной технологии решения задач интерпретации таких правил и проведен над множеством интегрируемых неоднородных эксперимент по разработке правил и их распределенных информационных ресурсов [5] применению для небольшого узкоспеци- предлагается новое направление использования ального словаря. В докладе приводится терминологических словарей – как источников ин предварительный анализ результатов экс- формации для построения исходных спецификаций перимента. предметных областей. Конечной целью построения спецификации является получение концептуальной 1 Введение модели предметной области. В этой модели наряду со статичными связями понятий, свойственными Задача автоматического извлечения и формали онтологической модели, фиксируются также и ме зации знаний, содержащихся в терминологических тоды работы с понятиями, описывающие поведение словарях, привлекает внимание исследователей уже экземпляров понятий в различных условиях. Речь достаточно давно [1 – 3]. Терминологические сло идет о переходе от онтологической модели пред вари, и общие энциклопедические, и ориентирован метной области к модели, описывающей предмет ные на описание отдельных предметных областей, и ную область в терминах абстрактных типов данных узкоспециализированные для той или иной области [6]. Явно выявляется последовательность действий:

человеческой деятельности, в совокупности обра • определение терминологического словаря, зуют обширнейший свод знаний людей о мире. Ин специфицирующего термины предметной области;

формация в словарях так или иначе структурирова • построение онтологической модели пред на, тексты толкований терминов, прошедшие редак метной области по результатам анализа терминоло торскую экспертизу, как правило, достаточно строго гического словаря и извлечения из него онтологиче соответствуют нормам естественного языка. Рефе ской информации;

ренциальная связность текстов разных определений • преобразование полученной онтологиче проявляется, главным образом, на уровне использо ской модели в концептуальную модель.

вания общей терминологии. Тексты словарей, в ос Для проверки жизнеспособности предложенного новном, доступны для применения современных подхода был проведен сравнительно небольшой методов прикладного лингвистического анализа.

эксперимент. В качестве экспериментальной была выбрана достаточно узкая астрономическая задача Труды 12й Всероссийской научной конференции мезвездного поглощения. Задача специфицирова «Электронные библиотеки: перспективные методы и лась набором из 68 астрономических терминов. Да технологии, электронные коллекции» – RCDL’2010, лее вручную были построены онтологическая и вы Казань, Россия, 2010 водимая из нее концептуальная модели задачи. Сле дующим шагом эксперимента была разработка про- ях использования), то вторые приходится разраба граммы, автоматизирующей процесс извлечения тывать и уточнять для каждой новой предметной онтологической модели из текстов терминологиче- области. Доступность системы правил для правки (в ского словаря. Доклад посвящен описанию методов нашем случае – разработчиком онтологии) – одна из и оценке результатов этого шага в общем экспери- фундаментальных особенностей всех программ, менте. ориентированных на выделение значимой инфор На данном этапе исследований мы наложили до- мации из текстов на естественном языке.

вольно существенные ограничения на анализируе- В. Применение правил к текстам вербальных оп мые тексты: ределений терминологического словаря. Конечным а) сочли возможным ограничить определение результатом этой работы является формальный одним предложением и исключили из анализируе- текст онтологии, связывающей исходный набор мых предложений анафорические отношения;

терминов в сеть отношений между терминами. По б) не анализируем референциальный статус тер- лученный текст представлен на стандартом фор мина в текстах, считая «по определению», что тер- мальном языке (на языке OWL) и может быть вве мином всегда обозначен класс, причем класс, никак ден в стандартный онторедактор для последующего не связанный с общей системой понятий естествен- анализа и правки.

ного языка;

в этих условиях мы считаем, что пол- Получение конечного результата связано выпол ный список классов целевой онтологии образован нением большого объема итераций:

фактически заданным перечнем определяемых тер- – правится исходный текст определений для по минов и наша задача – выявить и конкретизировать лучения приемлемой интерпретации его имеющи отношения между терминами;

мися правилами;

в) общий контекст терминологического словаря – уточняются и пополняются правила интерпре образован исключительно списком определяемых тации текстов, т. е. фактически ведется отладка пра терминов;

каждое из вербальных определений ана- вил.

лизируется независимо от содержания других опре- Общая структура программной системы, реали делений;

получаемый формальный результат анали- зующей рассмотренный подход, представлена на за не зависит от порядка обработки определений;

рис. 1. В основе системы лежит семантический сло г) в качестве формального языка для представ- варь русского языка, поставляющий полную (мор ления целевой онтологии мы используем OWL в фологическую, синтаксическую и семантическую) упрощенном L-диалекте [7]. информацию о лексических значениях слов. С се Далее будут рассмотрены: общий подход к ре- мантическим словарем сопряжен семантико шению задачи;

семантика правил, используемых в синтаксический анализатор русских предложений.

процессе анализа определений;

основные результа- Мы в нашей работе используем словарь и анализа ты. тор, разработанные В.А. Тузовым [8]. Нужно отме тить, что классификатор лексических значений слов, разработанный В.А. Тузовым, не вполне соот 2 Общий подход ветствует современным онтологическим требовани Четко выделяются три этапа решения задачи. ям, поскольку разрабатывался прежде всего для А. Семантико-синтаксический анализ исходного нужд семантико-синтаксического анализа предло варианта текстов вербальных определений. В ре- жений. В связи с этим в нашей работе лексический зультате каждому из предложений текста сопостав- классификатор В.А. Тузова дополняется лексически ляется дерево семантико-синтаксических связей согласованным с ним фрагментом универсальной между словами предложения (дерево разбора). На онтологии естественного языка, структурно анало этом же этапе выделяются словосочетания, обра- гичной онтологии, разрабатываемой в проекте зующие термины терминологического словаря. Вы- DOLCE [9].

деленные словосочетания сливаются в узлы дерева. Результат работы семантико-синтаксического В результате каждому из вхождений термина в раз- анализатора, а также текстовое представление ре бираемое предложение, независимо от количества зультата как исходный материал для последующей образующих этот термин слов, в дереве разбора со- обработки лучше всего рассмотреть на примере.

ответствует один узел. Пример 1. На рис. 2 показано визуальное пред Б. Разработка системы правил, вычленяющих из ставление дерева разбора, полученное в результате текста вербального определения онтологически зна- семантико-синтаксического анализа предложения чимую информацию. В принципе общий комплекс «Галактическая широта – одна из двух галак правил может содержать как правила достаточно тических координат, измеренная от плоскости га общего плана, использование которых практически лактики к объекту».

не зависит от особенностей конкретной предметной Приведенное на рис. 2 дерево разбора отобража области, так и правила, ориентированные на кон- ет также и результаты постсинтаксической обработ текст конкретной предметной области анализируе- ки: выделены узлы, которым соответствуют терми мого терминологического словаря. И если первые ны исходного терминологического словаря;

предло могут быть разработаны однократно (хотя и они ги слиты с опорными словами предложных групп.

могут потребовать подстройки в конкретных случа Галактическая широта !ЭтоЕсть одна_из !Какой !Род двух измеренная !Род !Ото !кДат галактических координат к_объекту от_плоскости !Род галактики Рис. 2. Пример визуального представления дерева разбора Набор триплетов, представляющий результат мации из дерева разбора. Решающим ограничиваю разбора (см. рис. 2): щим фактором здесь является максимальная «от крытость» алгоритма извлечения, возможности его «Галактический широта» ЭтоЕсть «одна_из».

пополнения и уточнения разработчиками конкрет «одна_из» Какой «измеренная»;

Род «двух».

ных онтологий на этапах практического создания «двух» Род «Галактический координата».

терминологического словаря.

«измеренная» Ото «от_плоскости»;

кДат В результате мы остановились на методе, сутью «к_объекту».

которого является многошаговая трансформация «от_плоскости» Род «галактика».

исходного дерева разбора в дерево, представляющее Кавычками выделены константные значения собой фрагмент онтологии терминологического имен узлов дерева разбора, курсивом – имена син словаря. Трансформация подчинена системе правил.

таксических связей, жирным шрифтом – термины.

Каждый шаг трансформации является результатом В данном материале мы используем простей применения одного правила из общего списка.

шую, интуитивно понятную форму записи трипле тов, отказавшись от ряда возможностей, предостав 3 Семантика правил ляемых стандартными языками описания сетей (на пример, RDF [10]). Трансформационное правило имеет вид продук Примечание к примеру: ции и состоит из двух частей:

– словосочетание «одна_из» в виде единого узла – решающей части, которая содержит условия сформировано анализатором В.А. Тузова;

применимости правила;

– словосочетания «от_плоскости» и «к_объекту» – исполнительной части, содержащей последо получены в результате постсинтаксической обра- вательность действий по преобразованию текущего ботки результата синтаксического анализа. вида и (или) состояния дерева разбора в новый вид Ключевым моментом наших исследований стал (состояние).

выбор метода извлечения онтологической инфор- Решающая часть правила содержит:

– указание опорного узла дерева разбора, в кон- Отметим, что синтаксический анализатор тексте которого возможно применение данного пра- В.А. Тузова для словосочетания #W3 = «одна_из»

вила;

вырабатывает ЧАСТЬРЕЧИ(#W3)= Сущ.

– указание, если это необходимо, контекста это- Результатом применения правила является набор го опорного узла на дереве разбора, для которого триплетов данное правило может считаться подходящим;

…«одна_из» Какой «измеренная»;

Род «Галакти – указание, если это необходимо, свойств (мор- ческий координата»;

Род «двух» … фологических и семантических), которым должны Высказывание о свойствах узлов контекста пра удовлетворять узлы (все или некоторые) из заданно вила представляет собой стандартное И/ИЛИ логи го контекста.

ческое выражение, атомарными элементами которо Деревом разбора представлены подчинительные го являются предикаты, характеризующие тот или связи между словами предложения. В этих условиях иной узел W. Использовались, например, следую действует общий принцип, согласно которому се щие предикаты:

мантика слова, сопоставленного узлу дерева разбо КЛАСС(#W) = имя класса универсальной онто ра, должна устанавливаться только после того, как логии, к которому относится лексема слова, сопос установлена семантика подчиненных ему слов. Со тавленного узлу W дерева разбора;

ответственно, направление анализа дерева разбора – ЧАСТЬРЕЧИ(#W)={Сущ, Прил, МС-С (место от листьев к корню.

именное сущ.), Глаг, МC_П (местоименное прил.), Введены два принципиально разных вида пра Прич, Деепр, Числ (количеств.), ЧислП (порядк.), вил:

Союз, Нареч};

– T-правила, применяемые к очередному не об ЗНАЧАЩИЙ(#W) != 0 – узлу W сопоставлен работанному исходящему триплету опорного узла термин исследуемого терминологического словаря;

дерева разбора;

ЛИСТ(#W) != 0 – узел W – лист на дереве разбо – N-правила, применяемые к опорному узлу ра в его текущем состоянии.

только после того, как все исходящие триплеты это Функции, из которых набирается последова го узла оказались обработанными T-правилами.

тельность трансформаций в продукционной части Синтаксически правило оформляется в виде правил:

именованного блока информации, атрибутом кото УДАЛИТЬ(триплет) – удаление триплета, осу рого определяется T- или N-тип этого правила:

ществляемое этой функцией не должно нарушать имя_правила ТИП={T|N} связность дерева разбора;

решающая часть правила = ВСТАВИТЬ(триплет) – субъектом вставляемо исполнительная часть го триплета должен быть один из узлов контекста / имя_правила правила;

Правило имеет вид шаблона, переменные кото ЗНАЧАЩИЙ(W) != 0 – узел W помечается как рого определены на множестве узлов дерева разбо термин.

ра. Для обозначения переменных используются бу Приведенный список предикатов и функций не квы латинского алфавита с префиксом ' # '.

является исчерпывающим. Здесь приведено лишь то, что используется далее в примерах Пример 2. T-правило:

Отметим, что каждый из узлов и триплетов де ЧислРодРод ТИП = "T" рева разбора в любой момент его обработки может #W1 Род #W2 & #W3 Род #W1 & находиться в одном из двух состояний, условно ЧАСТЬРЕЧИ(#W1)= Числ & обозначенных как «обработан» или «не обработан».

ЧАСТЬРЕЧИ(#W3)= Сущ & При этом имеются достаточно жесткие ограничения СЛОВО(#W3)=*_из & на использование триплетов в решающих частях ЗНАЧАЩИЙ(#W2) != 0 = правил:

ВСТАВИТЬ(#W3 Род #W2);

1) Граф, представляемый набором триплетов в УДАЛИТЬ(#W1 Род #W2) решающей части любого правила, должен быть /ЧислРодРод связным.

2) Триплет, заданный первым в T-правиле, дол Правило применимо, например, к фрагменту жен быть исходящим из опорного узла и находиться текста (см. рис. 2) «… одна из двух галактических перед применением правила в состоянии «не обра координат, измеренная …», представленного на ботан», а узел, к которому направлен этот триплет, дереве разбора набором триплетов – в состоянии «обработан». В контексте T-правила … «одна_из» Какой «измеренная»;

Род «двух». можно использовать лишь триплеты, принадлежа «двух» Род «Галактический координата» … щие пути из опорного узла к корню дерева разбора.

Опорным узлом для правила является W1 = 3) Опорный узел, заданный первым триплетом «двух». При этом W2 = «Галактический коорди- N-правила, должен находиться в состоянии «не об ната», W3 = «одна_из», причем часть речи W1 – работан». В контексте правила могут быть исполь числительное, а значением W2 является один из зованы только исходящие из опорного узла трипле определяемых терминов терминологического сло- ты, имеющие состояние «обработан», а также три варя.

плеты, принадлежащие пути из опорного узла к ЧАСТЬРЕЧИ(#W1) = Прич & корню дерева разбора. КЛАСС(#W1) = ОпределениеПараметров & Два вида правил образуют пару строго упорядо- ЗНАЧАЩИЙ(#W2) != 0 & ченных списков: Т-список и N-список. Применение ЧАСТЬРЕЧИ(#W3) = Сущ = правил из N-списка в отношении заданного опорно- ВСТАВИТЬ(#W3 этоПараметр #W2);

го узла дерева разбора начинается строго после то- УДАЛИТЬ(#W1 кДат #W2) го, как исчерпаны возможности применения к этому /кДатЗнач опорному узлу правил из Т-списка. Поиск подходя щего правила в любом из списков всегда начинается Какой ТИП = "T" с начала списка и осуществляется до первого под- #W1 Какой #W2 & (ЧАСТЬРЕЧИ(#W2) = Прил OR ходящего правила. Продукционная часть найденно- ЧАСТЬРЕЧИ(#W2) = Прич OR го правила исполняется, и следующий поиск снова ЧАСТЬРЕЧИ(#W2) = МС-П) & начинается с начала. ЗНАЧАЩИЙ(#W2) = 0 = УДАЛИТЬ(#W1 Какой #W2) Пример 3. В этом примере мы покажем процедуру /Какой применения правил к дереву разбора, представленному на рис. 2. ЭтоОдна ТИП = "T" #W1 Род #W2 & #W3 ЭтоЕсть #W1 & А) Набор триплетов, представляющий исходное ЗНАЧАЩИЙ(#W2) != 0 & дерево разбора:

КЛАСС(#W1) = Число & СЛОВО(#W1) = *_из = «Галактический широта» ЭтоЕсть «одна_из».

ВСТАВИТЬ(#W3 subClassOf #W2);

«одна_из» Какой «измеренная»;

Род «двух».

УДАЛИТЬ(#W1 Род #W2) «двух» Род «Галактический координата».

/ЭтоОдна «измеренная» Ото «от_плоскости»;

кДат «к_объекту».

один_изПараметр ТИП = "T" «от_плоскости» Род «галактика».

#W1 этоПараметр #W2 & #W3 ЭтоЕсть #W1 & Б) Список правил, применимых для данного на- СЛОВО(#W1) = *_из & бора триплетов: ЗНАЧАЩИЙ(#W3) != 0 & ЧислРодРод ТИП = "T" НАЧАЩИЙ(#W2) != 0 = #W1 Род #W2 & #W3 Род #W1 & ВСТАВИТЬ(#W3 этоПараметр #W2);

ЧАСТЬРЕЧИ(#W1)= Числ & УДАЛИТЬ(#W1 этоПараметр #W2) ЧАСТЬРЕЧИ(#W3)= Сущ & /один_изПараметр СЛОВО(#W3)=*_из & ЗНАЧАЩИЙ(#W2) != 0 = ЭтоЕстьНов1 ТИП = "N" ВСТАВИТЬ(#W3 Род #W2);

#W1 ЭтоЕсть #W2 & ЗНАЧАЩИЙ(#W1) != 0 & УДАЛИТЬ(#W1 Род #W2) ЗНАЧАЩИЙ(#W2) = 0 & /ЧислРодРод КЛАСС(#W2) != ПАРАМЕТРЫ = ЗАМЕНИТЬ(#W1 ЭтоЕсть #W2, #W1 Это #W2);

РодЧисл ТИП = "T" СЛОВО(#W2)= Class;

#W1 Род #W2 & ЗНАЧАЩИЙ(#W2) = 0 & ЛЕММА(#W2)= Class КЛАСС(#W1) = Число = /ЭтоЕстьНов УДАЛИТЬ(#W1 Род #W2) /РодЧисл ТИП В) Пошаговый протокол преобразования исход ного дерева разбора.

РодНезн1 ТИП = "T" Шаг 1. Обрабатываемый триплет: «двух» Род #W1 Род #W2 & ЧАСТЬРЕЧИ(#W1) = Сущ & «Галактический координата». Применяется правило КЛАСС(#W1) != Совокупность & "ЧислРодРод":

ЗНАЧАЩИЙ(#W1) = 0 & W1 = «двух»;

W2 = «Галактический координа ЧАСТЬРЕЧИ(#W2) = Сущ = та»;

W3 = «одна_из».

УДАЛИТЬ(#W1 Род #W2) Результат применения правила:

/РодНезн1 «Галактический широта» ЭтоЕсть «одна_из».

«одна_из» Какой «измеренная»;

Род «двух»;

Ото1 ТИП = "T" Род «Галактический координата».

#W1 Ото #W2 & (ЧАСТЬРЕЧИ(#W1) = Прич OR «измеренная» Ото «от_плоскости»;

ЧАСТЬРЕЧИ(#W1) = Глаг)& кДат «к_объекту».

ЗНАЧАЩИЙ(#W2) = 0 = «от_плоскости» Род «галактика».

УДАЛИТЬ(#W1 Ото #W2) (Связь 'Род «Галактический координата»' пе /Ото1 реброшена с узла «двух» на узел «одна_из»).

кДатЗнач ТИП = "T" Шаг 2. Обрабатываемый триплет «одна_из» Род #W1 кДат #W2 & #W3 Какой #W1 & «двух». Правило "РодЧисл":

W1 = «одна_из»;

W2 = «двух»;

Правило "ЭтоОдна":

Результат: W1= «одна_из»;

«Галактический широта» ЭтоЕсть «одна_из». W2= Галактический координата;

«одна_из» Какой «измеренная»;

W3= Галактический широта.

Род «Галактический координата». Результат:

«измеренная» Ото «от_плоскости»;

«Галактический широта» ЭтоЕсть «одна_из»;

кДат «к_объекту». subClassOf «Галактический координата».

«от_плоскости» Род «галактика». «одна_из» этоПараметр «объект».

(Триплет «одна_из» Род «двух» удален.) (Добавлен триплет:

«Галактический широта» subClassOf «Галак Шаг 3. Обрабатываемый триплет: тический координата» и удален «от_плоскости» Род «галактика». «одна_из» Род «Галактический координата»).

Правило "РодНезн1":

W1 = «от_плоскости»;

W2 = «галактика». Шаг 8. Обрабатываемый триплет:

Результат: «одна_из» этоПараметр «объект» в контексте «Галактический широта» ЭтоЕсть «одна_из». «Галактический широта» ЭтоЕсть #W1.

«одна_из» Какой «измеренная»;

Правило "один_изПараметр":

Род «Галактический координата». W1= одна_из;

«измеренная» Ото «от_плоскости»;

W2= «объект»

кДат «к_объекту». W3= «Галактический широта».

(Удален триплет Результат:

«от_плоскости» Род «галактика»). «Галактический широта» ЭтоЕсть «одна_из»;

Примечание: безусловно правильным было бы subClassOf «Галактический координата»;

этоПа не исключать триплет, а установить эквивалент- раметр «объект».

ность "плоскость галактиктики" = "галактическая плоскость" и, как следствие, получить зависимость Шаг 9. Правилом "ЭтоЕстьНов1" термин «Га галактической координаты от галактической плос- лактический широта» объявляется классом и уда кости, но в данном состоянии интерпретатора пра- ляется триплет вил мы, к сожалению, не умеем выявлять эту доста- «Галактический широта» ЭтоЕсть «одна_из».

точно распространенную перифразировку. Окончательный результат:

«Галактический широта» Это Class;

subClas Шаг 4. Обрабатываемый триплет: sOf «Галактический координата»;

этоПараметр «измеренная» Ото «от_плоскости» «объект».

Результат применения правила "Ото1":

триплет удален. Полученный результат легко может быть преоб разован в запись на языке OWL и представляет со Шаг 5. Обрабатываемый триплет: бой фрагмент онтологии, извлекаемой из термино «измеренная» кДат «к_объекту». логического словаря:

Правило "кДатЗнач": ont:Галактический_широта W1= «измеренная»;

W2= «к_объекту». rdf:type owl:Class;

Результат: rdfs:subClassOf «Галактический широта» ЭтоЕсть «одна_из». ont:Галактический_Координата;

«одна_из» Какой «измеренная»;

rdfs:subClassOf [owl:Restriction;

Род «Галактический координата»;

owl:onProperty ont:_объект;

этоПараметр «объект». owl:allValuesFrom ont:Объект].

(Вставлен триплет Отметим, что в процессе преобразования исход «одна_из» этоПараметр «объект», и удален ное свойство с_Параметром было конкретизирова триплет «измеренная» кДат «к_объекту»). но стандартным переименованием, использующим имя класса, полученного в качестве области значе Шаг 6. Обрабатываемый триплет: ний этого свойства.

«одна_из» Какой «измеренная»

Результат применения правила "Какой" - три- 3 Основные результаты плет удален и:

3.1. Оценивая результат нашей работы, можно «Галактический широта» ЭтоЕсть «одна_из».

по-видимому говорить о достаточно четко просмат «одна_из» Род «Галактический координата»;

риваемой технологии разработки терминологиче этоПараметр «объект».

ского словаря, если, конечно, речь идет о создании терминологического словаря одновременно с сопут Шаг 7. Обрабатываемый триплет:

ствующей ему онтологией. Говоря точнее, мы в на «одна_из» Род «Галактический координата»

шей работе исходили из предположения, что к мо в контексте менту начала работы общий список терминов уже «Галактический широта» ЭтоЕсть «одна_из»

составлен и для каждого из терминов подобрано ниченного) терминологического словаря оказалась вербальное определение. Какой-либо программной достаточной информация о принадлежности значе поддержкой этого этапа работы мы не занимались. ния слова к одному из корневых или близких к кор Далее следует рассматриваемый в докладе этап: невым классам универсальной онтологии. Среди автоматизированное выявление системы онтологи- востребованных можно отметить классы физиче ческих отношений между отобранными терминами ских объектов, абстрактных объектов, качеств, а и оформление выявленных отношений в виде фор- также класс состояний и процессов.

мальной онтологии. К классу качеств, например, относятся значения 3.1.1. Работа начинается с предварительной об- общих слов – «свойство», «атрибут», «параметр», и работки исходного терминологического словаря. более частные – «светимость», «яркость», «темпе Цели: ратура», «протяженность».

– пополнение исходного семантического словаря К классу состояний и процессов относятся, пре описаниями новой, используемой в исходных тек- жде всего, глаголы и отглагольные существитель стах лексики;

ные. В этом классе выделяются подклассы слов, – получение списка терминов в виде отдельного обозначающих вневременные состояния (стативы), информационного ресурса. например, «определять», «характеризовать», и аген 3.1.2. Далее ведется индивидуальная работа с тивные процессы с явно выраженным объектом воз каждым из определений. Итеративный цикл работы действия («измерять», «вычислять»).

с конкретным определением включает: К классу абстрактных объектов относятся, на 3.1.2.1. Оценку результата семантико-синтак- пример, значения слов «скаляр», «число», «величи сического анализа определения по его визуализа- на», а также такие словосочетания, как «разность ции. Подбор подходящей редакции определения в между», «среднее значение».

случае неудовлетворительного разбора. Всего в определениях терминологического сло 3.1.2.2. Автоматическую трансформацию исход- варя использовано 237 различных слов. Указание ного дерева разбора по имеющейся системе правил класса потребовалось для 48 слов. Общее количест (может быть хорошо поддержана программными во востребованных классов равно 17.

средствами, разработан вариант такой программы).

Оценку результата: при необходимости – либо ре- Литература дактирование исходного определения, либо попол [1] Gomez F., Hull R., Segami C. Acquiring knowl нение системы правил.

edge from encyclopedic texts. – http://acl.ldc.

3.1.2.3. Преобразование результата трансформа upenn.edu/A/A94/A94-1014.pdf.

ции к представлению в виде онтологии (пример та [2] Brewster C. Techniques for automated taxonomy кого преобразования в докладе есть, см. пример 3).

building: Towards ontologies for knowledge man Подсоединение полученного фрагмента к общей agement. – http://eprints.aktors.org/129/01/ Brew онтологии терминологического словаря. Оценка sterCLUK02. pdf.

результата: при необходимости – либо редактиро [3] Рубашкин В.Ш., Капустин В.А. Использование вание онтологии, либо пополнение системы правил.

определений терминов в энциклопедических 3.2. Оценка объема и состава правил. Всего для словарях для автоматизированного пополнения анализа заданного терминологического словаря по онтологий // В сб.: «Языковая инженерия: в по требовалось 123 правила. Из них 51 правило было исках смыслов». Доклады семинара «Лингвис использовано два и более раз;

72 правила были ис тические информационные технологии в Ин пользованы однократно.

тернете»: ХI Всерос. объединенная конф. «Ин Все правила, будучи ориентированными на зада тернет и современное общество». – СПб., 2008.

чу онтологического анализа терминологических – С. 32-39.

словарей, вместе с тем имеют достаточно общий [4] Лукашевич Н.В., Салий А.Д., Добров Б.В. Ис характер и не зависят от специфики конкретной пользование компьютерных технологий для предметной области (в нашем случае это задача экспертизы терминологического словаря в об межзвездного поглощения).

ласти государственного финансового контроля Необходимо отметить жесткую связь между сис // Компьютерная лингвистика и интеллектуаль темой правил и используемым семантико ные технологии: Труды межд. конф.

синтаксическим анализатором. Связь эта проявляет Диалог'2005 (Звенигород, 1 – 6 июня 2005 г.).

ся как в общей номенклатуре имен связей, постав [5] Брюхов Д.О., Вовченко А.Е., Захаров В.Н., Же ляемых анализатором, так и в свойственном анали ленкова О.П., Калиниченко Л.А., Марты затору методе конфигурирования дерева разбора.

нов Д.О., Скворцов Н.А., Ступников С.А. Архи 3.3. Оценка объема необходимой лексикографи тектура промежуточного слоя предметных по ческой информации, поставляемой семантическим средников для решения задач над множеством словарем.

интегрируемых неоднородных распределенных При определении правил оказалась востребован информационных ресурсов в гибридной грид ной в полном объеме морфологическая информация инфраструктуре виртуальных обсерваторий.

и в меньшей степени – семантика лексических зна чений слов. Для рассматриваемого (и сильно огра //Информатика и её применения. – 2008. – Т. 2, Вып. 1. – С. 2-34.

[6] Скворцов Н.А., Ступников С.А. Использование онтологии верхнего уровня для отображения информационных моделей // Труды 10-й Все рос. науч. конф. «Электронные библиотеки:

перспективные методы и технологии, электрон ные коллекции» – RCDL’2008, Дубна, Россия, 2008. – С. 122-127.

[7] OWL Web Ontology Language Guide. W3C Rec ommendation 10 February 2004. – http://www.

w3.org/TR/2004/REC-owl-guide-2004021.

[8] Тузов В.А. Компьютерная семантика русского языка. – СПб.: Изд-во СПб ГУ, 2004. – 400 с.

[9] Masolo C., Borgo S., Gangemi A., Guarino N., Oltramari A., Schneider L. DOLCE: a Descriptive Ontology for Linguistic and Cognitive Engineering // DOLCE documentation. – http://www.loa-cnr.it/ DOLCE.html.

[10] RDF Primer. W3C Recommendation 10 February 2004. – http://www.w3.org/TR/2004/REC-rdf primer-20040210/.

Automation of process of extraction of the ontological information from verbal terminological dictionaries (on the example of the terminological dictionary of the problem of interstellar extinction) K.K. Boyarsky, E.A. Kanevsky, G.V. Lezin L.A. Kalinichenko, N.A. Skvortsov In the article the problem of construction of ontological model of a subject domain under its specification set by the terminological dictionary is considered. Algorithms of extraction of the ontological information from the terminological dictionary are set by a collection of the production rules applied to result of the semantic syntactical analysis of definitions of the dictionary. The program of interpretation of such rules is developed and experiment on working out of rules and their applica tion for the small highly specialized dictionary is made.

In the article the preliminary analysis of results of ex periment is described.

О задачах создания систем для поддержки проведения научных конференций © А.Е. Гуськов Институт вычислительных технологий СО РАН, г. Новосибирск guskov@ict.nsc.ru Объектом автоматизации являются бизнес Аннотация процессы, связанные с проведением конференции.

Рассматриваются задачи, возникающие при Как правило, к основным бизнес-процессам отно создании современных средств комплексной сятся:

поддержки проведения научных конферен- • подготовка веб-сайта конференции и управле ций. Основной акцент сделан на вопросы, ние его содержимым;

связанные с качеством сбора регистрацион- • регистрация заявок участников;

ных данных и информационным обеспече- • рецензирование и отбор докладов;

нием участников. Отдельно рассматривается • формирование и публикация программы конфе задача построения интегрированного ката ренции;

лога научных событий.

• формирование сборника трудов конференции.

Примечательно, что каждая конференция имеет 1 Введение свои особенности, поэтому в каждом случае струк тура бизнес-процессов или требования к информа На сегодняшний день регулярное проведение ционному сопровождению могут быть различными.

конференций (а также семинаров, совещаний, сим Поэтому существенным требованием к системам позиумов и других мероприятий) является неотъем поддержки также является возможность гибкой на лемой частью научно-организационной деятельно стройки под задачи конкретной конференции.

сти для большинства исследовательских институтов.

Исторически, системы поддержки конференций Качество проведения таких мероприятий и затрачи решали задачи регистрации и рецензирования док ваемые на это усилия в немалой степени определя ладов [7]. При этом остальные бизнес-процессы и ются вспомогательными техническими и программ задачи информационного обеспечения долго остава ными средствами, которые используют их организа лись без внимания.

торы. В данной работе будут рассмотрены системы Целью данной работы является исследование поддержки проведения научных конференций, кото проблем, связанных с созданием системы поддерж рые можно определить как программные комплексы, ки конференций, отвечающей разнообразным по которые предназначены для решения задач, связан требностям организаций, и способов их решения.

ных с:

Сразу отметим, что будут рассмотрены только те • повышением качества информационного вопросы, существующие решения которых не могут сопровождения конференции;

считаться полноценными.

• автоматизацией работы организаторов кон ференции.

2 Требования к системам поддержки Расшифруем содержание этих целей. Под повы научных конференций шением качества информационного сопровождения в первую очередь подразумеваются создание и под Прежде всего, необходимо уточнить место рас держание в актуальном состоянии сайта конферен сматриваемого класса систем в рамках их общепри ции, возможность для организаторов сбора всей не нятой классификации. Несомненно, системы под обходимой информации об участниках конференции держки проведения научных конференций относятся при их регистрации. При этом важным аспектом к классу систем управления содержимым (CMS – является эргономичность пользовательских интер Content Management Systems) – программ, исполь фейсов, которая, в частности, выражается в возмож зуемых для обеспечения и организации совместного ности участникам и организаторам мероприятия процесса создания, редактирования и управления получить необходимую информацию с минималь текстовыми и мультимедиа документами [15]. Класс ными усилиями.

CMS-систем делится на несколько основных под классов:

Труды 12й Всероссийской научной конференции • WCMS – системы управления веб «Электронные библиотеки: перспективные методы и содержимым;

технологии, электронные коллекции» – RCDL’2010, Казань, Россия, • Интеграция с внешними Не требуется ECMS – системы управления корпоратив системами ным содержимым;

• DMS – системы управления документами;

Перевод бумажных доку- Не требуется • MCMS – системы управления содержимым, ментов в электронные используемым для мобильных устройств.

Хранение и извлечение Требуется Чтобы указать, к какому подклассу относятся документов рассматриваемые нами системы, необходимо по нять, какого рода содержимым они должны опери Индексирование Не требуется ровать. Анализ перечисленных выше бизнес процессов показывает, что имеют место 3 основных Управление документо- Требуется вида содержимого: оборотом 1. содержимое страниц web-сайта конференции;

Обеспечение безопасно- Требуется 2. регистрационные заявки участников;

сти 3. рецензии членов программного комитета.

При этом задачи управления первым видом со- Совместная работа с до- Не требуется держимого относятся к подклассу WCMS, а задачи кументами управления другими двумя видами – к подклассу Поддержка версий доку- Требуется DMS. Таким образом, можно утверждать, что систе ментов мы поддержки проведения конференций являются предметно-ориентированными системами управле- Поиск Требуется ния содержимым, решающими задачи из классов Публикация документов Требуется WCMS и DMS.

Далее на основе общих требований выделим, ка кие задачи должны решать рассматриваемые систе- Как уже отмечалось выше, историческое [7] и мы (см. табл. 1). традиционное [2] понимания систем поддержки конференций в основном сводятся к задачам из под Таблица 1. Соответствие общепринятых требований класса DMS: прием докладов и управление процеду к CMS-системам и задач систем поддержки рой рецензирования. Например, к этому подклассу конференций относятся такие популярные системы, как EasyChair, OpenConf, MyReview [4 – 6]. Существуют системы, Описание требований Потребность в систе в которых решаются задачи из обоих подклассов, для CMS-систем мах поддержки кон например, Агора [8]. Однако, во-первых, авторам ференций неизвестно ни одной системы, которая решает по Требования к WCMS-системам [15] ставленные задачи в комплексе;

во-вторых, боль шинство поднятых в данной работе проблем в пере Использование шаблонов Требуется численных системах осталось нерешенным.

отображения Необходимо заметить, что большинство задач, Простота редактирования Требуется рассматриваемых в этой статье, находятся на стыке содержимого подклассов WCMS и DMS и имеют предметную (WYSIWYG) специфику. Именно этим, по мнению автора, объяс няется отсутствие в данной области устоявшихся Расширяемость за счет Не требуется, т.к. не решений.

установки дополнитель- обходимая функцио ных модулей нальность неизменна 3 WCMS или DMS?

Визуализация содержимо- Требуется Для создания типового сайта конференции, го прежде всего, необходима стандартная функцио Управление файлами Требуется нальность WCMS-систем: добавление/ редактирова ние разделов сайта, добавление документов и медиа Управление документо- Не требуется, т. к. ре ресурсов (изображения, видео), выбор шаблона оборотом (модерирова- дакторами сайта явля оформления, управление содержимым страниц.

ние) ются сами организато Кроме того, помимо простого заполнения реги ры страционной формы, сайт конференции должен под Единая категоризация Не требуется, т. к. вид держивать функции «Личного кабинета», где лю всех видов содержимого один бой участник может посмотреть и отредактировать (таксономия) свои заявки, а также задать вопрос организаторам.

Также через Личный кабинет должен предостав Требования к DMS-системам [3] ляться доступ членам Программного комитета для Управление метаданными Требуется рецензирования докладов.

документов По мере подготовки программы конференции возникает необходимость опубликовать и затем ре гулярно обновлять список зарегистрированных конференции, например, чтобы спланировать рассе участников, список принятых докладов с разбив- ление в гостиницах или проведение сопутствующих кой по секциям и возможностью просмотреть тези- мероприятий – семинаров, экскурсий, банкетов.

сы. Следовательно, такие страницы сайта конферен- Другой заметной проблемой при регистрации яв ции должны генерироваться динамически, а система ляются неполные справочники, например, спра поддержки сайта конференции должна быть интег- вочник организаций или справочник городов. Оче рирована с системой регистрации и обработки зая- видно, что невозможно заранее составить список вок. Иными словами, речь идет об интеграции организаций, сотрудники которых могут участво функций DMS (публикация документов) и WCMS вать в конференции. Поэтому в существующих сис (визуализация содержимого). Эту задачу можно ре- темах регистрации поля «Место работы» и «Город шить двумя способами: (проживания)» являются обычными текстовыми 1. для готовой WCMS-системы реализовать мо- полями. Это неизбежно приводит к следующим про дуль интеграции с системой регистрации заявок;

блемам:

• 2. реализовать собственную WCMS-систему, не- опечатки при вводе названий;

посредственно связанную с остальными моду- • различные способы ввода названия органи лями системы. зации, например: ИВТ, ИВТ СО РАН, Институт вы Следует заметить, что наиболее часто встречае- числительных технологий СО РАН;

мое решение состоит в разработке веб-сайта конфе- • участники редко вводят полную информа ренции в виде набора статичных html-страниц (без цию об организации.

использования WCMS) и связанной с ними системой Как следствие, организаторы не могут автомати регистрации. Его недостатки очевидны – отказ от чески получить достоверную статистическую ин использования WCMS сильно затрудняет возмож- формацию по уже введенным заявкам и вынуждены ность реализации требований, перечисленных в перед размещением на сайте производить их «руч табл. 1. ную» обработку. Еще более существенной для ин Из этого можно сделать вывод, что средства формационного обеспечения конференции является комплексной поддержки научных конференций возможность опубликовать списки участников и должны органично интегрировать в себе функции докладчиков с указанием организаций, которые они WCMS и DMS систем. представляют. Это необходимо для эффективного привлечения спонсоров к участию в мероприятии.

4 Регистрация заявок на участие За использование справочников также говорит и тот факт, что подавляющее большинство российских Большинство существующих систем регистрации участников конференций представляют российские заявок предоставляет фиксированную форму с тра вузы и организации академий наук, списки которых диционным списком полей (ФИО, место работы, хорошо известны. Аналогичные утверждения можно должность, ученая степень, e-mail). Наиболее «про сделать и о справочнике городов.

двинутые» системы позволяют организаторам рас ширять регистрационные анкеты дополнитель ными полями. Этого можно достигнуть с помощью известного шаблона проектирования схем баз дан ных «Entity-Attribute-Value» (EAV), когда для хра нения данных о заявках используются, по крайней мере, три реляционных таблицы:

1. Entity – содержит стандартные поля заявки, за полняется участниками, одна запись – одна за явка;

2. Attribute – содержит метаинформацию о допол нительных полях (название, тип, размер и пр.), заполняется организаторами, одна запись – одно дополнительное поле;


3. Value – содержит значения для дополнительных полей, заполняется участниками, одна запись – одно значение поля.

Такой подход позволяет гибко настраивать структуру регистрационных анкет, хотя при этом поиск по дополнительным полям оказываются менее удобным (или вообще недоступным), чем поиск по Рис. 1. Форма регистрации участника стандартным полям, хранящимся в одной реляцион ной таблице. Характерным примером использования Для решения этой задачи предлагается использо дополнительных полей является т. н. вторая форма вать неполные справочники, ведение которых вы регистрации, которую организаторы просят запол полняется по следующим правилам.

нить участников непосредственно перед началом • дов. Однако легко заметить, что после завершения в справочник добавляется булевское поле «При этапа рецензирования и при наличии уже распреде знак публикации записи»;

его значение устанав ленных по секциям докладов, составление програм ливается равным «истина» для всех верифици мы конференции является, в основном, технической рованных записей;

задачей (рис. 2), для решения которой достаточно:

• при заполнении регистрационной формы поль • указать разбиение секций на заседания;

зователю в режиме подсказки предлагаются • для каждого заседания определить место и вре подходящие варианты опубликованных записей (рис. 1);

мя проведения;

• если пользователь ввел данные, которые не со- • распределить доклады по заседаниям и указать держатся в справочнике, в него добавляется но- порядок их следования.

вая запись с полем «Признак публикации запи- После этого программа конференции может быть си» равным «ложь»;

сформирована автоматически с различной группи • при обработке заявки организаторы могут уста- ровкой: по времени, по структуре секций/ подсек ций/заседаний.

новить признак публикации для новой записи Еще более интересной задачей является автома либо изменить данные пользователя, установив тизация формальной верификации заявок. Как ссылку на уже опубликованную запись.

правило, существующие решения заключается в Таким образом, обеспечивается постоянное по проверке заполнения обязательных полей, а осталь полнение справочников проверенными записями без ные проверки выполняются организаторами «вруч ущерба для процедуры регистрации пользователей.

ную» при приеме заявок. Было замечено, что такие Следует отметить, что указанная проблема непол «ручные» проверки часто содержат повторяющиеся ных справочников характерна для широкого спектра действия, которые могут выполняться автоматиче систем, содержащих модуль открытой регистрации.

ски. Для этого был сформулирован набор правил:

В частности, подобная задача выносилась на кон • имя и отчество не должны вводиться инициала курс разработчиками популярной социальной сети:

http://vkontakte.ru/pages.php?id=10425827. ми;

• место работы должно быть опубликованной за 5 Формирование программы конферен- писью справочника «Организации»;

• город должен быть опубликованной записью ции справочника «Города»;

После завершения процедуры регистрации зая- • тезисы доклада должны содержать не менее N вок перед организаторами встает задача отбора наи- слов;

более интересных докладов (обычно этот этап назы- • к докладу должен быть прикреплен файл;

вают рецензированием) и формирования из них про- • для доклада должно быть не менее M рецензий;

граммы конференции. Существует, по крайней мере, • для доклада должны быть все рецензии назна два подхода к проведению рецензирования: ченных рецензентов;

• программный комитет (ПК) принимает к • доклад должен быть размещен в секции.

участию все формально подходящие заявки (кор- Для каждого правила организаторы конференции ректно зарегистрированные и соответствующие устанавливают один из трех уровней его проверки:

профилю конференции);

«Не проверяется», «Предупреждение», «Ошибка».

• члены ПК проводят экспертизу заявок, в ре- После этого для каждой заявки выполняется автома зультате которой для каждой заявки определяются тическая проверка установленных правил, и резуль рекомендуемая секция и формат выступления (пле- тат – максимальный уровень неудачной проверки – нарный, секционный, стендовый). Кроме того, каж- индицируется в виде соответствующей пиктограм дая заявка оценивается по нескольким критериям мы в общем списке заявок. Таким образом, органи (например, актуальность, достоверность, качество заторы легко могут отличить корректные и про изложения). На основе результатов экспертизы ПК блемные заявки, как на этапе регистрации, так и при принимает решение о включении заявки в програм- рецензировании.

му конференции.

Существует ряд готовых систем предоставляю 6 Каталог событий щих богатый набор функций, связанных с регистра цией и рецензированием докладов (например, Easy- Задачу информационного обеспечения потенци Chair [4]). Однако некоторые смежные задачи часто альных участников конференции нельзя считать ре остаются нерешенными. В частности, большинство шенной в отсутствие полноценного каталога собы систем предоставляют скудные возможности (или не тий, снабженного тематическим рубрикатором и предоставляют их вообще) для составления про- функциями поиска. На сегодняшний день существу граммы конференции, когда требуется опублико- ет ряд систем, содержащих подобные сведения, в вать место и время каждого выступления. По мне- частности [1, 10 – 13]. Однако из-за того, что все они нию автора, такая ситуация связана с тем, что фи- наполняются вручную (по сведениям автора), ни нальной задачей большинства упомянутых систем один из них нельзя считать достаточно полным.

является предоставление списка отобранных докла Один из возможных подходов состоит в создании На основе описанного алгоритма была реализо интегрированного каталога, в котором будут разме- вана система сбора и публикации информации о щены данные из различных источников. При этом научных событиях (рис. 3). На текущий момент ключевыми проблемами являются отсутствие под- осуществляется сбор с нескольких российских ката ходящих стандартов обмена информацией о событи- логов событий [11, 13], в ближайшей перспективе ях и невозможность их внедрения для уже сущест- планируется настроить извлечение данных с зару вующих каталогов. бежных каталогов [1].

Решение, предлагаемое автором, состоит в разра ботке системы сбора и извлечения данных с приме- 7 Заключение нением методологий Data Mining [9]. Для каждого Еще раз подчеркнем, что существует много внешнего каталога событий создается отдельный средств, решающих отдельные задачи поддержки драйвер, функциями которого является загрузка проведения конференций. Однако при попытке их списка новых событий и извлечение подробной ин комплексного применения возникают типичные для формации о конкретном событии. При этом требует «лоскутной» автоматизации «швы» – проблемы, ся, чтобы внешний каталог каждое событие публи устранение которых невозможно или требует суще ковал в виде отдельного html-документа, содержа ственных усилий. Системным решением этого во щего его слабоструктурированное описание 1. Сбор проса является создание программного комплекса, событий состоит в периодическом опросе каталогов реализующего весь спектр задач, связанных с авто через собственные модули-драйверы на предмет матизацией и информационной поддержкой прове появления новых данных. После этого начинается дения конференций.

фаза извлечения информации, задачами которой Предложенные в данной работе идеи были являются:

внедрены в рамках проекта по созданию Информа • структурирование загруженной информации ционной системы «Конференции», поддерживаемо путем нахождения характерных html-шаблонов го Институтом вычислительных технологий СО и анализа их содержимого;

РАН. В результате этого удалось полностью решить • определение места и времени проведения по задачу автоматизированной поддержки сайтов кон средством сопоставления структурированных ференций с динамически обновляющимся содержа данных и системных справочников;

нием, сервисами регистрации, приема и рецензиро • определение тематики события с помощью вания заявок, а также рядом других функций. Харак таблицы кодирования тематических рубрик, ко терными примерами являются:

торые поддерживаются отдельно для каждого • XIII Российская конференция с участием ино каталога;

странных ученых «Распределенные информаци • проверка наличия дубликатов события.

онные и вычислительные ресурсы» (DICR Наибольший интерес представляет заключи 2010), http://conf.nsc.ru/dicr2010;

тельный этап, в котором принимается решение о • X Всероссийская конференция с участием ино добавлении события в каталог при условии, что по странных ученых «Проблемы мониторинга ок хожих событий (дубликатов) не существует (очень ружающей среды (EM-2009)», похожая задача решалась в [16]). Для этого исполь http://conf.nsc.ru/EM-2009;

зуется специальная функция F(a,b), которая для лю • XIX International Conference on Chemical Reac бой пары событий a и b определяет степень их «по tors (CHEMREACTOR-19), http://conf.nsc.ru/CR хожести»:

19-2010;

F(a,b) = kname*Name(a,b) + klocation * Location(a,b) + • International Conference on Bioinformatics of Ge kdate * Date(a,b) + kURL * URL(a,b), nome Regulation and Structure\Systems Biology (BGRS\SB-2010), http://conf.nsc.ru/BGRSSB2010.

где функции Name, Location, Date и URL принимают значения в интервале [-1;

1] и оценивают степень Литература схожести названий, места, времени и URL-адреса [1] AllConferences.Com. – http://www.allconferences.

событий соответственно. Если любой из параметров не задан (например, не указан URL-адрес события), com/.

то значение соответствующей функции принимается [2] Conference management system, 2010. – http:// равным 0. Для каждой из функций используется en.wikipedia.org/wiki/Conference_management_syst свой весовой коэффициент ki. Эксперименты на тес em.


товых выборках показали наибольшую эффектив [3] Document management system, 2010. – http://en.

ность определения дубликатов при значениях коэф wikipedia.org/wiki/Document_management_system.

фициентов (kname, klocation, kdate, kURL) = (5, 1, 2, 2) и пороговом значении принятия решения для функции [4] EasyChair Conference System. – http://easychair.

F(a,b) = 5. org/.

[5] MyReview conference management system. – http://myreview.lri.fr/.

Требование к слабой структуре можно уменьшить за счет усложнения алгоритмов извлечения данных [6] Open Conference Systems. – http://pkp.sfu.ca/?q =ocs.

[7] Rick Snodgrass, Summary of Conference Manage ment Software, 1999. – http://www.acm.org/sigs/ sgb/summary.html.

[8] Агора – служба автоматизации создания, разме щения и поддержки интернет-страниц конферен ций. – http://agora.guru.ru/.

[9] Барсегян А.А., Куприянов М.С., Степанен ко В.В., Холод И.И. Технологии анализа данных.

Data Mining, Visual Mining, Text Mining, OLAP. – Санкт-Петербург: БХВ-Петербург, 384 с.

[10] Интернет-канал НТ-ИНФОРМ: тематический каталок научных конференций. – http://www.

rsci.ru/confs/.

[11] Конференции.RU – открытый каталог научных конференций, выставок и семинаров. – http://www.konferencii.ru/.

[12] Наука-форум. – http://www.science-forum.ru/.

[13] Научные конференции, семинары и события. – http://conference.scholar.ru/.

[14] Рубцов Д.Н., Барахнин В.Б. О возможности борьбы с дубликатами при запросах к разно родным библиографическим источникам // Тр.

XI Всерос. науч. конф. «Электронные библио теки: перспективные методы и технологии, электронные коллекции (RCDL’2009)» (г. Пет розаводск, 17 – 21 сентября 2009). – Петроза водск, 2009. – С. 293-298.

[15] Система управления содержимым, 2010. – http://ru.wikipedia.org/wiki/Система_управления _ содержимым.

[16] Шокин Ю.И., Федотов А.М., Клименко О.А., Леонова Ю.В., Гуськов А.Е., Барахнин В.Б. О структуре и содержательном наполнении ин формационной системы СО РАН // Труды X Байкальской всерос. конф. «Информационные и математические технологии в науке, технике и образовании», Иркутск, 2005, Ч. I. – С. 7-12.

About the problems of creating the systems for scientific conference holding A.E. Guskov In this paper the tasks, which are arisen while creating the modern systems for complex support of scientific conference holding, is considered. Main accent is made on the quality of gathering registration data and infor mational support of participants. Also the task of creat ing the integrated catalogue of scientific events is con sidered.

Работа выполнена при частичной финансовой поддерж ке РФФИ (проект 09-07-00277) Архив свободно распространяемого программного обеспечения ftp.chg.ru: анализ 15-летнего опыта © Л.Н. Щур, С.А. Крашаков, А.Ю. Меньшутин, В.Л. Щур, С.К. Шикота, М.В. Григорьева Научный центр Российской академии наук в Черноголовке dep@chg.ru разработчиков значительно вырос. В результате Аннотация некоторые программные системы, созданные неза Приведены цели и задачи архива свободно висимыми разработчиками, начали влиять не только распространяемого программного обеспече- на рынок программных продуктов, но и на развитие ния. Обсуждаются статусные аспекты ис- вычислительных систем в целом. Яркий и хорошо пользования программного обеспечения. Об- известный пример такой разработки – ядро опера суждается роль свободно распространяемого ционной системы Linux, версия 1.0.0 которого вы программного обеспечения в развитии ин- шла 14 марта 1994 года. Стоит отметить, что пона формационных технологий. Приводятся ста- добилось еще много лет (не менее пяти), прежде тистические данные по использованию архи- чем стабильность работы системы достигла уровня ва программного обеспечения, по составу применимости системы Linux на серверах и сетевых программного обеспечения и его востребо- устройствах. До этого времени намного более попу ванности. Обсуждаются тенденции развития лярной среди системных и сетевых администрато архивов. ров была другая система – FreeBSD, надежная и устойчивая в работе 1. Именно по этим причинам 1 Введение. Свободно распространяемое архив СПО ftp.chg.ru до сих работает под управле нием FreeBSD.

программное обеспечение Обе упомянутые системы, Linux и FreeBSD, яв Архив необходим для обеспечения широкого ляются примерами открытого программного обес спектра областей экономики России свободно рас- печения. Создатель ядра Linux Linus Torvalds свя пространяемым программным обеспечением, кото- зывает успех его проекта в немалой степени с тем, рое используется в персональных компьютерах, что он лицензировал права на Linux в рамках проек рабочих станциях, вычислительных системах и та GPL.

компьютерных средствах управления приборами и GPL (Открытое лицензионное соглашение системами. В некотором смысле архив можно отне- GNU) – лицензия на свободное программное обес сти к электронной библиотеке по программному печение, разработанная в рамках проекта GNU в обеспечению, поскольку он состоит не только из ftp 1988 г. Свободно распространяемое в рамках лицен сервера, но и снабжен справочной литературой, а зии GPL программное обеспечение играет большую также системами поиска программ и мониторинга роль в развитии информационных технологий. Оно его использования. является платформой для построения новых систем Широкое распространение персональных ком- при скромном бюджете, но требуя при этом наличие пьютеров в конце 1980-х годов привело к качест- квалифицированных специалистов. Его роль, таким венным изменениям в двух аспектах использования образом, особо важна в развивающихся странах с вычислительной техники. Во-первых, появилось относительно слабой экономикой, но высоким новое качество в администрировании вычислитель- уровнем образования населения, например, в таких ной техники. Администрирование перешло с уровня странах, как Бразилия, Россия, Индия и Китай.

организации на уровень подразделений, а также на индивидуальный уровень, что значительно увели 2 Архив ftp.chg.ru – анализ развития чило число системных администраторов. Во Архив программного обеспечения ftp.chg.ru – вторых, ранее системное программное обеспечение это проект, развиваемый в Научном центре РАН в в основном создавалось фирмами-разработчиками Черноголовке, в Отделе прикладных сетевых иссле вычислительных систем.

В последние двадцать лет вклад независимых 1 Например, один из маршрутизаторов оптоволоконной Труды 12й Всероссийской научной конференции опорной сети Chg-FREEnet проработал на версии «Электронные библиотеки: перспективные методы FreeBSD 1.1.5.1 более пяти лет с августа 1994 года до и технологии, электронные коллекции» – февраля 2000 года, причем не только без обновлений, но и RCDL’2010, Казань, Россия, 2010 без единой перезагрузки. Он был демонтирован в связи с переводом сети на другую технологию дований. Основная идея открытого программного программа придала развитию информационных обеспечения (ПО) состоит в том, что каждый участ- технологий взрывной характер.

ник может внести свой вклад в развитие этого ПО. В 1994 году была начата работа по переводу Помощь могут оказывать не только профессиональ- опорной сети НЦЧ РАН на оптоволокно, и первые ные программисты, занимающиеся разработкой ОС сегменты были сданы в работу в августе. По имею или прикладного ПО, но и пользователи ПО. Для щейся информации, это была первая оптоволокон успешного развития требуется помощь как пользо- ная сеть в Академии наук, да и, возможно, во всем вателей, предоставляющих отчеты об ошибках, так научном секторе России.

и ресурс-провайдеров. Поскольку большинство от- В настоящее время сеть НЦЧ РАН является не крытых проектов ограничено в финансовых ресур- зависимой академической сетью и имеет название сах, очень часто для хостинга таких проектов ис- ChANT (Chernogolovka Academic Network). Она пользуются серверы учреждений, где работают ав- входит в ассоциацию научно-образовательных сетей торы проекта. Однако для распространения дейст- России e-Arena. Опорная оптоволоконная сеть име вительно крупных и популярных проектов требует- ет топологию двух колец, на скоростях 1 гигабит в ся помощь сообщества. Одним из таких серверов, секунду и 10 гигабит в секунду. Внешний оптоволо предоставляющим услуги хостинга на безвозмезд- конный канал создан совместно НЦЧ РАН и ОАО ных условиях различным проектам, является сервер Ростелеком. Сеть ChANT в настоящее время ис ftp.chg.ru. пользует 155 мбит в секунду для подключения к точке обмена научно-образовательных сетей NAP 2.1 История развития сети Научного центра РАН (Network Access Point – коннективность с научными в Черноголовке сетями Евросоюза и Северной Америки), к точке обмена российских интернет-провайдеров MSK-IX История архива ftp.chg.ru неразрывно связана с (Moscow Internet Exchange) и для выхода в сети об историей развития сети Научного центра Россий щего пользования.

ской академии наук в Черноголовке (НЦЧ). При начале работ по созданию сети в 1989 г. ставилась 2.2 История архива программного обеспечения задача обеспечения интерактивного доступа к ре- ftp.chg.ru сурсам интернета с рабочего места каждого научно Развитие сети Научного центра требовало соот го сотрудника. Сегодня решение такой задачи обес ветствующего программного обеспечения. В пер печивает армия интернет сервис-провайдеров, а вую очередь требовались системное и сетевое ПО лет назад такая постановка казалась нереальной для создания инфраструктуры сети. Далее, необхо даже в академической среде, которая всегда имела димо было ПО для работы пользователей – системы много контактов как внутри страны, так и по всему подготовки текстов статей, рисунков, графиков и миру. Основным средством общения в то время бы т. п. При ограниченности пропускной способности ли телекс и факс. В то время еще не было мировой каналов связи, да и различного рода других ограни паутины веб, да и интернета тоже не было. Гло чений известного характера появилась необходи бальная сеть виделась как гетерогенное образова мость в создании в структуре сети НЦЧ РАН храни ние, объединяющее сети фирм Digital (DECnet), лища для программного обеспечения, или ftp IBM (BITNET), Netware (Novell) и сети на протоко архива. Такой архив был создан в ИТФ им. Л.Д.

лах X25 и IP. Начали создаваться межсетевые шлю Ландау РАН, где сеть DECnet работала с 1989 года зы. Эта работы велась в научных учреждениях всего и была соединена шлюзом c IP-узлом на основе па мира.

кета KA9Q в 1991 году. Этот узел обеспечивал об В 1989 году в НЦЧ РАН была построена первая мен e-mail с остальным миром. С 1993 года связь с опорная сеть на основе протокола X25. Она исполь внешним миром стала интерактивной. Внешний зовалась для отправки и получения электронных канал к концу 1993 года не превышал 64 Кбит в се писем через узел КИАЭ. В 1990 году был организо кунду.

ван доступ к узлу BITNET в ИОХ РАН. В марте Краткая история объема архива и скорости дос 1992 года были созданы IP-узлы сети FREEnet в тупа к нему такова:

ИТФ им. Л.Д. Ландау РАН в Москве и Черноголов • 1995 – перемещение архива на отдельный ке. В 1993 году была построена опорная сеть на вы сервер с именем ftp.chg.ru, объем архива 1 – 2 Гб;

деленных медных парах в НЦЧ РАН и выделенный • 1997, июнь – запуск 2-х мегабитного канала канал сети FREEnet. С этого момента началась ин Черноголовка – Москва;

терактивная работа сотрудников институтов Черно • 1997, июль – август – активное наполнение головки в интернете.

ftp-архива и начало активного использования архива Это было время, когда веб-сайты были тексто пользователями за пределами Черноголовки;

выми, первый графический браузер Mosaic был соз • дан в NCSA (National Center for Supercomputing Ap- 1997, декабрь – 1-е место в Top100 России, plications, Urbana-Champaign, Illinois) в 1993 году. В объем архива ~ 40 Гб;

• том же 1993 году под руководством вице- 2000, ноябрь – перенос архива в Москву президента США А. Гора была разработана нацио- (ЮМОС) и подключение на скорости 10 Mbps, объ нальная программа развития интернета. Именно эта ем архива ~ 350 Гб;

• Gentoo Linux, Gnpppix, kernels, Mandrakelinux, 2001, август – перевод на 100 Mbps, объем RedHat, Slackware, SOT Linux, SunSite collection, архива ~ 495 Гб;

SuSE, Ubuntu Linux;

• 2003 г. – начало работы по протоколу IPv6;

• Мультимедийные системы: ImageMagick, • 2004 г.– объем архива перешагнул рубеж Тбайта;

MultimediaMultimedia, Geomview, Portable Network • Graphics, UC Berkeley Plateau Multimedia Project, 2008 г. – объем архива 32 Терабайта.

Other Graphics;

Архив широко известен в мире. С 1997 года и по • Сетевые системы: IPv6 Stacks, cmu-snmp, настоящее время архив ftp.chg.ru занимает места с 3-го по 5-е в мировой иерархии архивов свободно Netperf, Nocol, MBone, Multi Router Traffic Grapher, распространяемого программного обеспечения. К Ttcp, zebra;

сожалению, на сегодняшний день оценить точное • Программы для Windows: Antiviruses, место нашего архива в мировой табели о рангах FreeDOS, Cygwin, Simtel.NET, WinSite;

достаточно сложно. Так, последняя доступная ста • Системы и языки программирования:

тистика на сайте http://www.ftp-sites.org/ датирована CPAN – Comprehensive Perl Archive Network, EGCS, 2003 г. Имеющиеся у авторов собственные наработ GNU Science Library, Java, Lisp, Netlib, Parallel ки по мониторингу мировых ftp-серверов тоже дают Programming Libraries & Tools, Python, Smalltalk, противоречивые результаты т. к. получение полного Tcl;

листинга файлов из большинства крупных серверов • Системы для науки и образования:

запрещено вследствие большого объема генерируе Computational Chemistry, Mathematics, Molecular мой информации.

biology, Statlib;

2.2 Технологии • Системы безопасности: DFN-CERT;

• Системы обработки текстов: CTAN, TeX Краткое описание системы:

• Аппаратная часть архива состоит из двух live, OpenOffice.org, OpenOffice-RU;

серверов с RAID массивами, реализующими функ- • Надстройки для систем типа Unix:

ции хранилища. Каждый сервер основан на 2-х про- Benchmarks, Gnu directory, EGCS, Gimp, GNOME, цессорных платах Intel и 2-х ядерных процессорах KDE, kernel.org mirror, Freeware for Solaris, Pine, семейства Xeon. Объем оперативной памяти каждо- Samba, Berkeley Sendmail, X11;

го сервера – 4 Гб.

• Браузеры, Веб-серверы и т. п.: Analog, • Программная часть базируется на операци Apache, Lynx, Netscape, Opera, Mozilla, Squid.

онной системе свободного доступа FreeBSD. Теку щие версии – 6.1 и 8.0. 2.4 Пользователи • Накопление массива построено на регуляр Число одновременно работающих пользователей ном обновлении программного обеспечения по за – более 5 тысяч, из них большая часть по протоколу ранее составленному списку.

http. При этом максимальное число пользователей • Значительная часть ПО обновляется с ори ограничено искусственно в конфигурации сервера, гинальных мастер-серверов по специальной под т. к. большое число одновременно открытых соеди писке.

нений, время жизни которых часто превышает де • Архив доступен как по протоколу IPv4, так сятки минут, приводит к быстрому исчерпанию и по протоколу IPv6. Обновление информации про оперативной памяти и вызывает нестабильную ра исходит с преимущественным доступом по прото боту системы.

колу IPv6. Так, средняя скорость входящего трафи ка по протоколу IPv6 – 700 Кбайт/с, а максимальная 2.5 География – до 2 Мбайт/с. При этом скорость входящего тра Свободно распространяемое ПО является прак фика по протоколу IPv4 – тоже около 700 Кбайт/с.

тически всегда универсальным и пригодным для 2.3 Программный состав архива использования пользователями со всего мира. Так, любой дистрибутив Linux или FreeBSD содержит в Программное обеспечение архива ftp.chg.ru себе переводы на большинство языков. Поэтому можно разбить на такие группы:

пользователь может скачать интересующий его • Операционные системы семейства:

файл с любого зеркала, в том числе и с нашего ар FreeBSD, FreeSBIE, DragonFlyBSD, NetBSD, хива. За все время работы архива мы сохраняем OpenBSD;

подробную статистику запросов. Анализ такой ста • Базы данных: PostgreSQL, MySQL, mSQL, тистики может представлять интерес для большого SAPdb, FreeTDS;

круга лиц. Например, можно ответить на извечный • Стандарты интернета: RFC, Standards, вопрос, какой дистрибутив Линукса наиболее попу Internet Drafts, Usenet FAQ's, Russian Doc's;

лярен в данный момент. Определенный интерес • Операционные системы семейства Linux: представляет и статистика географии запросов.

География запросов включает в себя практиче ALTLinux, ASPLinux, BLin, Conectiva, Corel Linux, ски все домены мировой сети. Интересно, что доля Debian, Debian-CD, Fedora Linux, GamesKnoppix, запросов из отдельных регионов может значительно нибудь процессом (демоном httpd) – завершить ра флуктуировать. Например, в октябре 2007 года 20 боту программы;

• процентов исходящего трафика было в зону Фран- разбить временный файл на части по дням;

ции. На текущий момент основная доля запросов • удалить временный файл и переименовать приходится на Россию (2 млн. за месяц, 2.5 Тб – текущий лог файл во временный;

февраль 2010). На втором месте, по числу запросов, • послать сигнал (при необходимости) о не находится Китай (80 тыс. запросов, 16 Гб трафика). обходимости создания нового лог-файла процессам Украина занимает 3-е место по числу запросов (70 демонам (Apache).

тыс.) и 2-е по объему трафика (120 Гб). Разбивка файла по дням осуществляется на Предположительно, большое число запросов и уровне отдельных записей в файле на основе малый объем трафика из Китая связаны с тем, что имеющейся метки времени. Запись в лог-файле, данные запросы являются запросами на автоматиче- которая относится к определенному промежутку ское обновление ПО в различных дистрибутивах, времени, добавляется в конец отдельного лог-файла, зеркалом которых является ftp.chg.ru. Такие обнов- хранящего информацию о запросах за определен ления обычно не велики по размеру, поэтому общий ный день по определенному протоколу.

трафик от них невелик.

2.8 Анализ статистики В некоторые часы заметна активность Австра лии, что может быть связано с особенностями пози- Разбитые по дням лог-файлы подвергаются ции локального светового дня. дальнейшему анализу. Так, производится анализ с целью выявления наиболее популярных ресурсов, 2.6 Статистика анализ количества запросов к тому или иному ре сурсу и т. п. Для корректной обработки статистики Для доступа удобства работы со статистикой по описанию ресурсов разработана специальная нами было разработано специальное ПО, которое программа. Поскольку ресурс (например, Линукс анализирует лог-файлы и сохраняет данную инфор определенной версии) не обязательно находится в мацию в базу данных. Веб-интерфейс с этой базы одном каталоге, а может находиться в разных мес данных содержит не только данные о количестве тах файловой системы, описание ресурса ведется запросов к тому или иному ресурсу, но также опи путем перечисления всех каталогов (с использова сания ресурсов. В частности, содержится информа нием регулярных выражений), принадлежащих дан ция о разных Линукс-дистрибутивах и т. п. Веб ному ресурсу. Для того чтобы избежать частой не интерфейс доступен по адресу http://archive.chg.ru/.

обходимости исправления/дописывания описаний Запросы могут быть сделаны за определенный имеющихся ресурсов, регулярные выражения могут день или любой другой интервал. Запросы могут использоваться и в именах ресурсов. Таким обра быть сделаны по отдельным пакетам, а также по зом, одно описание может охватывать сразу все ветвям дерева файловой системы.

версии того или иного программного продукта.



Pages:     | 1 |   ...   | 13 | 14 || 16 | 17 |   ...   | 26 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.