авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 |   ...   | 2 | 3 || 5 | 6 |   ...   | 26 |

«Электронные библиотеки: Перспективные Методы и Технологии, Электронные коллекции English Труды RCDL 2010 ...»

-- [ Страница 4 ] --

[5] Поиск информации по лекарственным средст вам. – http://www.med.yar.ru.

[6] Палей Д.Э., Курчинский Д.Н., Смирнов В.Н.

АБИС «Буки». Первые итоги развития, новые возможности, перспективы на будущее // Ин формационные технологии, компьютерные сис темы и издательская продукция для библиотек:

Методы и средства документирования данных эндоскопического вмешательства i © В.К. Салахутдинов1, Ю.Г. Сметанин, А.А. Соколов2, Х.М. Юнис, А.Ю. Соколов НИИ системных исследований РАН Центральная клиническая больница РАН Компания «Вокорд»

vsalakhutdinov@gmail.com изображений стационарными изображениями с це Аннотация лью устранения избыточной и малоинформативной Представлены результаты разработки мето- информации. Такая замена приводит к тому, что дов и средств обработки и компактного до- вместо гигабайт достаточно хранить только мега кументирования данных телевизионной эн- байты данных, следовательно, значительно облегча доскопии. Предложена схема регистрации ет процедуру сопоставления.

эндоскопических изображений. Разработан При этом информативные области видеоизобра метод устранения пространственной ошиб- жения, полученного эндоскопической камерой при ки модуляции. Показано, что при полном движении, сшиваются в единое изображение.

сохранении разрешения и качества цвето- Проблема в том, что подавляющее большинство передачи предложенный метод позволяет объектов, обследуемых средствами эндоскопии, сократить объем хранимых данных более имеет трубковидную топологию [2], изображение, чем на три порядка. Экспериментальные ре- регистрируемое телевизионным сенсором эндоско зультаты показывают эффективность пред- па, представляет собой совокупность двусвязных ложенного метода. фигур, которые невозможно сшить между собой в единую картину, а размер файла данных одиночно Введение го документирования составляет несколько гига байт [3].

В современной медицине основной, а часто и В работе представлены результаты разработки единственно возможный малотравматический визу методов и средств обработки и компактного доку альный доступ к внутренним органам человека реа ментирования данных телевизионной эндоскопии.

лизуется средствами эндоскопии, а полное доку Идея предлагаемого подхода заключается в преоб ментирование всей совокупности эндоскопических разовании снимаемых камерой колец в прямоуголь манипуляций и возможность оперативного доступа ные области, удобные для сшивки. В настоящее к этой информации, являются одним из обязатель время в медицинской практике не используется ных требований [1]. Хранение и сопоставление изо аналогов предлагаемого подхода.

бражений необходимо, в частности, для сравнения В первой части работы приведено описание за изображений пациента до и после операции для вы дачи и предложенного подхода к ее решению, во яснения последствий хирургического лечения. В второй – разработанный алгоритм устранения про условиях страховой медицины такая процедура яв странственной ошибки пространственной модуля ляется достаточно распространенной.

ции. Представлены результаты испытаний метода.

Эндоскопические видеоизображения требуют для хранения памяти объемом порядка гигабайт.

1 Метод 2D регистрации. Общий принцип Сжатие видеоизображений не является перспектив ным способом решения задачи сокращения этого На рис. 1 представлена структурная схема теле объема, поскольку не обеспечивает достаточно хо- визионной регистрации изображений при эндоско рошего сочетания степени экономии памяти и со- пическом обследовании.

хранения требуемой информации. На рис. 2а представлен пример характерного Предлагаемый метод основан на замене видео- изображение, регистрируемого эндоскопическим датчиком в процессе обследования. При смещении Труды 12й Всероссийской научной конференции камеры получается новое кольцо, соответствующее «Электронные библиотеки: перспективные методы и следующему участку обследуемого объекта.

технологии, электронные коллекции» – RCDL’2010, Казань, Россия, Особенность регистрируемого изображения со- Эти две части (заштрихованные на рис. 2б) прак стоит в том, что полезная информация (удовлетво- тически бесполезны и отбрасываются в предлагае рительные разрешение и масштаб) содержится мом методе. Содержащая полезную информацию только в малой части изображения (Inforegion). область между ними очень невелика: ее доля не Внешняя часть кольца находится близко от объ- превышает нескольких процентов. Эта область пре ектива камеры;

эта часть изображения расфокуси- образуется в прямоугольник. Следующее изображе рована и искажена. ние фиксируется при сдвиге на дискретный шаг, и Средняя часть изображения – дальняя часть, процедура повторяется. Такая дискретизация при масштаб которой слишком мал при используемом водит к еще большей экономии памяти.

изображении. Кроме того, соответствующие части объекта рассматриваются под очень острым углом.

Рис. 1. Схема эндоскопической регистрации изображений a b Рис. 2. Изображение, регистрируемое эндоскопическим сенсором (a), и информационно значимая область (b). Заштрихо ваны малоинформативные части изображения a b c d Рис. 3. Преобразование изображений для сшивки На рис. 3а представлено реальное изображение искажения масштаба. Преобразование 2с в 2d пере фрагмента мочеточника при эндоскопической реги- водит кольцо, соответствующее информативной страции. области, в прямоугольную полоску.

Визуализация полной картины обследуемого Для преобразования информативной области в объекта требует сшивки информационно значимых область, определяемую двумя концентрическими областей при последовательных положениях датчи- кругами с теми же радиусами, применяется дробно ка. линейное конформное преобразование az + b Нетривиальность задачи сшивки связана с тем, z1 =.

что информативные области представляют собой cz + d двусвязные фигуры с нелинейными искажениями Для определения дробно-линейного преобразования масштаба, прямая сшивка которых принципиально достаточно определить его значения в трех точках.

невозможна. Решить указанную задачу позволяет В качестве таковых мы выбираем две точки на дей конформное преобразование исходного изображе ствительной оси – (+R) и (–R), остающиеся непод ния.

вижными, и центр внутреннего круга:

На рис. 3b – 3d представлена схема такого пре z1 = z1 (l ) = 0, z12 = z1 ( R ) = R, z13 = z1 ( R ) = R.

образования. Преобразование 2b в 2c переводит удаленную область в центр картины и устраняет Подставляя эти значения в формулу, определяю- Окончательный вид искомого конформного пре щую параметры дробно-линейного преобразования образования – композиция двух полученных преоб по трем точкам, получаем уравнение разований:

z +l w = ln z + l 2R.

2R z =. ( zl / R 2 ) + z1 + R R z+R R+l Очевидно, что последующая сшивка разверну Решение этого уравнения тых прямоугольных фрагментов в общее изображе ние представляет собой простую техническую зада z +l z1 =. чу.

( zl / R 2 ) + 1 Результат реконструкции реального изображе ния представлен на рис. 4. Видно, что смещение Разрез полученного конца по действительной оптической оси камеры относительно оси обсле оси слева от внутреннего круга превращает дву дуемого объекта приводит к пространственной мо связную область в односвязную, отображение кото дуляции результирующего изображения.

рой в прямоугольник реализуется функцией ln z, являющейся на этой области однолистной.

a b Рис. 4. Пример развертки эндоскопического изображения;

здесь 4a – исходное изображение, 4b – развернутое в прямоугольный фрагмент Рис. 5. Участок трубы, аппроксимированный тором заданного большого радиуса R го радиуса кривизны). Это можно сделать, напри мер, считая, что оптическая ось видеосенсора рас 2 Устранение пространственной ошибки положена вдоль тора, и направление на центр тора пространственной модуляции на двумерном изображении соответствует отрезку, Рассмотрим решение в следующем порядке по соединяющему центр оптической оси объектива и параметру 1/R, т. е. будем считать, что у трубы для центр центральной темной области изображения (см. рис. 6).

одного снимка (ограничивающего небольшой уча сток поверхности вдоль трубы) есть большой (но Выберем систему координат (u, v) в плоскости конечный) постоянный радиус кривизны R. Этот сенсора камеры, ориентированную так, что ось v радиус кривизны меняется при существенном пере- направлена вдоль z, u – вдоль y, а ось x перпендику мещении видеосенсора, при этом на двух соседних лярна (u,v). Координаты точки на изображении (u, кадрах видеоряда его можно считать примерно по- v) связаны с трехмерными координатами на торе стоянным. соотношениями перспективной проекции:

Если для всех точек одного изображения радиус y = fz / x, u = f (Y R ) / x, (2) кривизны постоянен, то трехмерные координаты этих точек лежат на поверхности тора (см. рис. 5), где f – фокусное расстояние камеры.

следовательно, удовлетворяют уравнениям Предположим теперь, что видеосенсор переме x(, ) = ( R + r cos ) cos, щается вдоль канала. При перемещении между дву y (, ) = ( R + r cos ) sin, (1) мя соседними кадрами можно считать, что видео z (, ) = r sin. сенсор остается неподвижным, а тор поворачивает ся навстречу видеосенсору, т. е. координата для Для каждого снимка необходимо определить на- заданной точки на поверхности тора изменяется на правление на центр тора (т. е. вектор вдоль большо- малый угол d, при этом остальные координаты (r и ) остаются неизменными. При таком повороте координаты x, y, z изменяются на малые величины в соответствии с (1):

dx = ( R + r cos ) sin d = ( R + r cos )d, dy = ( R + r cos ) cos d = 0, dz = (т. к. = /2 для выбранного положения системы координат). Подставляя это в (2), получим dv = fzdx / x 2, du = fRdx / x 2, откуда dv / du = z / R. (3) Рис. 7. Реконструированное эндоизображение 10 см Видно, что искажения устраняются применени- фрагмента мочеточника ем следующего алгоритма. Видно, что предложенный метод позволяет со кратить объем данных более чем на три порядка при Определяем координату z, исходя их предыду полном сохранении разрешения и качества цветопе щих формул для (прямой трубы), смещение одина редачи.

ковых участков изображения определяем из алго ритма SIFT [4] для поиска парных соответствий на изображениях (см. рис. 6), что позволяет определить Литература величины dv/du для указанной точки, и из соотно [1] Чернеховская Н.Е. Современные технологии в шения (3) определяем радиус кривизны канала.

эндоскопии. – М., 2004.

Действуя итеративно, находим примерный радиус [2] Miranda-Luna R., Daul C., Blondel W.C., Hernandez кривизны канала для каждого положения зонда, что Mier Y., Wolf D., Guillemin F., Mosaicing of bladder дает возможность восстановить форму канала от его endoscopic image sequences: distortion calibration начала и положение видеосенсора в нем.

and registration algorithm//Biomed. Eng., IEEE Trans. – 2008. – V. 55, No 2. – P. 541-553.

[3] Кирсанов И.И., Гуляев А.А., Пахомова Г.В., Ярцев П.А., Левитский В.Д., Черныш О.А. Ви деолапароскопия при прободной язве желудка и двенадцатиперстной кишки // Эндоскопическая хирургия. – 2010. – № 1. – С. 37-41.

[4] Oh J.-H., Hwang S., Tavanapong W., de Groen P.C., Wong J. Blurry-frame detection and shot segmentation in colonoscopy videos// IS&T/SPIE Symposium on Electronic Imaging, 2004, San Jose, CA, USA, SPIE, 2004. – P. 531-542.

[5] Chen Ying-ju, Yasen W., Jeongkyu L.E.E., Dongha L.E.E., Yongho K.I.M. Developing assessment sys tem for wireless capsule endoscopy videos based on event detection// Proc. SPIE. – 2009. – V. 7260. – P. 1-11.

Рис. 6. Выбор системы координат в каждом участке снимка Результат реконструкции изображения – 10 см.

участка мочеточника – представлен на рис. 7. Раз мер исходного файла 320 Мбайт. Размер реконст руированного изображения – менее 3 Мбайт.

Methods and tools of documenting the data of endoscopic intervention V.K. Salakhutdinov, Yu.G. Smetanin, A.A. Sokolov, H. Yunis, A.Yu. Sokolov Methods and tools for processing and documenting TV endoscopy data are presented. A structural scheme for TV image registration is proposed. A method for cor recting the spatial error of modulation is developed. The method was shown to reduce the volume of the data to store more than by three orders of magnitude while re taining the resolution and the quality of color of the transmitted images. Experimental results demonstrate the efficiency of the proposed method.

i Работа выполнена при частичной финансовой поддержке РФФИ (проекты 09-07-00309, 09-07-00444 и 09-08-00993) Социально-образовательная сеть Казанского университета «Буду студентом!» для школьников © М.Ф. Насрутдинов, Г.Р. Последова Казанский (Приволжский) федеральный университет mnasrutd@ksu.ru Учитывая все вышеизложенное, в Казанском Аннотация университете принято решение создать социально В докладе описан опыт создания в Казан- образовательную сеть Казанского университета ском университете социально-образова- «Буду студентом!». Основными целями создания тельной сети для школьников. сети является выявление наиболее способных школьников региона, привлечение их к исследова 1 Введение тельской работе на более ранних этапах, ориентиро вание школьников на поступление именно в Казан В связи с демографическими проблемами и сни ский университет. Планируется, что участниками жением качества подготовки школьников перед ву- сети будут школьники, начиная с 9 класса, школь зами очень остро стоит вопрос о наборе хороших ные учителя, родители, преподаватели КУ, предста студентов на первый курс.

вители факультетов КУ.

В условиях полного перехода к приему в вузы по результатам единого государственного экзамена 3 Сервисы сети (ЕГЭ) общее количество заявлений на все специ альности и направления подготовки выросло, но Внутри сети школьникам доступны следующие при этом на этапе зачисления (особенно это касает- сервисы:

ся естественно-научных факультетов) оказывается, • Тематические форумы (по интересам), кото что реальный конкурс меньше одного человека на рые ведут преподаватели КУ и представители место. Возросшая мобильность абитуриентов, что, факультетов. На этих форумах рассказывает несомненно, является плюсом новой системы набо- ся о факультетах, ведутся обсуждения задач ра, привела к тому, что абитуриенты «перетекают» в (аналоги кружков).

более престижные вузы или модные специальности. • Всевозможные тестирования по предметам При этом выбор зачастую осуществляется на основе ЕГЭ и задачам интернет-олимпиад. Этот сер стереотипов: самые высокие конкурсы на юриспру- вис позволяет школьникам оценить свои си денцию и экономические специальности. Не малую лы, а создателям сети отслеживать наиболее роль играет и узнаваемость («раскрученность») способных для индивидуальной работы с ни бренда вуза. ми, через предложение им задач повышенной Для формирования устойчивого ядра абитуриен- сложности, исследовательских тем. Таким тов, желающих поступить в Казанский университет образом, составляется портфолио школьни (КУ), в апреле 2010 года была запущена социально- ков.

образовательная сеть «Буду студентом!». • Психологические профориентационные тес тирования. Это позволит подсказать школь 2 Цели социально-образовательной сети нику и его родителям наиболее подходящий профиль обучения.

В 2011 году должен произойти переход на двух • Блоги преподавателей.

уровневую систему образования. В частности, это Кроме того, сеть позволит информировать о со означает сокращение обучения с пяти лет до четы бытиях, предназначенных для школьников.

рех. В настоящее время значительная часть школь ников не подготовлена к учебе в вузе: у многих от 4 Степень реализации проекта сутствует желание учиться, не привит вкус к иссле довательской работе, слабая подготовка. Поэтому Изначально (в 2006 году) была создана инфор вузам приходится на первом курсе, снижая требова мационно-аналитическая система для дистанцион ния, спешно восполнять пробелы школьного обра ного тестирования школьников, обучающихся на зования.

подготовительных курсах КУ. С 2007 года система Труды 12й Всероссийской научной конференции стала использоваться и для массовых интернет «Электронные библиотеки: перспективные методы и тестирований школьников Республики Татарстан и технологии, электронные коллекции» – RCDL’2010, проведения интернет-олимпиад. Уже в первый год Казань, Россия, работы (в 2007 году) было протестировано 75 тысяч школьников. Тестирование проводилось по вводи- Среди подобных сетей можно выделить ресурс мым тогда предметам ЕГЭ совместно с Министер- http://www.egemetr.ru/, который призван помочь ством образования и науки (МОиН) РТ, задания абитуриентам оценить шансы поступления по всем разрабатывались преподавателями УМЦ тестирова- вузам страны, и сеть Томского университета систем ния и подготовки к ЕГЭ (руководитель С.И. Ионен- управления и радиоэлектроники – http://my.tusur.ru/.

ко), техническое сопровождение и разработка сис- В отличие от первого ресурса, социально темы осуществлялось ЦИТом КУ. образовательная сеть Казанского университета на В 2009 и 2010 г. помимо тестирований по обще- целена только на поступающих в КФУ, но предос образовательным предметам были проведены тес- тавляет образовательные сервисы. Второй ресурс тирования по истории Великой отечественной вой- также ориентирован только на свой вуз, но там так ны (совместно с МОиН РТ и управлением образова- же гораздо меньше образовательная составляющая.

ния г. Казани), посвященных 65-летию Победы, и тестирования по избирательному праву в рамках 6 Архитектура решения проекта по повышению участия молодежи РТ в об Система построена на основе современных ап щественно-политической жизни (совместно с ЦИК паратно-программных решений (Intranet РТ), см. http://test.ksu.ru. Школьники сразу после технологии, СУБД Oracle, возможности функцио тестирования видели разбор своей работы. По ито нирования в различных сетевых средах, поддержки гам тестирования проводились педагогические со различных серверных платформ, операционных веты с преподавателями школ.

систем и т. п.).

Масштабность тестирований является уникаль Уровень бизнес-логики включает в себя набор ной для нашего региона. Следует отметить, что ре объектов, сохраняемых в базе данных, и операций с зультаты тестирований по общеобразовательным этими объектами. Каждая операция с точки зрения предметам по районам и школам в целом соответст состояния базы данных является транзакцией, т. е.

вуют распределению результатов ЕГЭ.

полностью выполняется и запоминается в базе дан В 2009 году проводились профориентационные ных или «откатывается» без изменений в базе дан тестирования школьников 9-х классов. Среди ре ных. В виде таких бизнес-операций представлены зультатов можно выделить преобладание учащихся только операции, изменяющие данные.

со склонностью к гуманитарным наукам (около Преимущества решения:

процентов). Это особенно важно для планирования • веб-ориентированность, доступ из любой набора на естественно-научные специальности в точки мира;

2011 и 2012 годах.

• модульность – возможность поэтапной, мо В результате тестирований набирается база по дульной разработки и внедрения;

школьникам РТ. Планируется, что с октября • простота обновлений (не требует усилий со года в сети результаты тестирований будут отобра стороны конечных пользователей);

жаться в виде рейтингов для каждого школьника.

• С июня по август 2010 года платформа социаль- надежность и масштабируемость решения;

• но-образовательной сети использовалась для прове- кроссплатформенность;

дения приемной кампании в КФУ (http:// abituri- • широкие интеграционные возможности.

ent.ksu.ru). Через нее абитуриенты заполняли анке ты, отслеживали свое положение в конкурсе. На форуме приемная комиссия КФУ могла отвечать на School social and educational network of вопросы абитуриентов по приему, представители Kazan University факультетов рассказывали о специальностях. Общее количество зарегистрированных превысило 7000 M.F. Nasrutdinov, G.R. Posledova человек. В дни объявлений важной информации (проходные баллы, приказы о зачислении) количе- In the paper we describe the creation of social networks ство посещений в день доходило до 208 000. and educational network of Kazan University for С октября 2010 года проект должен заработать в school.

полном объеме. Ожидаемое количество участников – около 5000 школьников с 9-го по 11-й классы.

5 Существующие социальные сети и социально-образовательная сеть Казанс кого университета Задачи сети и предполагаемые пользователи на кладывают на нее довольно сильные ограничения. В отличие от «обычной» сети, необходимы более строгая модерация обсуждений (нецензурная лекси ка и т. п.), запрет на выкладывание школьниками файлов.

Значение электронного формата археографического описания рукописей XVI – XVIII вв.

для образовательного процесса © Э.И. Амерханова Казанский (Приволжский) федеральный университет Elmira.Amerhanova@ksu.ru XML-документа с прилинкованным к нему цифро Аннотация вым изображением рукописи. Это позволяло универ Статья посвящена описанию процесса раз- сальному обменному формату SGML/XML разме работки электронного формата археографи- щать самые сложные описания рукописей без утраты ческого описания рукописей с целью его какой-либо научной детали описания.

использования в образовательном процессе. Таким образом, для рукописей библиотеки кн.

На основе современного опыта крупнейших Г.А. Потемкина, представленных в библиографиче фондохранилищ страны в качестве основы ской записи, были приведены две ссылки на графиче описания определяется формат RUSMARC. ский образ рукописи и XML-документ.

При создании электронной коллекции акто- Однако, для актовых документов XVI – XVIII вв.

вых документов XVII в. включение всех разработка полей описания в формате RUSMARC элементов работы с рукописью позволит является еще не до конца решенной задачей. В этом создать большой объем необходимых для направлении имеется немало разработок (например, каждого поля метаданных и использовать [2]), наиболее планомерно с учетом всех требований процесс формирования коллекции при изу- археографии такое исследование проводят специали чении курса дипломатики. сты Российской национальной библиотеки. В их про грамме «Depository» основное внимание уделяется Современный опыт создания электрон- использованию поля № 9 с его максимальным расши ных коллекций рукописей рением, что позволяет представить большой объем элементов описания.

Сегодня электронные коллекции рукописей чаще Еще в ноябре 2003 г. в Москве была проведена ра всего ориентированы на информационное обеспече бочая встреча специалистов Государственного исто ние научных исследований. В последнее десятилетие рического музея (ГИМ), Библиотеки Российской ака в условиях стремительного распространения инфор демии наук (БРАН), Государственной публичной ис мационных технологий увеличилась востребован торической библиотеки (ГПИБ), Археографической ность электронных копий и продуктов, которые могут комиссии РАН и Российского государственного ар быть доступны удаленному пользователю и в виде хива древних актов (РГАДА), Российской националь каталогов машиночитаемых описаний, и в виде пол ной библиотеки (РНБ) для обсуждения перечня ком ных копий рукописей.

муникативных элементов описания рукописных ма Первоначально такая работа в библиотеке Казан териалов. По итогам работы был выработан состав ского университета была проведена с коллекцией кн.

таких элементов и принято решение об их обязатель Г.А. Потемкина, часть рукописного собрания которой ной регистрации и учете во всех хранилищах, пред была введена в научный оборот. Это позволило вне ставители которых участвовали в заседании.

сти с использованием формата RUSMARC уже суще На семинаре «Обработка рукописей в цифровой ствующие элементы описаний рукописей в специали среде» (22 мая 2007 г.) в Российской государственной зированные поля в виде дополнительной информа библиотеке (г. Москва) мне довелось выступить с ции.

докладом «Опыт создания электронных коллекций Часть рукописей была еще не описана на совре рукописей Научной библиотеки им. Н.И. Лобачевско менном уровне требований археографии, что потре го Казанского государственного университета». В бовало анализа опыта представления книжных па ходе дискуссии на семинаре были определены недос мятников в электронном виде. Наиболее эффектив татки формата MARC21, в котором отсутствует зна ным в этом плане считалась работа с метаданными в чительная часть полей для описания старопечатных RDF/XML-представлении. Описание рукописи, как изданий, и, следовательно, для рукописей, более электронного ресурса, было представлено в виде субъективированных в силу особенностей создания, Труды 12й Всероссийской научной конференции использовать этот формат будет еще сложнее. Опыт «Электронные библиотеки: перспективные методы и Европейского консорциума исследовательских биб технологии, электронные коллекции» – RCDL’2010, лиотек свидетельствует об отказе в описании книг Казань, Россия, 2010 ручного пресса от формата USMARC (на основе ко торого создан MARC21) в пользу UNIMARC как ос- ной информационной системе различных аспектов новы для RUSMARC [1]. работы с рукописью: библиотечного учета и библио 12 мая 2010 г. в Российской национальной биб- графического описания, технической обработки ру лиотеке был проведен семинар «Проект формата на- кописного материала, всестороннего научного описа учного описания, каталогизации и электронной пуб- ния исследуемых объектов, анализ текста и т. д.

ликации архивных документов», где программа «Де- В процессе работы с системой формируется боль позитарий» вновь была определена в качестве веду- шой объем необходимых для каждого поля метадан щей разработки. ных – справочных указателей, в дальнейшем состав Базирующаяся на стандарте RUSMARC, система ляющих авторитетные файлы по всем аспектам ар должна осуществлять регистрацию, учет, хранение, хеографического описания рукописей. Тем самым накопление данных библиографического, археогра- будут решены задачи формирования запросов и отве фического, палеографического и содержательного тов в диалоге пользователя и базы данных с учетом характера, а также включать оцифрованные копии профессионально-ориентированной лексики пользо документов. вателя.

Этот опыт для описания актовых документов тре- В образовательной практике такая функция сис бует разработки дополнительных возможностей по темы будет способствовать развитию обучающих выбору элементов, уже занесенных в базу данных, методик в преподавании исторических дисциплин в как, например, особенностей оформления рукописи, целом, и дипломатики, в частности. Например, созда видов почерка, форматов, материальных носителей и ние справочника по особенностям филиграноведения т. п. Только классификация актовых документов позволит не только разместить в системе все макси включает не менее 50 основных видов источников, мально выявленные в литературе виды водяных зна что связано с еще очень слабой аналитической функ- ков, но и пополнить их путем введения выявленных цией документооборота Московской Руси. водяных знаков в описываемых документах. Класси Богатейшее собрание актовых документов XVII в. фикация и анализ каждого подобного элемента опи из фонда Казанского университета до сих пор в пол- сания в процессе обучения студентов обеспечит но ной мере не представлено в науке. Это связано с тем, вый этап педагогических технологий – одну их форм что изучение источников допетровской России со- электронного образования. Система будет не только пряжено со значительными трудностями в виду при- воспринимать получаемые данные, но и контролиро надлежности их к другой языковой, культурной, ре- вать семантически эквивалентные вводные. В случае лигиозной, социальной среде. Учет всех этих особен- их несоответствия с аналогами, представленными ностей на региональном уровне отличается еще и ранее, пользователь будет вынужден скорректировать малочисленностью дошедших до нас документаль- вводимый элемент описания.

ных материалов по территории, подведомственной Соответственно, использование методики Ини Приказу Казанского дворца – особого администра- циативы кодирования текстов – TEI (Text Encoding тивного учреждения, созданного в середине XVI века Initiative) позволит адекватно представить и внешний для управления поликонфессиональным и многоэт- вид страниц рукописи, и их текстовое содержимое.

ничным регионом. Архив этого Приказа сгорел в Поскольку автоматическое распознавание отсканиро 1703 г., следовательно, выявление и представление ванных страниц рукописей невозможно, в рамках источников по данному региону за XVI – XVII вв. образовательного процесса предполагается ввод тек открывает уникальные возможности для исследова- стов документов с использованием существующих в ния во многом утраченного актового наследия. Эти системе возможностей атрибутированного поиска по материалы отражают сложность и многогранность метаданным.

социально-экономических процессов, протекавших в Следовательно, выбор наиболее оптимального течение XVII в. в Поволжье, и значительно расширя- формата описания основывается на археографических ют наши представления об этом давно ушедшем от особенностях описания рукописей, и их наиболее нас времени. Период Смуты начала XVII в., распро- полное представление является единственно верным странение давно применявшейся в Поволжье приказ- подходом к точному научному представлению руко ной системы местного управления на всю Россию, писей в цифровой среде.

масштабное строительство Закамской засечной чер- Особая актуальность данной работы вызвана про ты, участие служилых людей региона в непрекра- блемой сохранности текстов XVII  в.  для предотвра щающихся антипольских и антишведских компаниях щения их исчезновения в результате утраты стабиль и, наконец, массовые народные движения, в том чис- ности материального носителя, что требует использо ле, под предводительством Степана Разина, – все это вания новых подходов в этой деятельности.

составляет исторический контекст корпуса источни- Таким образом, создание новых форм обмена на ков, выявленных на протяжении последней трети XX учной информацией и формирование особых видов в. Их представление в электронной среде значительно информационных ресурсов в области гуманитарного ускорит разработку многих исторических тем, и знания позволяют начать использовать опыт источ представит особую значимость уникального региона никоведческих исследований в образовательном про в составе России в допетровское время.

цессе.   В результате создания электронной коллекции ру кописей XVII в. будет достигаться интеграция в еди Литература [1] Амерханова Э.И. Создание электронного каталога иностранной книги XV – XVII вв. в Научной биб лиотеке Казанского государственного университе та // Машиночитаемая каталогизация старопечат ной книги: Материалы обучающих семинаров, прошедших в Российской национальной библио теке в рамках сотрудничества с Консорциумом европейских научных библиотек (CERL) в 2006 – 2008 гг. / сост. Н.Ф. Вербина, Н.Ю. Кузина. – СПб.: РНБ, 2009. – С. 138-142.

[2] Библиотеки важнее всего в культуре: докл., со общ. XI Ежегодной конф. Российской библиотеч ной ассоциации, Екатеринбург, 15 – 20 мая 2006 г.

Ч. III. – Спб., 2007. – С. 7-72.

The value of the electronic format archaeographic descriotions of manuscripts XVI – XVIII centuries for the educational process E. Amerkhanova The article is devoted to the process of developing an electronic format archaeographic description of the manu scripts for its use in the educational process. On the basis of modern experience of the largest storehouses of the country format RUSMARC is defined as a basis of the description. Creation of an electronic collection of docu ments of XVII century will allow to create great volume of fields of the metadata. Formation of metadata fields of that collection will allow students to explore the course of studies the codicology.

Исследование цитирования в научных публикациях сотрудников для оценки использования журнального фонда научной библиотеки академического института © Н.А. Мазов Институт нефтегазовой геологии и геофизики им. академика А.А. Трофимука СО РАН, г. Новосибирск MazovNA@ipgg.nsc.ru Аннотация появление электронных версий журналов;

снижение традиционной посещаемости библио Анализ цитирования периодических изда- тек и др.

ний широко применяется в библиометриче- В связи с этим фонд периодических изданий на ских и наукометрических исследованиях и учной библиотеки постоянно изменяется и обновля служит основой при принятии решений в ется в соответствии с информационными потребно различных ситуациях: в процессе комплек- стями ученых: в его состав вводятся новые журна тования и развития библиотечного фонда лы, а журналы с низким уровнем использования научных библиотек;

при оценке результа- снимаются с подписки после истечения определен тов научной деятельности академических ного срока. Однако при ограничении финансовых организаций и др. Повышение стоимости средств на подписку и предлагаемом большом ко подписки на журналы в традиционной пе- личестве журналов возникает необходимость в чатной форме, низкая посещаемость тради- строгой и объективной оценке информационной ционных библиотек, ограничения в бюдже- ценности каждого журнала на основе определенных тах библиотек, а также отсутствие помеще- критериев и оценок, которые позволят также вы ний для размещения журналов, вызывают явить группу «ядерных» журналов, имеющихся в необходимость более тщательного отбора фонде каждой научной библиотеки и интенсивно приобретаемых изданий как в печатной, так спрашиваемых учеными.

и в электронной форме. В докладе рассмат- В настоящей работе предпринята попытка изу ривается методика и приводятся результаты чения структуры фонда отечественных и иностран анализа цитирования различных журналов в ных журналов академического Института СО РАН работах научных сотрудников двух акаде- геолого-геофизического профиля на основе анализа мических институтов геолого-геофизичес- пристатейной библиографии работ ученых Инсти кого профиля СО РАН: ИНГГ и ИГМ за пе- тутов за последние десять лет с 2000 по 2009 гг.;

риод 2000 – 2009 гг. оценки эффективности использования и информа ционной ценности различных журналов учеными Изучение структуры журнального фонда инфор- Института.

мационно-библиотечных центров и научных биб- Проблема управления формированием библио лиотек академических институтов с целью опти- течным фондом не нова, а публикаций, посвящен мального формирования фонда представляет собой ных разработке и использованию критериев и мето весьма сложную задачу, хотя на первый взгляд эта дов, основанных на анализе пристатейного цитиро задача решается просто. На формирование и разви- вания, также достаточное количество как у нас в тие фонда влияют различные факторы, основными стране, так и за рубежом [1 – 6]. Как известно, эти из которых можно считать следующие: методы дают возможность исследовать перспектив изменение научных направлений и приоритет- ность научных направлений, информационную цен ных тем исследований;

ность журналов, значимость опубликованных работ изменение цен на журналы;

ученых и т. д. Несмотря на все вышесказанное, на наличие финансовых (в т.ч. и валютных) стоящий метод недостаточно применяется на прак средств на подписку;

тике.

ежегодное появление новых научных журналов;

Следует отметить, что при формировании фонда динамика использования журналов учеными;

журналов научной библиотеки всегда одновременно решаются две задачи:

Труды 12й Всероссийской научной конференции 1) выявление новых журналов, отражающих «Электронные библиотеки: перспективные методы и научные интересы ученых Института – кандидаты технологии, электронные коллекции» – RCDL’2010, на включение в репертуар подписки;

Казань, Россия, 2) выявление изданий, к которым утрачивает- суммарная величина цитирования (в процентном ся интерес ученых – кандидаты на исключение из отношении с нарастающим итогом) для первых репертуара подписки. отечественных журналов, а в табл. 2 для 10 ино Для решения этих задач в работе [4], например, странных журналов, приводимых в работах ученых предлагается разбивать все используемые показате- ИНГГ и ИГМ СО РАН за 2000 – 2009 гг.

ли и критерии можно разделить на четыре большие Таблица группы:

%% кол общие (использование, экспертная оценка, Название журнала ва ссы активность), лок (на абсолютные (публикации, помещенные в РЖ, запрашиваемые по ИРИ), Геология и геофизика 35% относительные (профильность, цитируе Доклады РАН 53% мость, встречаемость, известность), Геохимия 60% научная значимость (проблематика, при оритетность, новизна издания, издательство, редак- Петрология 63% ционная коллегия).

Геотектоника 65% Однако, несмотря на многообразие критериев, целесообразно рассматривать лишь два критерия, Геология рудных месторождений 67% как наиболее объективные – это спрос и цитирова Стратиграфия и геологическая корре- 69% ние [5]. Как показывает анализ работы научной библиотеки за исследуемый период 2000 – 2009 гг., Физика Земли 71% спрос на журналы мало отличается в динамике от Записки ВМО 72% года к году. Это можно объяснить отчасти сформи ровавшейся консервативностью ученых в отноше- Известия АН. Сер. геологическая 73% нии использования фондов научной библиотеки.

Как видно из табл. 1, для цитируемых отечест Поэтому мы будем рассматривать как основной и венных журналов 10 журналов из общего списка в объективный критерий – анализ пристатейных ссы 268 журналов (что составляет менее 4%!) обеспечи лок в публикациях научных сотрудников Институ вают более 70% всех ссылок ученых на отечествен та, поскольку в опубликованных журнальных стать ные журналы. Среди них лидирует журнал «Геоло ях ученые приводят различные сведения по теме гия и геофизика», ссылки на который составляют исследования и цитируют те журналы, которыми более трети всех ссылок. Это объясняется от части они пользовались. Цитирование в статьях ученых тем, что Институты являются учредителем настоя представляет собой прямое доказательство обраще щего журнала, а также то, что журнал долгие годы ния к конкретным журналам. Поэтому пристатейная издавался в Институте геологии и геофизики.

библиография является важным показателем ис пользования научной литературы учеными, наряду с Таблица другими показателями (спрашиваемость, копирова ние, заказы по МБА). %% кол-ва Название журнала В качестве основы для проводимых исследова- ссылок (на раст.) ний была использована база данных (БД) «Труды сотрудников ИНГГ и ИГМ СО РАН». Эта база дан- Earth Planetary Science Letters 7% ных подготавливается в информационно-библио Contributions to Mineralogy and Pe- 13% течном центре ИНГГ СО РАН с конца 1997 года и содержит библиографические данные о публикаци- Geochimica et Cosmochimica Acta 18% ях сотрудников. Наряду с библиографией, в БД от Journal of Geophysical Research 23% ражаются сведения о цитировании работ в Индексе научных ссылок (SCI). В настоящее время эта БД Nature 27% является одной из немногих баз данных, подобного American Mineralogist 31% класса не только в Сибирском отделении, но и РАН.

[7, 8]. Journal of Petrology 34% Предлагаемый метод основан на анализе цити Lithos 37% рования отечественных и иностранных журналов в статьях ученых Институтов. Для выполнения анали- Chemical Geology 39% за использовался список публикаций научных со Geology 41% трудников Институтов, опубликованных ими за по следние десять лет в отечественных и зарубежных В табл. 2 для иностранных журналов наблюдает журналах. Из пристатейной библиографии этих ся совершенно другая картина. Здесь мы видим бо публикаций выбирались все ссылки на отечествен лее гладкое распределение журналов по цитируемо ные и иностранные журналы, подсчитывалось ко сти. Так, первые десять журналов (из 844) по цити личество ссылок на каждый журнал и общее коли руемости составляют чуть более 40% ссылок от об чество ссылок на все журналы. В табл. 1 приведена щего количества. Другими словами менее 2% от зволит разработать новый вид оценки эффективно общего числа цитируемых иностранных журналов сти использования журналов и их информационной обеспечивают более 40% всех ссылок на иностран- ценности, а также качественные алгоритмы для ав ные журналы. Даже беглый анализ вышеприведен- томатизированной системы отбора периодических ных таблиц показывает, что количество «журналов- изданий. Развитие системы, позволяющей опреде лидеров» для научной библиотеки конкретного ака- лять величину спроса журналов, как отдельными демического института не превышает 5 – 10 назва- учеными, так и Институтом в целом, будет способ ний, а число «ядерных» журналов составляет 10 – ствовать формированию сбалансированного жур 15 названий, что зависит от многих причин, в пер- нального фонда научной библиотеки, построенного вую очередь от профиля учреждения и развиваемых на объективном знании о потребностях ученых и им направлений. оптимальном расходовании денежных средств на Наряду с полученными данными было установ- подписку периодических изданий.

лено, что ученые в своих работах цитируют публи кации в журналах, изданных на протяжении по- Литература следних 50 лет – это 1960 – 2009 гг. Обращает на [1] Garfield E. Citation Indexing. Its theory and appli себя внимание тот факт, что наибольшей цитируе cation in science, technology and humanities. – мостью отличаются статьи, вышедшие из печати в New York, John Wiley and Sons, 1979.

последние 10 – 15 лет, – это 1995 – 2009 гг. Эта тен [2] Citation analysis for collection development: a денция просматривается как для отечественных, так study of international relations journal literature // для и иностранных журналов, несмотря на то, что Libr. Collect., Acquis., and Techn. Serv. – 2007. – область наук о Земле традиционно считается кон Vol. 31. – № 3–4. – P. 195-207.

сервативной в плане старения литературы. В на [3] Мотылев В.М. Основы количественных иссле стоящее время проводится более тщательный нау дований в библиотечной теории и практике. – кометрический анализ для того, чтобы установить Л.: Наука, 1988.

причины такого явления. Приводимые здесь данные [4] Азаркина М. Организация журнального фонда объективны, поскольку они получены на основе уже научной библиотеки. Проблемы комплектова опубликованных работ ученых конкретных Инсти ния // Библ. Дело. – 2007. – № 6. – С. 41-42.

тутов за последние 10 лет с 2000 по 2009 гг. и отра [5] Дубров А.П., Красикова О.Л. Критерии и пока жают конкретные информационные потребности затели для формирования оптимального фонда ученых в области наук о Земле.

иностранных журналов // Научные и техниче Полученные в ходе исследований данные по ци ские библиотеки. – 1998. – № 11. – С. 35-41.

тированию публикаций ученых Института были [6] Писляков В.В. Анализ полноты подписки ву использованы при уточнении подписки на периоди зовской библиотеки на электронную научную ческие издания в ИНГГ СО РАН в 2010 г. Следует периодику // 14 Межд. конф. «Крым 2007. Биб заметить, что, используя полученные данные по лиотеки и информационные ресурсы в совре цитированию, можно определить различные показа менном мире науки, культуры, образования и тели, характеризующие журнальный фонд, относи бизнеса», Судак, 9 – 17 июня 2007 г. – Материа тельную информационную ценность каждого изда лы конф. – М.: ГПНТБ России, 2007. – С. 738 ния в отдельности. Ниже перечислены задачи, кото 744.

рые возможно решить с использованием анализа [7] Зибарева И.В., Курбангалеева И.В., Редьки пристатейных списков публикаций ученых при на Н.С., Елепов Б.С. Некоторые аспекты биб формировании журнального фонда библиотеки:

лиометрических исследований в Сибирском от выявлять информационную значимость журна делении Российской академии наук // Библиоте лов фонда;

коведение – 2008. – № 3. – С. 39-45.

оценивать эффективность использования жур [8] Мазов Н.А. Опыт использования библиографи налов фонда;

ческой базы данных трудов сотрудников НИИ:

формировать оптимальную структуру фонда по на примере ОИГГМ СО РАН // 10-я Межд..

научным направлениям;

конф. «Крым 2003, Библиотеки и ассоциации в разделять фонд на активную и пассивную час меняющемся мире: новые технологии и новые ти;

формы сотрудничества», г. Судак, 7 – 15 июня оптимизировать денежные средства на подпис 2003 г. – Материалы конф., Симферополь: Тав ку;

рида, 2003. – Т. 1. – С. 258-259.

изучать вопросы старения научной литературы.

В заключение следует отметить, что приведен ные данные свидетельствуют о перспективности использования анализа пристатейного цитирования для оценки активной и пассивной частей фондов научных библиотек. Дальнейшее совершенствова ние и использование методики анализа пристатей ных списков литературы в публикациях ученых по Citing analyse in publications of researches for an estimation of use of journal of scientific library of the academic institute N.A. Mazov The analysis of citing of periodicals is widely applied in bibliometric and sciencemetric researches and forms a basis at decision-making in various situations: in the course of acquisition and development of library fund of scientific libraries;

at an estimation of results of sci entific activity of the academic organisations, etc. In crease of cost of a magazine subscription in the tradi tional printing form, low attendance of traditional li braries, restrictions in budgets of libraries, and also ab sence of premises for placing of magazines, cause of more careful selection of got editions both in printing, and in the electronic form. In the report the technique is considered and results of the analysis of citing of vari ous magazines in works of scientific researches of two academic institutes of a geologo-geophysical profile of the Siberian Branch of the Russian Academy of Science are resulted: A.A. Trofimuk Institute of Petroleum Ge ology & Geophysics and V.S. Sobolev Institute Geol ogy & Mineralogy during 2000 – 2009.

Технология интеграции и представления музейных данных в среде Web с помощью онтологий © В.В. Иванов Казанский (Приволжский) федеральный университет nomemm@mail.ru завершился. Как правило, имеет место представле Аннотация ние данных в виде слабоструктурированных (или Описаны результаты работ по созданию ме- полуструктурированных) документов. Описания тодов и моделей интеграции музейных музейных предметов представляются в виде таблиц, электронных коллекций. Предлагаемые ме- содержащих в ячейках преимущественно текстовые тоды находятся в русле известных работ по значения. Такая форма представления данных (да интеграции разнородных данных, но при лее – структурированные текстовые описания) явля этом опираются на интенсивное использо- ется доминирующей. Однако в последнее время вание онтологических ресурсов двух типов наблюдаются тенденция к формальному описанию – формальных онтологий и тезаурусов, а схем данных, введению стандартов метаданных, также на учет специфики исходных музей- массовое внедрение в музеях и библиотеках инфор ных описаний. Освещаются вопросы пред- мационных систем фактографического типа и пере ставления связей между тезаурусом, содер- ход от традиционных электронных библиотек (с жащим терминологию предметной области, текстами) к мультимедийным, содержащим фото-, и онтологией верхнего уровня. В заключе- аудио- и видеоматериалы (см., например, проект нии описан опыт применения указанных Europeana [6]). При доступе к структурированным методов для создания хранилища данных. источникам данных, созданным и поддерживаемым независимо в разных музейных системах, возника 1 Введение ют проблемы, связанные с неоднородностью сле дующих видов (в зависимости от уровня, на кото Проблемам, связанным с интеграцией разнород ром производится объединение источников). Физи ных источников информации, посвящено множест ческая неоднородность возникает из-за использова во работ как в области технологий баз данных [1], ния разных форматов хранения и обмена данными так и в области искусственного интеллекта [2].

на физическом уровне. Структурная неоднород Главная цель при решении задачи интеграции дан ность порождается наличием большого числа раз ных состоит в обеспечении доступа к множеству личных схем баз данных. Семантическая неодно разнородных источников на основе общего для всех родность является следствием различий в множест источников интерфейса запросов. Использование вах понятий и отношений предметной области, а онтологий (в качестве концептуальных моделей также способов их интерпретации, которые приме предметной области) для решения задач интеграции няются в различных компьютерных системах и/или информации представляется перспективным на организациях.

правлением [3 – 5]. С одной стороны, онтологии Наиболее актуальным направлением исследова предназначены для явного описания понятий и свя ний является преодоление семантической неодно зей между понятиями предметной области, а с дру родности. Здесь возникают проблемы, связанные, в гой стороны, они являются разделяемыми ресурса первую очередь, с отсутствием общего взгляда на ми и наилучшим образом подходят на роль общего структуру понятий предметной области (онтологии интерфейса к разнородным источникам данных. Как верхнего уровня), а также с отсутствием единой правило, интеграция данных производится в рамках терминологии (набора понятий, или общего подъя некоторой фиксированной предметной области. В зыка предметной области). Многие современные данной работе была выбрана предметная область подходы ориентированы либо на обработку струк культурного наследия, в частности, музейное дело.

туры источника данных (метаданных, концептуаль Эта предметная область представляет особый инте ной схемы), либо на текстовое содержимое. Предла рес, поскольку в современных (отечественных) му гаемый подход вместе с разнообразием структур зейных автоматизированных информационных сис данных учитывает и различия в терминологии. В темах переход от представления данных в виде не рамках подхода была создана онтология по куль структурированных текстовых документов к хоро турному наследию, формализующая основные по шо структурированным форматам и схемам еще не нятия и отношения области музейной документации Труды 12й Всероссийской научной конференции и содержащая более 20 тыс. понятий. Построенная «Электронные библиотеки: перспективные методы и онтология использовалась для автоматической об технологии, электронные коллекции» – RCDL’2010, Казань, Россия, работки различных электронных музейных коллек- кетки музейного предмета») [24]. Цель проекта со ций с целью их интеграции. стояла в том, чтобы выработать рекомендации по В разделе 2 упомянуты общие подходы к инте- общему для всех музеев списку полей описания му грации данных, особенности, возникающие при ин- зейного предмета. В результате был получен сле теграции данных на основе онтологий, а также ре- дующий список полей описания музейного предме сурсы онтологического типа, используемые далее. В та: «Организация (место хранения)»;


«Идентифика разделе 3 описаны особенности подхода к построе- ционный номер предмета»;

«Типология»;

«Автор»;

нию онтологии по культурному наследию, изложе- «Место создания/производства»;

«Название предме ны основы модели интеграции музейных описаний, та»;

«Датировка»;

«Культурный период»;

«Мате а также метод автоматизированного установления риалы и техника»;

«Размеры, вес»;

«Ключевые сло семантических соответствий между структурными ва»;

«Краткое описание предмета»;

«Комментарий».

элементами разных схем данных. В разделе 4 опи- Большинство предложенных полей является ат сан опыт применения предложенных методов для рибутами различных сущностей и только косвенно создания RDF-хранилища, представляющего дан- связаны друг с другом через (неявно подразумевае ные электронного музейного каталога в среде мые) свойства этих сущностей. Поля «Авторы», Linked Data. Связанные результаты опубликованы в «Место создания/производства», «Датировка», «Ма других работах: в [7] предложен подход к разреше- териалы и техника» характеризуют особенности нию лексической многозначности, возникающей создания предмета. Поля «Типология», «Ключевые при обработке текстовых данных, хранящихся внут- слова», «Культурный период» характеризуют тип ри слабоструктурированных документов;

в [8] при- предмета, помогают группировать предметы в соот водятся результаты экспериментов с предложенны- ветствии с некоторой классификацией периодов, ми методами. типов и т. п. Поля «Название предмета», «Иденти фикационный номер предмета» и «Организация»

2 Состояние дел в области интеграции служат для идентификации конкретного объекта из музейных данных множества всех имеющихся, а также для целей учетно-хранительской деятельности. Предложен 2.1 Общие подходы к интеграции данных ный список полей является стандартом «де-факто», и большинство музейных открытых электронных Выделяют общие направления на основе федера каталогов в России ориентируется на представление тивных БД, медиаторов и хранилищ данных [9]. В своих данных в виде слабоструктурированных до [10] отмечается, что важным аспектом при интегра кументов, построенных на базе этого стандарта. Это ции данных является наличие глобальной концепту с одной стороны приводит к формальному преодо альной схемы. Задачи интеграции данных обычно лению структурной неоднородности, но на деле ус ставятся как задачи сравнения схем баз данных [11, ложняет семантическую интеграцию разнородных 12], реже – как задачи сравнения содержимого раз коллекций, поскольку в каждом поле используется нородных БД [13]. Для анализа структуры и содер оригинальная для данного музея терминология.

жимого используются подходы на основе нейрон ных сетей [14], машинного обучения [15] и инфор 2.3 Онтология CIDOC CRM мационного поиска [16]. Между элементами схем устанавливаются соответствия, на основе которых В качестве глобальной онтологии выбрана мо схемы связываются специальным набором отноше- дель CIDOC CRM (Conceptual Reference Model) [25], ний. Совокупность соответствий и отношений на- разработка которой ведется с 2000 года Комитетом зывается отображением. Для решения задачи срав- по документации (CIDOC) Международного совета нения схем данных разработано множество подхо- музеев (ICOM). В 2007 году модель CIDOC CRM дов, как специфичных для предметной области [17], была утверждена в качестве стандарта ISO/CD так и направленных на использование конкретных 21127 и на сегодняшний день является основным языков представления схем [18]. Тезаурусы и лек- международным стандартом для описания инфор сические базы данных (WordNet) используются в мации по культурному наследию. Основным пре качестве наборов синонимов при сопоставлении имуществом онтологии CIDOC CRM является раз лексических меток элементов схем [20]. С точки нообразие свойств, которые, в свою очередь, опре зрения теории разработки систем интеграции с ис- деляют семантику понятий, входящих в домен или пользованием онтологий выделяются три основные диапазон свойства. Тем не менее, данная онтология направления, описанные в [10, 21 – 23]. является слишком общей: наблюдается существен ный разрыв между понятиями CIDOC CRM и поня 2.2 Особенности музейных коллекций тиями в содержимом реальных музейных описаний.

Попытки создать единую схему для описания Понятия верхнего уровня приблизительно соот метаданных музейных предметов предпринимались ветствуют названиям таблиц и столбцов в музейных несколькими исследовательскими группами. Наи- БД (см. «этикетку музейного предмета»), а не тер более плодотворным отечественным проектом, на- минам, описывающим значения в ячейках этих таб правленным на интеграцию в области стандартиза- лиц. С одной стороны, такая ситуация (будем назы ции музейной документации, является работа по вать ее «терминологическим пробелом») сущест созданию стандарта краткого описания (т. н. «эти- венно ухудшает выразительность онтологии и, оче видно, ведет к потере точности при интеграции ин- логию, адекватно структурирующую понятия пред формации, поиске и т. п. С другой стороны, наличие метной области и тесно связанную с подъязыком терминологического пробела вполне ожидаемо: он- экспертов предметной области.

тология верхнего уровня не должна описывать все Связывание двух ресурсов онтологической при возможные понятия, которыми оперируют пользо- роды: онтологии верхнего уровня и лексической ватели при составлении описаний и формулировке онтологии, представляет нетривиальную задачу запросов. [30, 31]. Подход к решению задачи связывания он тологии и тезауруса существенно зависит от даль 2.4 Тезаурус AAT нейшего применения расширенной онтологии. Для подключения тезауруса ААТ к онтологии CIDOC Подъязык предметной области состоит из свя CRM был выбран следующий подход.

занных друг с другом терминов и может моделиро Связывание осуществляется с помощью опреде ваться с помощью тезаурусов. Использование тезау ления набора логических ограничений, накладывае русов общей тематики (например, WordNet [27]) не мых на множества допустимых значений формаль целесообразно – в области культурного наследия ных свойств, заданных в онтологии верхнего уров имеет смысл ориентироваться на специализирован ня. В качестве множества допустимых значений ные информационно-поисковые тезаурусы. Одним некоторого свойства Р выступают группы близких из таких ресурсов является тезаурус по искусству и понятий тезауруса, которые обычно представляются архитектуре ААТ (Art & Architecture Thesaurus) как фасеты или дескрипторные блоки. Логические [28], поддерживаемый обществом П. Гетти ограничения имеют следующий вид:

(P. Getty).

С ( y ) x. P( y, x) DB( x) (строгая форма) Помимо того, что тезаурус является англоязыч ным, существуют ограничения, затрудняющие его либо прямое использование. Область охвата AAT соот С ( y ) x. P( y, x) DB( x) (ослабленная форма), ветствует терминологии, принятой в Западной Ев где С – унарный предикат (класс онтологии CIDOC ропе. Другой недостаток тезауруса ААТ состоит в CRM), Р – бинарный предикат (свойство онтологии том, что он разрабатывался в расчете на индексиро CIDOC CRM), а DB – унарный предикат (множество вание вручную. Несмотря на это, тезаурус ААТ экземпляров, объединенных некоторым фасетом подходит для автоматической обработки текстов.

тезауруса ААТ). В общем случае вместо DB может Положительный момент состоит в том, что ААТ использоваться предикат, истинный на произволь является наиболее полным среди тезаурусов в дан ном подмножестве понятий тезауруса. Предложен ной предметной области (общее число понятий – ный подход позволяет явно уточнять значение клас около 33 тыс., число терминов (т. е. лексических са онтологии CIDOC CRM через подмножество по единиц) – более 130 тыс.). Перевод существенного нятий тезауруса ААТ. Например, накладывание фрагмента тезауруса на русский язык осуществлен в «ослабленного» ограничения на значение свойства НИВЦ МГУ [29]. В процессе перевода тезаурус был P45_состоит_из (входит_в_состав) класса адаптирован к русскоязычной лексике и существен E22_Рукотворный_Объект интерпретируется как но расширен синонимичными текстовыми входами, доопределение семантики класса которые извлекались из крупного Тезауруса по об E22_Рукотворный_Объект (т. е. любой объект, щественно-политической тематике.

созданный человеком, имеет в составе некоторый Для использования и внедрения онтологии материал, заданный фиксированным фасетом из CIDOC CRM в российских музеях имена классов и ААТ).

свойств, а также текстовые комментарии к ним бы ли переведены на русский язык. Важно отметить 3.2 Интеграция музейных описаний на основе необходимость этого перевода, поскольку семанти- онтологии ка классов или свойств описывается именно тексто После создания онтологии по культурному на вым комментарием, а не названием.


следию становится возможным описывать с ее по 3 Создание и применение онтологии по мощью факты, извлекаемые из различных источни культурному наследию для интеграции ков данных, формировать хранилище данных, схе мой которого является онтология CIDOC CRM.

описаний музейных предметов Идея данного подхода к интеграции данных с по мощью CIDOC CRM имеет много общего с идеей 3.1 Объединение онтологии CIDOC CRM и генерации централизованных хранилищ данных, тезауруса AAT описанной, например, в [19]. Для построения хра Для преодоления терминологического пробела нилища данных требуется определить отображение онтологию CIDOC CRM необходимо расширять, между исходной схемой S (например, заданной подключая к ней специализированные словари по «этикеткой музейного предмета») и результирую культуре, списки географических названий, имен щей схемой – онтологией CIDOC CRM. Особенно деятелей культуры и т. п. Подобные источники зна- стью нашего подхода является метод полуавтомати чительно более детально представляют значения ческой генерации отображения, основанный на со понятий нижнего уровня. Главная трудность здесь поставлении текстовых значений и понятий тезау состоит в том, чтобы построить прикладную онто 2) = СS I ObjectT ;

3) w 0.

руса. Общая модель процесса интеграции описана в I I [8]. В [26] указывается на возможность декомпози Аналогичным образом определяются элементар ции задачи преодоления неоднородности на две ные соответствия между бинарными предикатами подзадачи: задачу поиска соответствий между эле (свойствами) исходной и результирующей схем и ментами схем и задачу определения сложного ото ставится задача построения частичного отобра бражения, использующего найденные соответствия.

жения бинарных предикатов из исходной схемы на Остановимся подробно на задаче поиска соответст бинарные предикаты из результирующей.

вий между элементами схем. Введем понятие эле Для решения поставленной задачи необходимо ментарного соответствия и поставим задачу поиска сравнить интерпретации элементов из схем S и Т, элементарных соответствий [32]. Предлагаемые для т. е определить I = (, ( ) I ) для каждого возможного ее решения методы позволяют автоматически нахо дить семантические соответствия между элемента- соответствия. Сравнение может выполняться экс ми схемы источника (S) и результирующей схемой пертом, понимающим значение, стоящее за симво T. лами классов и свойств в схемах, но для автомати Элементарным соответствием между классами зации этого процесса необходимо моделировать из схем S и Т назовем семерку интерпретацию I. Допущение, лежащее в основе СS, SubjectT, PropertyT, ObjectT,, type, w, данного подхода к моделированию интерпретации, состоит в том, что совокупность текстовых выраже где СS – класс из схемы S, SubjectT, ObjectT – ний элементов экстенсионала определяет значение классы из схемы Т, связанные свойством PropertyT (интенсионал) этого класса. Это значение использу ется для поиска семантически близких классов в из схемы Т, – основа для построения данного результирующей схеме Т. Для реализации подхода соответствия, type – тип связи между классами и достаточно сделать следующее: для каждого класса w – вес данного элементарного соответствия. СS из исходной схемы S построить список, содер Каждое элементарное соответствие задает связь жащий те понятия тезауруса, которые встретились в между классами СS и ObjectT. Параметр type – от лексическом выражении экстенсионала класса СS.

ношение между СS и ObjectT на домене интерпре Таким образом, интерпретация определяется опера тации (например, отношение включения или экви- ционально – через процедуру индексирования тек валентности). Параметры SubjectT и PropertyT оп- стовых значений с помощью понятий тезауруса.

Список понятий определяет интерпретацию класса ределяют контекст в схеме Т, в котором множества СS в терминах информационно-поискового языка экземпляров СS и ObjectT могут быть связаны от ношением type. Параметр указывает, на основе тезауруса. Связи между классами и понятиями те зауруса, заданные при создании онтологии, исполь каких компонентов значения построено данное эле зуются для автоматического выделения в схеме Т ментарное соответствие между классами СS и классов ObjectT, семантически близких классу СS.

ObjectT, например, может представлять регуляр- Значения параметров SubjectT и PropertyT берутся ное выражение или набор ключевых слов, содержа из соответствующего логического ограничения. По щихся в текстовых представлениях экземпляров добная процедура интерпретации имеет очевидные класса СS и класса ObjectT. В случае семантической недостатки, поскольку опирается на текстовое со интеграции представляет собой список понятий держимое источника данных, а оно может быть не точным, неполным или, наоборот, избыточным (в тезауруса, которые описывают экземпляры класса т. ч. многозначным). Но, с другой стороны, проце СS в исходной схеме S и допустимые значения дура интерпретации позволяет исключить соответ свойства PropertyT класса SubjectT в результи ствия, не имеющие смысла для содержимого (экс рующей схеме T. Множество элементарных соот- тенсионала) данного источника. Для каждого струк ветствий определяет отображение между схемами S турного элемента в исходной схеме возможно по и T, которое далее называется частичным отобра- строение нескольких элементарных соответствий, жением. при этом каждая из альтернатив подтверждается Задача построения частичного отображения. конкретным примерами вхождений понятий тезау Пусть даны исходная схема S и результирующая руса в текстовое выражение элемента схемы S.

(глобальная) схема T. Для заданного числового по рога 0 1 необходимо построить частичное 4 Представление данных электронного отображение, содержащее элементарные соот- каталога музея в среде Linked Data ветствия, для каждого из которых выполняются ус- (проект Open Kunstkamera Data) ловия:

В 2010 году Лабораторией математической и I 1) СS и ObjectT связаны отношением type при I компьютерной лингвистики НИИММ Казанского I = (, ( ) I ) ;

университета совместно с компанией КАМИС и Музеем антропологии и этнографии РАН имени Петра Великого (Кунсткамера) – далее МАЭ РАН – выполнен проект Open Kunstkamera Data (OKD).

Цель проекта OKD состояла в том, чтобы предста вить данные каталога МАЭ РАН в открытом и стан дартизированном виде в среде Web.

Задача заключалась в том, чтобы построить RDF-хранилище, которое соответствует рекоменда циям Международного Совета Музеев (ICOM) и стандартам среды Web. В хранилище представлены взаимосвязанные данные о предметах, персоналиях, событиях создания и сбора этнографических мате риалов, датах и т. п. Список полей описания фото Рис. 2. Фрагмент отображения, построенного на двух эле графии оказался очень близок к «этикетке музейно ментарных соответствиях: [«Учетный номер»

го предмета» (рис. 1).

E42.Object_Identifier (Идентификатор Объекта)] и [«Ме сто съемки» E44.Place_Appellation (Описание Место Имя поля Значение положения)] Учетный номер № 3196- Для поддержания актуальности хранилища дан Голубиная башня в ных разработан и реализован механизм регулярных Название окрестностях Герата обновлений. Построенное хранилище позволяет Этническая реализовывать новые сервисы и решать новые зада принадлежность афганцы чи. Для реализации прототипа геоинформационного Время съемки сервиса потребовалось выполнить связывание тер Афганистан, провинция минов из справочников с внешним набором данных:

Герат, г. Герат Место съемки geonames.org, что позволило отображать на гло Букинич Дмитрий бальной карте как совокупности сущностей из му Демьянович Автор зейного каталога, например, места сбора материа Букинич Дмитрий лов, так и отдельные предметы. Для поддержки вы Демьянович, Почвовед, полнения сложных запросов к хранилищу открыта инженер-ирригатор, археолог Собиратель точка доступа по протоколу SPARQL. Следствием Экспедиция Н.И. Вавилова в чего стало включение каталога МАЭ РАН в среду Афганистан (1924) Экспедиция Linked Data – общемировое распределенное храни Тематическая Занятия, животноводство, лище взаимосвязанных знаний. В ближайшее время принадлежность птицеводство запланировано применение предлагаемой техноло Место, в отношении гии к данным электронного каталога Этнографиче построек, культовых ского музея Казанского университета, что позволит сооружений (объектов) Жанр говорить об интеграции музейных баз данных в Рис. 1. Пример описания музейного фотографии из фонда масштабах среды Web.

МАЭ РАН Литература При выполнении проекта OKD использовались элементы описанного выше подхода. В качестве [1] Lenzerini M. Data integration: A theoretical per схемы хранилища выступала онтология CIDOC spective // ACM PODS Conference. – 2002. – CRM, представленная на языке OWL DL. В качестве P. 233-246.

подключаемой терминологии вместо тезауруса AAT [2] Calvanese D., De Giacomo G. Data integration: a были использованы иерархические справочники logic-based perspective // AI Magazine. – 2005. – внутренней БД Комплексной автоматизированной V. 26, No 1. – P. 59-70.

музейной информационной системы (КАМИС).

[3] Baader F., McGuinness D., Nardi D., Patel Справочники были преобразованы в формат Schneider P. The description logic handbook: the SKOS, рекомендованный W3C для представления ory, implementation and applications. – Cambridge:

ресурсов подобного рода. Далее было построено и Cambridge University Press, 2003.

выполнено отображение схемы описания музейного [4] Doan A., Madhavan J., Domingos P., Halevy A.

предмета на онтологию CIDOC CRM. Фрагмент Ontology matching: a machine learning approach // построенного отображения приведен ниже (рис. 2). Handbook on Ontologies in Information Systems / Исходная база данных фотоиллюстративного Ed. by S. Staab and R. Studer. – Springer-Verlag, фонда МАЭ РАН содержит более 40 тыс. единиц 2004. – P. 397-416.

описания. Полученное хранилище объемом более 5 [5] Doerr M., Hunter J., Lagoze C. Towards a core млн. RDF-триплетов было загружено в специализи- ontology for information integration // J. of Digital рованную СУБД OpenLink Virtuoso. Information. – 2003. – V. 4. – Issue 1.

[6] Europeana portal, 2010. – http://www.europeana.

eu/portal/.

[7] Иванов В.В., Соловьев В.Д. Применение онто- scriptions // Proc. of Int. Conf. on Very Large Da логий для разрешения лексической много- tabases (VLDB). – Bombay, 1996.

значности в структурированных источниках [22] Calvanese D., De Giacomo G., Lenzerini M. On данных // Третья межд. конф. по когнитивной tology of integration and integration of ontologies // науке. – М.: Художественно-издательский Description Logics. – 2001.

центр, 2008. – Т. 2. – С. 577-580. [23] Levy A.Y., Mendelzon A.O., Sagiv Y., Srivat [8] Иванов В.В., Иванов В.А. Модели и методы stava D. et al. Answering queries using views // интеграции структурированных текстовых опи- Proc. of PODS. – San Jose, CA, 1995.

саний на основе онтологий // Труды казанской [24] Кузьмина Е.С., Ноль Л.Я., Черненко В.В., Ко школы по когнитивной и компьютерной лин- щеева Е.Л. и др. Краткое описание музейного гвистике (под ред. О.А. Невзоровой, предмета: информационно-лингвистическое В.Д. Соловьева, Д.Ш. Сулейманова). – Казань: обеспечение. – Псков;

М., 2001.

Изд-во Казан. ун-та, 2009. [25] Crofts N., Doerr M., Gill T., Stead S. Definition of [9] Fundamentals of data warehousing / Ed. by M. the CIDOC conceptual reference model. – Jarke, M. Lenzerini, Y. Vassiliou, P. Vassiliadis. – http://cidoc.ics.forth.gr/docs/cidoc_crm_version_4.

Springer-Verlag, 1999. 0.pdf.

[10] Wache H., Vogele T., Visser U., Stucken- [26] Euzenat J., Shvaiko P. Ontology matching. – Hei schmidt H. et al. Ontology-based integration of in- delberg: Springer, 2007. – 340 p.

formation – a survey of existing approaches // Proc. [27] Miller G. Nouns in WordNet // WordNet – an elec of the IJCAI-2001 Workshop: Ontologies and In- tronic lexical database / Ed. by C. Fellbaum. – formation Sharing. – Seattle, WA, 2001. Cambridge: The MIT Press,1998.

[11] Madhavan J., Bernstein P.A., Doan A.H., Ha- [28] Art and architecture thesaurus (Research at the Get levy A. Corpus-based schema matching // Proc. of ty). – http://www.getty.edu/research/conducting_ Int. Conf. on Data Engineering (ICDE). – 2005. research/vocabularies/aat/.

[12] Do H.H., Rahm E. COMA – a system for flexible [29] Добров Б.В., Лукашевич Н.В., Соловьев В.Д.

combination of schema matching approach // Proc. Тезаурус по архитектуре и искусству как сред of Int. Conf. on Very Large Databases (VLDB). – ство формализации описаний музейных предме 2002. тов // Электронный журнал FCCL. – 2006. – [13] Doan A.H., Madhavan J., Domingos P., Halevy A. http://fccl.ksu.ru/issue_spec/docs/aat_index.doc.

Learning to map between ontologies on the Seman- [30] Нариньяни А.С. Кентавр по имени ТЕОН: те tic Web // Proc. of Int. Conf. World Wide Web заурус+онтология // Межд. семинар по компью (WWW). – 2002. терной лингвистике и ее приложениям «Диа [14] Li W.S., Clifton C., Liu S.Y. Database integration лог’2001». – 2001. – Т. 1. – С. 184-188.

using neural networks: implementation and experi- [31] Нариньяни А.С. ТЕОН-2: от Тезауруса к Онто ences // Knowledge and Information Systems. – логии и обратно // Межд. семинар по компью 2000. – V. 2. – No 1. терной лингвистике и ее приложениям «Диа [15] Berlin J., Motro A. Database schema matching лог’2002». – Протвино, 2002. – Т. 1. – С. 307 using machine learning with feature selection // 313.

Proc. of Int. Conf. Advanced Information Systems [32] Иванов В.В. Онтологический подход к созда Engineering (CaiSE). – 2002. нию информационной системы по культурному [16] Cohen W. Integration of heterogeneous databases наследию // Учёные записки Казанского госу without common domains using queries based on дарственного университета. Серия физико textual similarity // Proc. of ACM SIGMOD Int. математические науки. – 2007. – Т. 149, Кн. 2. – Conf. Management of Data. – 1998. – P. 201–212. С. 73-92.

[17] Bergamaschi S., Castano S., Vincini M., Beneven Ontology-based techniques for integration tano D. Semantic integration of heterogeneous in and representation of museum collections formation sources // Data and Knowledge Engi on the Web neering. – 2001. – V. 36, No 3. – P. 215-249.

[18] Miller R.J. et al. The CLIO project – managing Vladimir Ivanov heterogeneity // ACM SIGMOD Record. – 2001. – V. 30, No 1. – P. 78-83. The paper describes a model and ontology-based meth [19] Doerr M., Iorizzo D. The dream of a global knowl- ods for integrating of heterogeneous museum descrip edge network – a new approach // ACM J. on Com- tions. A method for linking an upper level ontology and puters and Cultural Heritage. – 2008. thesauri is proposed. In conclusion an experience of [20] Embley D.W., Jackmann D., Xu L. Multifaceted creating large RDF-store in order to represent museum exploitation of metadata for attribute match discov- collections as Linked Data is discussed.

ery in information integration // Proc. of Int. Work shop on Information Integration on the Web Работа выполнена при финансовой поддержке РФФИ (WIIW). – 2001. (проекты 09-07-97007-р_поволжье, 10-07-00445 и 09-07 [21] Levy A.Y., Rajaraman A., Ordille J.J. Querying 12059-офи_м) heterogeneous information sources using source de Автоматизированная система распознавания рукописных исторических документов © А.А. Рогов, А.Н. Талбонен, А.Г. Варфоломеев Петрозаводский государственный университет rogov@psu.karelia.ru, perhetal@onego.ru, avarf@psu.karelia.ru добработки, выходящей за рамки функций, реализо Аннотация ванных в популярных OCR-программах, шрифт мо Статья посвящена вопросам распознавания жет оказаться необычным, а язык – устаревшим с рукописных исторических документов, позиции современного словаря. Дополнительные включая стенографические записи. Описа- сложности создают искривления строк, перепады ны устройство предполагаемой системы ав- яркости, просвечивания текста с обратной стороны томатизированной дешифровки рукописных и другие дефекты оригинала и изображения. Пока источников, а также основные процессы, зательно, что один из самых заметных отечествен связанные с набором рукописного текста. ных проектов по оцифровке печатных книг XVIII века, хранящихся в библиотеках Казани [6], потре 1 Введение бовал решения комплекса проблем по устранению дефектов [5], сегментации [7], разработки специаль Широкое распространение и увеличение доступ ного драйвера клавиатуры [3], создания граммати ности технологий сканирования и цифрового фото ческих правил и словаря русского языка того време графирования привело к быстрому росту цифровых ни.

коллекций исторических документов. В таких кол Сложности многократно увеличиваются при по лекциях документы хранятся в виде растровых гра пытке решения задачи распознавания текста руко фических файлов [4, 9]. Оцифровка решает множе писи. Имеется в виду так называемое оффлайновое ство проблем, связанных с сохранением культурно распознавание, так как при онлайновом распознава го наследия и организацией доступа к нему для ис нии текста, вводимого в компьютер при помощи следователей и массового пользователя. Однако для современных устройств рукописного ввода, в рас реализации полнотекстового поиска, изучения поряжении программы имеется много дополнитель структуры и содержания документов, подготовки ной информации о процессе ввода, облегчающей научных публикаций исторических источников тре задачу. Введение в электронное использование ру буется перевод источника из графического формата кописных исторических документов, хранящихся в в текстовый, то есть распознавание текста.

архивах и библиотеках России, имеет огромное на Алгоритмы и программы автоматического рас учное и культурное значение, так как каждая руко познавания текста разрабатываются уже несколько пись, в отличие от большинства книг, уникальна.

десятилетий. Общепризнанно, что распознавание Следует отметить большой массив официально текста включает в себя этапы предобработки (бина деловых и частных документов XVII – XVIII вв., ризации изображения), сегментации (выделения написанных скорописью с характерными выносны текстовых областей, строк, слов, символов), анализа ми буквами и многочисленными диакритическими бинарных изображений символов или слов (уста знаками, множество канцелярских бумаг, дневни новления значений признаков, сравнения с эталона ков, писем, черновиков литературных произведений ми) и выбора наиболее подходящих словоформ из XIX и XX вв. Одной из наиболее трудных проблем словаря в соответствии с определенной моделью является расшифровка стенограмм. Так, в настоящее языка. Можно сказать, что задача распознавания время остается не расшифрованной часть стеногра текстов на европейских языках, напечатанных на фических записей Ф.М. Достоевского, созданных лазерных принтерах с использованием наиболее его женой А.Г. Достоевской (Снеткиной). Слож употребительных шрифтов и отсканированных на ность данной задачи определяется следующими мо планшетных сканерах, практически решена. Однако ментами:

все не так просто даже для книг середины XX века – • нет людей, владеющих стенографической изображения могут требовать существенной пре записью, которой пользовалась А.Г. Достоевская, известен только учебник, по которому она училась;

Труды 12й Всероссийской научной конференции • стенографист может использовать свои не «Электронные библиотеки: перспективные методы и стандартные обозначения, так как обычно он рас технологии, электронные коллекции» – RCDL’2010, Казань, Россия, 2010 шифровывает записи сам;



Pages:     | 1 |   ...   | 2 | 3 || 5 | 6 |   ...   | 26 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.