авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 |   ...   | 10 | 11 || 13 | 14 |   ...   | 26 |

«Электронные библиотеки: Перспективные Методы и Технологии, Электронные коллекции English Труды RCDL 2010 ...»

-- [ Страница 12 ] --

указания меры важности в конце слова/фразы нужно Во фразах нет смысла использовать групповые поместить символ ^, а за ним число, которое указы символы для слов. Их использование не рассматри вает степень важности. Например, нужно найти ста вается как ошибка, но спрашивающий не получает ожидаемого результата. Здесь нет смысла использо- тьи со словами parallel и programmіng и придать вать поиск по близости звучания всей фразы. Его слову parallel большую релевантность, то поиско использование не рассматривается как ошибка, но вый запрос будет следующим: parallel^4 pro результат будет таким же, как и при поиске по самой grammіng. В качестве меры релевантности можно фразе. использовать неотрицательные целые числа и деся 1) Использование слов и фраз. В поисковом за- тичные дроби в интервале 0-1. По умолчанию все просе можно указывать одновременно слова и фразы. слова/фразы имеют меру релевантности 1. Релевант Например: ность можно указывать для многих слов и фраз, на пример, база данных^20, информационная сис библиотека поиск «база данных» oaі-pmh тема^10, библиотека^5, протокол oaі-pmh.

«интегрированный каталог».

Слова/фразы нужно располагать в порядке уменьше В результате такого поискового запроса будут най ния их меры релевантности.

дены статьи, которые содержат любые из перечис 4) Обязательное наличие слов или фраз. При пе ленных слов или фраз.

речислении слов или/и фразы можно указать на те, 2) Поиск с использованием расстояния между которые обязательно должны встретиться в статье.

словами. Предоставляется возможность поиска по Для этого нужно перед словом/фразой указать сим словам, которые расположены на расстоянии, кото вол +. Например, в запросе: +библиотека +научная рое не превышает указанного числа. Для этого в кон электронная статьи, которые ищутся, обязательно це фразы размещается символ тильда ~, за которым должны содержать слова библиотека и научная и идет целое число, указывающее расстояние. Напри могут содержать слово электронная. А в запросе:

мер, если указать поисковое выражение «научных +«база данных» библиотека статьи, которые системы»~4, то получим следующий результат:

ищутся, обязательно должны содержать фразу "база «Создание научных архивов с помощью данных", и могут содержать слово библиотека. При системы EPrints»;

использовании слов их можно употреблять с группо «Создание научных электронных биб выми символами ? и *, например: +библио* лиотек с помощью системы DSpace».

+электрон* +наук*.

В случае же использования выражения «научных системы»~3 получим только статью:

3.2 Расширенный поиск «Создание научных архивов с помощью системы Eprints». Функция расширенного поиска предоставляет Отметим, что англоязычные стоп-слова не учитыва- пользователям все возможности простого поиска:

ются при определении расстояния между словами. полнотекстовый поиск;

поиск всех описательных Расстояние 0 указывает, что слова расположены ря- метаданных;

поиск выбранных полей метаданных дом. Порядок расположения двух слов в фразе явля- (набор полей;

как правило, пользователь определяет ется существенным. Фраза может содержать не- 3 – 4 поля, объединяя их булевыми операторами), а сколько слов. При этом имеется в виду следующее: также предоставляет дополнительные возможности расстояние между первым и последним словами не по формулировке поисковых запросов: выбрать про должно превышать указанного расстояния, не учи- странство поиска;

указать поля поиска и их значение;

тывая указанные промежуточные слова. Например, использовать логические операторы в запросе.

если поисковый запрос имеет вид «представлення В качестве значений всех полей, кроме поля бібліотечних за онтологій»~6, то в результате Язык, можно использовать все те возможности, ко получим статью: торые описаны в подразделе 3.1. Для поля Язык ис пользуются стандартные двухсимвольные представ «Представлення та відображення бібліотечних предметних класифікацій за ления языков согласно стандарту ІSO 639-1. Напри допомогою інструментів онтологій». мер: uk – украинский;

ru – русский;

en – английский.

Действительно, если между словами представ- Использование логических операторов. Расши • ренный поиск предоставляет возможность объеди- сохранение результатов поиска для после нять поисковые выражения логическими оператора- дующего использования;

ми И(AND), ИЛИ(OR) и НЕ(NOT). • сохранение текстов запросов и их повторное использование самостоятельно или в составе других 3.3 Профессиональный поиск запросов;

• представление результатов поиска в разных Профессиональный поиск предусматривает, что форматах;

пользователь хорошо знаком с синтаксисом поиско • помощь пользователям при использовании вого языка и может сформулировать поисковый за поисковых средств для повышения эффективности прос с использованием этого синтаксиса (формули поиска.

рование такого запроса проводится в тех полях, в которых формулируется простой поиск). Приведем несколько основных правил его использования. 5 Особенности ранжирования документов 1) Можно формулировать любые выражения, ко- в Lucene торые допустимы в простом поиске.

В настоящее время различают три общие модели 2) Для указания того, что поисковое выражение поиска [3, 5].

принадлежит тому или другому полю, указываются 1) Булева модель, когда документы при поиске имя поля, символ : и поисковое выражение. Если это делятся на две группы – либо соответствующие, либо выражение состоит из более чем одного слова и/или несоответствующие запросу, при этом никакие их фразы, то оно берется в круглые скобки. Названия оценки не вычисляются. Так как в этой модели нет используемых полей следующие:· author – автор;

tіtle оценок релевантности документа запросу, то выдает – название;

keyword – ключевое слово;

abstract – ан ся все множество документов, соответствующих за нотация;

sponsor – спонсор;

іdentіfіer – идентифика просу, без какого-либо ранжирования.

тор. Можно одновременно использовать выражения 2) Векторная модель, когда и запросы, и доку с полями и без полей. Примеры использования поис менты моделируются векторами весов n-мерного ковых выражений с полями и без них:

пространства:

author:Резн?ч*;

V (d ) = ( w1,..., wn ), V ( q ) = ( v1,..., vn ), tіtle:(электр* катал* поиск);

abstract:(библ* "электронный каталог" семан тический~0.4);

где n – общее количество различных термов (слов) во система tіtle:баз* abstract:дан*.

всех документах коллекции, каждый уникальный 3) Логические операторы (И, ИЛИ, НЕ) записы- терм – измерение, wi и vi – соответственно веса i-го ваются между поисковыми выражениями, которые терма в документе d и запросе q, веса могут вычис могут быть уточнены именами полей. Если выраже- ляться как tf-idf (term frequency – inverse document ние состоит из более чем одного слова/фразы, то его frequency, частота терма – обратная частота докумен берут в круглые скобки. Если нужно указать порядок та) [5].

вычисления этих операторов, то также используются Релевантность или подобие между запросом и до круглые скобки. В противном случае их вычисление кументом вычисляются расстоянием между этими проводится слева направо. Примеры: векторами: чем ближе они расположены, тем больше база И данные ИЛИ ansі НЕ прогр*;

документ d соответствует запросу q. В векторной author:Резн?ч* И tіtle:(электр* катал* по модели часто используется косинусная оценка реле иск) ИЛИ (система tіtle:баз*);

вантности q и d:

(+библ* научн*) НЕ (+электр* семантика~) И V( q ) V( d ) (база10);

cosineSim(q, d ) =, (jakarta ИЛИ apache) И websіte.

V( q ) V( d ) 4) Использование специальных символов. Син таксис поискового языка использует несколько сим- где V( q ) V( d ) – скалярное произведение двух век волов в качестве специальных. К ним относятся +, –, торов, а V( q) V(d ) – произведение их длин.

&, ||, !, (, ), {, }, [, ],, ", ~, *, ?, :, \. В общем случае их Следует отметить, что векторная модель специ нельзя использовать в поисковых выражениях. Но ально не требует, чтобы веса были обязательно tf-idf.

все же существует возможность их использования.

Но как показал практический опыт, использование Для этого перед таким символом нужно поставить таких весов дает высокоточный поиск. Поэтому символ \. Например, если в запросе нужно использо Lucene использует tf-idf – функцию, прямо пропор вать выражение (1+1):2, то его записывают следую циональную частоте вхождения терма в документ и щим образом: \(1\+1\)\:2.

обратно пропорциональную числу документов кол лекции, содержащих этот терм.

4 Дополнительные поисковые функции 3) И, наконец, вероятностная модель, где вычис ЭБ могут предоставлять также вспомогательные ляется вероятность того, что документ является хо возможности для осуществления функций поиска, рошим соответствием запросу, с использованием например, такие, как: полного вероятностного подхода.

• настройка параметров поиска;

Lucene при реализации функции поиска комбини V(q) V(d ) рует векторную и булевую модели. Подход заключа s(q, d ) = coord(q, d ) qBoost ( q) ется в том, что отбор документов осуществляется в V(q) соответствии с булевой моделью, а их ранжирование docLenNorm(d ) dBoost(d ).

– в соответствии с векторной моделью.

Уравнение для cosineSim(, d ) можно рассмат q Данная концептуальная формула упрощена в том смысле, что, во-первых, принимает во внимание до ривать как скалярное произведение нормализован кумент, а не его поля и, во-вторых, важность, как ных векторов весов, в том смысле, что деление век правило, определяется не для запроса, а для термов тора V(q) на его длину есть его нормализация к запроса.

единичному вектору.

Вкратце опишем, как Lucene реализует эту фор Lucene уточняет оценку векторной модели мулу на практике:

cosineSim(, d ) как с точки зрения качества поиска, q s( q, d ) = так и удобства ее вычисления.

= (tf(t in d ) idf(t ) 2 boost(t.field in d ) 1) Нормализация V(d ) к единичному вектору t in q может быть проблематичной в том смысле, что та lenNorm(t.field in d )) coord( q, d ) qNorm( q ), ким образом удаляется информация о длине доку мента. Чтобы избежать этой проблемы, используется где tf(t in d ) – функция, прямо пропорциональная множитель, учитывающий его длину, который при частоте терма в документе, т. е. числу вхождения водит V(d ) к вектору длиной, равной или большей терма в документ;

единицы: docLenNorm( d ). idf(t ) – обратная частота документа, содержаще 2) При индексации документа пользователи мо- го терм t;

это мера того, насколько уникальным явля гут указать, что одни документы важнее, чем другие, ется терм;

более общие термы имеют низкое значе путем присвоения документу показателя важности ние idf, редкие термы – высокое значение;

(т. е. одни документы имеют предпочтение перед boost(t. field in d ) – важность поля (и документа в другими при прочих равных условиях). А это значит, целом);

важность можно вводить как статически, что и оценка каждого документа получит дополни повышая важность некоторых полей (и документов) тельный множитель важности документа при индексировании данного документа, так и дина dBoost(d ).

мически, т. е. непосредственно на момент поиска;

3) Особенностью модели документа Lucene явля lenNorm(t. field in d ) – нормализованное значе ется то, что документ рассматривается как совокуп ние поля, учитывающее общее число термов в поле;

ность полей (полей метаданных). В связи с этим ка это значение вычисляется на этапе индексирования ждый терм запроса относится к какому-то конкрет документа и хранится в индексе (в его нормах);

поч ному полю. Нормализация длины документа пред ти все поисковые машины (включая Lucene) автома ставляет собой нормализацию длин полей документа.

тически (на этапе индексирования) повышают важ Наконец, помимо того, что имеется множитель важ ность более коротких по длине полей;

интуитивно ности документа, существуют также и множители это имеет смысл, поскольку, если у нас совпадут важности отдельных его полей (например, 0.5 для слово или два в очень длинном документе (поле), это поля autor, 0.3 – для title и 0.2 – для body).

менее релевантно (не так важно), чем если слова 4) Одно и то же поле может присутствовать в до совпадут в документе (поле), скажем, длиной 3 – кументе многократно (например, в случае, когда до слова;

кумент имеет несколько авторов), поэтому важность coord(q, d ) – множитель, который зависит от этого поля равна произведению множителей важно сти отдельных его экземпляров в документе. числа термов запроса, найденных в данном докумен 5) Во время поиска пользователи могут задать те (см. выше);

важность для каждого запроса, подзапроса и каждого qNorm(q) – значение евклидовой нормы (длина терма запроса, поэтому вклад каждого терма запроса вектора) запроса, учитывает сумму квадратов весов для оценки документа умножается на важность этого каждого терма запроса;

норма вычисляется на мо терма запроса qBoos t ( q). мент начала поиска;

этот множитель, как правило, не 6) Документ может соответствовать некоторым влияет на ранг документа (поскольку для конкретно термам запроса и не содержать при этом все его тер- го запроса имеет одинаковое значение для всех най мы (это справедливо для некоторых запросов), по- денных документов), однако это значение может со этому имеет смысл повышать оценку релевантности храняться для того, чтобы иметь возможность сопос тех документов, которые содержат больше поиско- тавить один и тот же документ двум разным запро вых термов. Для этого в оценку вводят множитель сам.

coord(q, d ). В дополнение к явным множителям последнего уравнения на основании запроса могут быть вычис На основании вышеизложенного и предполагая лены и другие множители (как составляющие мно для упрощения, что индекс создается для одного по жителя qNorm(q). Сами запросы в некоторых случа ля, получим концептуальную формулу для оценки релевантности поиска Lucene: ях могут влиять на ранг документа, например, они могли бы повысить важность документа, когда в за- Литература просе есть повторяющиеся термы, но только не один, [1] Кудим К.А., Резниченко В.А., Проскудина Г.Ю.

а несколько, поскольку один повторяющийся терм, Концептуальная модель электронной библиотеки используемый для поиска, повысил бы все подоб // XI Всерос. науч. конф. «Электронные библио ранные документы одинаково. При наличии повто теки: перспективные методы и технологии, элек ряющегося терма в булевом запросе некоторые до кументы могут соответствовать одному терму, но не тронные коллекции» RCDL'2009, 17 – 21 сентяб другому, позволяя множителю важности различать ря 2009, Россия, г. Петрозаводск. – Петрозаводск, такие документы. По умолчанию множитель важно- 2009. – С. 23-31.

сти для запроса равен 1.0. [2] Candela L., Castelli D., Dobreva M., Ferro N., Ioan При реализации данной оценки релевантности nidis Y., Katifori H., Koutrika G., Meghini C., Pa документа поисковому запросу для эффективного gano P., Ross S., Agosti M., Schuldt H., Soergel D.

вычисления некоторые компоненты (как, например, The DELOS digital library reference model founda lenNorm(t. field in d ), вычисляются и агрегируются tions for digital libraries. IST-2002-2.3.1.12. Tech nology-enhanced learning and access to cultural heri заранее, еще на этапе создания индекса.

tage. Version 0.98, December 2007. – Так вычисляется оценка s( q, d ), назначение кото http://www.delos.info/files/pdf/ReferenceModel/ рой – измерять релевантность (подобие) между за DELOS_DLReferenceModel_0.98.pdf.

просом и каждым документом, соответствующим [3] Hatcher E. Gospodnetic O., McCandless M. Lucene этому запросу. Оценка вычисляется для каждого до in action. Second edition. Manning publications, кумента d, содержащего каждый терм t в запросе q.

2009. – 399 p.

Чем выше эта оценка, тем лучше документ соответ [4] Jurafsky D., Martin J. Speech and language process ствует запросу, т. е. тем выше его релевантность. По ing. Second edition. – Pearson Education Interna умолчанию Lucene возвращает документы в порядке tional, USA, New Jersey, 2009. – P. 107-111.

убывания этого показателя, подразумевая, что верх [5] Manning C., Raghavan P., Schtze H. An introduc ние документы лучше соответствуют запросу.

tion to information retrieval. – Cambridge University Press, 2009. – 581 p.

6 Заключение On the search function in the digital library В данной работе на многочисленных примерах реально действующей системы ЭБ рассмотрены все V.A. Reznichenko, G.Yu. Proskudina аспекты функции поиска, включая синтаксис запроса популярной библиотеки программ для информаци- This paper describes the search function in the digital онного поиска Lucene. library. We illustrate all aspects of search functionality, Также в работе рассмотрены модели поиска, по- including query syntax of the search library Lucene, that ложенные в основу работы Lucene, и описаны осо- used in the actual information system. Also we consider бенности ранжирования документов концептуально underlying information retrieval models in Lucene, and и практически. describe how Lucene score document matches to a query.

Метапоиск доступных научно-технических документов в Интернете © Д.В. Ландэ1, А.А. Снарский2, В.В. Жигало Информационный центр «ЭЛВИСТИ», г. Киев НТУУ «КПИ», г. Киев dwl@visti.net, asnarskii@gmail.com, vladlen@visti.net основой для создания интеллектуальной среды ре Аннотация шения аналитических междисциплинарных про Представлены подходы к созданию средст- блем.

ва мониторинга, адаптивного агрегирования Задачи мониторинга информационных потоков и обобщения потоков информации из ин- большого объема в компьютерных сетях, их адап тернета. Предложена концепция адаптивно- тивного агрегирования и обобщения осложняются го агрегирования информации, дано крат- отсутствием типовых методик и решений, неполно кое описание экспериментальной системы той существующих технологических подходов. В PDF Science Search (PDFSS). Практическая настоящее время исследования по проблемам ана значимость работы заключается в обосно- лиза информационных потоков большого объема в вании подходов и средств создания обще- компьютерных сетях носят чаще всего узко специа доступной информационно-аналитической лизированный характер. Вместе с тем, опыт созда среды для проведения научно-аналити- ния и внедрения корпоративных информационных ческих исследований. систем свидетельствует о необходимости создания и внедрения документальных информационных Интенсивное развитие информационных сетевых хранилищ для обеспечения научных исследований, технологий привело к резкому росту объемов доку- получения разнообразных аналитических сведений, ментальной информации в сетевой среде. Несмотря навигации в документальных информационных на то, что большое число аналитических материалов потоках больших объемов.

публикуется на «закрытых» информационных ре- Представляется очень важным, чтобы агрегиро сурсах (тех, которые требуют оплаты, регистраци- вание информации, формирование информационно онных данных, корпоративной принадлежности и го хранилища было адаптивным, т. е. ориентиро т. п.), большая часть из них публикуется в веб-среде ванным на информационные потребности реальных (на домашних страницах авторов, серверах пресс- пользователей. Если учитывать динамику и объемы релизов, торрентах, социальных сетях и т. п.). Рост доступной информации в интернете (на сегодняш объема и динамики информационной среды сопро- ний день доступно свыше триллиона веб-страниц), вождается многократным дублированием информа- то становится очевидным, что обеспечение эффек ции, слабой ее структуризацией, ростом уровня тивного доступа в режиме поиска к информации в информационного шума [1, 2]. отрыве от информационных потребностей является Своевременное получение многоаспектной и практически неразрешимой задачей. Основная идея объективной документальной информации с помо- адаптивного агрегирования информации заключает щью средств мониторинга компьютерных сетей, ся в сборе и хранении в информационном хранили современных поисковых и метапоисковых систем ще только той информации, которая соответствует для последующего ее использования в научных информационным потребностям пользователей исследованиях может быть достигнуто лишь путем (существующих или потенциальных). Для этого внедрения новых теоретических и технологических предполагается, что по мере развития системы в ее решений. Поэтому особо актуальным является раз- информационное хранилище будут попадать акту работка теоретических и технологических принци- альные документы из интернета, соответствующие пов построения адаптивных информационных хра- текущим запросам пользователей. Естественно, с нилищ, автоматизированных систем обработки и ростом количества пользователей объемы информа обобщения информации из документальных храни- ционного хранилища (репозитария) будут также лищ сверхбольшого объема, которые должны стать расти, что в некоторый момент потребует пересмот ра его содержания по некоторым критериям, напри мер, по времени в соответствии с формулой Барто Труды 12й Всероссийской научной конференции на – Кеблера [3], или по содержанию с использова «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» – RCDL’2010, нием методов Text Mining.

Казань, Россия, В настоящее время ни одна из традиционных тупной в настоящее время по адресу поисковых систем на достаточном уровне не помо- http://weblib.in.ua (рис. 1).

гает при поиске актуальной документальной ин формации, которая находится в динамической части интернета. Решение этой задачи требует примене ния системы-посредника между пользователем и сетью. Подобный посредник должен выполнять работу по сбору, селекции информации и осуществ лять предварительную обработку данных для созда ния документального информационного хранилища.

В настоящее время в интернет-пространстве со Рис. 1. Строка поиска на сайте WebLib.in.ua держится большое количество документальных ресурсов, представленных в формате PDF [4]. По- Любая поисковая система в процессе работы пулярность данного формата вызвана тем что он просматривает определенный набор серверов и является компактным и удобным для хранения ин- отбирает документы в соответствии с заданными формации, представленной изначально в различных критериями. Сегодня поиск с помощью разных видах: простого текста, векторных и растровых систем по одним и тем же ключевым словам дает изображений, страниц веб-сайтов, форм и мульти- различные результаты. Это привело к идее создания медийных файлов. Вместе с тем, при поиске необ- так называемых метапоисковых (или мультипоис ходимой документации в формате PDF с помощью ковых) систем [5], которые обращаются за помо традиционных сетевых информационно-поисковых щью сразу к нескольким поисковым системам. Ка систем пользователь постоянно сталкивается с про- ждая из метапоисковых систем имеет свой язык блемами, связанными с плохой доступностью целе- запросов. Метапоисковая система переводит сфор вой информации (условиями платного доступа, мулированный на ее языке запрос на языки, исполь отсутствием необходимых файлов по указанным зуемые каждой машиной поиска. Далее, результаты адресам или неверными гиперссылками). Хотя поиска всеми системами объединяются и представ большинство поисковых систем, таких, как Google, ляются в соответствующей форме. Естественно, Yandex, Rambler, Yahoo, выводит в список резуль- поиск с помощью метапоисковых систем занимает татов информацию о найденных PDF-файлах, вме- больше времени по сравнению с обычными ИПС.

сте с тем они часто дают ссылки на несуществую- С помощью метапоисковой системы PDFSS щие PDF-файлы или ссылки на сайты, где PDF- можно искать PDF-файлы в таких поисковых сис файлы находятся в закрытом доступе. Например, темах, как Google, Bing, Yandex, Rambler, а также в указывая в строке адреса название PDF-файла (по- ее собственной базе данных (кэше PDFSS). Поиск в лученное с помощью Google Scholar) кэше производится при любом запросе по умолча 36W622113036P357.pdf на сервере такого популяр- нию и выводится списком ниже результатов, полу ного издания, как Springer, пользователь получает ченных от других ИПС.

не искомый документ, а его описание и регистраци- Особенностью PDFSS является то, что она пол онную форму. Сказанное относится и к специализи- ностью направлена на поиск доступных пользовате рованным поисковым системам, ориентированным лю PDF-файлов, с возможностью фильтрации плат на поиск документов в формате PDF (например, ных ресурсов, текстовых описаний, любой инфор OSUN – http://www.osun.org, PDFGod, http://www. мации, кроме самих файлов, без сопровождающих pdfgod.com, http://pdf-search-engine.com/ и др.). В их информационного шума или рекламы.

указанных поисковых систем нет возможности от- Общая схема работы местапоисковой системы сортировать или отфильтровать результаты поиска PDFSS охватывает ряд этапов. После того, как поль или просто поискать в базе данных с уже сохранен- зователь задает запрос метапоисковой системе, с ее ными PDF-документами. Все перечисленные систе- помощью создаются запросы для каждой поисковой мы поиска PDF-документов основаны на поиске системы, учитывающие уникальные возможности информации в других поисковых системах. В ос- их синтаксиса. Затем модифицированные запросы новном они направлены на англоязычный сегмент пересылаются поисковым системам, которые воз пользователей и используют для получения инфор- вращают результаты поиска. После этого метапоис мации в основном систему Google, что ограничива- ковая система разбирает полученные результаты на ет выдаваемые результаты. Кроме того, лишь одна отдельные документы и проверяет их доступность.

из специализированных поисковых систем может Например, если в пути к документу присутствует выдавать PDF-файлы в HTML-виде (это удобно для доменное имя, присутствующее в стоп-списке, то оперативного ознакомления с содержанием доку- документ отбрасывается и не используется в даль ментов) – это pdf-search-engine.com. нейшей обработке. Это лишь один из критериев С участием авторов была построена модель тех- фильтрации. Те документы, которые прошли этап нологии агрегирования документальных информа- фильтрации, преобразуются для вывода результатов ционных потоков, реализованная в виде метапоис- пользователю. Также производится поиск во внут ковой системы PDF Science Search (PDFSS), дос- ренней базе данных файлов (в информационном кэше на прокси-сервере, содержащем найденные ранее документы [6]). Если такие файлы были най- рейтинг выше, чем у системы Bing (в Google боль дены, то вывод документа дополняется информаци- ший охват ресурсов, более релевантные результа ей о возможной доступности этого файла по обна- ты). В PDFSS происходит фильтрация неинформа руженной ссылке. Если данный файл отсутствует по тивных сайтов или сайтов с недоступными первоис указанному адресу в интернете, то выводится сооб- точниками (так называемый «черный список»).

щение, что данный файл может отсутствовать. Если Если ссылка на один и тот же PDF-документ бы же информация о данном файле присутствует в ла получена из различных поисковых систем, то информационном кэше и он предположительно выбирается та из них, которая содержит более пол существует, то вывод дополняется информацией, ное описание.

такой, как размер файла, а также создается HTML- Результаты представляются пользователю в виде версия этого файла. После подсчета количества списков результатов различных поисковых систем, найденных документов подготовленные результаты которые следуют друг за другом.

выводятся пользователю через стандартный веб- В системе PDFSS используется модуль кэширо интерфейс [7]. вания, основная задача которого – сбор ссылок на Таким образом, система PDFSS состоит из трех PDF-документы, которые получены в процессе ра основных модулей (рис. 2): боты с пользователем метапоисковой системы, что • бы в дальнейшем сохранить в информационном метапоисковая система;

хранилище (кэше PDFSS) файлы, а также сопутст • модуль кэширования информации (инфор вующую им информацию, такую, как доступность мационный прокси-сервер);

файла по данной ссылке и размер файла.

• внутренняя поисковая система, работающая Поиск в кэше PDFSS и ранжирование получен как с информационным прокси-сервером, так и ных результатов происходят по иному принципу.

репозитарием.

Так как в системе уже загружены тексты pdf файлов, то строятся собственные таблицы реле вантности с учетом частоты встречаемости ключе вых слов, их позиции (если ключевое слово встре чается в названии, то данный документ более реле вантен, чем тот, в котором ключевое слово встреча ется в середине текста).

Система периодически обновляет информацию о тех файлах, которые были сохранены в базе дан ных PDFSS. Если файл не был ранее доступен, но доступен в тот момент, когда производится вторич ное сканирование, информация в базе данных PDFSS обновляется;

если же он становится недос тупным, то в базу данных записывается информация о недоступности данного файла, чтобы в дальней шем предложить пользователю получить этот файл из кэша. Далее PDF-файл кэшируется, конвертиру ется в текст, затем строится поисковый индекс этого файла.

Во внутреннем формате для каждого файла при сутствует такая информация, как текстовый вариант PDF-файла, размер файла, ссылка, по которой был сохранен файл, ссылки на похожие файлы с других сайтов.

Внутренняя информационно-поисковая система позволяет пользователю искать в кэше системы PDFSS документы, которые динамически накапли ваются. Каждый документ во внутренней поисковой системе ранжируется по релевантности. Критерия ми релевантности документа являются: количество вхождений ключевых слов (по которым пользова тель ищет документ), размер документа, а также наличие подобных документов в базе данных мета поисковой системы. Результатом поиска информа Рис. 2. Модель системы адаптивного агрегирования ции в кэше PDFSS является аннотированный список информации найденных документов. Аннотации (сниппеты) документов – строки с первыми вхождениями клю Основным критерием ранжирования информа чевых слов введенных пользователем.

ции в системе PDFSS является рейтинг поисковых систем. Так, например, у поисковой системы Google Метапоисковая система PDFSS изначально бы- Именно благодаря эффекту адаптивности, на ла создана как система метапоиска научно- личия большого количества информации, уже за технической документации и использовалась поль- груженной с научных сайтов, журналов, серверов зователями, которые искали именно такие докумен- препринтов и т. д., можно констатировать, что сего ты. Соответственно в адаптивном кэше PDFSS при- дня система PDFSS лучше всего настроена на поиск сутствуют преимущественно научно-технические научно-технической информации.

документы (их количество превышает 120 000) с Сравнения результатов эксплуатации системы более чем 40 тысяч источников. Лидируют среди PDFSS (http://weblib.in.ua/) с другими подобными источников сайт nbuv.gov.ua (Национальная биб- системами позволяет сделать заключение не только лиотека Украины им. В.И. Вернадского – 5517 фай- о том, что эта система лучше отфильтровывает не лов), ioffe.ru (Физико-технический институт имени доступные пользователю документы, но и о ее луч А.Ф. Иоффе – 1814 файлов), window.edu.ru (Единое шей ориентации на русский язык. Так, по запросам окно, доступ к образовательным ресурсам – 1268 «персистентность фрактал» (запрос 1) и «persistence файлов) и др. Большинство из источников – это fractal» (запрос 2) различными документальными сайты университетов, институтов, а также научных поисковыми системами было выдано соответствен журналов и электронных библиотек (таблица 1). но документов:

http://www.pdf-search-engine.com/ – 10 и 100;

Таблица 1. Количество охваченных системой http://www.pdfgeni.com/ – 0 и 52;

PDFSS PDF-файлов для различных источников http://pdfdatabase.com/ – 0 и 307;

http://ebookee.com/ – 0 и 86;

№ Название источника Количество http://www.osun.org/ – 19 и 64;

п.п. файлов http://weblib.in.ua/ – 131 и 184.

1 nbuv.gov.ua Данный оценочный пример свидетельствует о 2 www.ioffe.ru том, что при поиске по русскоязычному запросу 3 window.edu.ru система PDFSS является абсолютным лидером по 4 ebiblioteka.lt полноте. Вместе с тем, она уступает по количеству 5 vestnik.udsu.ru выданных документов системе pdfdatabase.com.

6 ecsocman.edu.ru Однако, анализируя выдачу последней, можно сде 7 eprints.ksame.kharkov.ua лать вывод, что pdfdatabase.com попросту не реали 8 ict.edu.ru зует операции конъюнкции и не всегда обеспечива 9 rrc.dgu.ru ет получение пользователями оригиналов докумен 10 tstu.ru тов (около 20% документов недоступны). Так, по 11 unn.ru слову persistence в этой системе находится всего 12 rae.ru 297 документов, а по слову fractal – 168.

13 library.iapm.edu.ua 290 Рассмотренная модель, реализованная в виде ме 14 library.tane.edu.ua 276 тапоисковой системы PDFSS, в настоящее время 15 science.ncstu.ru 264 уже нашла своих пользователей и позволила сфор 16 iai.dn.ua 264 мулировать более сложные задачи, которые должны 17 sun.tsu.ru 262 быть решены в рамках отдельной научно 18 lib.csu.ru 235 исследовательской работы.

19 elar.usu.ru 232 Предполагается, что результаты данной работы 20 isras.ru 229 должны составить теоретическую базу для разра 21 eprints.zu.edu.ua 213 ботки автоматизированных систем мониторинга, адаптивного агрегирования и обобщения информа 22 dtic.mil ционных потоков, построения и ведения информа 23 vestnik.vsu.ru ционных ресурсов сверхбольших объемов и разно 24 lomonosov-msu.ru образной тематической направленности. Ожидае 25 jetpletters.ac.ru мые результаты позволят совместить в единой тех 26 vant.kipt.kharkov.ua нологической цепочке мониторинг, информацион 27 vak.ed.gov.ru ный поиск, агрегирование информации с содержа 28 ogbus.ru тельным анализом данных, их обобщением, что 29 zhurnal.gpi.ru повысит качество обработки сетевой информации, 30 ej.kubagro.ru соответственно, эффективность информационно … аналитической поддержки научно-аналитической 39 dialog-21.ru деятельности отечественных ученых и специали … стов.

49 arxiv.org … Литература 122 rcdl.ru [1] Брайчевский С.М., Ландэ Д.В. Современные информационные потоки: актуальная проблема тика // Научно-техническая информация. Сер. 1.

– 2005. – № 11. – С. 21-33.

[2] Lande D., Braichevski S., Busch D. Informations fluesse im Internet // IWP – Information Wissen schaft & Praxis. – 2007. – V. 5, No 59. – P. 277 284.

[3] Bruton R., Kebler R. The half-life of some scien tific and technical literature. // Am. Document. – 1960. – V. 11, No 1. – P. 18-22.

[4] Document management – Portable document for mat – Part 1: PDF 1.7 // Adobe Systems Inc. – 2008. – 756 р. – http://www.adobe.com/devnet/ ac robat/PDFs/PDF32000_2008.PDF.

[5] Meng W., Yu C, Liu K.L. Building efficient and effective metasearch engines // ACM Comput.

Surv. – 2002. – V. 34, No 1. – P. 48-89.

[6] Додонов А.Г., Ландэ Д.В. Организация сети информационных прокси-серверов // Регистра ция, хранение и обработка данных. – 2006. – Т. 8, № 3. – С. 24-31. – http://dwl.visti.net/art/inf proxy/.

[7] Ландэ Д.В., Снарский А.А. Возможности сис темы мультипоиска доступных научно технических документов в Интернет на примере тематики неразрушающего контроля и техниче ской диагностики // Материалы 15-й межд. на уч.-техн. конф. «Электромагнитные и акустиче ские методы неразрушающего контроля мате риалов и изделий», 15 – 20 февраля 2010 г., Славское Львовской обл. – С. 105-107. – http://dwl.visti.net/art/slv/.

Metasearch of accessible scientific and technical documents in the Internet D.V. Lande, A.A. Snarskii, V.V. Zhygalo The article describes creation of means for monitoring, adaptive aggregation and generalization of streams of the information from the Internet. The concept of adap tive aggregation of the information is offered, the short description of experimental system PDF Science Search (PDFSS) is given.

The practical importance of work consists in a sub stantiation of approaches and means of creation of the popular information-analytical environment for carrying out of scientifically-analytical researches.

Семантические сервисы для коллекций математических документов, представленных как Linked Data © Н.Г. Жильцов НИИММ им. Н.Г. Чеботарева Казанского (Приволжского) федерального университета nikita.zhiltsov@gmail.com ментов математической нотации находится в фокусе Аннотация многочисленных систем поиска по формулам [11, Статья содержит обзор технологий Семан- 18, 30]. Как правило, такие системы используют тического Веба для представления научных особое формализованное представление формул, математических документов. Обсуждаются выраженное на языках OpenMath [21] и MathML вопросы формализации логической струк- [15]. На базе этих форматов решается более сложная туры математического документа и струк- задача – интерпретация семантики формул на языке туры объектов математического знания как LaTeX, которой, в частности, посвящены такие про ключевых характеристик исходных текстов. екты, как Uniquation [33] и ArXMLiv [28].

Также рассматриваются идеи семантиче- Актуальность онлайновых сервисов для элек ских сервисов, расширяющих возможности тронных коллекций и архивов научных публикаций электронных коллекций в области матема- широко обсуждается в отечественной литературе тики. [35, 36]. В данном обзорном докладе делается ак цент на математических научных публикациях и 1 Введение технологиях Семантического Веба, которые могут применяться при их интеллектуальной обработке.

Современные специализированные электронные коллекции [13, 31, 32, 34] содержат большое число 2 Представление структуры математи документов, представляющих интерес для отдель ческого документа ных групп математиков – исследователей, инжене ров, преподавателей, студентов и т. д. Как правило, Специфика математических текстов позволяет пользователям этих систем предоставляется доступ выделить два типа структуры – логическую струк к исходным текстам публикаций, например, в фор- туру математического документа и структуру объ матах PDF или LaTeX, а также предлагается сервис ектов математического знания.

полнотекстового поиска по ключевым словам с уче- Логическая структура документа. Многие на том метаданных – поиск по названию, автору, крат- учные математические тексты имеют четкую логи кому описанию, году публикации. Расширенную ческую структуру. Даже языки, ориентированные на функциональность реализуют системы поиска на- представление, имеют средства (в частности, пакет учных публикаций, которые кроме базового полно- AMS-LaTeX) для разметки таких элементов, как текстового поиска предоставляют дополнительные теоремы, леммы, доказательства, определения, возможности. Например, Google Scholar [5] позво- следствия и т. д. В последнее десятилетие разрабо ляет находить как статьи, которые ссылаются на таны различные методы для формализации логиче данную, так и статьи, сходные по тематике с дан- ской структуры. Так, например, подход, описанный ной. CiteSeerX [2] использует принцип общих цитат в [8, 20], выделяет элементы риторической структу для поиска похожих статей. Scirus [24] позволяет ры математического текста – главы, теоремы, дока фильтровать поисковые результаты, используя ди- зательства – и отношения логического следования намически генерируемые фасеты. Тем не менее, в между ними. Авторы утверждают, что такое пред рамках традиционного подхода к представлению и ставление позволяет проводить частичную валида обработке математических документов игнорирует- цию фактов, описанных в документе. Разработаны ся специфика исходных текстов: (i) наличие элемен- методы, направленные на улучшение навигации при тов математической нотации;

(ii) структурирован- чтении математического текста [19]. В проекте ность математического документа;

(iii) категориза- HELM [14] впервые была предпринята попытка ция текстов по разделам математики. Очевидно, что представить структуру документа и объектов мате использование этих особенностей требует развития матического знания на языке RDF. Например, в он альтернативных моделей математического докумен- тологии HELM выделялись отношения между таки та. Наряду со стандартным полнотекстовым индек- ми концептами, как Теория, Теорема, Доказательст сом такие модели должны специфировать дополни- во, Заключение и т. д. Формат OMDoc [10], осно тельные характеристики. Например, обработка эле- ванный на XML, позволяет выражать структурные элементы (утверждения, теоремы, леммы), объекты Труды 12й Всероссийской научной конференции математического знания (теории и их морфизмы) и «Электронные библиотеки: перспективные методы и семантику математических формул с помощью язы технологии, электронные коллекции» – RCDL’2010, ков OpenMath и MathML. Онтология OMDoc, реали Казань, Россия, зованная на языке OWL-DL, концептуально описы- 3 Представление математических доку вает формат OMDoc и выражает структурные эле- ментов как Linked Data менты и отношения между ними. Например, форму Термин Linked Data [1] – «связанные данные» – лируются такие утверждения, как «доказательство обозначает одну из центральных идей Семантиче доказывает теорему», «теорема принадлежит тео ского Веба, в основе которой – то, что первичными рии», «пример относится к теореме» (см. рис. 1).

объектами веба являются описания сущностей с явным указанием их семантики и семантики ссылок (отношений) между ними. Технологически это обеспечивается представлением данных в виде три плетов «субъект – предикат – объект» на языке RDF, идентификацией данных с помощью URI, ме ханизмом доступа по протоколу HTTP, специфика цией контролируемых словарей на языках RDFS и OWL. Также относительно недавно появился мик роформат RDF [23], поддержанный поисковыми системами Yahoo и Google как расширение XHTML для аннотирования веб-страниц метаданными. Бо лее высокая структурированность первичных объ ектов по сравнению с традиционным вебом доку Рис. 1. Фрагмент онтологии OMDoc ментов позволяет предлагать более качественные сервисы, которые можно разделить на три группы:

Спецификация семантики математических фор (i) браузеры (ii) семантические поисковые системы мул также имеет важное значение. Во-первых, одни и (iii) мэшапы. Браузер Sparks O3 [27] является и те же элементы математической нотации могут обозначаться по-разному, например, биномиальный примером приложения первого типа. Он отображает k n дополнительную информацию о факте, содержа коэффициент записывается как C n, C k или n.

k щимся в веб-документе. Например, в связи с упо минанием конференции браузер отображает инфор Во-вторых, разные объекты могут быть отображены мацию о месте проведения или о составе участни одинаково, как в случае обозначения счетчика при ков. Поисковая система Sindice [26] индексирует объявлении суммы и мнимой единицы в формуле документы, представленные как Linked Data, и по Эйлера.

зволяет выполнять сложные семантические запро Структура объектов математического знания.

сы. Например, Sindice позволяет находить докумен Труды Н. Бурбаки были, по существу, первой по ты, в которых встретилось упоминание о коллегах пыткой построить онтологию математического зна или знакомых пользователя. Sig.ma [25] – пример ния из аксиоматики канторовской теории множеств.

приложения-мэшапа. Мэшапы объединяют данные Они заложили общий фундамент для концептуаль из нескольких источников в один интегрированный ного представления объектов математического зна инструмент. Сервис Sig.ma, который можно рас ния и их отношений на уровне отдельных теорий. В сматривать как проводник по Linked Data, агрегиру работе [6] представлена формальная онтология ма ет информацию по любому объекту Linked Data – тематического моделирования для инженеров, по конкретной личности, событию, предмету и т. д.

крывающая такие разделы, как абстрактная алгебра Технология, описанная в [22], предлагает ориги и метрология. Математический тезаурус Кембридж нальный подход для публикации математических ского университета [16] содержит список основных документов как Linked Data. Процесс преобразова математических терминов с отношением гипоним ния документа выглядит следующим образом (рис.

гипероним и отношением логической связи между 2). Исходный математический документ на языке терминами. Например, тезаурус содержит такой LaTeX аннотируется вручную с помощью пакета факт, что термин «моноид» является нижестоящим sTeX [9]. Остальные преобразования производятся в по отношению к термину «полугруппа» и определя автоматическом режиме. С помощью утилиты ется через понятие «нейтральный элемент». Широко LaTeXML [17] sTeX-документы конвертируются в известный тезаурус WordNet [4] содержит не только формат OMDoc. На следующем этапе извлекаются математические термины, но и указывает на отно данные в виде RDF с привлечением онтологии шение синонимии между некоторыми из них. В ча OMDoc и генерируются уникальные URI для струк стности, WordNet приводит синоним понятия «абе турных элементов [12]. Далее формируются доступ лева группа» – «коммутативная группа». Набор ные в вебе документы в форматах данных DBPedia [3] и онтология Yago [29] – приме XHTML/MathML/RDF. Также авторами подхода ры взаимосвязанных ресурсов, содержащих терми разработан пример сервиса для интерактивного ны с отношением гипоним-гипероним и отношени просмотра опубликованных математических доку ем принадлежности к некоторой категории. Напри ментов [7]. Он позволяет просматривать определе мер, DBPedia содержит тот факт, что Великая тео ния терминов и выдавать объяснения элементов рема Ферма относится к категориям «теория чисел»

нотации.

и «теория Галуа».

Рис. 2. Процесс преобразования математического документа формулы, а также предлагать поиск связанных ма 4 Семантические сервисы для коллек териалов в онлайн-ресурсах. Такие ресурсы, как ций математических документов Wikipedia и сайты онлайн-курсов известных уни Проект Linked Data динамично развивается с верситетов, представляют собой альтернативные 2007 года. По состоянию на ноябрь 2009 года раз- источники знаний.

мер «облака» Linked Data составляет 13.1 млрд. Лекторам полезны сервисы, упомянутые в [22]:

RDF-триплетов и 142 млн. RDF-ссылок. Важными • подбор материалов к очередной лекции;

источниками данных являются такие ресурсы, как подбор может осуществляться с учетом специфики DBPedia, Geonames, BBC, U.S. Government, аудитории, например, содержание курса математи Thomson Reuters и др. Тем не менее, до сих пор об- ческой логики варьируется для студентов математи ласть математики не представлена в значительном ческих, гуманитарных или физических факультетов объеме в данном проекте. В этой связи актуальна в смысле уровня математической подготовки и задача публикации математических документов в примеров, специфичных для предметной области;

форматах Linked Data в автоматическом или полу- • поиск проблем и задач для самостоятель автоматическом режимах. Технология, кратко опи- ных работ;

в этом случае удобно иметь возмож санная в предыдущем разделе, является важным ность отмечать пропуски в доказательствах или шагом в этом направлении. Далее обсуждаются ссылки на материалы для самостоятельного изуче возможные варианты использования математиче- ния.

ских текстов, представленных как Linked Data. Для профессиональных исследователей актуаль Для описания сервисов следует выделить раз- ны:

личные группы людей, занимающихся математикой. • сбор и категоризация новых публикаций;

Например, студентам могут быть интересны сле- сбор и сортировка информации о публикациях мо дующие сервисы: гут проводиться по таким параметрам, как коды • расширенная навигация при просмотре классификаторов, уровень доверия источника, при текста;

такой сервис предлагает элементы навига- кладной/теоретический характер полученных ре ции для перехода к определению встретившегося зультатов;

термина или тексту упоминающейся лекции;

• семантический поиск по документам с • объяснение элементов нотации и терми- учетом структуры;

сервис может предлагать рас нов;

сервис может выдавать дополнительную ин- ширенные возможности поиска по ключевым сло формацию для выделенного фрагмента текста или вам, такие, как поиск теорем, доказательств, следст вий и других структурных элементов математиче- [20] Kamareddine F.et al. Narrative structure of ma ских документов. thematical texts // Calculemus MKM / LNCS. – 2007. – V. 4573. – P. 296-312.

5 Заключение [21] Buswell S. et al The OpenMath standard. – 2003. – http://www.openmath.org/standard.

В статье обсуждаются вопросы расширения [22] David C. et al. Publishing math lecture notes as функциональных возможностей современных ин Linked Data // ESWC. – LNCS. – 2010. – V. 6089.

формационных систем в области математики. Рас – P. 370-376.

сматриваются основные технологии Семантическо [23] RDFa in XHTML: Syntax and Processing. – W3C го Веба для представления математических доку Recommendation. – 2008. – http://www.w3.org/ ментов, которые позволяют реализовывать сервисы TR/rdfa-syntax.

с расширенной функциональностью. Предложены [24] Scirus. – http://www.scirus.com.

идеи возможных сервисов, которые могут представ [25] Sig.ma – Semantic Information MAshup. – лять интерес для разных групп математиков.


http://sig.ma.

Литература [26] Sindice – the Semantic Web Index. – http:// sin dice.com.

[1] Berners-Lee T. Linked data – design issues. – [27] Sparks O3 Browser. – http://oak.dcs.shef.ac.uk/ 2006. – http://www.w3.org/DesignIssues/ Linked Data.html. sparks.

[2] CiteSeerX. – http://citeseerx.ist.psu.edu. [28] Stamerjohanns H., Kohlhase M. Transforming the [3] DBPedia. – http://dbpedia.org. arXiv to XML // Proc. of the 9th AISC Int. Conf., [4] Fellbaum C. WordNet: An electronical lexical da- the 15th Calculemas Symposium, and the 7th Int.

tabase. – The MIT Press. – 1998. MKM Conf. on Intelligent Computer Mathematics.

[5] Google Scholar. – http://scholar.google.com. – 2008. – P. 574-582.

[6] Gruber T., Olsen G. An ontology for engineering [29] Suchanek F.M., Kasneci G., Weikum G. Yago: a mathematics // KR. – 1994. – P. 258-269. core of semantic knowledge // WWW '07: Proc. of [7] Kohlhase M., Giceva J., Lange C., Zholudev V. the 16th Int. Conf. on World Wide Web. – ACM. – JOBAD – interactive mathematical documents. – 2007. – P. 697-706.

AI Mashup Challenge. – 2009. [30] The Wolfram functions site. –http://functions. wol [8] Kamareddine F., Maarek M., Wells J.B. Toward an fram.com.

object-oriented structure for mathematical text // [31] Zentralblatt MATH. – http://www.zentralblatt MKM. – LNCS. – 2005. – V. 3863.– P. 217-233. math.org/zmath.

[9] Kohlhase M. sTeX: Semantic Markup in [32] arXiv. – http://arxiv.org.

TeX/LaTeX. – 2005. – https://svn.kwarc.info/ re- [33] (uni)quation. – http://uniquation.ru.

pos/stex/trunk/sty/stex.pdf. [34] Каталог ВИНИТИ. – http://catalog.viniti.ru.

[10] Kohlhase M. OMDoc – an open markup format for [35] Паринов С.И., Когаловский М.Р. Технология mathematical documents. – Springer, 2006. поддержки электронных научных публикаций [11] Kohlhase M, Sucan I. A search engine for mathe- как «живых» документов // Труды RCDL'2009. – matical formulae // LNCS. – 2006. – V. 4120. – С. 53-58.

P. 241-253. [36] Сальникова Е.Е., Сальников С., Кузнецов С.Д.

[12] Lange C. An extensible XML - RDF extraction Управление контентом в крупных научно framework // CEUR Workshop Proceedings. – технических Internet-библиотеках // Труды 2009. – V. 449. RCDL'2009. – C. 193-199.

[13] Math-Net.Ru. – http://www.mathnet.ru.

Semantic services for the collections of [14] Asperti A. et al. Mathematical knowledge man mathematical documents published as agement in HELM // Ann. Math. Artif. Intell. – 2003. – V. 38, No 1-3. – P. 26-46. Linked Data [15] Mathematical Markup Language (MathML) Ver Nikita Zhiltsov sion 2.0 / Ausbrooks et al // W3C Recommenda tion. – http://www.w3.org/TR/MathML. The paper gives short review of Semantic Web tech [16] Mathematical Thesaurus. – http://thesaurus.maths. nologies for mathematical document representation.

org. Key aspects of mathematical document formalization, [17] Miller B. LaTeXML: A LaTeX to XML converter, such as logical structure specification and formalization 2007. – http://dlmf.nist.gov/LaTeXML. of mathematical knowledge objects, are discussed. As a [18] Miner R., Munavalli R. An approach to mathe- conlusion, some ideas of the semantic services, which matical search through query formulation and data could exploit the mentioned document models, are con normalization // Calculemus '07 / MKM '07: Proc. sidered.

of the 14th Symposium on Towards Mechanized Mathematical Assistants. – 2007. – P. 342-355. Работа выполнена при финансовой поддержке РФФИ [19] Nakagawa K., Nomura A., Suzuki M. Extraction (проект 09-07-12059 офи-м) of logical structure from articles in mathematics // MKM. – LNCS. – 2004. – V. 3119. – P. 276-289.

Самообучающаяся система машинной транскрипции с использованием нестохастического конечного автомата © В.К. Логачева, Э.С. Клышинский Российский государственный гуманитарный университет, ИПМ им. М.В. Келдыша РАН, г. Москва logacheva_vk@mail.ru, klyshinsky@mail.ru вующие в языке;

Аннотация транслитерация с учетом фонетического o Описан метод транскрипции имен собст- облика слова, также называемая транскрипцией;

в венных, использующий конечный автомат и отличие от транскрипции в классическом лингвис правила, записанные в виде продукций. тическом понимании слова исходного языка запи Представлен метод автоматического поро- сываются не особым фонетическим алфавитом, а ждения правил. Сгенерированные правила символами целевого языка.

могут быть преобразованы в конечный ав- В разное время наибольшей популярностью томат, с помощью которого осуществляется пользовались разные подходы, но с середины XX транслитерация. века господствующей тенденцией стала передача звучания имени при его переводе на иностранный 1 Введение язык. С развитием компьютерной лингвистики и средств автоматизации встал вопрос о создании Для электронных архивов большого объема систем автоматической транслитерации и транс очень важна автоматическая подготовка докумен крипции имен собственных. К ранним работам в тов. При поступлении в библиотеку иноязычного этой области относятся работы группы Найта. Пер документа для помещения его в каталог может по воначально был разработан метод, позволяющий надобиться перевод его названия, аннотации, вы проводить транслитерацию с японского языка на ходных данных. Системы машинного перевода за английский [1]. Вскоре этот метод был адаптирован частую оставляют имена собственные (в частности, для работы с арабским языком [2]. Основной зада фамильно-именные группы) без перевода, тогда как чей метода являлось обнаружение и восстановление фамилия автора – самая важная информация о до имен собственных, уже переданных с использова кументе. Перевод имен вручную затруднителен не нием другого алфавита. В качестве основы исполь только потому, что на него тратится много времени, зовался модифицированный алгоритм Витерби. Од но и из-за различающихся в разных языках правил нако базовый принцип использования лишь отдель чтения, которые могут быть неизвестны переводчи ных символов алфавита не позволял получить высо ку, не владеющему данным языком.

кие показатель качества передачи. В связи с этим Существует несколько подходов к передаче стали применяться методы, использующие подстро имени собственного средствами другого языка:

• ки [3]. Применение подстрок взамен отдельных перевод (например, Easter Island – остров символов позволило повысить качество транслите Пасхи). Этот способ очень редко можно применить рации примерно с 30 до 90%.

для имен собственных, так как они зачастую не Еще одной важной задачей здесь является авто имеют лексического значения;

матическое обучение системы переходов конечного • транслитерация:

автомата, используемого в перечисленных методах.

строгая – сопоставление каждой букве ис o На данный момент развиваются методы как обуче ходного языка буквы языка перевода;

этот способ ния с учителем [1], так и без него [4]. Последние может искажать звучание слова, так как почти во работы позволили перейти к обучению по одно всех языках существуют диграфы – устойчивые со язычному корпусу [5], что привело, правда, к суще четания букв, которые читаются особым образом;

ственному падению качества передачи.

даже правил расширенной транслитерации, т. е.

Данная работа основана на программе «Трансск правил, допускающих сопоставление одной букве риба» [6]. В отличие от приведенных работ, здесь нескольких (sh ш), не всегда хватает, чтобы опи используется не стохастический, а детерминирован сать все зависимости фонетики и графики, сущест ный подход. Лингвистам предлагается написать правила, которые поступают на вход системы. Ме Труды 12й Всероссийской научной конференции тод позволяет получить высокую эффективность «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» – RCDL’2010, передачи, однако требует затрат на создание систе Казань, Россия, мы правил. Следует заметить, что правила для од- p – непустое упорядоченное множество симво ного языка создаются за срок от нескольких недель лов из алфавита языка оригинала;

до нескольких месяцев, в зависимости от сложности с – цепочка символов из алфавита языка перево задачи. да, которой передается входная цепочка;

p = p1, p2, p3, где p1 и p3 – пред- и постусло 2 Метод транскрипции вия соответственно (левый и правый контекст пра вила), а p2 – преобразуемая подстрока, p2 = v1, v2, Предлагаемый в данной работе метод объединя …, vn2, где viVI, i[1, n2], p1 = {v1}, {v2}, …, ет удобство и скорость разбора входной цепочки с {vn1}, где viVI, i[1, n1], p3 = {v1}, {v2}, …, использованием конечных автоматов с удобством {vn3}, где viVI, i[1, n3], nj – количество симво представления правил преобразования в привычном лов j-й подстроки;

для человека виде. Изначально правила преобразо c = w1, w2, …, wnс, где wiVO, i[1,nc], nc – вания цепочек из одного языка на другой представ ляются в виде «входная цепочка» «выходная це- длина выходной строки.

почка». Скорость применения подобных правил Исходя из этого, правило применимо с текущей будет зависеть от размеров базы и длины входной позиции, если на текущей позиции находится под цепочки. В связи этим в данной статье для преобра- строка p2, перед ней – подстрока, на соответствую зования цепочек используется конечный автомат. щих позициях которой находятся символы из p1, а Скорость разбора с использованием конечного ав- после нее – подстрока, перед ней – подстрока, на томата пропорциональна длине цепочки. Здесь мы соответствующих позициях которой находятся сим считаем, что набор правил может быть как создан волы из p3. Считается, что к входной строке после лингвистом, так и получен в ходе обучения по алго- довательно ищутся применяемые правила. При на ритму, описанному ниже. Таким образом, при необ- хождении такого правила текущая позиция сдвига ходимости специалист работает в привычных ему ется вправо на n2, а на выход подается c.


терминах правил. Далее набор правил может быть 2.3 Преобразование правил в конечный автомат расширен за счет дообучения. В другом случае на бор правил может быть изначально автоматически Для правила r = p, c процедура добавления в сформирован с использованием предлагаемого ме- конечный автомат будет следующей. Здесь, за ис тода. Набор правил преобразуется в конечный авто- ключением начального состояния q0, все состояния мат, который используется для передачи имен соб- заводятся для данного правила заново. При этом ственных с языка на язык. дополнительным алгоритмом обеспечивается уни кальность нумерации состояний.

2.1 Структура конечного автомата Для правил, в которых левый контекст пуст, в Используемый нами автомат представляет собой КА добавляется переход из состояния qi-1 в состоя преобразователь. Его можно представить как мно- ние qi по символу vi из p2, i[1,n2]. При этом ника жество g = V I, VO, Q, q0, F,, где кие действия не совершаются. Состояние qn2 поме VI – входной алфавит (алфавит языка оригина- чается как конечное.

ла);

Для правил, в которых правый контекст пуст, в VO – выходной алфавит (алфавит языка перево- КА добавляется переход из qn2 в q0 по пустому сим да);

волу, сопровождаемый Shift(n2) и Out(c).

Q – множество состояний автомата;

Для правил, в которых правый контекст не пуст, q0 – начальное состояние автомата;

в КА добавляется переход из состояния qn2+i-1 в со F – множество конечных состояний;

стояние qn2+i по всем символам из {vi} из p3, – функция переходов QVI Q, a. i[1,n3]. Далее в КА добавляется переход из qn2+n3 в Здесь a – это действие, совершаемое при переходе, q0 по пустому символу, сопровождаемый действия причем aA – множеству действий, выполняемых ми Shift(n2) и Out(c).

конечным автоматом при переходе;

A = {out(), Для правил, в которых левый контекст не пуст, shift()};

Out(s) – функция, подающая на выход стро- для всех qfF в КА добавляются переход из qf в ку символов s (в том числе пустую) из алфавита qn2+n3+1 по всем символам {v1} из p1 и переходы из перевода;

Shift(n) – функция, выполняющая сдвиг состояния qn2+n3+i-1 в состояние qn2+n3+i по всем сим рассматриваемой строки на n символов. волам из {vi} из p1, i(1,n1]. При этом никакие дей Из каждого конечного состояния существует пе- ствия не совершаются. Далее в КА добавляется пе реход в начальное состояние по пустому символу. реход из qn1+n2+n3 в q0 по пустому символу, сопрово ждаемый действиями Shift(n2) и Out(c).

2.2 Описание правил транскрипции Подобные операции проводятся для всех правил.

За основу был взят метод, описанный в [6]. Но, 3 Порождение правил поскольку в предлагаемом методе правила исполь зуются, прежде всего, для пополнения матрицы пе- Для облегчения поиска соответствий в строках реходов конечного автомата и генерируются ком- на языке оригинала и перевода каждое слово и его пьютером, а не человеком, их структура отличается перевод делятся на слоги. Поскольку мы не имеем от базового варианта. В нашем случае правило никакой информации о структуре языка и правилах представляется в виде пары r = p, c, где слогоделения в этом языке, деление производится r1(p2) = r2(p2) и r1(c) r2(c). Такие ситуации в по формальным признакам. В порождении правил принципе возможны в языке, но на данном этапе участвуют только слова, для которых установлено неоднозначность скорее всего обозначает влияние взаимно однозначное соответствие слогов в ориги- на букву окружающих ее букв. Для избавления от нале и переводе. неоднозначностей вводится новый тип правил – временные правила.

3.1 Разделение слова на слоги Временными правилами мы называем правила, используемые при обучении системы правил. Вре Термин «слог» в данном контексте употребляет менное правило представляет собой тройку r = p, ся в смысле, отличном от того, в котором он ис c, s, где пользуется в трудах по фонетике. Поэтому необхо p, c – те же, что в определенном выше формате димо дать его определение.

правила (см. п. 2.2);

Слог – это непустое множество букв, содержа s – множество слогов, удовлетворяющих прави щее один или более символов, обозначающих глас лу.

ные звуки. Слово делится на слоги по следующим При генерации правила в его множество s добав правилам:

ляется слог, на основе которого оно было сгенери • деление осуществляется по гласной букве;

ровано. При обучении системы правил слог, к кото граница слога – после гласной;

рому удалось применить правило, добавляется в • 2 и более гласных подряд не разделяются;

множество s. Хранение всех слогов позволяет при • 2 и более согласных не разделяются;

обнаружении неоднозначностей в правилах состав • множество элементов, среди которых нет лять более полные контексты, а также выявлять час гласной, не выделяется в отдельный слог;

тотность употребления правила (например, если • символы начала и конца слова считаются правилу удовлетворяет только один слог, можно с согласными буквами.

большой вероятностью утверждать, что это исклю Дополнительное правило для русского языка:

чение).

• не отделять «ь» от предыдущей согласной.

Избавление от неоднозначностей производится Таким образом, слог – это цепочка вида C*V+, следующим образом.

где С – буква, обозначающая согласный звук, V – Для каждого правила r i, для которого существует буква, обозначающая гласный звук. Слог может rj, такое, что ri(p2) = rj(p2), ri(c) rj(c), для каждого иметь вид C*V+C+ только в том случае, если это по sk из ri(s) составляется новое правило rik = p, c, s, следний слог в слове, и заключительное множество такое, что rik(p2) = ri(p2), rik(c) = ri(c), rik(p1) = согласных не может быть выделено в отдельный {v1}, где v1VI – символ, предшествующий p2 в слог, так как среди них нет слогообразующего сим слоге sk, rik(p3) = {v2}, v2VI – символ, следую вола.

щий за p2 в слоге sk. В случае, если p2 – начальная Формально почти все слоги, полученные по из или заключительная подстрока в слоге, v1 и v2 бе ложенным выше правилам, являются открытыми (то рутся из предыдущего или следующего слога соот есть заканчиваются на гласную). Однако у слога ветственно.

присутствует параметр открытости/закрытости, оп После порождения системы первичных правил ределяющийся следующим образом: при делении производится расширение их контекстов на основе для каждого слога проверяется количество началь слогов вида CnV CnV, где n 1. Каждый слог si, ных согласных в следующем слоге: если их больше который не может быть целиком разобран с помо одной, слог считается закрытым. Введение этого щью существующей системы правил, можно пред параметра связано с тем, что во многих языках (на ставить как pi1, …, pik, px, pik+1, …, pin ci1, …, пример, в английском и других языках германской cik, cx, cik+1, …, cim, где px cx – подстрока, не группы) он может влиять на правила чтения глас удовлетворяющая ни одному из существующих ных букв.

правил. Можно выделить три случая несоответствия 3.2 Порождение первичных правил px правилам:

• существует ri, такое, что px = ri(p2), cx = Первый этап порождения правил – порождение ri(c), но pik {v11} или pik+1 {v31} (т. к. ri(p1) = первичных правил. Первичными мы называем пра {v11}, ri(p3) = {v31});

в этом случае контекст вила транслитерации, то есть правила, для которых правила ri расширяется: ri(p1) = {v11, pik}, ri(p3) = |p2| = |c| = 1.

{v31, pik+1};

Первичные правила порождаются на основе сло • не существует ri, такого, что px = ri(p2) и cx = гов вида CV CV: i-му символу слога ставится в ri(c);

в этом случае составляется новое правило rj, соответствие i-й символ его перевода при условии, такое, что rj(p1) = {pik}, rj(p2) = px, rj(p3) = что оба символа обозначают звуки одного и того же {pik+1}, rj(c) = cx, rj(s) = {si};

типа (гласные или согласные). При таком подходе • существует ri, такое, что px = ri(p2), pik вероятность порождения некорректного правила {v11} и pik+1 {v31} (т. к. ri(p1) = {v11}, ri(p3) = очень мала.

{v31}), cx ri(c);

это может объясняться одной из В порожденном множестве первичных правил следующих причин:

могут содержаться неоднозначности, то есть пары правил r1 = p, c и r2 = p, c, такие, что • контекст правила ri недостаточен для пра- px, cx – в случае, когда |cx| = 1, такая o вильной интерпретации подстроки, и надо рассмат- ситуация с большой вероятностью говорит о том, ривать не один, а несколько символов, предшест- что px – устойчивое сочетание букв, обозначающее вующих ей или следующих за ней. Например, для один звук – ди- или триграф, если же |px| = 1, это имени Marin Марен (французский язык) было означает появление буквы, обозначающей звук, ко порождено правило i е, которое при избавлении торого нет в русском языке и для записи которого от неоднозначностей приобрело вид i{n} е. Но используется 2 или более русских букв. В обоих имя Marine Марин не удовлетворяет этому пра- случаях составляется новое правило ri, такое, что вилу, потому что i переходит в е(э), только если ri(p1) = ri(p3) =, ri(p2) = px, ri(c) = cx.

после него стоит n и слог является закрытым (за- Во избежание появления недетерминированного канчивается на согласную). В этом случае нужно вывода в конечном автомате стоит проверять каж проверять не один, а два следующих за i символа;

дое вновь добавляемое правило на однозначность.

подстрока может читаться двумя различ- Если для добавляемого правила r1 среди уже приня o ными способами в силу причин, не зависящих от тых правил существует такое r2, что r1(p) и r2(p) контекста. В шведском языке читается как «о», имеют общий префикс, формируется правый кон однако в машиночитаемых текстах без диакритик текст для правила с более короткой входной стро заменяется на аа. Между тем сочетание двух швед- кой.

ских букв а будет передаваться на русский язык как После каждого этапа (порождение новых правил, «аа». В тестовой выборке для шведского языка расширение контекста существующих правил) осу можно встретить примеры неоднозначностей Baad ществляется нормализация системы правил.

Баад, Baang Бонг, Haapanen Хаапанен, 3.4 Нормализация системы правил Haafman Хофман, которые нельзя предугадать, имея в качестве обучающей выборки машиночитае- Нормализация системы правил состоит в избав мый файл. Значит, для каждого шведского имени, лении от правил, полностью или частично дубли содержащего подстроку «aa», будет сгенерировано рующих друг друга.

два варианта перевода. Для двух правил r1 = p, c, s и r2 = p, c, s, где В настоящее время нет алгоритма выбора одной r1(p1) = r2(p1) = r1(p3) = r2(p3) =, справедливо из двух описанных причин и избавления от подоб- утверждение r1 = r2, если r1(p2) = r2(p2) и ных неоднозначностей. r1(c) = r2(c). В этом случае правила r1 и r2 заменя ются правилом r3 = r1r2 = p, c, s, где 3.3 Порождение сложных правил r3(p1) = r3(p3) =, r3(p2) = r1(p2) = r2(p2), Более сложные правила порождаются при анали- r3(c) = r1(c) = r2(c) и r3(s) = r1(s) r2(s).

зе слогов более сложной структуры, то есть слогов Два правила r1 = p, c, s и r2 = p, c, s, для ко вида CpVn CqVm, где p q и/или n m. В этом торых хотя бы одно из множеств r1(p1), r2(p1), случае, как и в вышеописанном алгоритме пополне- r1(p3), r2(p3) не пусто, считаются эквивалентными, ния контекстов с помощью слогов вида CnV CnV, если r1(p2) = r2(p2), r1(c) = r2(c), |r1(p1)| = |r2(p1)|, каждый слог можно представить как pi1, …, pik, px, |r1(p3)| = |r2(p3)|, и выполняется хотя бы одно из pik+1, …, pin ci1, …, cik, cx, cik+1, …, cim, где px неравенств r1(p1) r2(p1), r1(p3) r2(p3).

cx – подстрока, не удовлетворяющая ни одному из В этом случае правила r1 и r2 заменяются правилом существующих правил. Можно выделить три случая r3 = r1 r2 = p, c, s, где r3(p1) = r1(p1) r2(p1), несоответствия px правилам:

r2(p3) = r1(p3) r2(p3), r3(p2) = r1(p2) = r2(p2), • px =, cx – эта ситуация обозначает по r3(c) = r1(c) = r2(c) и r3(s) = r1(s) r2(s).

явление в транскрипции букв, которых не было в В конце этапа нормализации проводится провер оригинале (при составлении правил транскрипции с ка на предмет порождения «фантомных» правил, произвольного языка на русский чаще всего в такой для которых имеются противоречащие им.

позиции встречается буква «ь», которая обозначает палатализацию предыдущего согласного, которая 4 Реализация метода. Результаты экспе никак не отражается на письме в языке оригинала). риментов В этом случае составляется правило ri, такое, что В настоящее время программно реализованы ri(p1) = pik-1, ri(p2) = pik, ri(p3) = pik+1, ri(c) = cik+cx. – лишь некоторые этапы описанного метода: деление иными словами, правило для предшествующего px на слоги, отбор слов, подходящих для участия в символа, который в определенном контексте пере порождении правил, составление первичной систе дается несколькими символами;

• мы правил, избавление ее от неоднозначностей пу px, cx = – эта ситуация обозначает на тем добавления контекстов, проверка слогов более личие букв, которые не читаются, а значит, не запи сложной структуры с помощью полученной систе сываются в транскрипции (например, буквы t, d, s и мы правил и пополнение контекстов на основе этих др. во французском языке на конце слова). Для та слогов. Каждый этап завершается нормализацией ких случаев составляется правило ri, такое, что системы правил. Примеры ниже демонстрируют ri(p1) = pik, ri(p2) = px, ri(p3) = pik+1, ri(c) =, то есть различные типы полученных правил с контекстами:

определяется контекст, в котором подстрока px не (1) {aeuy}c{i}с читается;

{r}c{e}с множества символов, которые могут стоять на n-й {eins}c{aklo}к позиции слева и справа от рассматриваемой цепоч (2) {bcdgjklmnprstvz}e{bcdgklmnrstvwz}е ки. Однако иногда необходимо учитывать более {}e{dlmntx}э сложные условия: закрытый слог, последний (пер Из примера (1) видно, что буква c передается на вый) слог в слове и др.

русский язык как «с», если после нее стоят буквы i Данный метод, в отличие от многих предшест или e, и как «к» в остальных случаях. Левый кон- вующих, использует информацию о буквах, но весь текст здесь не имеет значения, но на первых этапах анализ на данном этапе происходит исключительно анализа невозможно определить, какая из букв – на фонетическом уровне – то есть в слове не выде следующая или предыдущая – влияет на данную. ляются морфемы и не учитывается принадлежность Понять это можно, только собрав достаточное ко- буквы к той или иной морфеме. Отчасти это объяс личество примеров. Если контекст включает все няется тем, что систему планируется использовать символы алфавита, его можно не учитывать. Если для машинной транскрипции фамильно именных контекст включает большую часть символов алфа- групп произвольных языков, и зачастую единствен вита, не объединенных каким-либо общим свойст- ной доступной информацией об этих языках будет вом (например, принадлежность к согласным бук- список тестовых примеров (то есть слов с перево вам), его также можно не учитывать. Такая ситуа- дом). Но в некоторых случаях принадлежностью ция показана в примере (2): буква e передается на буквы к префиксу или суффиксу определяется, как русский язык как «е» во всех позициях, кроме на- она будет читаться, и невозможно сформировать чальной позиции в слове. соответствующее правило, рассматривая слово ис Контексты правил в приведенных примерах, ключительно на фонетическом уровне.

особенно в примере (1), не полны, но это не являет Литература ся серьезной проблемой, так как они могут быть пополнены при анализе слогов (и успешно попол- [1] Al-Onaizan Y., Knight K. Machine transliteration няются в текущей версии системы). Гораздо более of names in arabic text// Proc. of the ACL Work серьезной проблемой являются пересекающиеся shop on Computational Approaches to Semitic контексты в правилах с одинаковой входной стро- Languages, 2002.

кой и разными выходными. Это может обозначать [2] Klyshinsky E., Maximov V., Yolkeen S. Cross как недостаточность существующего контекста, так language transcription of proper names// Language и неоднозначность в правилах чтения для данного Forum. – 2008. – V. 34, No 1. – P. 137-152.

языка. При анализе только фонетического уровня [3] Knight K., Graehl J. Machine transliteration// эта проблема не может быть решена. Computational Linguistics. – 1998. – V. 24, No 4. – Процедура нормализации контекста еще не фор- P. 599-612.

мализована, поэтому она не включена в настоящую [4] Ravi S., Knight K. Learning phoneme mappings for версию алгоритма. transliteration without parallel data// Proc. of Hu man Language Technology Conf. The 2009 Annual 5 Обсуждение метода Conf. of the North American Chapter of the Asso Метод в том виде, в котором он представлен в ciation for Computational Linguistics, 2009.

данной статье, имеет некоторые недостатки. [5] Sherif T., Kondrak G. Substring-based translitera Неизвестно, универсален ли метод, так как еще tion//Proc. of the ACL Workshop on Computational не все этапы реализованы программно, а генерация Approaches to Semitic Languages, 2007.

правил по этому алгоритму вручную проводилась [6] Tao T., Yoon S., Fister A., Sproat R., Zhai C. Un на примере французского и немецкого языков. Для supervised named entity transliteration using tem некоторых языков, например, английского, метод poral and phonetic correlation// Proc. of EMNLP, может оказаться неприменимым. Впрочем, в случае 2006.

английского языка даже составленные экспертом Self-learning system of machine лингвистом правила не всегда являются однознач transliteration using non-stochastic finite ными.

state automaton Надо отметить также низкую устойчивость ме тода к ошибкам в тестовых данных и исключениям V. Logacheva, E. Klyshinsky из правил. Для каждого слога, не объясненного уже существующими правилами, порождается новое The article describes a method of proper names translit правило, все слоги имеют одинаковый вес. С другой eration that uses a combination of finite automaton and стороны, это свойство позволяет генерировать адек- translation rules in the form of production. We intro ватные системы правил с помощью сколь угодно duce a method of automatic rules generation. The me малой тестовой выборки, при условии, что в ней thod uses a set of proper names and their translitera отражены основные правила орфографии данного tions. Then rules can be translated into finite automaton языка. which conducts the transliteration method.

Механизм использования контекста в настоящее время также несовершенен. В правилах использу- Работа выполнена при частичной финансовой поддерж ются только «простые» контексты: составляются ке РФФИ (проект 10-01-00800) Поиск в научной электронной библиотеке на основе логико-семантической сети «Вопрос – ответ – реакция»

© В.Н. Добрынин1, И.А. Филозова Международный университет природы, общества и человека «Дубна»

Объединенный институт ядерных исследований, г. Дубна arbatsolo@yandex.ru, Irina.Filozova@jinr.ru релевантным поставленному им вопросу. Но если Аннотация пользователь сможет уточнять свой запрос в про В статье излагается описание технологии цессе поиска, он получит новую формулировку во семантического поиска в электронных биб- проса, что приблизит его к осознанию исследуемой лиотеках на основе логико-семантической проблемы.



Pages:     | 1 |   ...   | 10 | 11 || 13 | 14 |   ...   | 26 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.