авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 |   ...   | 19 | 20 || 22 | 23 |   ...   | 26 |

«Электронные библиотеки: Перспективные Методы и Технологии, Электронные коллекции English Труды RCDL 2010 ...»

-- [ Страница 21 ] --

Алгоритм точность полнота [4] Baeza-Yates R., Castillo C., Efthimiadis E. Charac “Слабый” алгоритм + 0,94 0, terization of national web domains//ACM TOIT, k-NN (k=10) 2006.

k-NN(k=150) 0,92 0, [5] Pitkow J.E. 1999. Summary of WWW characteriza Id3 0,56 0, tions// World Wide Web. – 1999. – V. 2, No 1-2. – 0,89 0, Random Forest (порог P. 3-13.

= 0.5, 50% голосующих [6] Bar-Yossef Z., Keidar I., Schonfeld U. Do not crawl за soft 404 деревьев) in the dust//WWW, 2006.

0,97 0, Random Forest (порог [7] Edelman B. Domains reregistered for distribution of = 0.5, 80% голосующих unrelated content: A case study of “Tina’s Free за soft 404 деревьев) Live Webcam”. – http://cyber.law.harvard.edu/ people/edelman/renewals/, 2002.

4 Заключение [8] Brin S., Page L. The anatomy of a large-scale hy pertextual web search engine, 1998. – http://infolab.

В работе предложен новый подход к проблеме stanford.edu/~backrub/google.html.

определения страниц soft 404. Подход состоит в [9] Broder A., Glassman S., Manasse M., Zweig G.

представлении страницы в виде вектора парамет Syntactic clustering of the web// Proc. of the Sixth ров слов, встречающихся на странице и присутст вующих в специальном словаре. Словарь содержит 127  Int. World Wide Web Conf., 1997. – P. 391-404. – http://www.std.org/~msm/common/clustering.html.

[10] Описание коллекции ROMIP BY.Web 2007. – http://romip.ru/ru/collections/by.web-2007.

html.

[11] Bootstrap Sampling Numerical Example. – http://people.revoledu.com/kardi/tutorial/Bootstrap/ examples.htm.

[12] Breiman L., Cutler A. Random forests. – http://stat-www.berkeley.edu/users/breiman/ Ran domForests/cc_home.htm.

[13] Mitchell T.M. The basic decision tree learning algorithm// Machine Learning. – McGraw-Hill Sci ence/ Engineering/Math press, 1997. – P. 55-60.

[14] Breiman L. Bagging predictors//Technical Report No. 421, 1994.

[15] BM25. – http://xapian.org/docs/bm25.html.

A statistical approach to solving the problem of identification of soft 404 pages S.S. Chirkov The problem of identification soft 404 pages is actual problem of modern search engines. First of all, this is due to the fact that the 404 page soft cannot be deter mined by the code of the protocol HTTP, as is the case with the usual 404 pages. Previously proposed solu tions [1, 2] of finding soft 404 pages could not com pletely solve this problem. This article presents a new approach to identification soft 404 pages based on the presentation of pages in the form of sets of words (phrases) and the use of machine learning algorithms to assess the proximity of these sets.

                                                             i  Порогом для Random Forest является величина, при дос тижении которой, каждое отдельное дерево классифици рует страницу как soft 404. В данном случае эта величина является вероятностью  128  Анализ динамических характеристик поискового спама, создаваемого ссылочными брокерами © Р.В. Шарапов, Е.В. Шарапова Муромский институт (филиал) Владимирского государственного университета info@vanta.ru Одним из основных источников размещения Аннотация ссылочного спама является покупка ссылок через Рассматриваются характеристики поиско- ссылочных (рекламных) брокеров. В настоящее вого спама, размещаемого ссылочными время наибольшую популярность получили такие брокерами. Исследуется время жизни и ро- брокеры, как Sape.ru, MainLink.ru, Xap.ru, Link тация ссылок, анализируется тематическая Feed.ru, SetLinks.ru, Clx.ru и т. д. Суммарное число близость ссылок и страниц. Исследуется страниц, на которых такие системы могут разме поведение ссылок в группах ссылок. Рас- щать ссылки, превышает полмиллиарда и стреми сматривается возможность использования тельно растет. Для сравнения, поисковая система динамических характеристик для обнару- Яндекс в настоящее время осуществляет поиск по жения ссылочного спама. 8,9 миллиардам страниц. Таким образом, доля стра ниц, на которых ссылочные брокеры могут разме 1 Введение щать ссылки, превышает 6% от размеров поисковой базы Яндекса. В 2008 году эта доля составляла всего Последнее десятилетие ознаменовалось бурным 1 – 2%.

развитием глобальной сети интернет. Появилось Как уже отмечалось ранее [9, 11], ссылки, раз большое количество разнообразных сайтов, содер мещаемые через ссылочных брокеров, имеют целью жащих различную информацию. Для облегчения поисковый спам и не выполняют функции рекламы нахождения пользователями сети нужных сведений (как их позиционируют ссылочные брокеры).

появились поисковые системы. По мере своего раз Учитывая массовое распространение ссылочных вития они становились все сложнее, что было вы брокеров, размещаемые ими ссылки нуждаются в звано стремлением удовлетворить все более расту детальном изучении. Следует подвергнуть исследо щие потребности пользователей. Для этого поиско ванию все стороны жизни таких ссылок.

вые системы научились использовать не только ос новное содержание документов, но и дополнитель 2 Текущее состояние проблемы ные сведения о них. Появление понятия «автори тетности» ресурсов, связанное с внедрением таких Вопросам изучения ссылочного спама посвяще алгоритмов, как PageRank и HITS, привело к актив- но немало работ. Достаточно подробные обзоры ному использованию поисковыми системами ссы- состояния проблемы приведены нами в [10, 11].

лочной информации. Ряд работ посвящено изучению ферм ссылок и Параллельно с поисковыми системами развивал- борьбе с ними. Например, в работе [8] предлагается ся и поисковый спам как средство введения в за- анализировать веб-граф для определения ссылочно блуждение поисковых систем. К настоящему вре- го спама. Проводится анализ входящих и исходя мени поисковый спам имеет множество видов и щих ссылок сайтов, исследуется их пересечение.

направлений, таких как клоакинг, дорвеи, спам со- Рассматривается влияние ссылочного спама на ал держания, спам комментариев и т. д. [5]. горитм HITS.

Использование поисковыми системами ссылок В работе [3] проводится статистический анализ привело к возникновению нового вида поискового автоматически сгенерированных страниц со спа спама, получившего название ссылочный спам. мом. Авторы рассматривают отклонения от нор Ссылочный спам заключается в формировании мального распределения различных свойств стра ссылочных структур, способных повлиять на алго- ниц, включая имена сайтов, IP-адреса, входящие и ритмы работы поисковых систем с целью достиже- исходящие ссылки, содержание страницы и норму ния более высоких позиций в результатах поиска по изменения.

пользовательским запросам [11]. В [6] рассматриваются различные характеристи ки страницы (число слов на странице и в заголовке, Труды 12й Всероссийской научной конференции длина слов, процент видимого текста и т. д.). Дают «Электронные библиотеки: перспективные методы и ся сведения о процентном содержании поискового технологии, электронные коллекции» – RCDL’2010, спама в различных доменных зонах. Проводится Казань, Россия, сравнение выявленных характеристик с их распре- 3 Источники данных делением на «обычных» страницах, что способству В качестве объекта исследования были выбраны ет выявлению страниц, содержащих спам.

10 сайтов, размещающих ссылочный спам с исполь В работе [1] подробно анализируются ссылоч зованием ссылочных брокеров. Сайты ежедневно ные структуры, образующие веб-граф. Исследуются сканировались в течение 7 месяцев (с 1 июня 2009 г.

различные характеристики, способствующие обна по 31 января 2010 г.). Общее число сканируемых ружению ссылочного спама.

страниц составило около 5000 (число страниц меня В работе [2] делается попытка определять ссы лось в связи с изменениями сайтов). На сайтах еже лочный спам («непотистский» спам). Для решения дневно ссылочными брокерами размещалось около задачи используется дерево решений C4.5. Авторы 5500 ссылок. Информация о факте размещения и рассматривают 75 свойств, используемых для клас месте расположения ссылок была предоставлена сификации. Эти свойства позволяют определять:

нам владельцами сайтов.

совпадение заголовка и описания страницы, описа Параллельно с этим сайты ежедневно сканиро ние пересекается с текстом страницы, совпадение вались на наличие (и изменение) обычных ссылок, имен хостов, совпадение доменов, совпадение адре размещаемых на сайтах их владельцами.

сов страниц без доменов, совпадение некоторых Сайты состояли из различного количества стра частей IP адресов, одинаковые контактные E-mail ниц – от 20 до более 2000 – и имели различную те домены и т. д.

матику (история, спорт, кино, мультфильмы, знаме В работе [7] рассматриваются две группы нитости/актеры, здоровье, музыка, мобильные те свойств, характеризующих ссылочный спам (для его лефоны, интернет-магазин и бизнес-сайт). В период обнаружения) – связанные с содержанием и со ссы исследования основные показатели сайтов – тема лочной структурой. К первой группе относятся:

тика, индекс цитируемости и PageRank не изменя число слов на странице, средняя длина слов на лись, а число страниц изменялось незначительно.

странице, процент слов из списка популярных слов, По этой причине влияние этих показателей на раз процент видимого содержания страницы, число мещение ссылок в разные периоды времени можно слов в заголовке страницы и т. д. Во второй группе считать минимальным. Таким образом, процесс относятся: процент страниц на наиболее популяр размещения ссылок через ссылочных брокеров на ном уровне, число входящих ссылок на страницу, исследуемых сайтах, можно считать естественным.

число исходящих ссылок на страницу, отношение Анализ полученных данных позволил выявить числа входящих и исходящих ссылок, число ссылок основные характеристики и особенности спам с главных страниц, процент входящих ссылок на ссылок, а также показатели, характеризующие наиболее популярные страницы, процент исходя ссылки, размещаемые посредством брокеров.

щих ссылок на наиболее популярные страницы, пе рекрестные ссылки на страницу, средний уровень 4 Характеристики ссылок страниц на сайте и т. д.

В [4] рассматривается понятие массы спама, ме ры воздействия спам-ссылок на ранг страницы. Рас- 4.1 Ротация спам-ссылок сматриваются вопросы оценки массы спама. Для Для анализа ротации спам-ссылок мы исполь определения спама активно используется ссылочная зовали два параметра – общее число спам-ссылок, структура веб-графа.

размещаемых на сайте за период исследования L7 ( Несмотря на все разнообразие работ, подробного исследования ссылок, размещаемых с использова- месяцев), и число спам-ссылок, размещенных в на нием ссылочных брокеров, не проводилось. Интерес стоящее время L1.

представляет исследование таких ссылок с точки Коэффициент ротации ссылок ( K r ) представляет зрения их динамики и содержания, выявление собой отношение разности значений L7 и L1 к зна свойств, способных помочь в борьбе с ними.

Цель нашего исследования – изучить характери- чению L1 :

стики ссылок, размещаемых с помощью ссылочных K r = ( L7 L1 ) / L1.

брокеров. Интерес представляют в первую очередь динамические характеристики ссылок – как долго Коэффициент ротации спам-ссылок за месяц присутствуют ссылки на станицах, как часто они ( K rm ) можно вычислить, разделив коэффициент K r заменяются на новые ссылки и т. д. Кроме того, ну на количество месяцев, в течение которых проводи ждается в исследовании тематическая близость раз лись исследования:

мещаемых ссылочными брокерами ссылок и стра K rm = K r / 7.

ниц, на которых они размещаются. Интерес пред ставляет так же возможность использования ука- Значения коэффициента ротации приведены в занных характеристик для обнаружения ссылочного табл. 1.

спама. Как можно заметить, коэффициент ротации спам-ссылок K r изменяется в диапазоне от 1.09 до 7.56. Среднее значение коэффициента ротации спам-ссылок составило 2.38. Аналогично, коэффи- ссылок, размещаемых с использованием ссылочных брокеров, имеет тематику, совпадающую или близ циент ротации спам-ссылок в месяц K rm меняется кую с тематикой сайтов.

от 0.16 до 1.08, при среднем значении в 0.34.

Анализ аналогичных показателей для обычных Для того чтобы сравнить полученные значения ссылок дал несколько двоякие результаты. Для ряда коэффициента ротации для спам-ссылок с анало сайтов процент тематических ссылок Tlink _ n (вычис гичными значениями для обычных (не спам) ссы лок, мы проведи анализ каждого из исследуемых ляется аналогично Tlink ) составил более 80%. Для сайтов. При этом рассматривались все ссылки, за сайтов, содержащих такие разделы как «Каталог исключением тех, которые были размещены рек ссылок», «Ссылки», «Наши друзья» и т. д. процент ламными брокерами. Результаты оказались доста тематических ссылок оказался достаточно неболь точно интересными. Коэффициент ротации для шим (снижается практически прямо пропорцио обычных ссылок K r _ n (вычисляется аналогично K r ) нально количеству ссылок в этих разделах). При для каждого сайта оказался не более 0.01, а для большом размере указанного раздела процент тема большинства сайтов – вообще 0. Значение коэффи- тических ссылок может опускаться ниже 1 %.

циента ротации за месяц K rm _ n получилось не более Таким образом, несмотря на свою показатель ность, тематическая близость не может являться 0.002. Другими словами, на сайтах практически от средством для выявления спам-ссылок, размещае сутствует ротация обычных ссылок. Однажды попав мых ссылочными брокерами (так как вместе с ними на сайт, ссылки так и остаются и не заменяются будут найдены все не тематические ссылки).

другими.

Тем не менее, указанный показатель может при В связи с тем, что сайты могут существенно от меняться именно для комплексного отсева спам личаться как по структуре, так и по содержанию, мы ссылок, причем в данном случае роль тематической решили проверить значение коэффициента ротации близости ссылок и сайта будет основной.

ссылок на сайтах с наиболее динамичным контен том. Для этого было выбрано несколько наиболее 4.3 Тематическая близость в группе спам-ссылок посещаемых форумов, новостных сайтов и попу лярных блогов. Анализ показал, что, несмотря на Спам-ссылки могут размещаться на странице как всю динамичность содержания, коэффициент рота- по одной, как и группами. Расположение ссылок ции ссылок за месяц K rm _ n на этих сайтах не превы- отличается на различных сайтах (табл. 3). Некото рые сайты не содержат ни одной одиночной ссылки, сил 0.05 (новостные сайты, хранящие новости в ар а большинство групп состоит из 4 – 8 ссылок, дру хиве ограниченное время).

гие содержат в основном одиночные ссылки, и лишь Таким образом, значение коэффициента ротации иногда группы из двух-трех ссылок. Тем не менее, может способствовать обнаружение ссылочного анализ групп показал интересный результат. Из спама, размещаемого ссылочными брокерами. При 1023 групп спам-ссылок, только в 178 группах ока коэффициенте ротации ссылок в 0.1 и более можно залось по одной тематической ссылке (17.4 % от считать такие ссылки спамом. Аналогичным обра количества групп ссылок), в 16 группах – по две и зом можно ссылки, размещаемые в тех местах стра более тематических ссылок (1.6 %). Из 443 одиноч ницы, где коэффициент ротации превышает 0.1, ных ссылок только 29 оказались тематическими, что также считать спамом.

составляет всего 6.5 % от числа одиночных ссылок.

Таким образом, показатель тематической бли 4.2 Тематическая близость спам-ссылок и сайта зость является отличительной чертой ссылочного Анализ тематики ссылок, размещаемых с помо- спама, размещаемого ссылочными брокерами.

щью ссылочных брокеров, дал также интересные Ссылки различаются по тематике как между собой результаты. (при размещении в группах), так с содержанием Тематическая ссылка – ссылка, тематика кото- страницы, где они расположены. При этом различие рой совпадает или близка к тематике страницы, на в тематике – колоссальное. Практически все ссылки которой она размещается. имеют совершенно другую тематику. Приведем Для определения тематической близости была пример ссылок, размещаемых в период исследова использована методика, применявшаяся нами в [10]. ния на странице с биографией известного американ Среди всего числа спам-ссылок L1 (5476) количест- ского актера (рис. 1).

Как можно заметить, только ссылка «Скачать во тематических ссылок T оказалось достаточно фильмы бесплатно» имеет хоть какое-то отношение небольшим – всего 242. В связи с тем, что распре к странице с биографией актера (и фильмы, и актер деление тематических ссылок по сайтам сильно от связаны с кино). Все остальные ссылки не имеют личается, интерес представляет относительный по ничего общего со страницей, и к тому же вряд ли казатель – процент тематических ссылок Tlink, вы будут интересны пользователям. Это является пря числяемый по формуле Tlink = (T / L1 )100 %. Процент мым доказательством того, что ссылки, размещае тематических ссылок изменяется в диапазоне от 0.7 мые посредством ссылочных брокеров, являются до 10.6 % (табл. 2). Среднее значение Tlink составило именно ссылочным спамом и не предназначены для 4.4 %. Таким образом, в среднем только одна из 22 пользователей.

что спам-ссылки не перемещаются по сайту (даже 4.4 Время жизни спам-ссылок при перемещении основного контента), а привязаны Время жизни ссылки ( Dlink ) – это период време- к конкретным страницам.

ни, в течение которого ссылка была размещена на Анализ обычных ссылок на сайтах с динамиче странице (до момента ее удаления). Надо заметить, ским контентом (новости, форумы, блоги), показал что некоторые спам-ссылки могут кратковременно иную ситуацию. Такие ссылки перемещаются по исчезать со страниц, а затем вновь появляться на сайту вместе с основным контентом. Таким обра них. В этом случае, ссылка считалась удаленной, зом, если не спам ссылка пропадает с одной страни если она не появлялась вновь в течение 10 суток с цы, есть высокая вероятность, что она появится на момента исчезновения. другой странице сайта.

На основании собранной статистики было полу чено распределение спам-ссылок по времени жизни 5 Использование динамических характе (количество ссылок, существовавших один, два, три ристик для обнаружения ссылочного и т. д. дней). На рис. 2 показано распределение вре спама мени жизни ссылок за 1 год. Число ссылок, имею щих время жизни больше одного года, продолжает Для обнаружения ссылочного спама мы исполь уменьшаться, и к концу второго года сокращается зовали разработанный ранее алгоритм, работающий до 1 – 2 штук. на основе метода опорных векторов [11]. На основе Рассмотрим процентный состав времени жизни проведенных исследований мы расширили про ссылок, сгруппированных по месяцам (табл. 4). Как странство признаков. Ранее применявшиеся призна можно заметить, подавляющее число ссылок (более ки имели статический характер. К этим признакам 50 %) существует не более 2 месяцев. Практически мы добавили ряд признаков, описывающих динами 90 % ссылок имеют время жизни не более 6 меся- ческие характеристики ссылок:

цев. • коэффициент ротации ссылок на сайте;

Таким образом, большинство спам-ссылок име- • коэффициент ротации ссылок на странице;

ют достаточно небольшое время жизни. Кроме того, • время жизни ссылки на странице;

ссылки, размещенные на одной странице (группой), • время жизни ссылок на сайте;

также имеют разное время жизни. Поэтому, можно • время жизни исследуемой ссылки;

наблюдать ситуацию, когда, скажем, первая и тре • показатель перемещения ссылки по сайту.

тья ссылки в группе остаются неизменными, а вто По аналогии с [11] для исследования работы ал рая и четвертая ссылка успевают измениться не горитма нами использовалась собственная коллек сколько раз. Такие несбалансированные группы ция описанная выше. В связи с тем, что алгоритм являются явным признаком ссылочного спама, раз использовал сведения о динамических характери мещаемого с использованием ссылочных брокеров.

стиках ссылок, апробация его на коллекциях Анализ времени жизни обычных ссылок показал By.Web и Narod.Ru, содержащих лишь один срез обратный результат. Не спам ссылки после разме документов, не проводилась.

щения продолжают находиться на сайте длительное Для оценки качества работы алгоритма исполь время (многие годы). По этой причине время жизни зовалась следующие метрики [9]:

обычных ссылок Dlink _ n будет приближаться в воз Число спам-ссылок,отмеченных как спам расту страницы, на которой ссылка размещена. Ис- Precision =, Число ссылок,отмененных как спам следование сайтов подтвердило это. Подавляющее большинство ссылок находились на сайтах начиная Число спам-ссылок,отмеченных как спам Recall =, с момента начала исследований до их окончания.

Общее число спам-ссылок Такая особенность времени жизни ссылок по Число обычных ссылок, зволяет использовать ее для обнаружения спам ссылок, размещаемых рекламными брокерами. отмеченных как спам FalseSpam =, Ссылки со временем жизни менее 6 месяцев можно Общее число обычных ссылок считать ссылочным спамом.

Число спам-ссылок, 4.5 Перемещение ссылок по сайту отмеченных как не спам FalseNotSpam =.

Общее число спам-ссылок В связи с тем, что на многих сайтах контент мо жет передвигаться со страницы на страницу (фору Значения метрик приведены в табл. 5. Если мы, доски объявлений, блоги, новости и т. д.), мы сравнить полученные результаты с данными про провели анализ перемещения ссылок по сайту. Под шлых лет [9, 11], то можно увидеть существенное фактом передвижения ссылки по сайту понималось улучшение значений всех четырех метрик. Показа ее удаление с одной страницы и появление в тече тель Recall вырос на 0.05 по сравнению с лучшим ние 10 дней на другой странице сайта. Таких пере результатом работы алгоритма со статическими мещений для ссылок, размещаемых ссылочными признаками. Существенно снизились и показатели брокерами, за период наблюдения было выявлено ошибочного отнесения ссылок к спаму (FalseSpam) всего 3. Это позволяет сделать заключение о том, и не спаму (FalseNotSpam).

Таблица 1. Статистика по размещению спам-ссылок Сайт Страниц Ссылок за Ссылок Коэффициент Коэффициент P 7 месяцев сейчас ротации K r ротации в ме сяц K rm L7 L Сайт об истории 223 3162 1030 2.07 0. Сайт о мультфильмах 22 327 144 1.27 0. Сайт об актере 58 780 270 1.89 0. Сайт о спорте 110 3474 843 3.12 0. Сайт о здоровье 163 2252 1077 1.09 0. Бизнес сайт 86 1552 393 2.95 0. Сайт о музыке 169 1980 775 1.55 0. Сайт о телефонах 1322 1289 458 1.81 0. Сайт о кино 2316 3201 374 7.56 1. Интернет магазин 423 496 112 3.43 0. Всего 4892 18513 5476 2.38 0. Таблица 2. Количество тематических ссылок Сайт Ссылок Число % тематических тематических L ссылок T ссылок Tlink Сайт об истории 1030 7 0. Сайт о мультфильмах 144 7 4. Сайт об актере 270 14 5. Сайт о спорте 843 33 3. Сайт о здоровье 1077 82 7. Бизнес сайт 393 42 10. Сайт о музыке 775 4 0. Сайт о телефонах 458 20 4. Сайт о кино 374 24 6. Интернет магазин 112 9 8. Всего 5476 242 4. Таблица 3. Группы ссылок Сайт Страниц Одиноч- Одиночных Групп Групп с 1 Групп с P ных темати- ссылок темати- и более ссылок ческих ческой тематиче ссылок ссылкой скими ссылками Сайт об истории 223 1 0 222 7 Сайт о мультфильмах 22 0 0 22 7 Сайт об актере 58 0 0 56 12 Сайт о спорте 110 0 0 110 29 Сайт о здоровье 163 0 0 163 69 Бизнес сайт 86 2 0 84 28 Сайт о музыке 169 0 0 169 4 Сайт о телефонах 1322 271 11 102 9 Сайт о кино 2316 120 12 73 10 Интернет магазин 423 49 6 22 3 Всего 4892 443 29 1023 178 Таблица 4. Распределение ссылок по аренда погрузчика от фирмы времени жизни (месяцев) Оптимизация сайта seo поисковое продвижение сайтов сайт seo-studio. Период Процент ссылок, % Триал спорт теннисный стол спорт 1 месяц 30. инвентарь маты. 2 месяца 20. новый коттедж готовые коттеджи 3 месяца 17. Скачать фильмы бесплатно 4 месяца 8. окна от производителя 5 месяцев 7. Метизы усовершенствованные. Метизы 6 месяцев 4. фильтры. Метизы классные. метизы. 7 месяцев 3. купить грунт 8 месяцев 2. Курсы менеджеров, курсы pr 9 месяцев 1. менеджеров. 10 месяцев 1. Костюм деда мороза и снегурочки.

11 месяцев 0. Заказывать Деда Мороза и Снегурочку.

12 месяцев 0. Wmz sms обменяй с гарантией. Wmr wme 13 месяцев 0. обмен дорого.

14 месяцев 0. tehsklad.ru предлагает пилы Makita 15 месяцев 0. Массовая рассылка смс от 1157.

16 месяцев 0. Рассылка смс от 1054.

17 месяцев 0. Банки переводов денег. Перевод денег с 18 месяцев 0. карты на карту лимит суммы альфа 19 месяцев 0. банк.

20 месяцев 0. Автомобили Тула, продажа авто Тула.

Продажа б/у авто в городе Тула.

Таблица 5. Результаты работы Iso 9000, iso 9001 2008. Международного Метрика Значение стандарта iso 9001 2008.

Precision 0. интернет магазин часов копии.  Рис. 1. Пример ссылок, размещенных ссылочны- Recall 0. ми брокерами на странице с биографией извест- FalseSpam 0. ного американского актера FalseNotSpam 0. Рис. 2. График распределения времени жизни спам-ссылок [8] Wu B., Davison B. D. Identifying link farm pages// 6 Выводы Proc. of the 14th Int. World Wide Web Conference (WWW), 2005.

Таким образом, анализ ссылок, размещаемых с [9] Шарапов Р.В., Шарапова Е.В. Обнаружение использованием ссылочных брокеров, показал, что ссылочного спама // Электронные библиотеки:

они действительно предназначены для спама и не перспективные методы и технологии, электрон несут полезной информации для пользовате ные коллекции: Труды Десятой Всерос. науч.

лей.Спам ссылки часто заменяются одна на другую, конф. RCDL'2008, Дубна, Россия, 7 – 11 октября т. е. имеют высокий коэффициент ротации. При 2008 г. – Дубна: ОИЯИ, 2008. – С. 191-196.

значении коэффициента ротации более 0.1 ссылки [10] Шарапов Р.В., Шарапова Е.В. Алгоритм обна можно считать поисковым спамом.

ружения ссылочного спама // Компьютерная Спам-ссылки слабо соответствуют тематике лингвистика и интеллектуальные технологии:

страниц, на которых они расположены. В среднем По материалам ежегодной межд. конф. «Диалог менее 5 % ссылок, размещенных ссылочными бро 2009» (Бекасово, 27 – 31 мая 2009 г). – М: РГГУ, керами, тематически близки к страницам, на кото 2009. – Вып. 8 (15). – С. 537-542.

рых они находятся.

[11] Шарапов Р.В., Шарапова Е.В. Применение ме Практика показала достаточно невысокое время тода опорных векторов для обнаружения ссы жизни таких ссылок, размещаемых ссылочными лочного спама // Электронные библиотеки: пер брокерами. Более 90% таких ссылок живут не более спективные методы и технологии, электронные 6 месяцев.

коллекции: Труды XI Всерос. науч. конф.

Спам-ссылки не перемещаются по сайту вместе RCDL'2009, Петрозаводск, Россия, 17 – 21 сен с основным контентом. Они жестко привязаны к тября 2009 г. – Петрозаводск: КарНЦ, 2009. – конкретной странице.

С. 318-324.

Таким образом, использование динамических характеристик позволяет существенно повысить Analysis of dynamic characteristics of web качество обнаружения ссылочного спама. Можно достичь полноты обнаружения ссылочного спама в spam placed by link brokers 0.92 и точности в 0.96.

R.V. Sharapov, E.V. Sharapova Литература We examine the characteristics of Web spam placed by Link Brokers. We investigate the link lifetime and rota [1] Becchetti L., Castillo C., Donato D., Leonardi S., tion, analyze the thematic proximity of links and pages.

Baeza-Yates R. Link analysis for web spam detec There is given the analysis of links in groups of links.

tion// ACM Trans. Web 2. – 2008. – V. 1. – P. 1 The possibility of dynamic characteristics using for the 42.

detection of link spam is considered.

[2] Davison B.D. Recognizing nepotistic links on the web//AAAI-2000 Workshop on Artificial Intelli gence for Web Search, Austin, TX, 2000. – P. 23 28.

[3] Fetterly D., Manasse M., Najork M. Spam, damn spam, and statistics – using statistical analysis to locate spam web pages//Proc. the 7th Int. Workshop on the Web and Databases (WebDB), Paris, France, 2004.

[4] Gyongyi Z., Berkhin P., Garcia-Molina H., Peder sen J. Link spam detection based on mass estima tion//32nd Int. Conf. on Very Large Data Bases (VLDB 2006), September 12 – 15, 2006, Seoul, Korea.

[5] Gyongyi Z., Garcia-Molina H. Web spam taxon omy//First Int. Workshop on Adversarial Informa tion Retrieval on the Web (AIRWeb 2005), May 10 – 14, 2005, Chiba, Japan.

[6] Ntoulas A., Najork M., Manasse M., Fetterly D.

Detecting spam web pages through content analy sis// Proc. of the 15th Int. World Wide Web Con ference, Edinburgh, Scotland, May 2006. – P. 83 92.

[7] Gan Q., Suel T. Improving web spam classifiers using link structure// Proc. in Third Int. Workshop on Adversarial Information Retrieval on the Web (AIRWeb ’07), May 2007, Banff, Alberta, Canada.

Аномальный подход к обнаружению полного несанкционированного копирования документов электронной библиотекиi © Е.Е. Ивашко, Н.Н. Никитина Учреждение Российской академии наук Институт прикладных математических исследований КарНЦ РАН, г. Петрозаводск ivashko@ krc.karelia.ru, nikitina@ krc.karelia.ru мещения произведений, придуманная создателями Аннотация ЭБ. Однако помимо юридической защиты большое значение имеет использование технических средств Представлены новые результаты, получен защиты от полного несанкционированного копиро ные в ходе разработки системы обнаруже вания. При этом под полным несанкционированным ния полного несанкционированного копи копированием понимается получение электронных рования документов электронной библио копий всех или большой части цифровых докумен теки. В основу системы положен аномаль тов ЭБ без согласия ее владельцев.

ный подход к обнаружению вторжений и Проблема защиты электронных библиотек от моделирование шаблонов «нормального»

полного несанкционированного копирования явля поведения пользователя с помощью Мар ется достаточно новой. В настоящее время большое ковских цепей.

внимание уделяется борьбе с плагиатом (например, 1 Введение при помощи специальных средств обнаружения за имствований [2] или расстановки специальных «во Полнотекстовые электронные библиотеки (ЭБ) дяных знаков» в цифровых документах [3]). Однако являются важной частью информационной среды, задача сохранения уникальности (т. е. защиты от сформированной широким распространением ин полного несанкционированного копирования), как тернета. Документы, представляемые в электронном правило, решается прямолинейно: ограничением виде, формируют репутацию учреждений и граждан круга пользователей, имеющих доступ к электрон (например, электронные коллекции научных работ ным коллекциям (как, например, в Dartmouth Col отдельных ученых и/или научных учреждений), lege Digital Library и Harvard University Library [4]) способствуют ликвидации «цифрового неравенства», и/или ограничением числа документов, загружен служат повышению эффективности деятельности ных пользователем в единицу времени (упоминания научного сообщества.

о таком ограничении есть, например, на ресурсах [5] Однако для успешного функционирования и раз и [6]). Разработка и внедрение эффективных меха вития ЭБ важны рост посещаемости, гарантия со низмов защиты от полного несанкционированного блюдения авторских прав и уникальности ресурса.

копирования позволят сохранить уникальность об При этом, в силу открытости электронных коллек щедоступных ЭБ. Это даст возможность одним ЭБ ций и низкой стоимости воспроизводства цифровых открыть свой доступ более широкому кругу читате копий, именно уникальность ресурса и авторские лей, а другим – более эффективно следить за соблю права подвергаются большой опасности. При полу дением договоров с авторами и издательствами.

чении открытого доступа к ЭБ потенциальный зло В представленной работе рассматривается при умышленник может, например, полностью скопиро менение аномального статистического подхода в вать сайт ресурса и воспроизвести его под другим обнаружении вторжений к задаче обнаружения не именем. В дальнейшем созданный сайт может быть санкционированного полного копирования доку использован для получения прибыли в обход инте ментов ЭБ. Результаты, полученные на ранних эта ресов правообладателей, совершения мошенниче пах работы, были представлены на конференциях ских действий, распространения вредоносных про RCDL-2007 и RCDL-2009 [7, 8].

грамм и т. д.

Авторское право защищает сайт, на котором 2 Обнаружение полного несанкциониро функционирует ЭБ, как сборник произведений ли ванного копирования на основе ано тературы, науки и искусства [1]. Под защиту попа мального подхода дает оригинальная структура расположения и раз В этом разделе представлено краткое описание Труды 12й Всероссийской научной конференции модели, используемой при построении системы об «Электронные библиотеки: перспективные методы и наружения несанкционированного полного копиро технологии, электронные коллекции» – RCDL’2010, вания. В основу модели положен аномальный под Казань, Россия, ход в обнаружении вторжений (см., например, [9]). 2.2 Обнаружение несанкционированного полного Более подробное формальное описание используе- копирования мой модели можно найти в работе [7].

Соблюдая договоры с издательствами и автора ми, многие ЭБ вводят ограничение на количество 2.1 Аномальный подход к обнаружению вторже документов, скачиваемых в единицу времени (час, ний день). Однако проблема такого подхода заключает Аномальный подход хорошо зарекомендовал се ся в чрезмерной простоте защиты: зная допустимое бя в системах обнаружения вторжений [9]. Основ число скачиваемых документов, можно точно ука ная идея этого подхода базируется на двух следую зать, какое время необходимо для полного копиро щих гипотезах (получивших подтверждение на вания всех документов ЭБ. Целью нашей работы практике):

является разработка на основе аномального подхода • в обычных информационных системах ко- интеллектуальной системы защиты от несанкциони личество злоумышленников составляет не более рованного полного копирования и оценка ее эффек долей процента от общего числа пользователей;

тивности.

• действия злоумышленника значимо отли- Мы модифицируем вторую гипотезу аномально чаются от действий обычных пользователей. го подхода следующим образом:

Как следствие, на основании действий обычных • все электронные документы, скачиваемые пользователей можно построить шаблон «нормаль обычными пользователями, семантически связаны ного» поведения;

тогда значимое отклонение от это между собой;

го профиля свидетельствует об аномальном поведе • документы, скачиваемые при полном не нии, т. е. обнаружении злоумышленника.

санкционированном копировании, имеют слабую При разработке системы, реализующей аномаль семантическую связь.

ный подход в обнаружении вторжений, возникают Действительно, обращаясь за информацией в ЭБ, следующие основные задачи:

пользователь хочет получить ответ на определен • построение шаблона «нормального» пове ный вопрос и/или подобрать список документов по дения пользователя;

определенной тематике. Даже с учетом смежных • разработка классификатора, позволяющего тем и варьирования тематики поиска в зависимости отличить «нормальную» последовательность дейст от вновь получаемой информации все документы, к вий от аномальной;

которым обращается пользователь, как правило, бу • определение граничных значений характе дут взаимосвязаны.

ристик классификатора для снижения вероятности Таким образом, имея возможность определять, появления ошибок классификации;

связаны ли между собой документы из определен • периодическое обновление шаблонов «нор- ного набора, можно выявлять и попытки несанк мального» поведения. ционированного полного копирования. Однако за В итоге эффективность работы системы обнару- дача выявления семантических связей между доку жения будет зависеть, в основном, от метода моде- ментами также является нетривиальной. Для реше лирования шаблона «нормального» поведения, спо- ния этой задачи мы используем «поведенческий»

соба построения классификатора и значений ис- подход – семантические связи между документами пользуемых при этом параметров. В данной работе определяются на основе анализа поведения обыч для создания шаблона «нормального» поведения ных пользователей (для этого и создается шаблон используется Марковская цепь, построенная по за- «нормального» поведения).

писям поведения обычных пользователей (т. е. по Исходными данными при создании системы об их обращениям к документам ЭБ). При классифика- наружения несанкционированного полного копиро ции поведения должно учитываться количество от- вания на основе аномального подхода служат запи клонений от «нормального» шаблона: только доста- си об обращениях пользователей к отдельным до точно большое число несоответствий шаблону сви- кументам электронной библиотеки. Основная цель детельствует об аномальном поведении. создаваемой системы защиты заключается в том, В процессе эксплуатации системы обнаружения чтобы своевременно обнаружить пользователя ЭБ, вторжений, основанные на аномальном подходе, осуществляющего несанкционированное полное могут совершать следующие ошибки классификации: копирование документов библиотеки. При этом не • ложная классификация поведения как ано- обходимо распознавать и такие ситуации, когда мального (ошибка типа false positive);

пользователь маскирует свои действия путем пере • ложная классификация поведения пользова- мешивания действий по полному копированию с теля как «нормального» (ошибка типа false обычной работой с ресурсом.

negative). Для построения системы обнаружения несанк Также важной характеристикой работы системы ционированного полного копирования необходимы являются затраты времени на обнаружение вторже- следующие наборы исходных данных:

ния, которые показывают насколько много ано- • тренировочный набор заведомо безопасных мальных действий сможет совершить злоумышлен- для ЭБ действий пользователя (на его основе стро ник до того, как будет выявлен системой обнаруже- ится шаблон «нормального» поведения);

ния вторжений. • тестовый набор заведомо безопасных дей ствий (используется для оценки числа ошибок типа несанкционированного копирования.

false positive);

Исходными данными для проведения экспери • ментов послужили лог-файлы доступа к Электрон тестовый набор заведомо аномальных дей ной библиотеке Республики Карелия [10] за период ствий (используется для оценки числа ошибок типа с июня 2007 г. по февраль 2009 г. включительно.

false negative).

Всего в ЭБ содержится порядка 1000 документов, из Наборы исходных данных могут быть получены них за рассматриваемый период были зафиксирова из зафиксированной за определенный срок истории ны обращения к примерно 700 документам.

посещений ЭБ пользователями. С помощью этих Сессией работы пользователя считалась после наборов данных параметры построения шаблона довательность всех обращений к документам с кон «нормального» поведения и классификатора подби кретного IP-адреса. Всего в лог-файле содержится раются таким образом, чтобы минимизировать чис порядка 10 тысяч сессий работы пользователей.

ло ошибок классификации.

Согласно модели, для построения шаблона В целом алгоритм построения системы обнару «нормального» поведения необходимы три набора жения несанкционированного полного копирования данных: тренировочный (заведомо нормальные выглядит следующим образом:

данные) и два тестовых (для подбора оптимальных 1. с помощью тренировочного набора данных параметров). Шаблон «нормального» поведения, строится Марковская цепь, представляющая собой был построен на основе обращений к ЭБ, зафикси шаблон «нормального» поведения пользователя;

рованных в период с июня 2007 г. по май 2008 г.

2. на основе шаблона «нормального» поведения включительно. Остальная часть лог-файла служила строится классификатор поведения пользователя;

в качестве тестового набора данных. Дополнительно 3. с помощью тестовых наборов оценивается был создан набор заведомо аномальных сессий ра соотношение числа ошибок классификации;

боты с ЭБ.

4. шаги 1 – 3 повторяются с различными значе На рис. 1 представлен пример (фрагмент) «нор ниями параметров (построения шаблона «нормаль мального» профиля, показывающий семантические ного» поведения и классификатора) до достижения связи между документами, выявленные на основе приемлемого числа и соотношения ошибок класси поведения пользователей ЭБ.

фикации.

Естественно, что наиболее сильно оказываются Система обнаружения несанкционированного связаны отдельные электронные документы и ог полного копирования документов ЭБ может быть лавления разделов. Однако наряду с этим связан встроена в систему обеспечения доступа к ресурсам ными в профиле являются, например, такие доку следующим образом. В ходе работы пользователя в менты как «Основные правовые системы современ системе каждое его обращение к цифровому доку ности» и «Обзор истории русского права». Из на менту фиксируется и вызывает обращение к подсис званий этих документов понятна их семантическая теме классификации поведения. Если (с учетом по близость, что подтверждает исходный тезис о воз следнего зафиксированного действия) поведение можности выявления семантических связей между пользователя признается аномальным, то, в зависи документами на основе анализа поведения пользо мости от политики безопасности ЭБ, либо админи вателей ЭБ.

стратору отсылается уведомление, либо пользовате В работе [8], опираясь на результаты проведен лю блокируется доступ к ЭБ.

ных экспериментов, были сделаны два принципи Описанный выше подход к обнаружению полно альных вывода:

го несанкционированного копирования можно на • звать поведенческим, т. к. основным критерием за- на основе анализа поведения пользователей висимости (или связи) документов в ЭБ – опреде- можно автоматически выявлять семантические свя ляющей нормальность/аномальность серии после- зи между электронными документами;

• довательных обращений к различным документам – возможно автоматическое выявление по считается ранее зафиксированное поведение поль- следовательностей обращений, противоречащих зователей, выражающееся в осуществленных и не- семантическим связям между документами.

осуществленных переходах между документами. Одним из наиболее важных параметров при по строении классификатора поведения является зна 3 Эксперименты чение порога, при превышении которого последова тельность действий классифицируется как аномаль В этом разделе будут описаны эксперименты, ная.

проведенные в рамках разработки системы обнару На рис. 2 представлены графики числа ошибок жения полного несанкционированного копирования.

типа false negative и доли аномалий в зависимости Для проведения экспериментов была разработана от значения порога (порог 1.8 соответствует при программная система, выполняющая предваритель мерно 5 аномальным действиям). Из рисунка видно, ную обработку файла исходных данных, построение что при снижении числа ошибок типа false negative профиля «нормального» поведения и проверку сес повышается число последовательностей действий, сий работы пользователей на аномальность. В рабо классифицированных как аномальные.

те [8] представлены результаты первых эксперимен На рис. 3 показана зависимость среднего време тов, показавших применимость описанного ранее ни до обнаружения аномалии от значения порога.

аномального подхода к задаче обнаружения полного Как и следовало ожидать, с увеличением порога увеличивается и среднее время до обнаружения для защиты коллекций аудио- и видеозаписей (на аномалии. пример, для таких сайтов, как RuTube.ru, You Следует заметить, что используемый нами под- Tube.com и др.). При этом шаблоны нормального ход не привязан к типу содержимого электронной поведения могут быть либо едиными для всех типов библиотеки и легко может быть модернизирован контента, либо строиться независимо.

Рис. 2. Доля пропущенных атак и аномальных сес Рис. 3. Среднее время до обнаружения аномалии сий в зависимости от значения порога профиля в зависимости от значения порога «нормального» поведения санкционированного копирования документов //Труды 4 Заключение Одиннадцатой Всерос. науч. конф. «Электронные биб В работе рассматривается применение аномаль- лиотеки: перспективные методы и технологии, элек ного подхода к задаче обнаружения полного не- тронные коллекции», Петрозаводск, Россия, 17 – 21 сен санкционированного копирования. Для апробации тября 2009 г. – Петрозаводск: КарНЦ РАН, 2009. – С.

предлагаемого подхода была разработана про- 443-447.

граммная система, строящая на основе исходных [9] Jha S., Tan K., Maxion R.A. Markov chains, classifiers and данных шаблон «нормального» поведения и клас- intrusion detection //Computer Security Foundations Work сификатор. С помощью этой системы был проведен shop (CSFW), June 2001.

ряд вычислительных экспериментов, показавших [10] Электронная библиотека Республики Карелия. – применимость аномального подхода к задаче обна- www.elibrary.karelia.ru.

ружения полного несанкционированного копирова ния. Кроме того, было исследовано влияние значе Anomaly-based approach to detection of full ния порога на характеристики системы.

unauthorized copying of documents Итоговой целью работы является разработка системы защиты от несанкционированного полного E.E. Ivashko, N.N. Nikitina копирования документов, основанной на подходе, представленном в данной работе и статьях [7, 8].

In the paper we present the recent results obtained in the process Такая система защиты может дополнить имеющиеся of developing the system of full unauthorized documents в ЭБ средства противодействия полному копирова copying detection for a digital library. The system is based on нию.

anomaly approach to intrusion detection and Markov chain me Подход, представленный в статье, может быть thod for modeling the pattern of "normal" behavior. The pre использован для защиты от полного несанкциони ceding results obtained at the earlier stages of work were pre рованного копирования не только текстовых доку sented in RCDL-2007 and RCDL-2009.

ментов, но и мультимедиа-контента (аудио- и видео записей). i Работа выполнена при финансовой поддержке РФФИ (про Литература ект 08-07-00085) [1] Гражданский кодекс, часть 4. Глава 70. Автор ское право. – http://www.gk-rf.ru/glava70.

[2] Wang J.-H., Chang H.-C., Hsiao J.-H. Protecting digital library collections with collaborative web im age copy detection. – Digital Libraries: Universal and Ubiquitous Access to Information. – Berlin:

Springer, 2008.

[3] Cox I.J., Miller M.L., Bloom J.A. Digital water marking// The Morgan Kaufmann Series in Multi media and Information Science. Series Editor: Ed ward Fox. – Morgan Kaufmann Publishers, USA.

2001.

[4] Koulouris A., Kapidakis S. Considerations on poli cies of university digital collections //Труды Шес той Всерос. науч. конф. «Электронные библио теки: перспективные методы и технологии, элек тронные коллекции», RCDL'2004, Пущино, Рос сия, 29 сентября – 1 октября 2004 г. – С. 159-168.

[5] Условия пользования научной библиотекой РФФИ. – http://www.rsci.ru/MoreInfo.html?

MessageID=498.

[6] Лицензионное соглашение сайта проекта eLI BRARY.RU. – ООО Научная электронная биб лиотека. – http://elibrary.ru/agreement.asp.

[7] Ивашко Е.Е. Построение системы защиты элек тронных библиотек от несанкционированного копирования документов //Труды Девятой Все рос. науч. конф. «Электронные библиотеки: пер спективные методы и технологии, электронные коллекции», Переславль, Россия, 15 – 18 октября 2007 г. – Переславль-Залесский: Изд-во «Уни верситет города Переславля», 2007. – С. 300-306.

[8] Ивашко Е.Е., Никитина Н.Н. Опыт построения системы защиты электронных библиотек от не Автоматизированное пополнение шаблонов для системы извлечения информации из текста © Д.С. Котельников1, Н.В. Лукашевич Факультет вычислительной математики и кибернетики МГУ имени М.В. Ломоносова Научно-исследовательский вычислительный центр МГУ имени М.В. Ломоносова info@dmitriu.com, louk@mail.cir.ru выражения одной и той же информации на естест Аннотация венном языке. Такую вариативность трудно полно В работе описывается способ автоматизи- стью отразить в совокупности шаблонов системы рованного пополнения шаблонов для сис- извлечения информации.

темы извлечения информации из текстов. В Так, факт о получении кредита может успешно качестве источника разнообразных описа- извлекаться из предложения «Краткосрочный госу ний события используются новостные кла- дарственный кредит в размере $4 миллиарда полу стеры. Пополнение шаблонов производится чит компания Chrysler» и не извлечься из предло за счет нахождения в новостном кластере жения «Chrysler получил от Минфина США кредит близких по содержанию предложений, при в 4 млрд. долларов».

условии обнаружения хотя бы одном них Таким образом, актуальной является задача ав извлекаемого события. Проведены экспе- томатического или автоматизированного пополне рименты, в которых показана возможность ния шаблонов для систем извлечения информации, автоматического обнаружения дополни- основанных на инженерном подходе.

тельной лексической информации для от- Если рассмотреть новостной кластер, объеди ражения в шаблонах системы извлечения няющий несколько тематически близких сообще информации из текстов. ний, то в нем часто оказывается достаточное коли чество близких по смыслу предложений, включаю 1 Введение щих как предложения, в которых некоторый факт распознан вполне успешно, так и предложения, в Задача извлечения информации состоит в выде которых этот же факт не распознан совсем или рас лении из текста на естественном языке структури познан частично. Именно эту вторую группу пред рованной информации. Типичными подзадачами ложений можно использовать для наращивания этой задачи являются извлечение совокупности шаблонов для распознавания данного факта.


упоминаемых в тексте сущностей, отношений меж В работе исследуется вопрос о пополнении мно ду ними и ситуаций, в которых они принимали уча жества шаблонов для извлечения информации из стие.

потока новостей за счет двойной кластеризации.

Большинство существующих систем выделения Сначала новостные сообщения близкой тематики фактов из текстов на русском языке основаны на так объединяются в новостные кластеры, затем предло называемом инженерном подходе [2 – 4], когда жения, в которых обнаружены шаблоны для извле шаблоны для извлечения информации описываются чения информации, служат центрами для кластеров вручную. Характерной особенностью такого рода схожих предложений, в которых такие шаблоны не систем является то, что наблюдается существенная обнаружены.

неполнота извлекаемой информации, т. е. реально В качестве исходных данных используются ре упомянутая в тексте информация системой не все зультаты работы демонстрационной версии про гда обнаруживается. Проблема связана с тем, что граммы извлечения информации – RCO Fact человеку трудно описать все возможные способы Extractor, работа которой основана на инженерном упоминания той или иной сущности или факта в методе составления шаблонов для извлечения ин предложениях текста.

формации из текстов [2, 3].

Особенно сложной задачей для систем извлече ния информации является задача извлечения из тек 2 Обзор работ по исследуемой тематике ста информации о некотором упомянутом факте, в котором задействовано несколько участников, что Предложено большое количество методов авто связано с тем, что возникает большая вариативность матического получения шаблонов, выделяющих описания ситуаций из текстов на английском языке.

Большинство из них [12, 13] использует предва Труды 12й Всероссийской научной конференции рительно размеченную человеком коллекцию тек «Электронные библиотеки: перспективные методы и стов. Создание такой коллекции является трудоем технологии, электронные коллекции» – RCDL’2010, Казань, Россия, кой задачей и для каждого извлекаемого факта при- Если такая совокупность шаблонов неполна, то ходится создавать свои коллекции. это должно проявиться следующим образом. В но Система AutoSlog-Ts [18, 19] использует вместо востном кластере, посвященном данному факту, в размеченной коллекции тексты, помеченные как некоторых предложениях данный факт будет обна содержащие и не содержащие выделяемый факт, а руживаться системой извлечения информации, а в также правила составления шаблонов. В системе других (синонимичных или сходных) предложениях требуется участие человека в проверке автоматиче- данный факт обнаруживаться не будет.

ски сформированных шаблонов на извлечение оп- Таким образом, для распознавания неполноты ределенного события. описанных шаблонов и формирования новых шаб В системах KnowItAll [11] и TextRunner [7] при- лонов для извлечения факта F необходимо к сово купности { S + } предложений, в которых факт F меняются независимые от выделяемого отношения правила, поэтому требуется присутствие в описании обнаружен, добавить совокупность { S sim} похо события фрагмента текста, полностью совпадающе жих предложений, в которых факт F не обнаружен, го с написанным человеком шаблонов. Таким обра но которые могут потенциально содержать этот зом, системе требуется искать предложения, подхо факт. Предложения, входящие в множество { S s im}, дящие под шаблон, что накладывает серьезные ог ищутся среди всех предложений совокупности раничения на извлекаемые факты.

{ S }, в которых факт F не установлен.

В системе DIPRE [8] шаблоны для извлечения Нахождение похожих предложений в данной за отношений между сущностями порождаюся повто даче имеет ряд особенностей, которые могут быть рением двух итераций, что помогает избавиться от использованы для более качественного нахождения необходимости участия человека в процессе полу похожих предложений. Например, можно находить чения новых шаблонов. Обучение начинается с не не только попарное сходство предложений из мно большого количества установленных фактов на жества { S } к множеству { S + }, но и общее сход больших коллекциях данных. Для извлечения шаб лонов система использует контексты в виде трех ство с множеством { S + }.

подстрок (левый, правый и средний) около упоми Кроме того, для нахождения множества предло наний сущностей, для которых нужно установить жений { S sim} может использоваться внутренняя отношение.

структура извлекаемого факта. Известно, что при Развитием данного подхода является система извлечении фактов обычно заполняется так назы Snowball [6], в которой шаблоны представлены тре ваемый фрейм события, который состоит из заго мя векторами, отражающими левый, средний и пра ловка и слотов, соответствующих участникам собы вый контексты между выделяемыми сущностями.

тия. Так, информация о выданных кредитах может Так же проведена работа по вычислению качества отражаться во фрейме со слотами: Кредитор (Credi выделяемых шаблонов и фактов.

tor), Заемщик (Debtor), Сумма (Value), Цель В работе [17] шаблоны представлены вектором (Purpose).

между сущностями, а возможные значения самих Если система извлечения фактов в одном из слотов ограничены семантическим тегом лемм, вхо предложений выделила основных участников собы дящих в сущности. Для обобщения шаблонов и тия Fok для заполнения слота Fo в фрейме факта F, проверки качества фактов используются близкие по то это также может быть использовано для обнару мере взаимной информации PMI [14] слов.

жения предложений, потенциально содержащих Недостатком методов является необходимость данный факт.

сбора большой коллекции документов для каждого Рассмотрим подробнее совокупность признаков, извлекаемого отношения.

извлекаемых из предложений.

Система [15] помогает улучшить полноту извле чения некоторого факта, за счёт композиции не 3.1 Количество найденных слотов скольких шаблонов и точность при помощи выявле ния типов извлекаемых сущностей. Обозначим через L множество лемм произволь Нахождение близких по содержанию предложе- ного предложения P из { S }, а через M – множест ний в новостном кластере для извлечения парафраз во лемм произвольного предложения из { S + }. То исследуется в работе [10]. Используется расстояние гда количество найденных слотов можно вычислить Левенштейна для слов в предложении и эвристика, по формуле что новостные источники раскрывают основное n slots( P ) = match( Li, Fo k ), содержание новости в начале текста.

i, k o = где match возвращает 1, если заполнение для слота 3 Кластеризация предложений является подстрокой леммы предложения или оди Пусть в некоторой системе извлечения инфор- наковы числовые представления обоих строк, при мации из текстов, основанной на инженерном под- равных значениях семантического атрибута и 0 в ходе, описана совокупность шаблонов для распо- противном случае.

знавания заданного факта F.

В табл. 1 представлены меры точности, полноты 3.2 Мера косинуса угла и F-меры, достигаемые отдельными признаками для Вычисляются максимальное и среднее арифме нахождения похожих предложений, действительно тическое значений меры косинуса угла между L и содержащих пропущенный факт. Как видно, наи векторами M из { S + } :

лучшим признаком оказался так называемый при LM знак косинуса угла между вектором частотности cos( L, M ) =. лемм по всему множеству предложений {S +} и век LM тором лемм предложения L из { S } (см. п. 3.4).

3.3 Мера косинуса угла для TFIDF Таблица 1. Результаты нахождения предложений, Вычисляются максимальное и среднее арифме- содержащих искомый факт из множества { S s im}, тическое значений меры косинуса угла между L и для одиночных признаков векторами M из { S + }, но вместо лемм предложе Признак Точность Полнота F-мера ний, используется значение TFIDF. Были проверены Количество 0.5493 0.6801 0. несколько формул [1, 9].

слотов Максимальный 0.4588 0.5340 0. 3.4 Вектор частотности лемм косинус угла Вычисляется частотность лемм, содержащихся в Средний коси- 0.4391 0.6272 0. предложениях { S + } по всем кластерам, и формиру нус угла ется вектор лемм с их частотностью R. Очередное Максимальный 0.4240 0.6007 0. предложение из множества { S } сопоставляется с косинус угла этим вектором. В качестве признаков используются для TFIDF мера косинуса угла для лемм и TFIDF между векто- Средний коси- 0.4054 0.7858 0. ром R и L, наличие самой частотной леммы, сум- нус угла для марная частотность лемм предложения: TFIDF n Косинус угла с 0.5594 0.9181 0. freqin ( L, R ), sum freq ( L ) = вектором час i i = тотности freq( Li ), Li R, Суммарная 0.7461 0.5440 0. freqin ( Li, R ) = 0, Li R. частотность лемм Максимальный 0.6139 0.2103 0. 3.5 Признаки для лемм между ролями косинус угла Из предложений множества { S + } при формиро- между ролями вании векторов берутся леммы, расположенные ме- Средний коси- 0.6139 0.2002 0. жду крайними извлеченными слотами. Для вновь нус угла между получившихся векторов подсчитываются все при- ролями знаки, описанные в п. 3.3. Максимальный 0.6203 0.2078 0. косинус угла 3.6 Эксперимент по отбору признаков для нахож- для TFIDF ме дения сходства между предложениями жду ролями Средний коси- 0.6280 0.1914 0. Для экспериментов по выявлению лучших при нус угла для знаков сходства предложений и формирования TFIDF между множества предложений { S sim}, потенциально ролями содержащих искомый факт, была собрана коллек Суммарная 0.5906 0.2216 0. ция из 60 новостных кластеров, в которых обсужда частотность лось событие получения кредита. Все предложения лемм между коллекции были просмотрены экспертом и помече ролями ны как содержащие или не содержащие описание Наличие час- 0.2311 0.8614 0. ситуации получения кредита.


тотных лемм Коллекция была обработана программой RCO Наличие самой 0.0626 1.0000 0. Fact Extractor и получены предложения, в которых частотной системе удалось установить фрейм кредита. Для леммы нахождения близких по содержанию предложений Для комбинирования признаков были опробова были выделены 24 признака, позволяющие сравни ны различные алгоритмы машинного обучения. В вать предложения, в которых системе извлечения табл. 2 приведены результаты алгоритмов машин информации удалось обнаружить извлекаемое со ного обучения из программной системы RapidMiner бытие { S + }, и предложения, в которых обнаружить [16], которые показывают, что на основе выделен событие не удалось { S }.

ных признаков удалось добиться значительного ка чества обнаружения предложений, содержащих По результатам проведенного исследования бы пропущенный факт. ла выбрана модель классификации, основанная на деревьях решений.

Таблица 2. Результаты нахождения предложений для методов машинного обучения 4 Описание работы системы автомати ческого построения шаблонов Метод Точность Полнота F-мера Neural Net 0.7485 0.7720 0.7600 Построенная в предыдущем разделе модель на Decision Trees 0.6212 0.9005 0.7352 хождения предложений, в которых потенциально k-Nearest 0.7028 0.7286 0.7154 может скрываться не обнаруженный ранее факт, Neighbor используется в системе автоматического построе Naive Bayes 0.6806 0.7427 0.7102 ния шаблонов, которая применяется к большим объемам новостной информации.

Таблица 3. Лучшие признаки для методов Архитектурно система состоит из трех компо машинного обучения нент: сборщик новостных кластеров, кластеризатор Метод Точность Полнота F-мера предложений и экстрактор элементарных шаблонов.

На вход системы подается тип извлекаемого факта, Neural Net 0.7485 0.7720 0. который должна уметь выделять используемая сис Decision 0.6212 0.9005 0. тема извлечения информации из текста и ключевое Trees слово, необходимое для поиска новостей. Теперь k-Nearest 0.7028 0.7286 0. подробно опишем каждый из компонентов системы.

Neighbor Naive 0.6806 0.7427 0. 4.1 Сборщик новостных кластеров Bayes Метод Признаки В новостном архиве Google [5] производится по Neural Net 1. Количество слотов иск кластеров по ключевому слову, извлекаются 2. Максимальный косинус угла ссылки на документы с полным описанием новости.

3. Средний косинус угла С сайтов новостных изданий скачиваются HTML 4. Максимальный косинус угла для страницы, и извлекаются тексты, которые в них со TFIDF слов держатся. Получившиеся тексты отправляются на 5. Косинус угла с вектором час- обработку системе извлечения информации из тек тотности ста, которая выделяет предложения, содержащие 6. Суммарная частотность лемм описания интересующего события. Таким образом, 7. Суммарная частотность лемм получается большое количество новостных класте между ролями ров, основной темой которых является искомый Decision 1. Количество слотов факт.

Trees 2. Средний косинус угла 4.2 Кластеризатор предложений 3. Средний косинус угла для TFIDF слов Обработанные тексты отправляются на вход 4. Косинус угла с вектором час- кластеризатора предложений, который вычисляет тотности слов признаки и делает первый отбор предложений, по 5. Суммарная частотность лемм тенциально содержаших пропущенный факт, ис k-Nearest 1. Количество слотов пользуя обученный классификатор.

Neighbor 2. Средний косинус угла для Для каждой леммы из предложений, в которых TFIDF базовой системе извлечения информации, удалось 3. Косинус угла с вектором час- установить факт наличия извлекаемого события и тотности отобранных классификатором, вычисляется частот Naive 1. Суммарная частотность лемм ность. Леммы, частотность которых больше некото Bayes 2. Максимальный косинус угла рого порога, считаются значимыми.

для TFIDF между ролями Примеры значимых слов для фрейма кредита:

3. Средний косинус угла для 0.989899 КРЕДИТ TFIDF между ролями 0.392817 ПРЕДОСТАВЛЯТЬ 0.37037 ПОЛУЧАТЬ В табл. 3 приведены результаты процедуры от 0.255892 БАНК бора признаков для каждого метода. Как видно, ос 0.251403 ВЫДАВАТЬ новные признаки, влияющие на принятие решение 0.249158 РОССИЯ при классификации, связаны либо с количеством 0.246914 БРАТЬ слотов фрейма, найденных в предложении, либо с 0.230079 ГОДА суммированной характеристикой предложений из 0.181818 РЫНОК множества { S + }.

0.176207 НЕДВИЖИМОСТЬ 0.166105 БИЗНЕС 0.152637 КРЕДИТНЫЙ 5 Эксперименты 0.14927 РОССИЙСКИЙ Эксперименты проводились на коллекции из Далее производится поиск значимых слов в 10000 новостных кластеров, собранных из архива предложениях из множества { S } и добавляются Google.

В качестве базовой системы извлечения инфор признаки, связанные со значимыми словами. После мации использовалась система RCO Fact Extractor производится второй отбор предложений классифи [2, 3], и рассматривалось событие выдачи кредита.

катором, который обучался с учетом дополнитель Было выделено 1569 элементарных шаблонов.

ных признаков.

Все шаблоны, имеющие коэффициент k +, равный В результате работы кластеризатора из обрабо танного множества кластеров извлекаются предло- нулю, были упорядочены по мере снижения вели жения из множества { S + }, то есть те предложения, чины k. Первыми в таком списке оказались сле в которых базовая система извлечения информации дующие элементарные шаблоны:

обнаружила искомый факт. Также извлекаются [Слот:Debtor] ПРИВЛЕКАТЬ КРЕДИТ НА предложения из множества { S s im}, в которых факт [Слот:Value] не обнаружен, но потенциально может содержаться.

[Слот:Debtor] ПРИВЛЕКАТЬ СИНДИЦИРОВАТЬ 4.3 Экстрактор элементарных шаблонов КРЕДИТ НА [Слот:Value] Отобранные предложения из множеств { S + } и [Слот:Creditor] ВВОДИТЬ МОРАТОРИЙ НА ВЫДАЧА КРЕДИТ [Слот:Debtor] { S sim} поступают на вход экстрактора шаблонов.

Шаблоны (далее элементарные шаблоны или [Слот:Debtor] ПОЛУЧАТЬ [Слот:Value] просто шаблоны) в данном случае – это не те, воз [Слот:Debtor] ПРИВЛЕКАТЬ КРЕДИТ ОБЪЕМ можно, сложные описания языковых конструкций, [Слот:Value] на основе которых работает базовая система извле чения информации, а некоторые служебные разбие- [Слот:Debtor] ПРИВЛЕКАТЬ КРЕДИТ ния предложений. [Слот:Creditor] Элементарные шаблоны строятся для отобран [Слот:Debtor] ОДОБРИТЬ КРЕДИТ РЖД НА ных предложений следующим образом:

[Слот:Value] - слова, соответствующие слотам целевого фрейма в кластере текущего предложения, заменя- [Слот:Debtor] ПРЕДОСТАВЛЯТЬ ПЕРВЫЙ ются на название этого слота (например, [Debtor], ТРАНШ КРЕДИТ НА [Слот:Value] [Creditor]);

[Слот:Debtor] ПРИВЛЕКАТЬ КРЕДИТ В - для построения шаблона выделяется непус [Слот:Value] тая подстрока лемм из исходного предложения ме жду двумя разными слотами с добавлением значи- [Слот:Debtor] ПОЛУЧАТЬ КРЕДИТ НА СУММА мых слов (см. п. 4.2.), до первого или после второго ДО [Слот:Value] слота на расстоянии не более 4 слов.

[Слот:Debtor] БУДЕТ ПРЕДОСТАВЛЯТЬ КРЕДИТ Например, из предложения «Chrysler получил от НА [Слот:Value] Минфина США кредит в 4 млрд. долларов» будет извлечены два шаблона: [Слот:Creditor] ПРЕКРАЩАТЬ ВЫДАЧА КРЕДИТ [Слот:Debtor] [Debtor] {ПОЛУЧАТЬ} ОТ [Creditor] {КРЕДИТ} Сравнение с внутренними описаниями данной {ПОЛУЧАТЬ} ОТ [Creditor] {КРЕДИТ} В ситуации в базовой системе извлечения информа [Value]», ции показало, что верно выделены следующие про так как леммы кредит и получать являются значи- блемы текущего описания:

мыми слова для описания данного факта. - не учтено, что о выделении кредита можно Далее шаблоны обобщаются удалением прилага- сказать, используя леммы «привлекать», «сооб тельных и наречий. Шаблоны, в которых не найдено щать», «договариваться», «подписывать», «одоб ни одного значимого слова или в которых оба слота рить»;

имеют одно и то же название, считаются ошибоч- - не учитывается, что у кредитов бывают ными. транши;

упоминание траншей изменяет структуру Такие элементарные шаблоны извлекаются из предложения и затрудняет извлечение факта.

предложений множеств { S + } и { S s im}. Для каждо- Извлечение элементарных шаблонов показало, го шаблона подсчитывается коэффициент k +, что во многих из них фигурируют одни и те же сло ва. Поэтому был сделан дополнительный лексиче сколько раз он был извлечен на предложениях из ский анализ на самые «неудачные» слова, то есть те, множества { S + }, и коэффициент k, сколько раз которые в первую очередь необходимо добавить в такой шаблон был извлечен из предложений множе существующие шаблоны исходной системы извле ства { S s im}.

чения информации.

Для определения лемм – кандидатов на попол- 6 Заключение нение была выполнена следующая процедура, по В данной работе представлен способ автомати зволяющая учесть употребления леммы как в от зированного обнаружения неполноты шаблонов для дельных предложениях из множества { S s im}, так и системы извлечения информации из текста. Метод в различных кластерах.

основан на нахождении в новостном кластере не Для каждой леммы были вычислены следующие сколько близких по содержанию предложений, в величины:

одном из которых удалось обнаружить извлекаемое - freqSsim – количество вхождений слова в событие.

шаблоны, извлеченные из предложений { S sim} ;

Исследован ряд признаков для обнаружения - freqSsimClusters – количество кластеров, в предложений, потенциально содержащих пропу которые входят предложения из множества { S sim}, щенный факт. Для наилучшего нахождения таких предложений произведено комбинирование призна где встретилось данное слово;

ков с использованием методов машинного обуче - freqS – количество вхождений леммы во все ния.

извлеченные элементарные шаблоны;

Качество работы предложенного метода прове - freqClusters – количество вхождений леммы рялось на извлечении фактов получения кредита.

во всех извлеченных кластерах.

Эксперименты показали применимость данной сис Множество {W} лемм-кандидатов строится из темы для обогащения шаблонов системы извлече лемм, для которых выполняются следующие усло ния информации.

вия:

В дальнейшем планируется улучшить качество FreqSsim 10 (то есть установлен порог по ко работы системы за счет большего обобщения шаб личеству предложений), лонов.

FreqSsimClusters 3 (установлен порог по коли честву кластеров), FreqSsim / FreqS 0.8, Благодарности FreqSsimClusters / FreqClusters 0.8.

Авторы благодарят компанию ЭР СИ О и лично Таблица 4. Список «проблемных» слов В.В. Плешко за возможность использования версии с частотными шаблонами RCO Fact Extractor в качестве базовой системы для проведения экспериментов.

Слово Пример частотного шаблона ПРИВЛЕЧЕНИЕ [Debtor] ОБЪЯВЛЯТЬ О Литература ПРИВЛЕЧЕНИЕ {КРЕДИТ} В РАЗМЕР [Value] [1] Агеев М.С., Добров Б.В., Лукашевич Н.В., Си СООБЩАТЬ [Debtor] СООБЩАТЬ ЧТО доров А.В. Экспериментальные алгоритмы по {ПОЛУЧАТЬ} {КРЕДИТ} иска/классификации и cравнение с «basic line»// [Creditor] Труды второго российского семинара «РОМИП ПРИВЛЕКАТЬ [Debtor] ПРИВЛЕКАТЬ 2004». – 2004. – С. 62-89.

{КРЕДИТ} В [Value] [2] Киселев С.Л., Ермаков А.Е., Плешко В.В. Поиск ДОГОВАРИВАТЬ [Debtor] ДОГОВАРИВАТЬСЯ фактов в тексте естественного языка на основе СЯ О {КРЕДИТ} В [Value] сетевых описаний// Труды межд. конф. «Диалог ТРАНШ [Creditor] {ВЫДАВАТЬ} 2004»: Компьютерная лингвистика и интеллек [Debtor] ПЕРВЫЙ ТРАНШ туальные технологии, 2004. – С. 282-285.

{КРЕДИТ} [3] Ермаков А.Е., Плешко В.В. Семантическая ин ВЫДЕЛЯТЬ [Creditor] ВЫДЕЛЯТЬ терпретация в системах компьютерного анализа {КРЕДИТ} В [Value] текста//Информационные технологии. – 2009. – ВЫДАЧА [Creditor] ВВОДИТЬ № 6. – С. 2-7.

МОРАТОРИЙ НА ВЫДАЧА [4] Хорошевский В.Ф. OntosMiner: семейство сис {КРЕДИТ} [Debtor] тем извлечения информации из мультиязычных СОГЛАШЕНИЕ [Creditor] СОГЛАШЕНИЕ О коллекций документов// Девятая Национальная {КРЕДИТ} НА [Value] конференция по искусственному интеллекту с ПОДПИСЫВАТЬ [Debtor] ПОДПИСЫВАТЬ С международным участием КИИ-2004. Труды [Creditor] СОГЛАШЕНИЕ ПО конференции в 3-х томах. – М.: Физматлит, ПРИВЛЕЧЕНИЕ {КРЕДИТ} 2004. – Т. 2. – С. 573-581.

[5] Новостной архив Google, 2010. – http://news.

ПРЕДОСТАВЛЕ [Creditor] И google.ru/archivesearch.

НИЕ ПРЕДОСТАВЛЕНИЕ {КРЕДИТ} [Debtor] [6] Agichtein E., Gravano L. Snowball: extracting rela tions from large plain-text collections// Proc. of the В результате процедуры было получено 10 слов, Fifth ACM Int. Conf. on Digital Libraries. – 2000.

все из которых оказались необходимыми для по- – P. 85-94.

полнения шаблонов для базовой системы извлече- [7] Banko M., Cafarella M., Soderland S., Broadhead ния информации (см. табл. 4). M., Etzioni O. Open information extraction from the Web// Communications of the ACM. – 2008. – Automatically generating patterns for P. 68-74. information extraction system [8] Brin S. Extracting patterns and relations from the World Wide Web//Proc. of the 1998 Int. Workshop D.S. Kotelnikov, N.V. Loukachevitch on the Web and Databases. – 1998. – P. 172-183.

This paper describes an approach for automatic genera [9] Callan J., Croft W., Harding S. The INQUERY tion of patterns for information extraction system. The retrieval system// Proc. of {DEXA}-92, 3rd Int.

technique is based on sentence clusterization around Conf. on Database and Expert Systems Applica sentences with found facts. News clusters are used as a tions. – 1992. – P. 78-93.

source of various descriptions of events.

[10] Dolan B., Quirk C., Brockett C. Unsupervised con struction of large paraphrase corpora: exploiting massively parallel news sources//Proc. of the 20th Int. Conf. on Computational Linguistics. – 2004. – P. 1-7.

[11] Etzioni O., Cafarella M., Downey D., Kok S., Po pescu A., Shaked T., Soderland S., Weld D., Yates A. Web-scale information extraction in knowitall// Proc. of the 13th Int. Conf. on World Wide Web. – 2004. – P. 100-110.

[12] Harabagiu S., Surdeanu M., Morarescu P. Auto matic discovery of linguistic patterns for informa tion extraction// AAAI Press. Proc. of the Four teenth Int. Florida Artificial Intelligence Research Society Conf. – 2001. – P. 449-453.

[13] Huffman S. Learning information extraction pat terns from examples. – Lecture Notes in Computer Science. – Springer-Verlag, 1996. – P. 246-260.

[14] Lin D. Automatic retrieval and clustering of similar words//Proc. of the 17th Int. Conf. on Computa tional Linguistics and the 36th Annual Meeting of the Association for Computational Linguistics (COLING-ACL-98), 1998. – P. 768-774.

[15] Michelakis E., Krishnamurthy R., Haas P., Vaithy anathan S. Uncertainty management in rulebased information extraction systems. – 2009. – P. 101 114.

[16] Mierswa I., Wurst M., Klinkenberg R., Scholz M., Euler T. YALE: rapid prototyping for complex data mining tasks//Proc. of the 12th ACM SIGKDD Int.

Conf. on Knowledge Discovery and Data Mining (KDD-06), 2006. – P. 935-940.

[17] Pasca M., Lin D., Bigham J., Lifchits A., Jain A.

Names and similarities on the Web: fact extraction in the fast lane// Proc. of the 21st Int. Conf. on Computational Linguistics and the 44th annual meeting of the Association for Computational Lin guistics, 2006. – P. 809-816.

[18] Riloff E. Automatically generating extraction pat terns from untagged text//Proc. of the Thirteenth National Conference of Artificial Intelligent, 1996.

– P. 1044-1049.

[19] Riloff E., Phillips W. An introduction to the sun dance and autoslog systems// School of Computing.

University of Utah, 2004.

Электронная библиотека русских говоров:

идеи, проблемы, решенияi © Р.Э. Кульшарипова, Т.И. Ибрагимов, Ф.И. Салимов Казанский (Приволжский) федеральный университет rkulshar@mail.ru, Tavzich.Ibragimov@ksu.ru, Farid.Salimov@ksu.ru следователей умения вжиться в их диалектное ком Аннотация муникативное пространство, создавать с диалектны ми носителями ситуацию интеракциональной общ Статья посвящена изучению возможностей ности, не разрушая привычных для них основ ком электронной библиотеки русских говоров в муникации.

теоретическом и прикладном аспектах. Ар Лингвистическая теория того времени только хив электронной библиотеки русских гово еще приступила к детальному освещению теории ров представляет интерес для разработки текста и дискурса, вопросы онтологии диалектного основ диалектной речевой культуры с при языка не были предметом серьезных разработок.

менением компьютерных технологий и обо Сделанные диалектные записи интересовали иссле гащения диалектного подкорпуса русского дователей только как фактический материал, содер языка.

жащий типичные и нетипичные (относительно гово ров) черты. Звуковой строй говора изучался в соот 1 История проекта ветствии с принципами, разработанными В 1960 – 1990 гг. в Казанском государственном уни- С.С. Высотским. Особенности консонантизма уточ верситете активно проводились диалектологические нялись в соответствии с техниками слухового анали исследования русских говоров Европейской части за, для выявления специфики диалектного звучания России. Ежегодно организовывались диалектологи- часть материала перезаписывалась на студийные ческие экспедиции в северо-западные районы Рос- магнитофоны;

записи на больших скоростях были сии. Сбор материала проводился по особой про- оптимально хороши для проведения спектрального грамме, разработанной З.М. Альмухамедовой, для анализа.

дальнейшего экспериментально-фонетического опи 2 Задачи проекта сания характерных звуковых структур. Программа сбора материала включала словники. Эти словники Создание электронной библиотеки предполагает отражали характеристики тех фонетических пози перевод имеющегося материала в цифровой формат, ций, которые крайне важны для выявления акусти лингвистическую обработку речи в различных ас ческой специфики звука по параметрам длительно пектах и размещение результатов исследований в сти, интенсивности и тембра. Параллельно делались интернете. Основной задачей проекта было создание записи спонтанной речи от типичных представите доступного электронного ресурса, позволяющего лей местного говора. Необходимость сбора такого получить доступ к электронным записям широкому материала определялась тем, что диалектная речь кругу исследователей. При этом предполагалось содержала фактический материал, который характе провести систематизацию имеющегося материала, ризовался ведущими лингвистами как образцы на лингвистическую обработку записей, составить сло родной речевой культуры. Естественно, основное вари, характеризующие фонетические и грамматиче внимание уделялось речи носителей старшей возрас ские особенности говоров.

тной группы, т. к. они были хранителями традиций русской языковой культуры в условиях ее транс- 3 Формат библиотеки, построение сайта формации. До сих пор в литературе уточняются по Первой задачей, которую необходимо было ре нятия «диалектный язык», «параметры диалектного шать в проекте, была задача оцифровки имеющихся общения» и т. д.

фонограмм с соответствующей очисткой их от по Техника записи состояла в следующем: во сторонних шумов. Задача оказалась достаточно первых, по возможности обследовались все жители сложной в силу ряда причин: магнитная пленка, на того или иного населенного пункта;

во-вторых, вы которой хранились фонограммы, оказалась в плохом биралась тематика бесед, которая включала освеще состоянии, магнитный слой был частично разрушен, ние всех сторон повседневности, все, что оптималь пленки при перезаписи разрывались, на многих но могло передать ценности их жизни. Стереотипы пленках запись была достаточно сильно зашумлена.



Pages:     | 1 |   ...   | 19 | 20 || 22 | 23 |   ...   | 26 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.