авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 |   ...   | 20 | 21 || 23 | 24 |   ...   | 26 |

«Электронные библиотеки: Перспективные Методы и Технологии, Электронные коллекции English Труды RCDL 2010 ...»

-- [ Страница 22 ] --

диалектного речевого поведения требовали от ис Кроме того, при записях использовалась разная тех ника, записи были сделаны на различных скоростях, Труды 12й Всероссийской научной конференции условия хранения магнитных носителей не соответ «Электронные библиотеки: перспективные методы и ствовали требуемым нормам. Оцифровка потребова технологии, электронные коллекции» – RCDL’2010, Казань, Россия, ла достаточно серьезной технической поддержки, открытость и свободность, а также качество воспро был создан инструментарий для считывания записей изведения декодированной информации. Для про в щадящем режиме, разработаны цифровые фильтры слушивания фонограмм с использованием этого для очистки речевого сигнала. Для хранения оциф- формата пользователю предлагается скачать соот рованного материала был создан специальный сер- ветствующие кодеки. Все файлы непосредственно вер, который впоследствии был использован в каче- хранятся на сервере в специально отведенном ката стве хранилища при создании электронной библио- логе. Основный принцип, которому разработчики теки. На текущем этапе оцифровано множество за- следовали при создании сайта, – обработка только писей на скоростях 19.0, 76.0, 9.5 м/сек, что состав- необходимой информации, без излишней перегру ляет более 70 часов звучащей речи. женности и возможность работы на ограниченных Оцифрованные записи были подвергнуты все- ресурсах.

стороннему анализу. Прежде всего, было необходи- Сайт структурно разбит на три части, входная мо определить время проведения записи, регион, в страница предлагает переход на следующие подраз котором проводилась запись, разбить записи по дик- делы.

торам (при этом в некоторых случаях приходилось Оглавление библиотеки. Отображение списка за решать задачу идентификации диктора) и пр. К со- писей с возможностью фильтрации записей по ре жалению, архив, идентифицирующий записи, был гиону. В этом разделе дополнительно доступна такая частично утерян, часто информация, приведенная в информация, как прослушивание/загрузка звукового картотеке, не соответствовала фактическому поло- файла, просмотр текстового варианта записи (если жению дел. В результате всестороннего анализа за- таковая имеется), просмотр транскрипции записи писей, с привлечением воспоминаний участников (если транскрипция проведена), просмотр частотно экспедиций, информация была частично восстанов- го словаря словоформ в облегченно лена и отражена в оглавлении библиотеки. Оглавле- транскрибированном тексте.

ние библиотеки содержит следующую информацию: Фотоальбом: здесь расположены некоторые ар • хивные фотографии, созданные во время экспеди регион записи, с указанием населенного ций.

пункта, в котором проводилась запись;

названия об Служебная страница, доступная только участ ластей и республик приводятся на момент времени никам проекта. В ней возможна синхронизация ра записи;

в случаях, когда не удалось идентифициро бочей базы с информацией на сайте. Данная воз вать регион, было указано, что регион записи не оп можность позволяет поддерживать актуальность ределен;

справочник регионов построен по иерархи информации на сайте без участия программистов.

ческому принципу;

имеется возможность фильтра С целью регистрации возросшего объема оциф ции записей, относящихся к конкретному региону, рованного материала был создан программный мо посредством выбора интересующего региона из вы дуль, включающий в себя базу данных по обрабо падающего списка записей;

танным записям, расширенные средства поиска и • год записи – в случае, когда год записи конвертации данных из одного способа представле идентифицировать не удалось, год записи не указан;

ния в другой (при обработке текстовой информации • сведения о дикторе – включают фамилию, использовались различные операционные системы и имя и возраст информанта;

кодировки), статистические функции обработки • тематика записи;

записи фонограмм велись транскрипций и текстовых аналогов звучащих фай по определенным темам, впоследствии эта инфор лов. В будущем с использованием данного модуля мация была утеряна;

была проделана работа по вос предполагается продолжить комплексную лингво становлению тематики имеющихся записей, состав статистическую обработку оцифрованного материа лен словарь затрагивавшихся тем, который пред ла.

ставлен в оглавлении.

Кроме того, в оглавлении присутствует инфор 4 Лингвистическая обработка собранно мация о типе говора, об особенностях записи и дру го материала гие показатели.

Электронная библиотека оформлена как интер- Одна из современных научных парадигм – это нет-ресурс, расположенный по адресу дискурсивно-когнитивная. Диалектная речь в этом http://dialekt.rx5.ru/. Базовое программное обеспече- преломлении представляет немалый интерес и пер ние, использованное для построения сайта, является спективу. Диалектный дискурс подходит под дефи стандартным: веб-сервер apache, язык программиро- ницию Н.Д. Арутюновой «дискурс – речь, погру вания php, сервер баз данных mysql. Звуковые фай- женная в жизнь». Поэтому архивы электронной лы специальным образом подготовлены, уменьшены библиотеки русских говоров позволяют успешно частота дискретизации сигнала, разрядность, прове- разрешать следующие проблемы теории дискурса.

дены нормализация по уровню громкости, сжатие в Диалектная речь, записанная от разных носителей, свободно распространяемый формат ogg. Это было которые проживают на разных территориях, может сделано для облегчения воспроизведения фонограмм быть изучена в рамках понятий коммуникативного на компьютерах, оснащенных обычными звуковыми события. Наши дикторы свободно кодировали вы платами, а также для уменьшения объема файлов. ражаемую ими информацию, которая была зачастую При выборе формата сжатия учитывались его полная вербализацией их прошлой языковой памяти. Они охотно вспоминали и передавали в разнообразных какова природа информационной базы носителей и приемах процесс концептуализации мира, в котором т. д.).

они живут. В одном повествовании встречались Традиции речевой сельской культуры – не про коммуникативные эпизоды разных временных сре- сто дань памяти и уважения к предшествующим зов: молодость, военные годы, современная жизнь. поколением;

хотя, несомненно, этнокультурный Электронная библиотека позволяет уточнить спе- фактор значим, но материалы электронной библио цифику системы речевых событий, которые верба- теки представляют интерес в прикладном ракурсе.

лизуются диалектными носителями в актах общения Изучение механизмов коммуникации, природы с неносителями. Детализация явлений привычных коммуникативных кодов в диалектном общении, сторон их традиционного коммуникативного про- систематизации речевых регистров способствует странства, зафиксированная в соответствующих освещению многих кардинальных вопросов совре разделах электронной библиотеки, показательна для менного речеведения.

решения задач этнолингвистического характера, Функциональное изучение диалектной речи мно т. к. сведения подобного рода попросту могут уже гое может объяснить и в системно-структурном об отсутствовать по естественным причинам. разовании русского языка, его функциональных Диалектная речь содержит параметры, которые разновидностях. Звуковое представление диалект важны для исследования природы содержательно- ной речи также помогает уточнить характерные ас смысловой организации текста в русском языке с пекты понятия «диалектная языковая личность», ее подключением факторов функциональной маркиро- роль и статус в общем процессе организации рече ванности. Диалектное коммуникативное простран- мыслительных действий на русском языке.

ство, представленное многочисленными моделями Антропоцентризм диалектной речи проявляется актуализации смысла, помогает установить своеоб- в богатстве приемов и тактик, которыми владеет разие также и дискурсивного мышления. Хотя при- сельский житель и которые явственно проявляют нято считать, что диалектные носители по ранжиру себя в процессе их восприятия носителем литера коммуникативных приемов отстают от носителей турного языка;

оппозиция диалектная норма и лите литературного языка, но выставленные образцы ратурная небезынтересна не только для разрешения оцифрованной диалектной речи, напротив, демонст- вопросов коммуникативного и стилистического рируют исключительную динамику тематического планов;

это все осложняется определенными куль развертывания в актах коммуникации. турными ценностями, объемами соответствующих Речевые ценности, правила речевого поведения в языковых знаний. В результате этого архив элек каждом типе говора могут варьироваться, но в це- тронной библиотеки позволит уточнить, конкрети лом они указывают на универсальные начала веде- зировать аспекты изучения диалектной языковой ния речи. В настоящее время многими исследовате- личности в преломлении к новым исследователь лями-диалектологами принимается в качестве ис- ским парадигмам современного языкознания. На ходного положение о существовании «особого типа пример, это можно увидеть при изучении статусно речевой культуры сельского общения». ролевых действий диалектных носителей, когда в Электронная библиотека русских говоров сохра- тексте они могут передавать в разнообразной тем няет накопленный материал и позволяет широкому бровой окраске фрагменты речи своих родных, под кругу пользователей в реальности постичь как тех- руг, односельчан, особым образом моделируя их нику речевых действий диалектных носителей, так и присутствие в диапазоне собственной речи.

специфику вербализации ментального лексикона, Так называемый познавательный аспект языко отражающего варианты их картины мира. Это на- вой личности в ресурсах электронной библиотеки глядно прослеживается в актах речи, когда, повест- можно почувствовать не только через порождаю вуя об одном и том же концепте, наши дикторы вво- щийся диалектный текст, но и путем сравнения тек дят в семантическое пространство сведения разного стов разных носителей, принадлежащих к иным рода и плана. Так, повествуя о своей жизни, наши диалектным зонам. Обращаясь по ходу повествова информанты по ходу иллюстрируют навыки комму- ния к неносителям говора, наши информанты в ка никативно-прагматического характера;

это могут честве эффективного способа успешно демонстри быть сведения о жизни в юности вперемешку с опи- ровали технику ассоциативного наращивания смыс санием беседы у молодых;

уборка хлеба с элемента- ла за счет повтора, интонационного выделения и ми разговора с бабушкой;

служба в армии с собы- специфики концептуализации смыслов (особенно, тиями возвращения домой и т. д. когда активизировалась модель диалогизации в об Конечно, лингвистов-исследователей интересу- щении).

ют также собственно метаязыковые понятия, поэто- Личностно-ориентированное общение в диа му в нашей электронной библиотеке содержатся и лектном коммуникативном пространстве указывает языковые данные по звуковым особенностям запи- на своеобразие поведенческого аспекта языковой санной речи, реальный словарь речи, в котором воз- личности;

они называют самые важные смысловые можно уловить тонкости коммуникативно- каналы с ориентацией на собственное видение мира, прагматического эффекта (какие слова наиболее но способны динамично коррелировать их с уста частотны при изложении тех или иных мотивов;

новками участников акта общения. Отсюда актуаль ность изучения природы прецедентных текстов в диалектном пространстве. Созданная нами элек- Литература тронная библиотека также содержит материал, ис пользуя который, мы можем уточнить ракурсы он- [1] Кульшарипова Р.Э., Ибрагимов Т.И. Аспекты тологии диалектного текста через специфику просо- описания электронной библиотеки говоров дии диалектного слова. русского языка;

по материалам диалектологи Диалектные тексты в составе электронной биб- ческих экспедиций Казанского государствен лиотеки русских говоров уникальны еще и потому, ного университета в 1969-1990 гг.// Русская и что в связи с рядом причин экстралингвистического сопоставительная филология. – Казань: Изд-во плана они содержат базу данных, которая не может Казан. ун-та, 2008. – С. 66-71.

быть адекватна современному положению дел. Из- [2] Кульшарипова Р.Э., Ибрагимов Т.И., Сали менились времена и система ценностей, которыми мов Ф.И., Сайхунов М.Р., Хусаинов Р.Р. К соз они руководствовались, условия окружающего их данию электронной библиотеки русских гово речевого контекста, и мы имеем дело с моделирова- ров по материалам диалектологических экспе нием уже иного порядка. диций КГУ// Web Journal of Formal, Идеи Казанской лингвистической школы под- Computational & Cognitive Linguistics. – 2008. – тверждаются природой диалектного материала, ко- No 10. – http://fccl.ksu.ru/issue10/ торый оцифрован и может быть использован спе- Salimov_el_libr.rtf.

циалистами разных областей знания. [3] Кульшарипова Р.Э., Ибрагимов Т.И., Сали мов Ф.И. Библиотека русских говоров: речевое 5 Заключение поведение говорящего в диалектной речи// Рус Электронная библиотека говоров является ча- ская и сопоставительная филология. – Казань:

стью мультимедийного диалектологического корпу- Изд-во Казан. ун-та, 2009. – С. 78-84.

са русского языка. Библиотека рассчитана на широ- [4] Кульшарипова Р.Э. Электронная библиотека кий круг пользователей. Говоры представлены в ней русских говоров: аспекты изучения// Актуаль в четырех формах: звучащей речи, облегченно ные проблемы русской диалектологии и иссле транскрибированного текста, отражающего специ- дования старообрядчества: Тез. докл. – М.: Ин фику говора орфографического текста, и в форме ститут русского языка им. В.В. Виноградова словаря словоформ. Такое представление материала РАН, 2009. – С. 135-137.

позволяет проводить исследования самодостаточно сти говора как коммуникативной системы жителей Elektronic library of the russian dialects:

данного региона, а также социальных особенностей ideas, problems, decisions жизни села и фонетических различий говоров.

R.F. Kulsharipova, T.I. Ibragimov, F.I.Salimov Работа по созданию библиотеки не завершена, на настоящий момент обработано чуть более половины The paper is devoted to the studying of the possibilities имеющихся записей. Как и разрабатываемый диа of the electronic library of the Russian dialects in the лектологический корпус, библиотека говоров мно theoretical and applied aspects. The archive of the elec гоаспектна, она может быть использована для про tronic library of the Russian dialects is very interesting ведения исследований речевой культуры и речевого for working out the basis of the dialectal speech culture поведения носителей русского языка. Материалы by means of the computer technologies and for the библиотеки могут найти применение в разработке enrichment of the dialectal sub-corpora of the Russian.

систем автоматического распознавания и синтеза речи, при построении устройств идентификации диктора по голосу.

i Работа выполнена при финансовой поддержке РФФИ (проект 08-06-00160) Электронная библиотека русских народных говоров и современные диалектологические исследования * © Е.В. Зотина Казанский (Приволжский) федеральный университет ezotina@mail.ru привлекают к себе внимание исследователей и за Аннотация служивают тщательного изучения.

Статья посвящена лингвистической интер- Классическая диалектология двадцатого века претации Электронной библиотеки русских ставила своей задачей системно-структурное описа народных говоров, создаваемой на основе ние уровней языка (диалекта) – фонетического, сло записей диалектной речи, собранных в раз- вообразовательного, морфологического, синтакси ные годы преподавателями и студентами ческого. Прежде всего, внимание уделялось фонети филологического факультета. Приводится ке, а точнее – изучению особенностей артикуляции краткий обзор актуальной диалектологиче- звуков, ритмике слова и фразы, хотя интонационные ской проблематики, а также предлагаются особенности диалектной речи до сих пор исследова вниманию возможные ракурсы лингвисти- ны менее всего.

ческих исследований звучащей диалектной В результате создана достаточно четкая класси речи. Более подробно рассматривается ком- фикация диалектов русского языка по типу безудар плексное исследование речевого поведения ного вокализма, особенностям грамматических языковой диалектной личности, включаю- структур, сформулировано описание основных щее изучение фонетических, морфолого- групп говоров.

синтаксических и когнитивно-прагмати- Однако в основном все исследования были на ческих особенностей организации речи. правлены на формальное описание уровней языка и истории возникновения и бытования тех или иных 1 Современная диалектологическая про- лингвистических особенностей речи.

Современную лингвистику двадцать первого ве блематика ка характеризует все больший интерес к научному Диалект – это основа образования языка народ- обобщению и выявлению глубинных когнитивных ности, одна из древнейших форм его существова- механизмов речевого поведения, порождения и вос ния. В настоящее время интерес к изучению диалек- приятия речи.

тов возрастает во всем мире, в том числе и в совре- Во второй половине двадцатого века стала фор менной русистике. Русский язык крайне богат свои- мироваться так называемая коммуникативная диа ми территориальными диалектами, которые состав- лектология, внимание лингвистов обратилось к оп ляют важный пласт его существования как языка ределению самой специфики сельской коммуника русской народности, или национального языка. В ции, к выявлению когнитивных механизмов речево донациональный период и в первой четверти XIX го диалектного поведения, особенностей порожде века социально-территориальные диалекты вместе c ния и восприятия диалектного высказывания. Спе койне (общий язык, образующийся на основе сме- цифику диалектной речи стали усматривать в самой шения ряда родственных диалектов и заменяющий организации общения на диалекте, в системе типич их все) разных типов являлись основным средством ных для диалекта речевых событий, коммуникатив повседневно-обиходного общения для всех классов ных ролей и жанров. Поэтому современная диалек и сословий. В настоящее время, несмотря на экспан- тологическая наука характеризуется явно выражен сию литературного языка, а также кардинальные ным антропоцентрическим подходом к исследова изменения в самой структуре русского языка, его нию диалектного материала, апеллирует к изучению диалекты продолжают существовать и функциони- идиолекта, речевого поведения языковой диалект ровать, несмотря на ограничение функций, пере- ной личности, а также языковых механизмов, лежа стройку диалектной системы и утрату первичных щих в основе формирования особого речевого кон ярких особенностей. Именно поэтому диалекты тинуума – диалектного дискурса. Как известно, вы воды об этноспецифичности взгляда на мир в рабо тах, посвященных изучению национальной языко Труды 12й Всероссийской научной конференции вой картины мира, строятся на материале литера «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» – RCDL’2010, турного языка, тогда как существование других Казань, Россия, 2010 форм языка, в частности, диалектов, часто не при нимается во внимание. Хотя, как справедливо отме- мания современных диалектологов. Предполагается, чает Е.А. Нефедова, «концепция диалектного языка, что материал создаваемой Электронной библиотеки представляющая диалекты как макросистему с об- даст прекрасную возможность для получения новых щими и различительными признаками, дает теоре- данных в этой области. При сопоставлении нашего тическое основание для исходного положения о ва- материала с современными записями аналогичных риативности общей диалектной картины мира как регионов можно выявить особенности динамики одной из составляющих картины мира, отражаемой изменения говора, т. е. изучить речевые механизмы русским национальным языком» [4, с. 15]. в их движении и развитии.

В рамках данной статьи хотелось бы показать, Представление речи в электронной форме позво каким образом Электронная библиотека русских лит исследователям применить современные про народных говоров может быть исследована с пози- граммы акустического анализа речи, например, ции современной диалектологии как науки, направ- WinPitch Pro, Praat, Speech Analyzer. Это дает воз ленной на комплексное изучение диалектной ком- можность изучить более полно не только особенно муникации. сти артикуляции отдельных звуков, но и провести С точки зрения современной диалектологии диа- комплексный анализ просодии говора, включающий лект представляет собой сложную макросистему изучение как интонационного контура, так и тем частных диалектных систем, и каждая диалектная брального оформления. Тембр голоса как явление микросистема является полноценным языковым акустическое изучен очень не полно. Существует идиомом, что исключает дифференциальный способ несколько определений тембра, нет единогласного изучения его структуры. Репрезентация данных в мнения в определении его статуса в наборе просо электронном виде позволит провести исследование дических средств;

результаты исследования диа комплексного характера, включающее как изучение лектной речи, крайне насыщенной интонационно отдельного говора, так и группы говоров. тембровыми модуляциями, могут существенно по мочь в этом вопросе.

Особенно важным оказывается, что современ 2 Возможные направления для исследо ную экспериментально-фонетическую интерпрета вания материалов Электронной библио цию получат записи 1960 – 1980-х годов, когда аку теки стическая фонетика еще не обладала столь богатым инструментарием для изучения просодии. Кроме В изложении не будем касаться подробного опи того, по замечанию некоторых исследователей сания материалов Электронной библиотеки, так как диалектологов, «речь представителей старшего по этому вопросу посвящена отдельная статья 1. Обра коления деревни, как правило, отличается плавно тим основное внимание на конкретные возможности стью и хорошим построением» [5, с. 47]. В речи на лингвистической интерпретации данных.

ших информантов встречаются длинные монологи с Экспонаты библиотеки представляют ценный редкими перебивами и паузами хезитаций, а высо лингвистический материал, так как отражают гово кая ритмическая и мелодическая организация при ры регионов первичного заселения севернорусского, ближает произносимую речь к сказовой.

среднерусского и южного ареалов (Архангельская, Вниманию пользователей предлагается несколь Костромская, Кировская, Новгородская, Ярослав ко видов представления диалектных данных – соб ская, Рязанская области и др.) и содержат звучащую ственно звучащая речь, ее транскрипционная рас речь фактически ушедшего поколения, речь которо шифровка и орфографический вариант с передачей го еще во многом сохранила архаические особенно особенностей произношения. Предлагаемые тексты сти своего говора, его своеобразное артикуляцион открывают перспективы для исследования парагра но-акустическое фонетическое оформление.

фики диалектного текста и соотношения ритмико В настоящее время существуют другие проекты, интонационного членения текста с его графическим представляющие данные о диалектной речи в элек оформлением.

тронном виде. Это Саратовский корпус и диалект Еще одно возможное направление для исследо ный подкорпус в составе Национального корпуса вания – создание диалектологического атласа. Изу русского языка. Они ориентированы на современ чение говоров методами лингвистической геогра ные записи, тогда как записи Электронной библио фии и составление первых карт стало осуществлять теки датированы 1960 – 1980-ми годами. Современ ся еще в начале двадцатого века Московской диа ное состояние диалектов близко к так называемым лектологической комиссией. «Лингвистическая гео полудиалектам, или просторечию. Очевидно, что графия представляет собой раздел диалектологии, это состояние возникло в результате интенсивного осуществляющий при помощи составления лин влияния литературного языка. Однако механизм гвистических карт изучение характера распростра этого влияния, а также причины устойчивости диа нения диалектных явлений» [3, с. 9]. Результатами лектных систем, противостояния их литературному многолетних экспедиций в разные регионы России языку, несмотря на осознание его престижности, стали сборники – «Опыт диалектологической карты изучены пока не достаточно и остаются в поле вни русского языка в Европе» (1905 г.) и «Диалектоло гическая карта русского языка» (1965 г.) Данными См. статью Салимова Ф.И., Кульшариповой Р.Э. и Ибра- для составления карт являлись записанные на бума гимова Т.И. в этом сборнике ге сведения о диалектной речи. Первоначально сбор ходимость получить и отправить информацию, же сведений производился выборочно и не системати- лание быть услышанным и понятым, разделить «не чески, затем в Институте русского языка Академии равнодушие» к предмету речи со своим партнером наук была разработана специальная методика соби- по коммуникации» [2, с. 18]. Коммуникативные ис рания материала путем организации непосредствен- следования по изучению речевого поведения актив ных наблюдений над повседневной речью типичных но ведутся на самом различном лингвистическом представителей данного говора и обследования на- материале – художественных, политических, рек селенных пунктов по определенной сетке. В 1945 г. ламных текстах и т. д. Диалектный материал наших вышла «Программа собирания сведений для состав- записей оказывается с этой точки зрения практиче ления диалектологического атласа русского языка». ски не исследованным.

В конце 40-х гг. по этой программе началась колос- Конечно, существуют работы, посвященные изу сальная работа по обследованию русских говоров на чению диалектной языковой картины мира (иссле огромной территории, от северной Архангельской дования Е.Л. Березович, А.С. Герда, В.Е. Гольдина, области до южных областей, спускающихся к Дону, В.Д. Лютиковой, Р.Ф. Касаткиной и др.), однако от западных областей вокруг Новгорода, Пскова, изучение собственно речевого поведения, использо Смоленска до восточных берегов Волги. Руководил вание коммуникативных стратегий и тактик не ока всей этой грандиозной работой сектор диалектоло- зываются в них тщательно разработанными.

гии Института русского языка АН России во главе с Оцифрованные записи диалектной речи пред Р. И. Аванесовым. Участники экспедиции в каждом ставляют по своему содержанию разные речевые населенном пункте вели наблюдение над живой, жанры – монологи, диалоги, полилоги и позволяют непринужденной речью населения. Велась по воз- определить особенности организации коммуника можности точная запись небольших отрезков речи в тивного акта с разных сторон:

специально разработанной фонетической транс- - с точки зрения прагматики речи – каким обра крипции. Собранный материал затем готовился к зом эксплицируется смысл речи, как разворачивает картографированию сотрудниками диалектологиче- ся понятие коммуникативного центра в речи, какие ского сектора и ими же картографировался. Состав- коммуникативные стратегии, т.е. общие прагмалин лено несколько томов карт по отдельным областям гвистические принципы реализации иллокутивного картографируемой территории. Один из томов — смысла использует говорящий;

«Говоры центральных областей к востоку от Моск- - с точки зрения пресуппозиции, или когнитив вы» — издан в 1957 г, остальные находятся в Архи- ных механизмов – как, каким образом раскрываются ве АН России. Закончены три тома сводного атласа индивидуальные когнитивные пространства носите под общей редакцией Р. И. Аванесова и С. В. Бром- лей говора, за счет каких концептов и ментальных лей. По материалам атласа подготовлен ряд научных моделей, используемых в речи, это проявляется;

монографий и пособий для студентов филологиче- - и, наконец, с точки зрения собственно лингвис ского профиля. тического аспекта – как организуется звучащая речь, Тем не менее, создание новых диалектологиче- каковы особенности артикуляции звуков, мелодиче ских карт и атласов актуально до сих пор и имеет ского и тембрального оформления.

большое практическое значение. Мы предполагаем, Электронная библиотека русских народных го что создание подобных электронных библиотек по- воров позволяет изучать речевое поведение жите зволит возобновить исследования в области лин- лей, являющихся участниками и очевидцами многих гвистической географии. Многие записи Электрон- трагических событий нашей истории – революции ной библиотеки собраны в регионах, охваченных 1917 года, Первой мировой, Великой Отечественной ранее диалектологическими экспедициями, и сейчас войны. В связи с этим актуально исследование диа они могут значительно расширить уже имеющиеся лектной речи и с точки зрения социолингвистики.

сведения. В качестве примера возможного исследования Наконец, особенно важным оказывается иссле- приведем краткий анализ речевого поведения жите дование материалов Электронной библиотеки с точ- лей Псковской области. Объектом исследования ки зрения изучения речевого диалектного поведе- являются однородные в жанровом отношении рече ния. вые произведения – устные спонтанные монологи К изучению феномена речевого поведения лин- ческие рассказы. В основном они призваны выпол гвисты обратились сравнительно недавно. Антропо- нить однотипные коммуникативные задачи – пере центризм современной лингвистической теории за- дать собеседнику содержание серии событий, кото ставляет обращать внимание не только на описание рые известны говорящему, но неизвестны слушате языковой структуры, но и на изучение homo loquens, лю. В первую очередь, это описание деревенского т.е. человека говорящего. В речевом поведении че- быта, сельского уклада жизни, праздников, важных ловек говорящий выступает как языковая личность событий.

– «средоточие когнитивно-коммуникативных по- Анализ полученного материала позволяет выде тенций, материализирующихся на фоне социально лить главную коммуникативную стратегию реали окрашенной действительности, которая дает место зации задуманного в речи – репрезентативную, или проявлению психологических свойств и устремле- изобразительную. Репрезентативная стратегия по ний человека. К ним прежде всего относится необ строения дискурса имеет установку на изображение и того же союза, или синтаксический параллелизм:

в дискурсе неязыковых ситуаций. «… Я кушать хотела, а я и кушать ни магу, и пашла В результате анализа речи отдельных дикторов на гулянье, и на гуляньи тольки и думаю, куда я пай определяется специфика семантико-когнитивного ду», «Кармилиц ты мой, Колинька, за што ты так выделения в речи, когда информанты пытались ак- руботаешь? За што ты так мучиишьсе? Кармилец, туализировать ту социолингвистическую информа- изволи работать, наработаешь!.. Кармилец мой, цию, которая могла быть мало знакома городским придё время, помрешь, фсе астаница!»

слушателям: выращивание и обработка льна, сва- Практически во всех рассказах находят отраже товство, деревенская свадьба и т. д. В результате ние Великая Отечественная война и революция экспериментально-фонетического анализа можно года, а также связанные с этим жизненные события определить специфику просодической организации информантов – например, переезд в деревню из го речи – так, например, жители Псковской области рода после начала революционных действий, не весьма эмоциональны, активно изменяют тембраль- мецко-фашистская оккупация, участие в партизан ную окраску голоса в процессе беседы. ском движении и т.д. Таким образом, можно обо Отмечено, что, передавая чужую речь, говоря- значить ментальный концепт войны как один из щий стремится передать всю совокупность ее про- наиболее актуальных для жителей данного региона содических признаков – интонацию, тембр, эмоцио- в определенный период времени. Фактически дан нальный настрой. Таким образом, наблюдается тен- ный концепт находит частое выражение в рассказах денция к максимальному использованию прямой жителей многих других регионов. Это является речи с наименьшими искажениями при передаче естественным следствием потрясений, пережитых чужого высказывания. Для разговорного литератур- жителями нашей страны в те далекие от сегодняш ного языка характерно большее использование кос- него дня годы. Было бы интересно более подробно венной или несобственно-прямой речи. изучить особенности лексико-семантической репре Экспериментально доказано, что информант из- зентации данного концепта на материале наших меняет качество голоса, когда говорит о чем-то диалектных записей. Более того, это имеет гумани очень близком и эмоционально значимом (напри- стическое значение, так как позволит обратиться к мер, о своей свадьбе, родителях, смерти детей и исторической памяти народа и сохранить воспоми т. д.) или когда рассказывает о жизненных событи- нания о трагических событиях нашей истории.

ях, оставивших у него яркие воспоминания, напри- Использование Электронной библиотеки позво мер, о жизни в послевоенные годы. Особое выделе- ляет провести комплексный анализ речевого пове ние приобретают слова, неизвестные слушателю по дения языковой диалектной личности, включающий мнению информанта, – «риги молотила», «грабево», изучение фонетических и морфолого-синтаксичес «увалья, цветы», «парики длинны» и т. д. Намерен- ких особенностей организации речи. В результате ное использование тембральной выразительности в анализа можно сделать вывод об особенностях реа речи диктора проявляется за счет изменения фона- лизации коммуникативного акта в речевом диалект ционного качества звучания (перехода на полуше- ном поведении говорящего, а также обнаружить потную речь, эффекта придыхания голоса, его вре- специфику семантико-когнитивного выделения: для менной остановки), а также концентрации макси- носителей говора важно быть услышанными и поня мальной энергии на формантных частотах F3, F4, тыми, они с большим желанием рассказывают о которые, по признанию большинства исследовате- предметах своего быта, обычаях, традициях;

расска лей, отвечают за индивидуальные и эмоциональные зывая о своей жизни, информанты реализуют фати характеристики голоса. Можно определить некото- ческую и эмотивную функции языка.

рые особенности организации коммуникативных типов предложения. Для диалектного текста харак- Литература терен инверсионный порядок слов (Каровушку, де [1] Электронная библиотека русских народных го ти за каровушкой, внук пушел с маим мужыком за воров. – http://www.dialekt.rx5.ru.

каровушкой). Кроме того, характерно использование [2] Винокур Т.Г. Говорящий и слушающий. Вариан так называемых лексических актуализаторов, кото ты речевого поведения. – М.: Наука, 1993. – рые указывают на пространственно-временные гра 172 с.

ницы сообщения. Диктор-повествователь способен [3] Захарова К.Ф., Орлова В.Г. Диалектное членение абстрагироваться от реального времени, простран русского языка. – М.: Едиториал УРСС, 2004. – ства и переместиться в прошлое за рамки изобра 176 с.

женного мира.

[4] Нефедова Е.А. Лексико-семантическое варьиро Очень часто встречаются в речи разнообразные вание в пространстве диалекта. – М., 2008. – 36 с.

частицы, в основном постпозитивные – «было-те», [5] Пауфошима Р.Ф. Житель современной деревни «дроф-то нету». В результате экспериментального как языковая личность // Язык и личность. – М.:

анализа речи замечено, что часто эти частицы нахо Наука, 1989. – С. 41-48.

дятся рядом со словами, несущими акцентное выде ление на уровне просодии.

Особую выразительность придают анафориче ские конструкции, когда фраза начинается с одного The electronic library of russian national dialects and modern dialectological study E.V. Zotina The article is devoted to the linguistic interpretation of the Electronic Library of Russian National Dialects. The recorded library of speech examples of territorial varie ties of Russian was formed as a result of the dialecto logical research expeditions to the north-west regions of Russia. The creation of the electronic library is aimed to digitize available records and to display the results of the research in the Internet. The Electronic Library al lows the linguists to investigate dialectal speech in dif ferent aspects.

The study presents the brief explanation of the dia lectal objectives of the research. Among these objec tives are acoustic speech analysis, the creation of dialec tal atlases, and the investigation of communicative strat egies in the field of human speech behavior.

Communicative dialectology as a new kind of sci ence appeared at the end of the 20th century. The main aim of it is to reveal the cognitive mechanisms of the dialectal speech and to investigate speech strategies and techniques in various types of dialectal discourse. The result of the complex analysis of the speech behavior is presented as an example. There is a close connection between the speech organization and the communicative purposes and strategies of the informants.

* Работа выполнена при финансовой поддержке РФФИ (проект 08-06-00160) Автоматическое порождение обновления к аннотации новостного кластера © А.А. Алексеев1, Н.В. Лукашевич Факультет вычислительной математики и кибернетики МГУ имени М.В. Ломоносова Научно-исследовательский вычислительный центр МГУ имени М.В. Ломоносова a.a.alekseevv@gmail.com, louk_nat@mail.ru зом: пусть имеется новостной кластер, содержащий Аннотация W новостных сообщений, и через некоторое время Представлен метод автоматического со- данный кластер пополняет ещё N сообщений. Необ ставления обновления к аннотации новост- ходимо составить обзорный реферат пришедших N ного кластера. Данный метод основан на сообщений таким образом, чтобы он содержал выявлении предложений, содержащих но- только новые факты по отношению к имеющимся вую информацию, и дальнейшем автомати- W документам кластера. Задача ставится в предпо ческом аннотировании на основе тематиче- ложении, что пользователь уже знаком с первыми ского представления кластера, моделирова- W документами кластера и хочет ознакомиться ния лексической связности текста и тезау- только с новыми фактами по данному событию.

русном описании лексических значений. В данной работе будет рассмотрен метод порож Проведен эксперимент по оценке порож- дения обновлений к аннотациям развивающихся денных аннотаций при помощи выявления новостных кластеров. Он базируется на выявлении информационных единиц, так называемая предложений, содержащих новую информацию, и пирамидная оценка аннотаций (Pyramid дальнейшем автоматическом аннотировании на ос Evaluation). нове тематического представления кластера, моде лирования лексической связности текста и тезау 1 Введение русном описании лексических значений. Для оцен ки качества предложенного метода реализован так Новостные сервисы в современном мире соби же известный метод аннотирования MMR (Maxi рают новостные сообщения от многих тысяч ново mum Marginal Relevance [4, 6]).

стных источников. В таких сервисах поступающие Сравнение методов производится так называе новостные сообщения обычно объединяются в кла мым методом Пирамид, который позволяет объек стеры похожих сообщений, для которых создается тивно оценить полноту изложения информации но аннотация – краткий обзор документов кластера.

востного кластера [9]. Также построенные аннота Эта краткая аннотация является одним из основных ции были оценены профессиональным лингвистом с продуктов работы новостного сервиса для конечно точки зрения читабельности и связности текста.

го пользователя, который может быстро ознако миться с основными фактами интересующего его 2 Обзор существующих подходов события. Краткую аннотацию совокупности тема тически близких документов также называют об- Важной подзадачей поставленной задачи созда зорным рефератом. ния обновлённой аннотации новостного кластера При пополнении новостных кластеров новой является задача определения новизны информации.

информацией соответствующая аннотация должна Подобная задача была поставлена в 2002 – 2004 го перестраиваться для того, чтобы отразить эту новую дах на конференции по информационному поиску информацию. Другим способом отражения новой TREC (Text REtrieval Conference), проводимой На информации о происходящем событии является циональным Институтом Стандартов и Технологий создание отдельного обновления к существующей США (NIST) [13]. Задача носила название Novelty аннотации, сообщающего только новую информа- Track и ставилась следующим образом: даны неко цию по сравнению с уже аннотированными доку- торый топик и набор документов (возможно, содер ментами. жащий нерелевантные документы). Необходимо Задача создания обновления к аннотации ново- указать предложения, релевантные и содержащие стного кластера формулируется следующим обра- новую информацию по отношению к данному топи ку.

Участники использовали большое количество Труды 12й Всероссийской научной конференции различных подходов к решению поставленной зада «Электронные библиотеки: перспективные методы и чи. Один из лучших результатов показала система технологии, электронные коллекции» – RCDL’2010, Казань, Россия, 2010 Колумбийского университета [12], в которой ис пользовалось два подхода для определения новиз- тода для задачи создания обновления к аннотации.

ны, а именно: Метод MMR является итеративным, на каждом ша - представление предложения в виде вектора ге производится ранжирование предложений так, слов и последующее сравнение предложений по- чтобы предложение, во-первых, было как можно средством скалярного произведения;

ближе к запросу для аннотирования по некоторой - ранжирование предложений в соответствии с метрике, а во-вторых, как можно дальше от предло весом новых слов, встретившихся в этих предложе- жений, уже отобранных в аннотацию, и от предло ниях. жений из первого набора документов.

Задача создания обновления к аннотации впер вые была поставлена на конференции DUC 3 Предложенный подход (Document Understanding Conference), и её рассмот Сформулируем более подробно поставленную рение продолжилось (продолжается и сейчас) в задачу. Дан новостной кластер – набор новостных рамках конференции TAC (Text Analysis сообщений по поводу некоторого события, упоря Conference). Задача носит название Update доченный в хронологическом порядке. Новостной Summarization и представляет собой аннотирование кластер представляет собой динамическую структу по запросу [8]. Участникам даются некоторый за ру, которая постоянно пополняется новыми сооб прос и два набора документов, релевантных данно щениями. Такой новостной кластер делится на две му запросу и упорядоченных в хронологическом части по хронологическому принципу – до и после порядке (документы второго набора строго более некоторого момента времени.

поздние, чем документы первого). Необходимо со Необходимо составить две аннотации: первая ставить две аннотации по данному запросу длиной представляет собой классическую аннотацию набо не более 100 слов, такие, что первая является обыч ра документов первой части кластера;

вторая анно ной аннотацией первого набора документов, а вто тация должна отражать факты из второй части кла рая является аннотацией второго набора докумен стера, являющиеся новыми по сравнению с первой тов, но в предположении, что пользователь уже зна частью кластера.

ком с документами из первого набора (аннотация Приведём пример. 2 февраля 2007 года в 16. должна содержать только новые факты).

начался полуфинал мужского теннисного турнира в Самым популярным подходом для решения за Загребе, в котором сыграли россиянин Михаил дачи создания обновлённой аннотации стал подход, Южный и хорват Иван Любичич. Все новостные аналогичный обычному аннотированию докумен сообщения новостного кластера, описывающего тов. В данном случае предложение-кандидат для данное событие, которые пришли до 16.00 часов, аннотации не должно быть похоже не только на содержат только информацию о том, что данный предложения, уже отобранные в аннотацию, но и на полуфинал должен будет состояться, и не содержат документы из первого набора. Для улучшения ре информацию о результатах данной встречи.

зультатов своих систем участники использовали Таким образом, разделив новостной кластер на различные техники, среди них:

две части по временному принципу (до и после - вычисление расстояний между термами с учё 16.00), мы получим «хорошие» входные данные для том их места в иерархии WordNet;

поставленной задачи. Обновлённая аннотация, как - учёт частей речи и обработка именованных минимум, должна будет содержать информацию о сущностей;

результатах игры (победитель, счёт и т. д.), так как - изучение позиции предложения в документе с эта информация, во-первых, является новой по от точки зрения его важности;

ношению к первой части кластера и, во-вторых, са - исключение слишком коротких и слишком мой важной информацией второй части кластера.

длинных предложений из рассмотрения, а также Для решения задачи составления обновлённой предложений, содержащих кавычки, анафору и т. д.

аннотации разделённого новостного кластера пред [7].

лагается подход, основанный на выявлении пред Для отбора предложений в аннотацию использо ложений второй части кластера, содержащих новую валось два основных подхода: кластеризация и ран информацию по отношению к первой части класте жирование. Первый подход заключается в разделе ра, и дальнейшем аннотировании с использованием нии всех предложений на кластеры похожих пред только новых предложений.

ложений и отборе в итоговую аннотацию централь ных предложений получившихся кластеров. Второй 3.1 Определение новизны предложений подход основан на вычислении веса каждого пред ложения с использованием некоторой метрики и Для выявления предложений, содержащих но отбора в итоговую аннотацию предложения, имею- вую информацию, используется комбинация мето щего наибольший вес. дов, предложенных командой Колумбийского уни Лучшие результаты практически по всем метри- верситета на конференции TREC 2004 [12]. Для того кам показал метод Maximal Marginal Relevance чтобы предложение было сочтено новым, необхо (MMR). Данный метод давно известен и успешно димо, чтобы оно было сочтено новым двумя сле используется для запросного аннотирования [6], в дующими подходами.

работе [5] представлена модификация данного ме При первом подходе все предложения новостно- тические узлы, которые соответствуют сущностям го кластера представляются в виде вектора лемм. из основной темы документа, а также локальные Исследуемое предложение второй части кластера тематические узлы, соответствующие побочным сравнивается со всеми предложениями из первой темам документа. Для построения тематического части по косинусной мере угла между векторами. представления новостного кластера такой кластер Если все получившиеся значения (лежащие в диапа- объединяется в единый документ [2].

зоне от 0 до 1) меньше некоторого порога, вычис- Аннотирование новостных кластеров на основе ляемого эмпирически, то исследуемое предложение тематического представления и тезаурусных знаний объявляется новым. В качестве порога использова- позволяет снижать значимость известных проблем лось значение 0.5. построения обзорных рефератов, таких, как:

В рамках второго подхода критерием наличия - обеспечение полноты представления информа новой информации в предложении является наличие ции;

в нём новых слов. Разные слова вносят разный - снижение повторов при представлении инфор вклад в новизну предложения, данный вес опреде- мации;

ляется на основе данных о частотных характеристи- - обеспечение связности и понятности представ ках слов в новостных коллекциях и вычисляется по ляемой информации.

формуле Полнота изложения содержания кластера обес печивается тем, что для аннотации отбираются Вес _ слова =, предложения, содержащие пары основных темати log(df set ) ческих узлов, – именно тогда эти предложения бу где dfset – частота употребления слова в новостной дут описывать взаимоотношения между основными коллекции. Частота слов, которые не встречались в тематическими элементами кластера.

коллекции, считается равной 10. Для каждого пред- Для обеспечения связности требуется, чтобы ложения второй части кластера вычисляется неко- очередное предложение содержало либо уже упо торый вес – сумма весов слов, входящих в данное мянутый тематический узел, либо уже упоминав предложение и не входящих во множество слов шееся слово с большой буквы.

первой части кластера, то есть слов, являющихся Для решения проблем обеспечения полноты, новыми. Предложения, набравшие вес больше неко- снижения повторов, обеспечения связности исполь торого эмпирического порога, объявляются новыми. зуются не только повторы слов текстов, но и разно Наилучшие результаты достигаются при величине образная информация о синонимах, родовидовых и порога 0.3. других типах отношений слов.

Приведём примеры тематических узлов, создан 3.2 Аннотирование на основе тематических узлов ных в процессе обработки описанного выше ново стного кластера про полуфинал теннисного турнира В качестве базового метода аннотирования ис в Загребе (главное понятие тематического узла вы пользуется метод, основанный на тезаурусных зна делено сдвигом влево;

указана частота употребле ниях и тематическом представлении новостного ния понятия в тексте):

кластера [1, 2].

Построение тематического представления доку ТЕННИСНЫЙ КОРТ мента состоит в разбиении всех понятий, упомяну ТЕННИС тых в документе, на группы близких по смыслу по АВСТРИЙЦЫ нятий – тематических узлов. Для этой процедуры АВСТРИЯ используются описания понятий в Тезаурусе рус КИПРИОТЫ ского языка РуТез.


КИПР Для автоматического построения тематического ХОРВАТЫ представления текст обрабатывается морфологиче ским анализатором и сопоставляется с Тезаурусом. СЕТ (ПАРТИЯ В ТЕННИСЕ) В результате сопоставления синонимы сводятся к ИГРОВАЯ ПАРТИЯ одним и тем же понятиям Тезауруса. Для много- ЧЕТВЕРТЬФИНАЛ значных слов производится автоматическая проце- МАТЧ дура разрешения многозначности, в результате ко- ПОЛУФИНАЛ торой разные значения слов соотносятся с разными ПОЛУФИНАЛИСТ понятиями Тезауруса. СПОРТИВНЫЙ ФИНАЛ Для идентифицированных в тексте понятий из СПОРТИВНОЕ СОРЕВНОВАНИЕ Тезауруса извлекаются приписанные этим понятиям СПОРТ взаимные отношения, и в итоге выявляется сеть СПОРТСМЕН понятий, которая необходима для интерпретации ФИНАЛИСТ текста. Эта сеть понятий автоматически разбивается ЮЖНЫЙ, МИХАИЛ на совокупности близких по смыслу понятий – те- РОССИЯНЕ матические узлы. РОССИЙСКАЯ ФЕДЕРАЦИЯ Тематические узлы в тематическом представле- ТЕННИСИСТ нии разделяются на две категории: основные тема общая оценка предложения с помощью вычисления ЗАГРЕБ веса предложения, которая складывается из двух ХОРВАТИЯ компонентов: весов упомянутых понятий Тезауруса, ТЕННИСНЫЙ КОРТ которые были получены в тематическом представ ТЕННИС лении [1], а также весов содержащихся в предложе АВСТРИЙЦЫ нии слов с большой буквы, не считая первого слова АВСТРИЯ предложения. Для вычисления весов слов с боль КИПРИОТЫ шой буквы сначала вычисляется вес самого частот КИПР ного Слова Wmax_word в документе кластера:

ХОРВАТЫ Wmax_ word = min(1,Wmax_ conc (Frmax_ word / Frmax_ conc )), СЕТ (ПАРТИЯ В ТЕННИСЕ) ИГРОВАЯ ПАРТИЯ ЧЕТВЕРТЬФИНАЛ 10 где Wmax_conc – максимальный вес понятия Тезауруса МАТЧ 12 в тематическом представлении, Frmax_conc – частот ПОЛУФИНАЛ 29 ность в тексте понятия Тезауруса с максимальным ПОЛУФИНАЛИСТ 2 весом, Frmax_word – частотность самого частотного СПОРТИВНЫЙ ФИНАЛ 36 слова с большой буквы. Остальные веса слов с СПОРТИВНОЕ СОРЕВНОВАНИЕ 54 большой буквы (Wword) вычисляются пропорцио СПОРТ 8 нально их частотности:

СПОРТСМЕН Wword = Wmax_word (Frword / Frmax_word ).

ФИНАЛИСТ ЮЖНЫЙ, МИХАИЛ РОССИЯНЕ 3.3 Реализация метода РОССИЙСКАЯ ФЕДЕРАЦИЯ ТЕННИСИСТ 6 Предложенный подход для решения задачи соз ЗАГРЕБ 70 дания обновлённой аннотации состоит из трёх эта ХОРВАТИЯ 36 пов.

На первом этапе происходит предварительная После построения тематического представления обработка документов кластера. Текст кластера раз бивается на слова, выделяются границы предложе документа аннотация новостного кластера строится ний, производится лемматизация слов. Полученное следующим образом. Аннотация должна состоять из морфологическое представление документа сопос заголовка и нескольких предложений из разных до тавляется с Тезаурусом и строится тематическое кументов новостного кластера.

представление кластера. В данной задаче тематиче При отборе заголовка для аннотации выбирается ское представление строится для кластера в целом, один из заголовков документов кластера, имеющий отдельно – для первой части кластера, и в одном из наибольший вес по тематическим узлам и имено вариантов метода – для второй части кластера.

ванным сущностям (см. далее). Для выбора очеред В рамках второго этапа производится выделение ного предложения в списке основных тематических предложений, содержащих новую информацию.

узлов отмечаются все тематические узлы, которые Предложение считается новым, если оно сочтено уже были упомянуты. Очередное предложение новым обоими методами обнаружения новой ин должно содержать пару основных тематических формации – при помощи векторно-пространст узлов. Для обеспечения связности требуется, чтобы венной модели и обнаружения новой информации очередное предложение содержало либо уже упо по новым словам (см. п. 3.1).

мянутый тематический узел, либо уже упоминав На заключительном, третьем этапе происходит шееся слово с большой буквы.

Кроме того, делается ряд дополнительных про- формирование обновлённой аннотации. Аннотиро вание производится описанным выше методом на верок:

основе тематического представления текста, но с - предложение не должно являться вопроситель ным или отрицательным;

дополнительным условием – предложение, отби раемое в аннотацию, должно быть признано содер - предложение не должно содержать в заданном жащим новую информацию в рамках второго этапа.

числе первых слов местоимение;

Применительно к задаче создания обновлённой - начало предложения не должно совпадать с на аннотации исследованы два варианта аннотирова чалами заголовка и предложений, уже взятых в ан ния на основе тематического представления текста с нотацию;

использованием тематических узлов:

- число слов предложения, совпадающих со сло - по всему новостному кластеру;

вами предшествующих предложений, не должно - только по второй части новостного кластера.

превышать некоторой доли длины предложения.

Каждая аннотация для начальной части кластера Оценка предложений на основе понятий Тезау и для второй части кластера должна содержать не руса не является достаточной без учета упоминае более 100 слов.

мых именованных сущностей, которые могут быть и не описаны в Тезаурусе. Поэтому вводится еще и Приведём пример начальной аннотации и обнов- 4 Оценка предложенного подхода ления к аннотации новостного кластера про теннис Оценка качества порождаемых аннотаций явля ный турнир, описанный в начале данного раздела.

ется достаточно сложной процедурой. Несомненно, Аннотации порождены автоматически программой, наиболее правдоподобные оценки можно получить реализующей предложенный подход.

при помощи ручной оценки путём привлечения Начальная аннотация:

большого количества экспертов. Но данный метод За выход в финал турнира в Загребе Михаил является очень дорогим и трудоёмким.

Южный поспорит с Иваном Любичичем. В работе [10] предложен алгоритм автоматиче ТЕННИС – БОЛЬШОЙ Загреб (Хорватия). ской оценки автоматических аннотаций – ROUGE.

1.Четвертьфинал Любичич (Хорватия, 1) – Данный метод основан на автоматическом сравне Юханссон (Швеция) – 7 : 6 (10 : 8), 6 : 7 (8 : 10), нии автоматически порожденной аннотации с эта 7 : 6 (7 : 4) Багдатис (Кипр, 2) – Клеман (Фран- лонной аннотацией, созданной экспертом. Сущест ция, 8) 6 : 2, 6 : 7 (2 : 7), 7 : 6 (7 : 5). вуют различные модификации алгоритма, связан 2. Вслед за россиянином Михаилом Южным и ные с различными способами сравнения:

австрийцем Александром Пейя в 1/2 финала - сравнение n-грамм (ROUGE-N);

пробились хорват Иван Любичич и киприот - сравнение максимальных общих подстрок Маркос Багдатис. (ROUGE-L и ROUGE-W);

3. В субботу на турнире ATP в Загребе пройдут - сравнение пропусков монограмм и биграмм полуфинальные встречи. (ROUGE-S и ROUGE-SU).

4. Михаил Южный вышел в полуфинал турнира в В работе [3] предложена модификация алгорит Хорватии, обыграв в двух сетах француза Мар- ма оценки русскоязычных аннотаций – ROUGE ка Жискеля. RUS. Метод учитывает русскую морфологию, стоп 5. Самым серьезным соперником в Загребе ста- слова, а также синонимы (с учётом концептов Те нет для Южного хозяин корта Иван Любичич, зауруса).

посеянный под первым номером. Автоматические ROUGE-метрики позволяют 6. Во втором полуфинальном матче встретит- быстро и с малыми трудозатратами производить ся киприот Маркос Багдатис с австрийцем оценку автоматических аннотаций. Однако оценки, Александром Пийя, пробившимся из квалифика- полученные данным алгоритмом, зачастую сильно ции. отличаются от человеческих оценок. Это связано в Обновление к аннотации: первую очередь с тем, что человек может использо вать разные формы одних и тех же слов, синтакси 1. Южный уступил дорогу в финал любимцу пуб ческие структуры, различный порядок слов и пара лики, ОРЕАНДА / SPORT. RU.

фразы для описания одних и тех же событий. Авто 2. Михаил Южный не смог выйти в финал тур матический учёт всех приведённых сложностей яв нира АТП в Загребе, проиграв прошлогоднему ляется на данный момент нерешённой задачей. Рас победителю турнира и первому сеяному хорвату смотренный далее метод оценки автоматических Ивану Любичичу.

аннотаций при помощи пирамид нивелирует опи 3. Турнирный путь Южного: 1-й круг: Николя санные выше проблемы существующих методов Маю (Франция) – 7:6, 6:3;

2-й круг: Томаш оценки.

Чакль (Чехия) – 6:4, 6:2. Четвертьфинал: Марк Гиквел (Франция) – 7:5, 6:2. Полуфинал: Иван 4.1 Метод пирамид Любичич (Хорватия, 1) – 6:2, 3:6, 5:7.

Метод пирамидной оценки автоматических ан 4. В финале хорватский теннисист сыграет с нотаций предложен группой Колумбийского уни киприотом Маркосом Багдатисом, выбившим из верситета [9] и успешно применяется при масштаб борьбы австрийца Александра Пейю – 6:4, 6:3.

ной оценке конкурсных систем аннотирования [11].

5. Полуфинал Маркос Багдатис (Кипр, 2) – Алек Данный метод заключается в выделении из не сандр Пейя (Австрия, Q) – 6:4.

скольких эталонных аннотаций так называемых 6. Первый сет Михаил взял довольно легко, во информационных единиц (Summary Content Unit – втором проиграл, а в третьем вел со счетом SCU). Информационная единица представляет со 4:2, однако уступил.

бой некоторый факт, который отражает эталонная аннотация и соответственно должна отражать по Отметим, что аннотация содержит только новую рождаемая аннотация. Приведём пример информа информацию – о результатах игры, а не о том, что ционной единицы и её вхождений в различные тек игра должна была состояться (первая часть кластера сты новостного кластера:

практически полностью посвящена анонсу игры), хотя во второй части кластера содержится доста SCU: Мини-субмарина попала в ловушку под водой.

точное количество новостных сообщений, содер жащих устаревшую, по сравнению с первой частью 1. мини-субмарина... была затоплена... на дне мо кластера, информацию. Это связано с тем, что со- ря...


общения от некоторых новостных агентств посту- 2. маленькая... субмарина... затоплена... на глубине пают со значительным запозданием. 625 футов.

3. мини-субмарина попала в ловушку... ниже уровня MMR = arg max Sim1 (s, Q ) (1 ) max Sim2 (s, s j ), моря.

sS s j S 4. маленькая... субмарина... затоплена... на дне морском... где Q – запрос к системе, S – множество предложе Каждая информационная единица получает вес, ний кандидатов, s – рассматриваемое предложение равный количеству эталонных аннотаций оценивае- кандидат, Е – множество выбранных предложений.

мого кластера, где она встречается, то есть для Формула, предложенная канадским университетом оценки автоматической аннотации необходимо со- применительно к задаче создания обновлённой ан ставить несколько эталонных аннотаций (на конфе- нотации, следующая:

ренции DUC их было 4) и выделить из них инфор f (H ) S MMR ( s ) = Sim1 (s, Q ) 1 max Sim2 (s, sh ) мационные единицы, дифференцировав при этом, различные информационные единицы по весу – ко- s h H sS личеству эталонных аннотаций, где они встречают где H – документы первой части кластера (докумен ся. Все найденные информационные единицы обра ты, с которыми пользователь уже знаком), f(H) - зуют пирамиду. На верхних уровнях обычно распо при увеличении H. В качестве метрик сравнения ложено небольшое количество самых «весомых»

предложений использовались: Sim1(s,Q) – стандарт информационных единиц. На нижних уровнях – ная косинусная мера угла между векторами;

большое количество менее важных информацион Sim2(s,sj) – максимальная общая подстрока (Longest ных единиц. Оценка автоматической аннотации Common Substring – LCS).

состоит в выявлении в ней найденных информаци Описанный метод MMR для создания обновлён онных единиц и получением итоговой оценки по ной аннотации показал один из лучших результатов следующей формуле:

на конференции TAC’2008 [8] по всем оцениваемым [Find _ SCU _ Weight ], метрикам, поэтому и был выбран в качестве альтер Оценка _ аннотации = [Sum _ SCU _ Weight ] нативного метода.

В нашем случае задача состояла в общем анно где Find_SCU_Weight – суммарный вес всех най- тировании документа. Как известно, аннотирование денных информационных единиц, по запросу можно свести к задаче общего аннотиро Sum_SCU_Weight – суммарный вес всех информа- вания путём использования всего набора докумен ционных единиц, определённых для данного топи- тов в качестве запроса.

ка. Данная оценка показывает, какую часть от об- Также проведён эксперимент по использованию щей массы информационных единиц отражает ав- метода MMR совместно с описанными выше мето томатическая аннотация, с учётом веса различных дами обнаружения новой информации. Для аннота информационных единиц. ции отбираются только те предложения, которые Метод оценки автоматических аннотаций при признаны новыми по векторной модели и методу помощи пирамид позволяет оценить полноту отра- обнаружения новой информации по новым словам.

жения информации в аннотации вне зависимости от Использование данных методов позволило заметно использованных в документах синонимов и пере- улучшить результаты метода MMR (более подробно фраз. см. в следующем разделе).

4.2 Метод Maximal Marginal Relevance (MMR) 4.3 Эксперименты Для сравнения результатов предложенного под- Таким образом, для оценки качества аннотиро хода к созданию автоматических аннотаций реали- вания мы имеем два основных метода: метод, осно зован альтернативный метод, предложенный коман- ванный на тематическом представлении кластера, и дой канадского университета Монреаль [5]. Данный метод MMR.

метод представляет собой модификацию классиче- Каждый метод имеет две модификации для по ского метода MMR [6] для создания обновлений к строения обновления к аннотации. Модификации аннотациям. Алгоритм представляет собой итера- метода, основанного на тематическом представле тивный метод, на каждом этапе происходит ранжи- нии, различаются использованным тематическим рование предложений по некоторой оценке. Данная представлением. В первом случае используется те оценка вычисляется таким образом, чтобы предло- матическое представление всего кластера, во вто жение-кандидат, с одной стороны, как можно лучше ром случае – тематическое представление только подходило к запросу для аннотирования (в случае второй части кластера.

обзорного реферирования – всему объединенному Метод MMR тестируется в версии работы [5].

документу кластера) и как можно меньше пересека- Второй вариант метода MMR состоит в том, что для лось с предложениями, уже отобранными в аннота- построения обновления к аннотации используются цию (и также с предложениями из первой части только предложения, сочтенные новыми по обоим кластера, применительно к задаче обновления анно- условиям, описанным в п. 3.1.

тации). Классическая формула метода MMR выгля- Все описанные выше методы были оценены ме дит следующим образом: тодом пирамид. В качестве базы для оценки были использованы ручные аннотации (2 – 4 на кластер), созданные двумя профессиональными лингвистами. нили оценку ручных аннотаций относительно набо Из этих аннотаций вручную были выделены ин- ра выделенных информационных единиц. В сред формационные единицы, для каждой информацион- нем ручные аннотации получили оценку 0.781 по ной единицы вычислен её вес, равный количеству методу Пирамид. Таким образом, по полноте изло эталонных аннотаций, где она встречается. жения информации автоматические аннотации дос Приведем примеры информационных единиц тигают уровня более 80% от полноты ручных анно для кластера примера: таций, что представляется достаточно высокой ве личиной.

1. PBZ Zagreb Indoors – турнир АТП в столице Для конечного пользователя важными являются Хорватии Загребе с призовым фондом 416 мил- не только полнота или новизна предоставляемой лионов долларов. информации, но и качество ее изложения.

2. Иван Любичич – хозяин кортов (Хорват). Для того чтобы понять, каковы «читабельность»

3. Южный сыграет с Любичичем в полуфинале и связность представленных аннотаций, мы попро PBZ Zagreb Indoors. сили оценить качество аннотаций профессиональ 4. Южный проиграл Любичичу в полуфинале PBZ ного лингвиста, которая не имела информации о Zagreb Indoors. том, результаты работы каких методов она тестиру 5. В финале Иван Любичич встретится с Марко- ет.

сом Багдатисом. Тестирование производилось следующим обра 6. Маркос Багдатис посеян под вторым номером. зом. Лингвист должна была читать каждый вид ан 7. Маркос Багдатис из Кипра. нотации, и для всех предложений аннотации, кото и др. рые казались как бы не на своем месте (не связан ными, лишними), начислять штрафной балл. В слу Далее каждая автоматическая аннотация получа- чае сомнений начислялась половина балла. Таким ла оценку в соответствии с числом и весом содер- образом, каждый вид аннотации получил некоторую жащихся в ней эталонных информационных единиц совокупность штрафных очков (см. табл. 2).

(см. п. 4.1). Отдельно оценивались начальная анно- В таблице можно видеть, что на текущий момент тация и обновление к аннотации. При оценке об- «человеческое» качество обновления к аннотации новления к аннотации учитывались только инфор- значительно ниже, чем начальной аннотации. Метод мационные единицы, которые являются новыми по MMR+новизна, который получил лучшие оценки по отношению к первой части кластера. Табл. 1 содер- изложению новой информации, оказался хуже по жит результаты оценки аннотаций методом пира- «читабельности» по сравнению с базовым методом.

мид.

Табл. 2 Средние штрафные баллы, начисленные Таблица 1. Результаты тестирования аннотаций ме- каждому виду аннотации за нарушение законов тодом Пирамид связного изложения Название метода Начальная Обновление к Название метода Начальная Обновление к аннотация аннотации аннотация аннотации MMR 0.643 0.457 MMR 0.591 1. MMR+новизна 0.643 0.543 MMR+новизна 0.591 1. Тематическое пред- Тематическое пред ставление ставление 0.638 0.630 0.318 1. (по всему кластеру) (по всему кластеру) Тематическое пред- Тематическое пред ставление (по вто- ставление (по вто 0.638 0.587 0.318 1. рой части кластера) рой части кластера) Аннотации, построенные на основе тематиче Результаты показывают, что предложенный ме- ского представления, показались лингвисту в сред тод создания обновлённой аннотации новостного нем заметно более качественными, чем аннотации, кластера при помощи тематического представления построенные по методу MMR.

текста с применением методов определения новой Хотелось бы еще отметить, что обеспечение информации приблизительно на 30% лучше (по связности и читабельности аннотации требует неко данной метрике) одного из лучших методов, суще- торой степени повтора информации в предложени ствующих на данный момент. Также стоит отме- ях, что ограничивает возможность повышения пол тить, что дополнение метода MMR методами обна- ноты изложения в аннотации фиксированной дли ружения новой информации позволило заметно ны. Это частично продемонстрировано в проведен улучшить результаты данного метода. На начальной ном эксперименте (см., например, соотношение аннотации оба основных метода оказались практи- полноты и читабельности в обновлении к аннотации чески эквивалентными. по методу MMR+новизна).

Для того чтобы определить верхнюю границу качества аннотаций по методу пирамид, мы выпол ACM SIGIR Conf. on Research and Development Заключение in Information Retrieval. – Melbourne, Australia, В работе мы описали постановку задачи созда- 1998. – P. 335-336. – http://www.cs.cmu.edu/~jgc/ ния обновления к аннотации развивающегося ново- publication/The_Use_MMR_Diversity_Based_ стного кластера и предложили метод создания тако- LTMIR_1998.pdf.

го обновления, основанного на оценке новизны [7] Dang H.T. Overview of DUC 2006// Proc. of the предложений и использовании тематического пред- Document Understanding Conferences’2006. – ставления новостного кластера. Для сравнения ка- New York, USA, 2006. – http://duc.nist.gov/ чества предложенного метода был реализован из- pubs/2006papers/duc2006.pdf.

вестный метод аннотирования MMR. [8] Dang H.T., Owczarzak K. Overview of the TAC Были проведены два вида оценок качества полу- 2008 update summarization task// Proc. of the Text чаемых аннотаций: на основе метода Пирамид и Analyze Conference’2008. – Gaithersburg, Mary ручные оценки на качество изложения аннотации. land USA, 2008. – http://www.nist.gov/tac/ publi Показано, что метод создания обновлений в ан- cations/ 2008/additional.papers/update_summ_ нотации, основанный на тематическом представле- overview08.proceedings.pdf.

нии, существенно лучше отражает новизну фактов. [9] Harnly A., Nenkova A., Passonneau R., Ram Кроме того, аннотации, порождаемые на основе bow O. Automation of summary evaluation by the этого метода, обладают лучшими читабельностью и pyramid method// Proc. of the Int. Conf. on Recent связностью. Advances in Natural Language Processing (RANLP’2005). – Borovets, Bulgaria, 2005. – Литература http://www.cs.columbia.edu/~ani/papers/aabo ranlp.pdf.

[1] Добров Б.В., Лукашевич Н.В. Тезаурус и авто [10] Lin C.-Y. ROUGE: a package for automatic evalu матическое концептуальное индексирование в ation of summaries// Proc. of the Workshop on Text университетской информационной системе Summarization Branches Out (ACL’2004). – Bar РОССИЯ// Труды 3ей Всерос. науч. конф. «Элек celona, Spain, 2004. – P. 74-81. – http://acl.ldc.

тронные библиотеки: перспективные методы и upenn.edu/acl2004/textsummarization/pdf/Lin.pdf.

технологии, электронные коллекции»

[11] Passonneau R.J., Nenkova A., McKeown K.R., RCDL’2001. – Петрозаводск, Россия, 2001.

Sigelman S. Applying the pyramid method in DUC С. 78-82. – http://rcdl.ru/doc/2001/dobrov.pdf.

2005// Proc. of the Document Understanding Con [2] Лукашевич Н.В., Добров Б.В. Автоматическое ferences’2005. – Vancouver, Canada, 2005. – аннотирование новостного кластера на основе http://duc.nist.gov/pubs/2005papers/columbiau.pass тематического представления// Компьютерная onneau2.pdf.

лингвистика и интеллектуальные технологии:

[12] Schiffman B., McKeown K.R. Columbia Univer труды Межд. конф. Диалог’2009. – Москва, sity in the novelty track at TREC 2004// Proc. of РГГУ, 2009. – С. 299-305. – http://www.dialog the Thirteenth Text Retrieval Conf. (TREC’2004).

21.ru/dialog2009/materials/html/46.htm.

– Gaithersburg, USA, 2004. – http://trec.nist.gov/ [3] Тарасов С.Д. Исследование и оптимизация па pubs/trec13/papers/columbiau.novelty.pdf.

раметров алгоритма Manifold Ranking на основе [13] Soboroff I. Overview of the TREC 2004 novelty метрики автоматической оценки качества об track// Proc. of the Thirteenth Text Retrieval Conf.

зорного реферирования ROUGE-RUS// Труды (TREC’2004). – Gaithersburg, USA, 2004. – 11ой Всерос. науч. конф. «Электронные библио http://trec.nist.gov/pubs/trec13/papers/NOVELTY.

теки: перспективные методы и технологии, OVERVIEW.pdf.

электронные коллекции» RCDL’2009. – Петро заводск, Россия, 2009. – С. 86-93. – http://rcdl.ru/ Automatic generation of update summaries doc/2009/086_093_DIIS-seminar-1-2009-3.pdf.

for news clusters [4] Boudin F., El-Bиze M., Torres-Moreno J.-M. A scalable MMR approach to sentence scoring for A.A. Alekseev, N.V. Loukachevitch multi-document update summarization// Proc. of the 22nd Int. Conf. on Computational Linguistics, In this paper we introduce an approach to automatic Posters and Demonstrations. – Coling, 2008. – generation of update summaries for news clusters. This P. 23-26. – http://www.aclweb.org/anthology-new/ method is based on the identification of sentences con C/C08/C08-2006.pdf.

taining new information. Further automatic summariza [5] Boudin F., El-Beze M., Torres-Moreno J.-M. The tion exploits the thematic representation of a news clus LIA update summarization systems at TAC-2008// ter, lexical cohesion modeling and thesaurus description Proc. of the Text Analyze Conference’2008. – Gai of lexical senses. The update summaries were evaluated thersburg, Maryland USA, 2008. – http://www.

using the Summary Content Units technique – Pyramid nist.gov/tac/publications/2008/participant.papers/LI Evaluation.

A.proceedings.pdf.

[6] Carbonell J., Goldstein J. The use of MMR, diver sity-based reranking for reordering documents and producing summaries// Proc. of the 21st Annual Int.

Методика работы с коллекциями текстовой информации через анализ информационных портретов © А.В. Антонов1, Е.В. Ягунова Корпорация «Галактика», г. Москва Санкт-Петербургский государственный университет alexa@galaktika.ru, iagounova_elena@mail.ru текста в соответствии с некоторыми заданными Аннотация правилами. Как известно, один из наиболее извест Рассматривается методика обработки тексто- ных способов получения свертки текста – установ вой информации с помощью Инфопортретов ление набора его ключевых слов (КС). Ключевыми (ИП), автоматически определяемого набора словами (или аналогами ключевых слов) в разных наиболее значимых слов для выборки по за- контекстах называют, например, просу пользователя. Показывается, что ИП • выписанные группой информантов слова, может выступать в качестве свертки, т. е. но- наиболее важные для решения поставленных в ин сителя наиболее важной информации о тек- струкции задач (обычно – понимания текста): уро стах выдачи. Методика включает отработку вень значимости слова определяется как относи эксперимента с информантами для анализа тельная частота его встречаемости в протоколах особенностей структуры ИП и возможных информантов;

путях извлечения из ИП этой информации. • автоматически выделяемые неслучайно встречающиеся в документах слова и словосочета 1 Введение ния, важные для рассматриваемой выборки (выда Изменившиеся условия существования человека чи) в рамках общего массива документов: уровень коренным образом перестроили процедуру анализа значимости слова рассчитывается на основании информации. Развитие технологий информационно- некоего алгоритма.

го и фактографического поиска открывает новое На конференциях Диалог-2008 и Диалог- поле деятельности для специалистов в области ком- анализировались разные виды сверток (наборов пьютерной лингвистики текста. Раньше основным и слов и словосочетаний), полученных на материале единственным объектом лингвистического исследо- единичных текстов с помощью разных видов экспе вания был текст (его анализ, понимание). Но для риментов с информантами (см. подробнее, включая того чтобы полноценно жить в информационном обзор литературы, в [3], [4]). Чтобы осуществить обществе, человек должен обрабатывать огромное свертывание текста, этот текст, как правило, нужно количество информации. Лавина информации, со- понять. Поэтому естественно считать, что свертки держащаяся в информационных потоках, не может представляют собой результат понимания текста быть воспринята и проанализирована человеком в или, иначе говоря, извлечения смысла из текста. С силу его психофизиологических ограничений. Но- помощью дополнительного эксперимента изучалась вый информационный объект – информационный возможность восстановления исходного смысла или поток – требует использования новых технологий, информационной структуры текста.

которые выступают в качестве посредника при из- Ресурс Галактика-Зум (http://galaktika-zoom.ru/, влечении адресатом коммуницируемого смысла. В см. также http://webground.su) предоставляет воз данной работе информационный поток нами по- можности для проведения исследования на мате нимается как множество текстов, выступающих риале сверток (наборов) автоматически определяе как единый объект: адресатов интересует смысл, мых ключевых слов. Для каждой выдачи (в соответ заключенный сразу в сотнях и даже тысячах тек- ствии с запросом) этот ресурс вычисляет и предос стов. тавляет пользователю Информационный портрет При всем различии рассматриваемых информа- (или Инфорпотрет), т. е. набор автоматически опре ционных объектов – текст и информационный поток деляемых слов и словосочетаний, важных для рас – нас интересует то, что они обладают информаци- сматриваемой выборки (среза) в рамках общего онной (смысловой) структурой и могут быть свер- массива документов. Инфопортрет как сверка мно нуты до набора слов и словосочетаний. Этот набор жества текстов является основной возможностью может выступать представителем (носителем) ин- для извлечения адресатом целостной информаци формационной структуры объекта (и текста, и ин- онной структуры: большой объем не позволяет формационного потока). человеку оперировать непосредственно с каждым Свертки понимаются как результат компрессии текстом.

Об основной идее Инфопортрета, критериях оп ределения значимых слов, образующих Инфопорт Труды 12й Всероссийской научной конференции рет, подробно изложено в нескольких работах, в «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» – RCDL’2010, частности, [1].

Казань, Россия, словосочетание. Основания для выбора именно та 2 Постановка целей и задач. Материал и ких запросов были следующие:

методика эксперимента • «ЕГЭ» («единый государственный экза 2.1 Основные положения мен») может быть по праву названо одним из «клю чевых слов» 2009 года;

актуальность и востребо Нами развиваются и экспериментально обос ванность этой темы позволили получить в выдаче новываются следующие положения (ср. также [1]):

большое количество текстов (см. табл. 1), причем • Инфопортреты с достаточной точностью и выборочный анализ текстов выдачи показывает, что полнотой включают значимые для данного запроса тематически они достаточно однородны;



Pages:     | 1 |   ...   | 20 | 21 || 23 | 24 |   ...   | 26 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.