авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 | 2 ||

«Сборник тезисов и статей Российско-Германской молодежной дистанционной научной школы «Актуальные и перспективные направления создания систем, обеспечивающих семантический анализ данных в ...»

-- [ Страница 3 ] --

Эти идеи развил в ХVIII веке Давид Гартли, разработавший учение об ассоциациях в рамках механистического материализма. Его по праву считают создателем первой законченной системы ассоциативной психологии, в рамках которой он выводил все психические и когнитивные процессы, включая мышление и волю, из общих законов ассоциации.

А собственно сам термин «ассоциация» в научный обиход в 1698 г. ввел Джон Локк, полагая, что путем образования сложных идей посредством ассоциаций образуются достаточно случайные, произвольные объединения идей - такие как страхи, предрассудки и прочее. В связи с этим в англоязычной литературе можно часто встретить еще одно обозначение этого многоликого явления – «ассоциация идей» (Association of Ideas).

Дэвид Юм, развивая этот поход, считал, что ассоциации становятся объяснительным принципом всей познавательной (когнитивной) сферы психики. Он доказывал, что все образования сознания и объекты внешнего мира есть “пучки идей”, объединенные ассоциациями.

Учение Юма было продолжено в ХIХ веке Джеймсом Миллем, его сыном Джоном Стюартом и Т. Брауном. Так, Дж. Милль в разработанной им ассоциативной концепции ментальной механики стремился все законы душевной жизни вывести из механических по своей сути связей (ассоциаций), далее неделимых элементов (ощущений или представлений). В дальнейшем это направление развивали А. Бэн и Г. Спенсер. Они разработали учение об ассоциациях как определенной системе психологической науки, и созданное ими учение стало той системной парадигмой, на которую опиралась западноевропейская психология в период своего становления в качестве самостоятельной науки.

Принципы ассоцианизма способствовали прогрессу исследований в науках о человеке. Например, были разработаны новые методы изучения механической (Г.

Эббингауз) и образной (Ф. Гальтон) памяти, эмоций (Ч. Дарвин), мотивации (З. Фрейд, К.

Юнг). В России, говоря о развитии ассоциативной психологии, нельзя не упомянуть имён И.М. Сеченова и И.П. Павлова, которые создали и развивали рефлекторную теорию и физиологические механизмы ассоциации.

Значительные экспериментальные исследования показали невозможность свести все сложные интеллектуальные процессы к механическим законам. В ХХ веке ассоцианизм как научное течение в психологии постепенно и окончательно исчезает, а его положения критически пересматриваются. Общепризнанной становится мысль о том, что ассоциация не столько механизм, сколько фундаментальное явление, которое само требует объяснения и раскрытия его механизмов.

Что касается лингвистики, то здесь интерес к ассоциациям проявляется, по сравнению с философией и психологией, намного позже. Одним из первых, кто попытался выделить ассоциативные отношения в языке является основоположник структурной лингвистики Фердинанд де Соссюр (1857–1913 гг.). Его работы оказали огромное влияние на языкознание, и его по праву называют «отцом» лингвистики XX века.

Соссюр также является основателем семиотики – науки, исследующей свойства знаков и знаковых систем. Его внимание было сосредоточено на языковых знаках (письменной и устной речи), однако предложенные идеи и принципы могут быть распространены и на другие формы знаков – изображения, жесты, музыку, мимику и т.д.

Обобщенно знаковые формы представления называют вербальными, хотя дословный перевод ограничивает это понятие только словесными образами.

Соссюр в своих работах выделял два типа вербальных отношений:

синтагматические (между следующими друг за другом в потоке речи языковыми единицами) и парадигматические (ассоциативные), которые объединяют единицы языка в группы, разряды, категории и существуют вне процесса речи, вне времени.

Элемент знания Элемент знания Парадигматические отношения (Объект) (Объект) Синтагматические Знак Знак отношения Известный специалист в области ассоциативных экспериментов Горошко Е.И., кратко обобщая историю возникновения понятия «ассоциации» и его роли в развитии науки, отмечает, что на сегодня выявлено много видов ассоциаций, которые отражают процессы, происходящие в глубинных слоях человеческой психики. И собственно сами ассоциации волновали ученых с различных сторон: философов более привлекало исследование не вербальных ассоциаций, а «ассоциаций идей»;

психологам же был интересен практический подход к использованию ассоциаций в психодиагностике и психиатрии, а интерес лингвистов был обусловлен предположением о том, что в ассоциациях отражаются существенные черты значения слов.

При этом важной гипотезой в лингвистических исследованиях ассоциаций явилась догадка о двух направлениях ассоциаций – на мир знаков (языковых) и на мир объектов (или их представлении в мышлении в виде элементов знаний). Именно лингвистами и семиотиками было высказано предположение о том, что изучение многообразия ассоциаций и их связей позволяет делать выводы о соотношении субъективной реальности и объективной картины мира в сознании человека.

ЧТО ТАКОЕ АССОЦИАЦИЯ?

Наиболее емкое определение этого понятия дает психология, где ассоциация — связь, возникающая в процессе мышления, между элементами психики, в результате которой появление одного элемента, в определенных условиях, вызывает образ другого, связанного с ним.

В англоязычной среде слово ассоциация (association) чаще всего трактуется как более общее понятие - произвольная взаимосвязь различных предметов, событий или ситуаций. В связи с этим для обозначения рассматриваемого явления используется понятие «мыслительной ассоциации» (mental association), «ассоциации идей» (association of ideas) или «ассоциации Павлова» (Pavlovian association), когда подчеркивается ее связь с понятием условного рефлекса. Такая многозначная трактовка привела к тому, что в различных прикладных областях и для разных задач понятие ассоциации приобретает свой оттенок.

Например, в сфере образования, а также в различных техниках по активизации мышления используют так называемые «ассоциативные карты» (mind maps), которые также переводят как «диаграммы связей», «интеллект-карты», «схемы ума» и т.д.

Ассоциативные карты представляют набор слов, идей, задач и других элементов, которые как-то связаны с центральной идеей или словом. Они предназначены для обобщения, визуализации, структурирования, классификации идей, помощи в изучении и организации информации, решении проблем и принятии решений.

Пример ассоциативной карты взят с ресурса http://www.mnemonica.ru/mindmap/intellektualnye karty-ot-toni-byuzena Существует ряд других техник и методик визуализации ассоциативных и других связей между понятиями (когнитивные и концептуальные карты, семантические сети), которые используются в области искусственного интеллекта, инженерии знаний, ситуационного управления и др. Особенностями ассоциативных карт, отличающими их от других моделей представления знаний являются следующие свойства:

наличие одной центральной идеи-концепции (в отличие от концептуальных и когнитивных карт);

древовидная структура (хотя иногда встречаются связи между вершинами различных веток, но это скорее редкость);

в качестве отправного узла (идеи), а также других узлов рекомендуется использовать картинки как более выразительные и богатые семантикой (стоит отметить, что эта особенность часто отсутствует в программных утилитах);

в картах могут присутствовать только ассоциативные связи, т.е. не размеченные и не конкретизированные (в отличие от концептуальных карт).

Те, кто хорошо знаком с известным современным средством объектно ориентированного моделирования UML, уже встречали понятие ассоциативной связи, которое, однако, носит несколько иное значение - неопределенной или неизвестной семантической связи. Интересное обсуждение вопросов соотношения ассоциации и семантики можно посмотреть в известном форуме по компьютерной лингвистике (http://www.dialog-21.ru/forum/actualthread.aspx?tid=406), а дополнительную информацию о сравнении различных типов карт и моделей представления знаний можно найти в моем блоге по адресу - http://blogs.it-claim.ru/andrey/2011/01/19/cognitive-maps/.

ЛИНГВИСТИЧЕСКИЙ АССОЦИАТИВНЫЙ ЭКСПЕРИМЕНТ Рассмотренные методы выявления и визуализации ассоциаций носят скорее креативный или развлекательный характер, что не позволяет их напрямую использовать для системного, научного выявления ассоциаций и соответствующих закономерностей.

Для решения этой задачи в науке (первоначально в психологии, а затем и в психолингвистике) были разработаны специальные техники и методики. Наиболее распространённая из них называется Ассоциативным экспериментом (АЭ).

Обычно различают три вида подобных экспериментов:

свободный (в английском языке часто используется сочетание «free associations»), в котором испытуемому предлагают ответить словом R, первым пришедшим в голову при предъявлении слова S;

направленный, в котором экспериментатор некоторым образом ограничивает выбор предполагаемой реакции R, накладывая определенные ограничения (например, отвечать только существительными и т.д.), или целенаправленно формирует список последующих стимулов в зависимости от ответов;

цепной, в котором испытуемому предлагают ответить любым количеством слов {R}, которые пришли ему в голову при предъявлении слова S.

Общая схема лингвистического ассоциативного эксперимента Один из первых ассоциативных экспериментов провел сэр Френсис Гальтон в году - он выбрал 75 слов, каждое из которых записал на отдельной карточке, а затем брал их по одной и записывал мысли для каждого слова. Опубликовать результаты он отказался, т.к. «они обнажают сущность человеческой мысли с такой удивительной отчетливостью, которые вряд ли удастся сохранить, если опубликовать их».

Чтобы наглядно понять суть ассоциативного эксперимента, пусть каждый из вас запишет свои ассоциации на следующие 5 слов:

Машина Мужчина Волна Деньги Наука В психолингвистике предъявляемое слово называют стимулом (S), а полученную ассоциацию – реакцией (R). Вместе они представляют ассоциативную пару SR. Все множество реакций на одно слово называют ассоциативным полем, а все множество взаимосвязей стимулов и реакций называют ассоциативно-вербальной сетью или сокращенно - АВС.

Каждый человек имеет свою уникальную АВС, что обеспечивает различные реакции (ассоциации) на одно и то же слово у разных респондентов. Однако давайте зададимся вопросом действительно ли это так? Насколько сильны наши отличия и можно ли угадать мысли другого человека с полуслова?

Попробуем проверить нашу гипотезу, для чего воспользуемся электронной версией ассоциативного словаря русского языка, который размещен в открытом доступе по адресу http://tesaurus.ru/dict/dict.php, и сравним его данные с написанными ответами.

Примеры наиболее частотных ответов из ассоциативного словаря русского языка Можно с большой уверенностью утверждать, что большинство ваших ассоциаций присутствуют в списке реакций рассматриваемого словаря. Более того, они, скорее всего, попали в наиболее частотные группы. Однако должны быть и расхождения, например, реакция «Волга» на слово «машина» была частотной в советский период времени, а среди современной молодежи она практически не появляется.

Подобные эксперименты наглядно демонстрируют, что составление «ассоциативных норм» (обобщенных результатов массовых ассоциативных экспериментов) позволяет построить «усредненную» или даже «типовую» АВС человека.

А это не что иное, как модель языкового сознания, яркий «снимок» структуры знаний и мышления человека.

Автоматизация подобных исследований позволяет перенести модель в информационную среду, решать прикладные задачи, а в перспективе даже наделить компьютер ассоциативным мышлением. Одной из самых распространенных задач, которую решают с помощью АВС – поиск стимулов, которые могут вызвать нужную положительную реакцию. Например, чтобы определить какие слова нужно употребить в описание своего профайла для вызова ассоциации «добрый», можно воспользоваться «обратным ассоциативным словарем», который подскажет нам такие слова как «человек», «папа», «совет», «волшебник», «толстяк» и др.

Примеры статьи обратного ассоциативного словаря и гендерного представления ассоциаций Внимательное изучение и сравнение АВС групп людей различных профессий, возраста, пола, национальности позволяет выявить особенности мышления и восприятия мира, раскрыть тайны формирования сознания. Сравним, например, как отличается АВС мужчин и женщин при реакции на слово «мужчина». В ассоциативных парах «мужчина сильный» и «мужчина-красивый» видны серьезные отличия, которые определяются особенностями воспитания и жизненными обстоятельствами.

Таким образом, безобидная игра в ассоциации, которая от АЭ отличается только строгостью условий и непременной обработкой результатов, позволяет нам, как говорил Френсис Гальтон «обнажить сущность» человека и его мыслей.

В настоящее время АЭ проведены в разных странах и на многих языках, что позволяет проводить сопоставительный анализ сходств и различий между разными национальными культурами, возрастными и социальными группами. Подобные исследования проводятся в рамках Ведущей научной школы России «Русская языковая личность» под руководством известного ученого члена-корреспондента РАН Юрия Николаевича Караулова (http://karaulov.it-claim.ru). Под моим руководством был в 2006 2008 гг. был выполнен грант РГНФ «Автоматизированная система научных исследований динамики ассоциативно-вербальной модели языкового сознания русских как индикатора образа России в новейшей истории и современности», в рамках которого создана веб ориентированная информационная системы с уникальными словарными ресурсами и перспективными программными разработками (http://it-claim.ru/Projects/ASIS).

Экранная форма интерактивной системы проведения АЭ Результаты подобных исследований активно используются в области компьютерной лингвистики для создания прототипов естественно-языковых интерфейсов взаимодействия с компьютером, повышения качества поиска в сети Интернет, оптимизации сайтов, развития систем автоматического перевода и многих других задач.

ПРОЦЕСС ТОКЕНИЗАЦИИ КАК ЧАСТЬ СЕМАНТИЧЕСКОГО АНАЛИЗА Сидиков М. Р. (К(П)ФУ) E-mail: sidikov.marsel@gmail.com Основные проблемы токенизации связаны с полисемией некоторых символов, значения которых напрямую зависят от контекста. Так, например, знак. (точка) может являться как признаком конца предложения, так и частью какого-либо сокращения [1].

Также ставиться вопрос, какие именно последовательности символов считать отдельными токенами (сложности представляют случаи дефисного написания слов, а также написания слов через символ “/” и т.д.).

В настоящее время методы токенизации развиваются по двум направлениям – с помощью машинного обучения и по заданным правилам.

Ввиду недостаточной скорости работы токенизатора, использующего машинное обучение, нами используется метод, согласно которому общий процесс токенизации делится на два этапа – разбиение текста на атомарные последовательности базовых типов (набор букв, цифр, пунктуационные знаки, пробельные символы) и процесс пост обработки (подобный принцип обработки применятеся в системах GATE и UIMA)[2][3].

Первый этап токенизации по данному методу заключается в посимвольном анализе исходного текста. Каждый символ включается в токен, имеющий строго определенный тип и, в некоторых случаях, длину (так, токен имеющий тип «пунктуационный знак»

имеет длину в один символ).

Процесс пост-обработки осуществляет слияние токенов и присвоение им определенных идентификаторов (календарная дата, число, сокращение и т. д.). Каждый токен образуется по определенному правилу. Правило представляет собой некоторый формальный шаблон, содержащий описание последовательности токенов определенных базовых типов, а также возможные значения атрибутов токенов (длина токена, атрибут стиля написания). В некоторых случаях необходимо использование словарей (например, для выделения сокращений).

Реализация процесса пост-обработки может осуществляться с использованием средств, позволяющих работать с регулярными выражениями на уровне токенов, а также позволяющими указывать в качестве элементов подобного регулярного выражения необходимые значения атрибутов базовых типов токенов. Таким образом, правило - это регулярное выражение, имеющее возможный вид: (Токен.тип == набор_цифр, Токен.строка =~ “[,.]”, Токен.тип == набор_цифр). Данное регулярное выражение описывает результирующий токен типа “Вещественное_число”). Язык JAPE системы GATE позволяет работать с токенами подобным образом [4].

Исходя из определения предлагаемого метода токенизации следует, что для получения наиболее качественно размеченного корпуса необходимо составление большого количества правил, покрывающих семантику современных естественных языков.

СПИСОК ЛИТЕРАТУРЫ [1] Nitin Indurkhya, Fred J. Damerau - Hanbook of Natural Language Processing, CRC Press, 2010.

[2] GATE User guide, gate.ac.uk/sale/tao/split.html, 2012.

[3] UIMA Documentation, uima.apache.org/documentation.html, 2012.

[4] Dhaval Thakker, Taha Osman, Phil Lakin, GATE JAPE Grammar Tutorial, http://gate.ac.uk/sale/thakker-jape-tutorial/GATE%20JAPE%20manual.pdf, 2009.

РАЗРАБОТКА СИСТЕМЫ АВТОМАТИЧЕСКОГО СУРДОПЕРЕВОДА И ЕЁ РЕАЛИЗАЦИЯ В ВИДЕ МОБИЛЬНОГО ПРИЛОЖЕНИЯ Суслов А.Ю. (МГТУ им. Н.Э. Баумана) Для создания макета системы автоматического сурдоперевода типа «слово-жест»

был использован подход, заключающийся в формировании заранее визуализированной базы данных анимированных жестов дактильной азбуки.

Так как основная информационная составляющая заложена в жестах, было необходимо детально проработать 3D-модель руки. Для создания полноценного образа, разработанные модели рук были соединены с моделью человека, представленной в виде Biped скелета. Модель позволяет создавать 3D образы жестов.

Моделирование каждого отдельного жеста является достаточно трудоемкой задачей. Для автоматизации данного процесса был использован принцип конструирования жеста из элементарных составляющих. Применительно к дактильной жестовой речи такими элементарными составляющими являются образы отдельных дактилей, из которых и составляются слова, а затем и предложения.

В русской дактилологии 33 дактильных знака, каждый из которых соответствует начертанию соответствующей ему буквы. Таким образом, для синтеза образа любого слова дактильной речи требовалось предварительно смоделировать 33 различных жеста дактильной азбуки (плюс 1 «нулевой» жест, обозначающий начальное положение рук).

Это обстоятельство существенно упрощает разработку и апробацию рассматриваемого подхода.

В результате, был создан файл проекта 3ds Max, в котором модель человека последовательно иллюстрирует каждую букву в алфавите. Используя данный файл и следуя разработанному методу, можно относительно легко сгенерировать образ любого жеста, использующего дактильную азбуку. При этом цельность полученных образов обеспечивается самой средой 3ds Max, которая с помощью механизма ключевых кадров (key frame) позволяет автоматически просчитывать промежуточные состояния, создавая плавные переходы от одного дактиля к другому.

Далее, полученные 3D-модели дактилей были скомпонованы в двухбуквенные сочетания. После рендеринга сформировалась база данных анимированных образов, позволяющая изобразить любой текст в дактильной азбуке. Для разрешения кадра в 480х360, размер базы данных составил 455Мб. Такой объем не очень удобен для размещения базы на мобильном устройстве, поэтому в мобильной версии переводчика применена клиент-серверная архитектура. При среднем размере одного двухбуквенного сочетания в 400Кб, величина трафика между сервером и мобильным устройством составит ~300Кб/с, но его можно значительно уменьшить, применив буферизацию данных. Кроме того, современные темпы развития мобильного интернета, позволяют говорить о массовой доступности данного решения уже в самое ближайшее время.

АВТОМАТИЗИРОВАННАЯ КОГНИТИВНАЯ МОДЕЛЬ В ЗАДАЧЕ ЛОКАЛЬНОЙ ПРЕДОБРАБОТКИ ПОИСКОВЫХ ЗАПРОСОВ.

Сиренко А.В. (МГУ им. Федорова).

Заметнен ряд тенденций в развитии поисковых систем, в числе основных:

персонализация результатов поиска и переход от выдачи документов к выдаче ответа на запрос. Системы информационного поиска в сети интернет используют для персонализации региональный поиск, а также собранные данные о пользователе (предыдущие запросы, данные, с сопутствующих сервисов, например, электронной почты или социальной сети). При этом, персональная информация хранится на сервере поисковой системы, либо передается для обработки с машины клиента[1].

Несмотря на успехи создания промышленных вопросно-ответных систем [2], проводимым международным конференциям и практическим семинарам [3], широкий круг пользователей получил этот функционал в ограниченной форме: реализации платформы Web 2.0, режимы сущностно-ориентированного поиска (entity-related search).

Результаты уровня специализированных вопросно-ответных систем не предоставляются по причине вычислительной сложности обработки запроса и отсутствия необходимых данных (требует подготовки структурированных данных).

Автором делается предположение, что персонализации поиска и расширению вопросно-ответных возможностей поисковых систем может способствовать вычислительная система, выполняющая роль посредника между традиционной системой документного поиска и пользователем посредством обработки запроса с использованием информационных и вычислительных ресурсов клиента, результатом работы которой будет являться ранжированный список языковых единиц, релевантных запросу. Подобная система может быть использована для:

1. расширения запроса пользователя и поиска документов при отсутствии пересечения с термами документа;

2. сокращения поискового пространства вопросно-ответной системы (операции прунинга - prooning), выполняемой на стороне клиента.

Эталонным примером функционирования информационно-поисковой системы (ИПС) является удовлетворение информационной потребности пользователя другим человеком. Внутренние механизмы системы моделируют способность человека воспринимать запрос на естественном языке, работать с доступной памятью, выполнять обработку данных, оценивать и выдавать вовне результат. ИПС стремится реализовать эти этапы в максимальной степени. Данные процессы входят в компетенцию когнитивной науки – совокупности наук о приобретении, хранении, преобразовании и использовании знания, поэтому использование когнитивных моделей в составе ИПС видится логичным.

Заметим, что использование статистических свойств языка как знаковой системы в информационном поиске уже стало общеупотребительной практикой [4], тогда как психолингвистические и когнитивные модели применительно к информационному поиску развиты в меньшей степени.

ЛИТЕРАТУРА.

1. Google. Персонализация на основе истории поиска. [Online]. 2012. URL:

http://support.google.com/accounts/bin/answer.py?hl=ru&answer=54041&topic=14153& ctx=topic.

2. IBM Watson [Online]. 2012. URL: http://www-03.ibm.com/innovation/us/watson/.

3. TREC [Online]. 2012. URL: http://trec.nist.gov/.

4. Hiemstra D. Using language models for information retrieval // University of twente.

Taaluitgeverij Neslia Paniculata, 2001.

ИЗВЛЕЧЕНИЕ СЕМАНТИЧЕСКИХ ОТНОШЕНИЙ ИЗ СТАТЕЙ ВИКИПЕДИИ С ПОМОЩЬЮ АЛГОРИТМОВ БЛИЖАЙШИХ СОСЕДЕЙ Романов П.В. (МГТУ им. Н.Э. Баумана) Работа посвящена методам извлечения семантических отношений из статей Википедии с помощью алгоритмов ближайших и взаимных ближайших соседей и двух метрик семантической близости, а так же системе с открытым исходным кодом, которая эффективно реализует описанные алгоритмы.

Методы извлечения семантических отношений, рассматриваемые в данной статье, основаны на компонентном анализе [1, 2], принцип которого заключается в том, что семантически близкие слова имеют подобные определения. Предложенные алгоритмы используют одну из двух метрик подобия определений – количество общих слов [3] или косинус угла между векторами определений [4]. В качестве входных данных алгоритмы извлечения семантических отношений принимают множество слов, между которыми необходимо вычислить отношения и их определения. Задача алгоритма – распознать множество семантических отношений из всех возможных пар слов. Первый алгоритм вычисляет семантические отношения с помощью метода ближайших соседей KNN, второй – с помощью метода взаимных ближайших соседей MKNN (Mutual KNN).

Работа алгоритмов состоит в следующем. Сначала вычисляется мера семантической близости всех возможных пар определений. На основе вычисленного значения заполняем массив наиболее близких слов Rmatrix для каждого определения.

После заполнения массива наиболее близких слов для каждого определения все что остается сделать для получения результирующего набора отношений R в методе KNN – просто заполнить выходное множество, для метода MKNN – дополнительно проверить для каждого определения входит ли оно в массив наиболее близких слов свой пары и если входит – добавить в результирующее множество. Сложность разработанных алгоритмов пропорциональна количеству поданных на вход слов |C|. Временная сложность равна O(|C2|), пространственная сложность также пропорциональна количеству ближайших соседей k и равна O(k|C|).

Программное решение реализовано в виде консольного приложения на языке C++ и доступно для платформ Windows и Linux. Основные функции программы заключаются в загрузке файлов стоп-слов и слов, между которыми нужно найти отношения;

загрузке с учетом стоп-слов и слов файла дефиниций;

вычислении семантической близости;

формировании списка наиболее близких слов.

Система Serelex имеет открытый исходный код, доступный на условиях лицензии LGPLv3 по адресу https://github.com/jgc128/Serelex. Текущая версия доступна по адресу http://serelex.it-claim.ru.

ЛИТЕРАТУРА 1. Филиппович Ю.Н., Прохоров А.В., Семантика информационных технологий:

опыты словарно-тезаурусного описания. Серия «Компью-терная лингвистика».

М.:МГУП, 2002 http://it-claim.ru/Library/Books/CL/CLbook.htm 2. Кобозева И. М. Компонентный анализ лексического значения. Лингвистическая семантика: 4-е изд. М.: Книжный дом «ЛИБРОКОМ», стр. 109-122, 3. Banerjee S., Pedersen T. Extended Gloss Overlaps as a Measure of Se-mantic Relatedness,In Proceedings of the Eighteenth International Joint Con-ference on Artificial Intelligence, 2003.

4. Jurafsky D., Manning H. M., An Introduction to Natural Language Pro-cessing, Computational Linguistics, and Speech Recognition, Second Edition. 697-701, 5. Panchenko A., Adeykin S., Romanov A. and Romanov P. Extraction of Semantic Relations between Concepts with KNN Algorithms on Wikipedia. In.: Dmitry I. Ignatov, Sergei O. Kuznetsov, Jonas Poelmans (Eds.) Proceedings of 2nd International Workshop on Concept Discovery in Unstructured Data 2012. Published by KU-Leuven, ISBN 978 9-08-140991- 6. Панченко A., Адейкин С., Романов П., Романов A. Извлечение семантических отношений из статей Википедии с помощью алгоритмов ближайших соседей. // Труды конференции Анализ Социальных сетей, Изображений и Текстов (АИСТ) -- Екатеринбург, 2012 --- С.~208-- МЕТРИКИ СЕМАНТИЧЕСКОЙ БЛИЗОСТИ В ПРОГРАММНОМ КОМПЛЕКСЕ SERELEX Романов А.В. (МГТУ им. Баумана) В рамках проекта создания лексико-семантической поисковой системы Serelex (http://serelex.it-claim.ru) используется две меры семантической близости -- Serelex и PatternSim. Первая основана на определениях слов, вторая на лексико-синтаксических шаблонах и корпусе текстов из статей Википедии.

Первая метрика определяется по следующей формуле:

2 ( d i d j ) / stopwords similarity ( d i, d j ) ;

di d j Здесь числитель равен количеству общих слов в двух определениях без учета стоп слов;

|d_j| – количество слов в определении d_j;

stopwords – множество стоп-слов.

Вторая метрика (косинус общих слов):

f ik f jk fi f j similarity (d i, d j ) k 1, N, fi f j f ik 2 f jk k 1, N k 1, N где f_ik – частота леммы c_k в определении d_i.

Обе метрики подобия используют лемматизированные значения слов (к примеру animals - animal), не учитывают совпадения стоп-слов и учитывают совпадения лемм только со следующими частями речи: существительные, глаголы и прилагательные.

Проведенные исследования показывают, что:

Метрика PatternSim («косинус угла между определениями») извлекает меньше семантических отношений.

Метрика Serelex («количество общих слов») показывает большую точность.

Более подробное описание метрик и результатов работы представлено в статьях [1, 2].

ЛИТЕРАТУРА 1. Panchenko A., Adeykin S., Romanov A. and Romanov P. Extraction of Semantic Relations between Concepts with KNN Algorithms on Wikipedia. In.: Dmitry I.

Ignatov, Sergei O. Kuznetsov, Jonas Poelmans (Eds.) Proceedings of 2nd International Workshop on Concept Discovery in Unstructured Data 2012. Published by KU-Leuven, ISBN 978-9-08-140991- 2. Панченко A., Адейкин С., Романов П., Романов A. Извлечение семантических отношений из статей Википедии с помощью алгоритмов ближайших соседей. // Труды конференции Анализ Социальных сетей, Изображений и Текстов (АИСТ) --- Екатеринбург, 2012 --- С.~208-- DESIGN OF THE EXTERNAL INTERCULTURALLY ENRICHED COLLABORATION SCRIPT FOR STUDENTS' COLLABORATIVE LEARNING IN CULTURALLY HETEROGENEOUS GROUPS IN COMPUTER-MEDIATED COLLABORATION Vitaliy V. Popov, Andrei N. Kuznetsov*, Harm Biemans, and Martin Mulder Chair Group of Education and Competence Studies, Wageningen University, Netherlands *Department of the Russian, Foreign Languages and Literature, ‘MISiS’ - National University of Science and Technology, Moscow, Russia Introduction of information and communication technology creates both potential benefits in terms of promoting collaborative learning and challenges in terms of equitably supporting learners, specifically with different cultural backgrounds, within online learning environments. This study investigates the effects of external interculturally enriched collaboration script (IECS) on students’ online collaborative behavior, perception, willingness and learning outcomes in computer-mediated collaboration. For this purpose, the researchers developed three paper-based external collaboration scripts (i.e., one conventional (‘only’) collaboration script, and two collaboration scripts with interculturally enriched ingredients tailored specifically for Dutch and Ukrainian students) as based on the authors’ previous research studies, and implemented them in an authentic learning environment. The aim was to test the effects of the IECS in comparison with ‘only’ collaboration script on students’ collaborative learning in culturally heterogeneous groups in a computer-mediated collaboration by using mix method design, and applying quantitative and qualitative measurements. In this study, BSc students from a university in the Netherlands (23 subjects) and a university in Ukraine ( subjects) worked together online on a two week project related to theme Radioactivity and Nuclear Power. Culturally heterogeneous groups of students were randomly assigned to two conditions (collaboration with IECS and collaboration with ‘only’ collaboration script) and were using the web conferencing tool (Adobe Connect programme) for collaboration. The preliminary results showed that students in the experimental condition scored statistically significantly higher, in terms of learning outcomes.

The external interculturally enriched collaboration script was explicitly designed to promote collaboration in general as well as to bridge intercultural differences in culturally heterogeneous groups of the students engaged in computer-mediated collaboration.

Subsequently, the design of external IECS was based on external collaboration script including absolutely the same collaboration steps and instructions to them, plus additional cultural enrichment elements developed specifically for the two culturally distinct groups of students.

These culturally enriched elements were derived from cross-cultural psychology findings (Nisbet, 2003;

Hofstede, 1997). They provide a foundation to both develop an adequate understanding of these of cultural differences and to design such a socio-technical support for collaborative learning that could involve, reconcile and bridge the differences between cultures.

Thus, the authors were playing on learners’ social/cognitive diversity and knowledge interdependency that foster different mechanisms and allow to maximally benefit from culturally divergent knowledge.

Each cultural group was provided only with the general instructions and cultural instructions tailored specifically for this particular group. IECS was provided with a list of communication strategies, which was based on the Interaction Analysis Model developed by Gunawardena et al. (1997). These strategies can be viewed in terms of discussion strategies, interaction prompts, or sentence openers that are intended to solve communication problems, and the students were encouraged to use them whenever you have difficulties in getting their message across (e.g., if they wish to ask questions, disagree or clarify some details etc.).

The analysis of the data received in the experiment confirmed the research hypothesis as for the positive effect of IECS on the students’ intercultural collaborative behaviour in computer mediated learning.

LITERATURE 1. Nisbett, R. (2003). The geography of thought: How Asians and Westerners think differently... and why. New York: The Free Press.

2. Hofstede, G. (1997). Cultures and organizations: Software of the mind: Intercultural cooperation and itsiImportance for survival. New York: McGraw-Hill.

3. Gunawardena, C., Lowe, C., and Anderson, T. (1997) ‘Analysis of a global online debate and the development of an interaction analysis model for examining the social construction of knowledge in computer conferencing’, Journal of Educational Computing Research, Vol. 17, No. 4, pp. 397- КОГНИТИВНЫЙ СИНКРЕТИЗМ И ИНТЕРФЕРЕНЦИЯ ПОНЯТИЙ В СОВРЕМЕННОМ ЛИНГВИСТИЧЕСКОМ ДИСКУРСЕ Немыка А.А., Пешков А.Н. (ФГБОУ ВПО Кубанский государственный университет) Вопрос о методологии лингвистических исследований на современном этапе, очевидно, является одним из самых концептуально важных как в отечественном, так и в зарубежном языкознании. Аналитические исследования методов лингвистики, предпринятые Ю.Д. Апресяном, Ю.С.Степановым, Е.С. Кубряковой, И.С. Куликовой, Д.В.Салминой и другими авторами [1–4], позволяют сделать определенные прогнозы, касающиеся статуса и функционирования науки о языке на ближайшие годы. Можно выделить несколько основных направлений, характеризующих состояние и развитие науки о языке в целом. Наиболее значимые из тенденций: 1) интеграция лингвистики и других наук;

2) антропоцентризм и гуманитаризация научных методов;

3) инновации и установка на качественно новое кодирование парадигмы знаний. Все эти направления логично взаимосвязаны общим интеллектуальным компонентом, определяющим современную философию науки.

Современный диапазон лингвистических наук достаточно широк, поэтому понятийный аппарат каждого из них требует своего структурирования. Несмотря на такое разнообразие метадиалектов, они соотносятся с метаязыком лингвистики как род и вид, целое и часть, а все внутрикатегориальные отношения между понятиями могут быть сведены к двум основным: логическому - род-вид, системно-структурному отношению — часть-целое.

Пути решения проблемы баланса собственно лингвистических и заимствованных терминов в языкознании могут быть следующими. В качестве принципа следует признать то, что интеграция лингвистики и других наук должна проводиться на основе их координации, а не в результате интервенции. Кроме того, желательно, чтобы собирание и систематизация понятийного аппарата современной лингвистики не были задачей только составителей общих отраслевых словарей. От самостоятельных научных школ естественно ожидать собственных терминографических изданий, причем с отсылками новых терминов к устоявшимся, уже существующим в терминологическом узусе их корреляциям. Это, несомненно, поможет сохранить когнитивное и методологическое единство современной науки о языке.

ЛИТЕРАТУРА Апресян Ю.Д. Избранные труды: в 2 т. М., 1995.

1.

2. Краткий словарь когнитивных терминов. М., 1996.

3. Куликова И.С., Салмина Д.В. Введение в металингвистику. СПб., 2002.

4. Степанов Ю.С. Принципы и методы современной лингвистики. М., 2002.

ИСПОЛЬЗОВАНИЕ N-ГРАММНОЙ ЯЗЫКОВОЙ МОДЕЛИ ДЛЯ ИЗУЧЕНИЯ ЗНАМЕННЫХ ПЕСНОПЕНИЙ Даньшина М.В. (МГТУ им. Баумана) Древнейшие письменные памятники знаменного распева относятся к концу 11-го века или к первым годам 12-го века. В этих письменных богослужебных певческих памятниках мелодии записаны особой системой безлинейных певческих знаков, по древнерусски – “знаменем” (“знамя” = “знак”).

Для изучения знаменных песнопений разработана специальная методика, в рамках которой используется теория статистического машинного перевода. В рамках проекта по созданию Автоматизированной системы научных исследований в области компьютерной семиографии (АНСИ КС) при поддержке гранта РГНФ №110412025в строится языковая модель знаменных песнопений.

За основу берется двознаменник – это древнерусская музыкальная рукопись, которая представляет собой корпус параллельных песнопений (записанных в двух нотациях), что делает возможным использование N-граммой языковой модели. В результате анализа двоезнаменника формируется словарь, состоящий из правил следующего вида:

P=K, N, D, I, p, где K=[k1…kn ], N=[n1…nn ], D=[d1…dn ], I=[i1…in ] K - последовательность знамен, k – код знамени N - последовательность нот, n – нотный код D - последовательность длительностей, соответствующих нотному коду, d – код длительности I – интервальная последовательность, i – интервальный код p – вероятность правила В данном случае словарь будет состоять из n-грамм (n=1,2,3,4), а также опционально в него могут быть добавлены другие правила, выявленные экспертом.

Вероятность таких правил может быть рассчитана как произведение вероятности входящих в него n-грамм.

Под исследованием рукописи понимается построение частотных двоезнаменников, анализ всех правил, в которые входит конкретное знамя. В результате исследования эксперт может выявить какие-либо закономерности и составить новые правила, отредактировать или исключить какое-либо правило. Под редактированием понимается изменение вероятности или приоритета правила.

Для построения языковой модели знаменных песнопений была выбрана триграммная языковая модель. В качестве метода сглаживания N-граммной языковой модели был выбран метод интерполяции.

ЛИТЕРАТУРА 1. Даньшина М.В. Метод выделения, сохранения и обработки попевок в музыкальной рукописи. Тезисы конференции «Информационные технологии и письменное наследие El’Manuscript–2012» - Петрозаводск, Ижевск 2. Филиппович А.Ю., Даньшина М.В., Даньшина И.В. Методы компьютерной семиотики в исследованиях древнерусской духовно-музыкальной письменности // XII Международная научная конференция по проблемам книговедения "Наука о книге. Традиции и инновации" - М.:Наука, 3. Даньшина М.В. Методика автоматизированной расшифровки знаменных песнопений. НИУ «БелГУ», СЕМАНТИКА В МУЗЫКАЛЬНЫХ ЗНАКОВЫХ СИСТЕМАХ Голубева И.В. (МГТУ им. Н.Э.Баумана) В рамках проекта «Автоматизированная система научных исследований в области компьютерной семиографии (АНСИ КС)», выполняемого при поддержке гранта РГНФ №110412025в, изучается нотация музыкальных записей XI-XVII века - знаменных песнопений. В результате проведенных исследований [1, 2] было выявлено, что знаменные песнопения можно анализировать лингвистическими методами.

Основной структурной единицей древней нотной записи является «знамя»

графическое изображение (графема), используемое для обозначения определенной высоты, длительности и характера исполнения мелодии. Под алфавитом знаменной нотации понимается список «знамен», которые можно разделить на базовые и производные, которые получаются за счет добавления к первым специальных элементов (признаков и помет). Среди знамен выделяются следующие виды отношений:

Вид отношения Описание Пример Знамя Z1 состоит в со :

знаменем Z2, если Z2 является производным от Z1.

Z1 Z Знамя Z1 состоит в со :

знаменем Z2, если в структуре песнопения Z2 непосредственно следует Z1 Z за знаменем Z Вероятностное Если за знаменем Z1 может следовать несколько знамен, то конкретное знамя :

(Z2) следует с вероятностью Pi. (0,56) Z1 Z2 (Pi) Знамя Z1 состоит в со :

знаменем Z2, если эти знамена находятся в общем контексте (фразе, предложении, Z1 Z песнопении).

Z2 Z Синтаксические связи определяют отношения между знаменами. Для выявления синтаксических связей используется дистрибутивно-статистический анализ.

Предполагается, что знамена, часто встречающиеся вместе в пределах того или иного интервала текста, как-то связаны между собой по смыслу. Для оценки связанности вводится коэффициент “силы связи” [3].

Для выявления семантической связности знамен используется связь знамен со словами. Знамена представляются в виде векторов признаков (различных слов), например:

Благослове помиловати поклонимся воскресение Живодавч Хвалите благо н е 7 0 2 27 9 2 6 2 0 18 0 0 6 0 0 3 0 0 Применяя подходящие меры подобия, можно непосредственно вычислить сходство между различными знаменами и словами.

Правила употребления знамен могут быть представлены в виде тезауруса, словарные статьи которого включают в себя следующую информацию:


«Знамя», которое является заголовком словарной статьи;

«Базовое знамя» ( );

«Абсолютная частота знамени» числовая характеристика частоты встречаемости знамени в рукописи;

«Знамена, непосредственно связанные с ключевым знаменем» те знамена, которые следуют сразу за ключевым знаменем ( );

«Знамена, контекстно связанные с ключевым знаменем» те знамена, которые встречаются вместе с ключевым знаменем в одном контексте ( ).

В графическом виде тезаурус может быть представлен так, как показано на рисунке 1:

...

Pvn Pd1 Pd Pv...

Pdn Pv Пометы Высотные длительности пометы След. знамя Синтаксически связанные знамена Знамя Nzn... Nzsn...

Nz1 Nzs Nz Nzs Слоги Семантически связанные Sl1 знамена Sl... Sln Nzsmn...

Nzsm W1 W2 W2 Nzsm... Wn Слова Рисунок 1.

Структура тезауруса ЛИТЕРАТУРА 1. Даньшина И.В. Исследование знаменных песнопений как знаковой системы.

Тезисы конференции «Информационные технологии и письменное наследие El’Manuscript–2012» - Петрозаводск, Ижевск 2. Филиппович А.Ю., Даньшина М.В., Даньшина И.В. Методы компьютерной семиотики в исследованиях древнерусской духовно-музыкальной письменности // XII Международная научная конференция по проблемам книговедения "Наука о книге. Традиции и инновации" - М.:Наука, 3. Филиппович Ю.Н., Прохоров А.В. Семантика информационных технологий: опыты словарно-тезаурусного описания. / Серия «Компьютерная лингвистика». Вступ.

Статья А.И.Новикова. М.: МГУП, 2002.

ПРИМЕНИМОСТЬ ЛИНГВОАНАЛИТИЧЕСКИХ СИСТЕМ ДЛЯ СОЗДАНИЯ АНАЛИТИЧЕСКИХ ПРИЛОЖЕНИЙ Алексеев Дмитрий Николаевич (ООО «Инновационный Центр «Информационные технологии») Харламов Александр Александрович (д.т.н., Научно-производственный инновационный центр (НИПЦ) «Микросистемы») ОСНОВНОЙ ТЕЗИС Любые «семантические технологии» должны рассматриваться с точки зрения их применимости для конкретных задач, не обязательно связанных по своим целям с анализом текстов, как части более широких аналитических комплексов и решений.

ПРОБЛЕМНЫЙ МОМЕНТ Многие лингвоаналитические решения слабо интегрированы с другими продуктами и направлениями computer science, из-за чего, с одной стороны, конечные цели применения семантических технологий могут быть не вполне ясны для разработчиков;

с другой, пользователям экспертно-аналитических систем бывает трудно сформировать свои требования к степени автоматизации программных комплексов.

Возникает задача поиска и сопряжения таких систем для работы в едином цикле.

ОПРЕДЕЛЕНИЕ Семантические технологии – технологии автоматического и автоматизированного анализа естественно-языковых текстов по основанию связи «знак-значение». В строгом смысле, большинство представленных на рынке семантических технологий – синтаксические (основание связи «знак-знак»). Семантические компьютерные технологии могут быть разработаны лишь по факту реализуемости алгоритмов анализа речевых контекстов.

СОДЕРЖАТЕЛЬНОСТЬ ИЛИ ОБЪЕМ: РАЗЛИЧИЕ ЗАДАЧ И ПОДХОДОВ При выборе подходов и средств анализа текстов следует ориентироваться на различие исследовательских задач:

условно-качественный анализ содержательных и смысловых оттенков некоторого конечного текста с помощью лингвистических шаблонов, когда конкретно-языковому выражению, подпавшему под критерии шаблона, присваивается категория, могущая быть интерпретированной как его обобщенное значение («военные действия», «коммерческая сделка» и т.п.);

условно-количественный анализ – эффективная идентификация языковых сущностей и связей между ними, реализуемая на текстах различного объема, не ограниченных по числу и сменяющих друг друга (пример – новостные ленты).

Недостаток метода текстовых шаблонов – затруднение процесса обработки данных:

большие затраты машинного времени;

необходимость формирования шаблонов вручную под специализированные предметные области;

пропуск анализатором выражений, содержащих упоминания целевых объектов, но не попавших в шаблон, вследствие чего визуализируется меньше информации, чем реально обработано.

С другой стороны, для экспресс-анализа значительных объемов разнородных и неструктурированных текстов, требующих быстрой обработки, применяются анализаторы, использующие или непосредственно методы количественного анализа, или выдающие результаты для передачи на компоненты количественного (статистического) анализа.

Примеры такого рода решений:

«Text Analyst» (разработка НИПЦ «Микросистемы», г. Москва Россия): внутритекстовый и взаимный весовой анализ языковых вхождений, построение на этой основе однородной (ассоциативной) семантической сети и тематической рубрикации.

«KernelMining» (разработка ООО «ИЦ «Информационные технологии», г. Москва Россия):

автоматизированная медиа-исследовательская система, построенная по конвейерному принципу, включающая компоненты поиска, визуализауции, анализа результатов, экспорта и т.д.

Совместное применение отмеченных систем позволяет повысить уровень автоматизации экспертной работы, в частности, при решении задач:

интент-анализа;

построения правдоподобных (в т.ч. индуктивных) рассуждений;

поиска связей объектов;

анализа цитируемости;

сентимент-анализа.

ФРЕЙМОВЫЙ ПОДХОД КАК СПОСОБ ФОРМИРОВАНИЯ ИНФОРМАЦИОННОЙ КОМПЕТЕНТНОСТИ Баннова А.В. (МГАУ им.В.П.Горячкина) Современное общество характеризуется такими процессами, как глобализация и информатизация, а также стремительное развитие науки и техники. Данные процессы затрагивают все сферы жизни человека, в том числе и трудовую деятельность. На современном этапе крайне важное значение приобретает профессиональная компетентность специалиста, под которой подразумевается способность специалиста творчески реализовывать свой профессиональный потенциал в процессе осуществления трудовой деятельности, характеризуемая осознанием ответственности за результаты деятельности и необходимости дальнейшего развития.

Таким образом, ведущей целью высшего образования становится формирование профессиональной компетентности будущего специалиста.

Среди компонентов профессиональной компетентности особое значение мы придаем информационной компетентности, так как в современном обществе способность полноценно жить и осуществлять профессиональную деятельность в информационной среде является крайне важной.

Под информационной компетентностью мы понимаем способность осуществлять информационную деятельность на высоком уровне с целью успешной реализации профессиональной деятельности в информационном обществе, а также мастерство работы с информацией, основанное на знаниях и опыте.

Основываясь на утверждении, что информация представляет собой упорядоченное отражение объектов окружающего мира [2;

7], будем считать, что информация существует в нашем сознании не хаотично, а имеет свою особую структуру. Данная структура представляется исследователями по-разному. В нашем исследовании мы склоняемся определять данную структуру как фрейм.

М.Минский определяет фрейм как структуру данных для представления стереотипных ситуаций. Вся воспринимаемая нами информация существует в сознании в виде фреймов. И вся информационная деятельность реализуется в виде работы с фреймов – структурированием, интериоризацией и экстериоризацией.

Таким образом, нам представляется возможным разработать методику формирования информационной компетентности, как важной составляющей профессиональной компетентности, основанной на теории фреймов, а также на теориях учебной автономности и непрерывного обучения.

ЛИТЕРАТУРА 1. Бершадский М.Е. Информационная компетентность // Школьные технологии. – 2008- №8. С.7-12.

2. Готт В.С., Семенюк Э.П., Урсул А.Д. Социальная роль информатики. – М.: Знание, 1987. – 64с.

3. Зеер Э.Ф., Павлова А.М., Сыманюк Э.Э. Модернизация профессионального образования: компетентностный подход: Учебное пособие. – М.: Московский психолого-социальный институт, 2005. – 216с.

4. Урсул А.Д. Природа информации. Философ. очерк. М., Политиздат, 1968. – 288с.

5. Шадриков В.Д. Новая модель специалиста: инновационная подготовка и компетентностный подход // Высшее образование сегодня. – 2004. - №8. С. 26-31.

6. Minsky, Marvin (1975). A Framework for Representing Knowledge, In: Haugeland (edt.) Mind design. 95- СПЕЦИАЛЬНАЯ ЛЕКСИКА ИНТЕГРАТИВНЫХ СФЕР ЯЗЫКОЗНАНИЯ: ОСОБЕННОСТИ КОГНИТИВНО СЕМАНТИЧЕСКОГО АНАЛИЗА.


Антоненко Е.А., Головко В.А. (ФГБОУ ВПО Кубанский государственный университет) Когнитивное исследование понятийных и языковых особенностей лингвистики позволяет проследить специфику формирования новых парадигм терминологических единиц. На современном – лингвокогнитивном – этапе развития лингвистики возникает проблема обобщения данных об особенностях интегративных семиотических подсистем.

Развитие науки о языке стимулирует появление новой специальной лексики, которую необходимо фиксировать в новых терминологических словарях, однако создание отраслевых словарей не может проводиться без опоры на серьезную теоретическую базу, учитывающую функциональные особенности терминов интегративных сфер языкознания на современном этапе.

На пересечении лингвистики и других наук возникли компьютерная лингвистика, лингвистическая информатика, лингвистическая кибернетика, лингвистическая синергетика, лингвистическая технология искусственного интеллекта и др.

Переходность этих наук отражается в том, что некоторые их разделы являются междисциплинарными внутри названных сфер. Когнитивная лингвистика выделяется в качестве направлений сразу нескольких разделов современного языкознания. Подобная ситуация приводит к вариативности в определении статуса и места новых наук среди смежных отраслей знания.

Как показали наблюдения, конструирование новых терминов в интегративных сферах языкознания происходит обычно за счет заимствования из терминосистем уже известных наук.

Так, в дефинициях специальной лексики прикладной лингвистики, сформулированных специалистами соответствующих областей знания нашли отражение современные тенденции к интеграции и экстраполяции знаний, когда именуемый объект или явление рассматривается в разных аспектах. Научный термин уже не может быть предметом комплексного изучения с точки зрения только собственно языковых фактов.

Учет его понятийных параметров и междисциплинарных связей позволяет говорить о возникновении новых принципов анализа научного дискурса в связи с когнитивным моделированием действительности (формированием научной картины мира).

ЛИТЕРАТУРА 1. Марчук Ю.Н. Основы компьютерной лингвистики: Учебное пособие. М., 1999;

2. Баранов А.Н. Введение в прикладную лингвистику. М.: Эдиториал УРСС, 2001.

3. Соснина Е.П. Введение в прикладную лингвистику: Учебное пособие.

Ульяновск: УлГТУ, 2000.

4. Соснина Е.П. Разработка словаря-глоссария терминов компьютерной лингвистики – http://ling.ulstu.ru/linguistics/chair/lecturers/sosnina/ 5. Minsky M. Form and Content in Computer Science, J. А. С. М. 1972.

ИСПОЛЬЗОВАНИЕ АССОЦИАТИВНЫХ ТЕЗАУРУСОВ В ЗАДАЧАХ, СВЯЗАННЫХ С ФЕНОМЕНОМ “КОНЧИКА ЯЗЫКА” Выломова Е.А.(МГУП им. Ивана Федорова) Проблема выбора наиболее точного слова в заданном контексте является одной из основных в задачах формирования вербальных выражений при написании текстов, статей или генерации речевых высказываний. Часто возникает ситуация проблемы извлечения из памяти нужного слова, когда вместо последнего вспоминаются наиболее семантически близкие понятия или же первая буква искомого слова. Данная проблема была впервые описана Р.Брауном и Д. МакНейллом 114 и носит название феномена “кончика языка”. Существует как минимум три возможных ее объяснения, но наиболее достоверное предложили Р. Браун, Д. МакНейлл и А.Лурия114. В своей работе они представили процессы извлечения и называния слов в виде вероятностного выбора из цепочки ассоциаций и связали эти процессы с формированием семантической памяти человека.

В текущем исследовании рассматривается возможность использования ассоциативных тезаурусов и словарей синонимов при поиске и в процессе выбора искомого слова. В рамках исследования была спроектирована система для русского языка, включающая в себя:

Данные Русского Ассоциативного Тезауруса, полученные в результате ассоциативного эксперимента, проведенного группой под руководством Караулова Ю.Н.3. Данные представлены набором триплетов вида стимул, реакция, частота ассоциативной пары. Триплеты были использованы для создания вероятностной модели ассоциативной сети4;

Данные из словарей синонимов русского языка;

Латентно-семантический анализ и алгоритм кластеризации k-means для поиска семантически близких понятий.

Система работает следующим образом: пользователь вводит набор слов(стимулов), семантически связанных с искомым;

система находит ближайший кластер и возвращает список слов, попавших с него.

В дальнейшем в систему планируется добавить ассоциативный тезаурус английского языка и провести эксперименты по улучшению машинного перевода.

ЛИТЕРАТУРА 1. Brown, R., and McNeill, D. The "tip of the tongue" phenomenon. Journal of Verbal Learning and Verbal Behavior, 1966, 325-337.

2. Лурия А.Р. Язык и сознание.//под редакцией Хомской Е.Д., Москва: МГУ, 1979 320 стр.

3. Караулов Ю.Н., Тарасов Е.Ф., Сорокин Ю.А., Уфимцева Н.В., Черкасова Г.А.

Ассоциативный тезаурус современного русского языка. Москва: РАН, 1999.

4. Выломова, Е.А. Анализ тезаурусов и возможность их применения в задачах машинного перевода.// Доклады всероссийской научно-практической конференции "Анализ Изображений, Сетей и Текстов" (АИСТ'12). Екатеринбург, 16-18 марта 2012г. Москва.: Национальный Открытый Университет "ИНТУИТ", 2012 - 419 стр.

DESIGN OF EFFICIENT INFORMATION EXTRACTION PIPELINES Henning Wachsmuth (Paderborn University) Information extraction allows to effectively infer structured information about entities and relations from natural language text. Many information extraction tasks are tackled with a pipeline of several partly very run-time intensive algorithms. As a consequence, classical pipelines, which apply each algorithm to the whole input, tend not to achieve a run-time efficiency that is suitable for real-time analysis. While in general a pipeline can be sped up by parallelization (if given enough resources) or by employing faster (but less effective) algorithms, the design of a pipeline itself has a significant impact on the efficiency as well.

In our research, we address the question of how to design efficient information extraction pipelines for a given task and a collection or a stream of input texts. The efficiency of a pipeline results from the run-times of the employed algorithms as well as from the amount of text processed by each algorithm. Hence, a means to improve efficiency consists in 1) filtering only possibly relevant portions of an input text after each algorithm application and 2) optimizing the schedule of the applied algorithms.

For collections and streams of input texts that are homogeneous in the distribution of the information sought for, an efficient schedule can be found with heuristic search strategies based on estimated run-times of the algorithms. For more heterogeneous collections and streams, a schedule should be chosen depending on the input text at hand, which requires a fast text classification mechanism. Our findings show that, in these manners, the run-times of typical pipelines can be improved by one order of magnitude without harming the effectiveness of the pipelines.

СОЗДАНИЕ УЧЕБНО-СПРАВОЧНОЙ ВЕРСИИ БД «ЯЗЫКИ МИРА»

Анисимов И.С. (ИТАСУ, НИТУ МИСИС) База данных «Языки Мира» создавалась на протяжении многих лет сотрудниками Института Языкознания РАН. Основой для БД является одноименная энциклопедия, насчитывающая 20 печатных томов. Настоящая версия БД нацелена на использование в качестве справочного издания в учебном и научном процессе.

Система создана на языке C# в среде.NET с использованием библиотеки ASP.NET.

Формат хранения данных: бинарный файл. Имеется возможность выгрузки базы данных в формат Excel. Имеется возможность загрузки рефератов из текстовых файлов. Общий объем инсталляционной версии ПО – 99 МБ.

Учебно-справочная версия обладает расширенным функционалом. Имеется форма «Список языков». Список снабжен удобной навигацией (выбор мышкой, кнопками курсора), при наборе наименования языка происходит автоматическое позиционирование в списке.

После выбора языка, появляются два окна: «Индивидуальная (текстовая) часть описания языка» и «Бинарная часть описания языка». Бинарная часть представлена в виде дерева с возможностью навигации, свертки/развертки дерева. Система позволяет открывать несколько языков одновременно и переключаться между ними путем выбора из списка открытых языков. Главное меню системы содержит следующие пункты: «Данные», «Сервис», «Настройки», «Справка». Меню «Данные» содержит подпункты: «Мастер наполнения», «Генетический справочник», «Географический справочник», «Глоссарий», «Выгрузить в Excel», «Загрузить из Excel». Меню «Сервис» содержит подпункт «Мастер запросов». Меню «Настройки» содержит подпункт «Язык». Отметим, что учебно справочная версия БД содержит в себе инкорпорированный англоязычный вариант. В системе представлен встроенный генетический указатель. Указатель имеет иерархическую структуру. В основу указателя положена генетическая иерархия языков, принятая в энциклопедическом издании «Языки Мира». При позиционировании курсора на любом уровне указателя в правом окне отображается соответствующий список языков.

Справа внизу предусмотрено поле для поиска. Выбирая язык из списка можно найти его место в генетическом указателе. Также представлен географический указатель, встроенный в систему. Географический указатель представляет собой алфавитный список географических ареалов верхнего уровня. Каждому ареалу соответствует список языков, населяющих этот ареал. В случае, если ареал заселен несколькими этносами неравномерно, дальнейшая детализация в указателе представлена в виде дерева. В системе представлен глоссарий, который дает расшифровку всех терминов модели описания языка в БД. Учебно-справочная версия позволяет вводить новые рефераты и редактировать существующие. Это осуществляется с помощью Мастера наполнения.

Важной частью функционала Учебно-справочной версии является Мастер запросов. Мастер запросов состоит из 5 полей. Поле «Раздел» содержит признаки модели реферата. Предусмотрена навигация по дереву, выбор из списка разделов реферата. В системе предусмотрено неограниченное количество признаков для формулирования запроса. Поле «Генетический указатель» позволяет ограничить запрос любым количеством ветвей генетического дерева. Поле географический указатель позволяет использовать при поиске ареалы распространения языков. При выборе признаков предусмотрено три условия (Присутствует, Отсутствует, Безразлично). Присутствующие признаки выделяются зеленой подсветкой, отсутствующие – красной. То же самое касается генетических сообществ языков и ареалов Условия запроса отражаются в нижнем окне. Результаты запроса в правом окне. С помощью меню «Сервис» результаты запроса можно вывести на печать или в файл. В системе предусмотрена возможность просмотра исходных текстов статей энциклопедии «Языки Мира». Это осуществляется из контекстного меню.

Новые возможности учебно-справочной версии БД «Языки Мира» делают ее более удобным, наглядным и надежным инструментальным средством для обучения и научных исследований. Работа выполнялась при финансовой поддержке РГНФ, грант # 10-04 12125в.

Работа выполнена под руководством доцента, к.т.н. Полякова В.Н.

СЕМАНТИЧЕСКАЯ ОБРАБОТКА ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ ОБЛАЧНЫХ ВЫЧИСЛЕНИЙ (ДЛЯ СФЕРЫ НАНОМАТЕРИАЛОВ И НАНОТЕХНОЛОГИЙ) Пономарев А. Д. (ИТАСУ, НИТУ МИСИС) Крупные объемы научно-технической информации создают необходимость в технологиях, способных на стремительную и “умную” обработку данных. Такие важные инструменты инновационной экономики как форсайт, перспективное планирование и прогнозирование основаны на тщательном анализе научных и промышленных трендов.

Национальная нанотехнологиская сеть (ННС) – инфраструктура, призванная поддержать развитие, сделать прорыв в области нанотехнологий, увидеть будущее и идти к его воплощению сейчас.

База знаний по тематическому направлению деятельности национальной нанотехнологической сети «Конструкционные наноматериалы» (www.bknano.ru), созданный по государственному контракту (№ 16.647.11.2024 от 12.09.2011 г.) в рамках развития инфраструктуры ННС, нацелен на обеспечение участников сети современной фактической информацией и экспертными прогнозами. Она включает в себя онтологию наноматериалов и нанотехнологий, на основе которой аналитические модули получают прогностические данные, далее используемые в построении дорожных карт для развития инноваций в области наноматериалов.

Однако качество работы прогностической части проекта сильно зависит от полноты данных в базе, в то время как для заполнения всей разнообразной информации об одном наноматериале часто требуется более целого рабочего дня. Для полноценной работы проекта необходимо либо увеличение численности работников, либо кардинальное увеличение производительности труда. Решением этой проблемы является семантическая обработка текста, позволяющая существенно снизить трудоемкость подготовки данных.

Посредством современных технологий обработки естественного языка становится возможным извлекать требуемые данные из текста автоматически, снижая затраты на рабочую силу и многократно увеличивая производительность труда. А такие инструментальные решения как GATE – среда разработки лингвистических процессоров, позволяют инженеру настраивать и создавать специализированные и наиболее удобные для его предметной области инструменты. На рис. 1 представлена схема семантической обработки текстов с использованием облачных вычислений (для сферы наноматериалов и нанотехнологий).Тезисы представлены для участия в конкурсе У.М.Н.И.К., работа выполнена под руководством доцента, к.т.н. Полякова В.Н.

БИБЛИОТЕКИ СЕМАНТИЧЕСКИХ ШАБЛОНОВ БИЗНЕС СОБЫТИЙ Рыбаков Р.Р. (К(П)ФУ) Компьютерные носители содержат огромное количество информации, которая уже практически исчисляется эксабайтами [1]. Человек неспособен обработать такое количество, и эта информация в основном является неструктурированной, поэтому сегодня проводится большое количество теоретических и практических исследований, для построения сложных систем, позволяющих ее обработать. Особо важную роль имеет вопрос извлечения информации (information extraction). Извлечение информации — это задача автоматического извлечения (построения) структурированных данных из неструктурированных или слабоструктурированных машиночитаемых документов [2].

Примером извлечения информации является поиск событий. Поиск основывается на заранее созданном семантическом шаблоне события. Семантический шаблон описывает модель, структуру конкретного события.

Извлечение информации применяется в различных областях, в том числе и в сфере бизнеса. Для извлечения бизнес-событий есть библиотека семантических шаблонов RCO [3]. Эта библиотека содержит описания около 100 типов событий. Однако, после разбора текстов новостей о компаниях и бизнесе с различных Интернет-ресурсов, было выделено около 30 типов бизнес-события, причем 7 из них отсутствовали в составе библиотеки RCO, хотя и представляют важность. Этими ситуациями можно дополнить библиотеку.

В шаблоне выделяются участники события и типичные для данной ситуации параметры. Во всех приведенных ниже событиях один участник - Организация (Organization). Параметр присущий всем событиям - Дата события (date). В следующих четырех событиях происходит изменение экономического показателя организации:

изменение прибыли, изменение цен на акции, изменение капитализации, изменение количества долгов. В этих событиях выделяется параметр Тренд (Trend), который определяет, что произошло с экономическим показателем (увеличение, уменьшение, падение, рост и пр.). Так же было выделено событие внедрение новых технологий, с параметром Содержание (Content) – суть новой технологии. Оставшиеся 2 события связаны с потерей денег и оба имеют параметр сумма (Sum), эти события - траты и наложение штрафов. Первый так же имеет параметр Цель (Target) – цель трат, а второй Причина (Cause) – причина наложение штрафа.

Данное исследование выполнялось в рамках реализуемого в КФУ проекта создания системы извлечения информации о бизнес-событиях из текстов на русском языке.

ЛИТЕРАТУРА:

1. Хорошевский В.Ф., Пространства знаний в сети Интернет и Semantic Web (Часть 1) // Искусственный интеллект и принятие решений. - 2008. - № 1.

2. Википедия – свободная энциклопедия // Статья: Извлечение информации. URL:

http://ru.wikipedia.org/wiki/ Извлечение_информации 3. Руководство администратора. Библиотека семантических шаблонов RCO // Москва, 2010.



Pages:     | 1 | 2 ||
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.