авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 | 2 || 4 | 5 |   ...   | 7 |

«Труды • Том 197 Серия «Информационная аналитика» • Выпуск 2 Министерство культуры Российской Федерации Санкт-Петербургский государственный университет культуры и ...»

-- [ Страница 3 ] --

Интернет-аналитика. Интернет-аналитика – пока загадочный и многоз начный термин. В качестве частичных синонимов в литературе используются понятия «сетеметрия», «вебометрия», сетевая «библиометрия». Это не считая устаревшего уже понятия «киберметрия», а также новейших частных понятий «Интернет-статистика», «алтметрика».

В его содержание сейчас входят минимум семь особых направлений дея тельности:

Количественная оценка размера сети – результаты счета числа и общего объема веб-ресурсов в динамике. Осуществляется исключительно роботами по специальным программам – «роботометрия», которую сейчас называют все чаще вебометрией или сетеметрией. Однако это узко специализированное на правление с собственными техниками счета, которые близки по принципу работы, но все же различны для каждой поисковой системы. При этом ведется не абсолютный арифметический учет, а расчет данных с использованием за кона Ципфа-Бредфорда и иными способами. Единица измерения – прогнозное число сайтов с определенным расширением.

«Провайдерометрия» – технические измерения потоков службами про вайдеров для сугубо практических нужд, в том числе для расчетов с клиента ми. Производятся с помощью программ-счетчиков по техническим индикато рам физического объема потоков машиночитаемой информации.

Аналитика спроса – счет ведется поисковыми системами, фиксирует спрос по ключевым словам, регионам, отдельным ресурсам. Поисковые системы размещают часть этих данных в открытом доступе, а также осуществляют специальную выборку по запросу для ограниченного числа формальных приз наков. Кроме того, любой веб-ресурс может иметь встроенный счетчик – про граммные средства, позволяющие мгновенно фиксировать частоту обращений к конкретным ресурсам или поисковым машинам.

Результатом являются Интернет-рейтинги – Топ-10, Топ-100 и др. Они представлены в сети по разным признакам – обращения пользователей к ресу рсам, запросов через поисковые системы, пользовательских оценок ресурса, частоты копирования материалов, частоты перехода по ссылкам и др.

Библиометрия в сети. Простая библиометрия в сети – опыты специалис тов, желающих измерить и показать соотношения интернет-ресурсов по приз накам, аналогичным классической библиометрии – географическим, хроноло гическим, языковым. Сложная библиометрия – специально спланированное измерение и сравнение сетей связей между ресурсами по входным и выход ным ссылкам по аналогии с анализом потока цитированной литературы.

Содержательная вебометрия – сравнительный анализ конкретных веб ресурсов определенной тематики с использованием качественных и количест венных характеристик, в том числе присущих только электронным ресурсам.

Размещение аналитических материалов - держатели сайтов и порталов в сети, специализирующиеся на классической или компьютерной аналитике.

В эту же группу можно отнести аналитические разделы на сайтах, а также ра змещенные в сети обзорно-аналитические материалы, подготовленные анали тиками инициативно, либо в виде продукции информационных центров.

«Видеометрия» (инфометрия) – результаты аналитических исследований, представленные в виде «картинок» – графиков, диаграмм, сетей связи, худо жественных образов.

Из этого скупого перечня можно сделать далеко идущие выводы:

– круг участников интернет-аналитики стремительно расширяется, – количество «аналитических» продуктов будет множится с экспонен циальной скоростью, – в сети легко «что-нибудь» измерить, но сложно этими цифрами опе рировать из-за нечетких границ «измеряемого», – для серьезных аналитических исследований необходим творческий союз между исследователем и «хозяином» сети – сетевым программистом.

Таким образом, интернет-аналитика делает первые шаги, она перспектив на, но для планомерных исследований нужно освоить проектирование анали тических технологий.

Проиллюстрируем технологическую схему Интернет-аналитики на при мере запроса - простого, полезного и широко распространенного в бибиогра фической деятельности библиотек: подобрать наиболее значимые источники информации по локальной теме, например, методы анализа текста.

Блок-схема будет включать классические этапы, но качество выполнения запроса станет в прямую зависимость от этапа согласования с исполнителем (рис. 1).

1. Выбора признаков для Интернет-поиска и счета 2. Согласование признаков с системным программистом 3. Разработка программы и реализация счета 4. Проверка результатов 5. Интерпретация результатов.

Рис. 1. Блок-схема «Отбор веб-ресурсов»

Если реализовать эту схему для указанного запроса, то мы получим пере чень тех ресурсов, которые с высокой частотой используют каждый термин запроса – метод, анализ, текст. Интернет-ресурсы с совместным употреблени ем этих ключевых слов – единичны, либо не раскрывают связи между ними на верхнем уровне регистрации сайтов.

Следовательно, без глубинной индексации сайтов мы пока получим набор слабо взаимосязанных ресурсов из лингвистики, научной методологии, текс тологии, филологии и др. По этой причине для аналитика информационных ресурсов становится важнейшей задачей конкретизация поискового предписа ния, а также этапы проверки и интерпретации результатов.

Существуют и иные ограничения в интернет-статистике. Даже при четкой локализации массива (например, анализ использования электронных публика ций из базы данных), следует иметь ввиду, что без специальной программы считается суммарное число обращений ко всем документам конкретного ресу рса. Безразлично, открывали разные документы из него, или один уникальный документ. Агрегатор базы данных, как правило, размещает готовую статисти ку спроса для представителей конкретного учреждения по логину и паролю на служебном сайте. Иногда она бывает открыта и для пользователей подписчи ка, но вновь нужно уточнять условия счета.

Чтобы решать подобные задачи профессионально, необходимо осваивать процедуры проектирования аналитических исследований в разных режимах – интеллектуальном и автоматизированном, постепенно совмещая их в единую технологическую цепочку.

Классическая аналитика. Получая от читателя информационный запрос любой категории сложности, библиограф предварительно определяет оптима льные пути его выполнения. Для простых запросов достаточно мысленно изб рать наилучший источник информации, найти вариант быстрого доступа к нему, оперативно осуществить поиск нужной информации по запросу. При выполнении запросов повышенной сложности, предполагающих использова ние нескольких источников информации и сравнительный анализ данных, библиограф, аналитик информационных ресурсов стремится к максимальной технологичности рабочих процессов1.

Такие запросы уже требуют спроектированной под запрос технологичес кой схемы поиска и анализа информации, построения блок-схемы. Для освое ния темы важно уметь разграничивать понятия «социальные технологии», «интеллектуальные технологии», «аналитические технологии», «моделирова ние и проектирование процессов». Аналитические технологии – эта та часть интеллектуальных информационных технологий, которая ориентирована на выполнение сложных запросов (научных, профессиональных, образователь ных), требующих многоаспектного поиска, анализа и синтеза информации об объекте, его информационного моделирования для получения выводного зна ния об объекте и практических рекомендаций по запросу.

В отличие от технических, интеллектуальные методики носят весьма обо бщенный характер, а также имеют целый ряд ограничений при использовании.

Причина – множество влияющих факторов, низкий уровень формализации интеллектуальных процессов. По этой причине методики анализа информации формируются длительный период времени, как правило, на основе обобщения личного опыта участников. Переход от методики к технологии, требующей алгоритмизации, тем более затруднен. Впервые задача получения выводного знания на основе уже известного была поставлена Аристотелем в его книгах «Первая …» и «Вторая аналитика». Не смотря на успехи компьютерной линг вистики и робототехники, основная часть аналитических процессов до сих пор есть не что иное как «размышление», которое лишь частично может быть ал горитмизировано. В этой связи значительная часть когнитивных процессов не только не поддается автоматизации, но даже не обозначается строгими поня тиями. Зачем же искать ответ на неразрешимые задачи? От развития и разноо бразия технологий зависит качество – уникальность и воспроизводимость по лученного аналитиком выводного знания.

Требование обоснованной технологической схемы в соответствии с целью запроса или решаемой аналитической задачи (беззапросный режим). Осложняется слабой ресурсной обеспеченностью библиотек (платный доступ к значимым информационным ресурсам, отсутствие в штате аналитика информационных ресурсов, ориентация библиотек на выполнение простых запросов).

Принципы анализа. В процессе профессиональной адаптации информа ционный аналитик постепенно наращивает круг анализируемых объектов, переходя от простых задач к анализу сложных динамических объектов. Слож ность объекта определяется не столько его масштабностью, сколько влияю щими на его развитие факторами. Сложный объект – это структурированный, развивающийся в соответствии с внутренними закономерностями, с элемента ми самоорганизации, открытый для многофакторного влияния внешней среды.

При анализе информации о таких объектах основной проблемой является сис темный сбор данных, видение границ объекта, круга воздействующих факто ров.

В аналитической практике нередко встречается и феномен ложности про стого запроса. Это подтверждает богатейший в мире библиографический опыт, каждый практикующий аналитик в своем личном опыте имеет десятки примеров, когда поиск простейших сведений об объекте превращается в мно гочасовое их разыскание, со сравнением найденных противоречивых данных, установлением и оценкой источника фактов. Следовательно, во всех ситуаци ях аналитик должен уметь прогнозировать категорию сложности запроса и учитывать общие принципы анализа информации. В данном случае выделим важнейшие из них:

1. Сочетание индуктивного и дедуктивного начал при анализе объе ктов. Для аналитика выбор принципиального подхода диктуется запросом.

Казалось бы, что индуктивное мышление – анализ эмпирических данных из текстов – преобладает в аналитической работе, а дедукция значима только на этапе формулировки выводного знания. В практике же работает мыслитель ный маятник – от частного к общему и обратно. Дедуктивный переход анали тик использует всякий раз, когда типизирует факты, когда особенное для объ екта сравнивает с типичным, когда отсеивает случайное в жизни объекта. Пос троение дедуктивной теоретической модели – такую задачу высокого уровня ставят только для аналитика-футуролога. Однако, «случайное» открытие мо жет случиться в жизни каждого аналитика, владельца накопленного знания вне жесткой отраслевой привязки.

2. Независимость профессиональной позиции аналитика. Такая по зиция обеспечивается знанием информационных ресурсов, поиском альтерна тивных источников информации, строгостью технологических схем анализа объекта. Аналитик утратит профессиональный подход, если будет ангажиро ван заказчиком аналитической справки в решении конкретной задачи. В этой связи особого осознания требует фактор ответственности аналитика за качест во обзорной информации.

3. «Самоопровержение» аналитиком выводного знания. Профессио нальный успех аналитика – найти определенную эмпирическую закономер ность среди собранных сведений об объекте. При этом аналитик не должен переступить границу между аналитическим и научным исследованием, т.е.

исследовать сам объект и заниматься поиском доказательств достоверности выявленной тенденции в развитии объекта. Его главной задачей остается по иск альтернативных решений, доведение до пользователя перечня иных точек зрения. Аналитик самостоятельно находит и указывает в аналитической спра вке возможные противоречия и риски. Например, аналитик фиксирует возмо жную угрозу для позитивного сценария: «Предложенные меры позволят пред приятию выйти из кризисной ситуации, если его руководителями сознательно не избран путь мошеннического банкротства». Такой подход является своеоб разным критерием профессионализма в аналитике.

Требования к проектируемой технологии. Анализ информации об объ екте может осуществляться в беззапросной форме, когда аналитик предвидит потребность в обобщении сведений по конкретному вопросу и передает поте нциальным пользователям готовый аналитический продукт. В данном случае мы обсуждаем вопросы проектирования аналитической технологии для режи ма «запрос-ответ», в рамках которого аналитик работает в строго ограничен ных условиях: объект и аспекты его анализа, время выполнения и даже фор ма передачи результатов диктуются запросом или договорными отношени ями с пользователем. Следовательно, проектируемая технология должна отве чать вполне определенным требованиям:

– быть экономичной по временным и ресурсным затратам;

– соответствовать цели и характеру запроса;

– быть достаточно наглядной и воспроизводимой, чтобы ее выполнение могли обеспечить разные участники;

– позволит получать нетривиальную синтезированную информации об объекте.

Категория сложности запросов пользователей. Тип запросов в специа льной литературе определяется характером запрашиваемой информации об объекте: адресные, иные фактографические, библиографические запросы, включая запросы на уточнение сведений о документе.

Вопросом оценки сложности запросов немного занимались информаци онные специалисты и библиографы в 19701980-е гг. (В. И. Грачев, Н. М. Розова, Л. М. Герасимова), но выявленные типы запросов были ориен тированы на проблему поиска информации, разыскания неявных сведений о документе. Так, В. И. Грачев, аспирант, а ныне известный доктор наук, впер вые в стране в 1975 г. разграничил 3 категории сложности запросов: первая категория требует семантического сравнения информации по запросу, вторая – просмотра библиографического описания, аннотации или реферата, третья – простейшая – ограничивается основными элементами описания (автор и за главие) при информационном поиске1.

Грачев В. И. К вопросу об исследовании категории сложности информационных запросов потребителей информации // Проблемы библиографии, библиотековедения, детской литературы. Л.: ЛГИК им. Н. К. Крупской, 1975. С. 8598.

В удивительно интересной, книге, обощающей опыт уникальных библио графов РАН и страны Н. М. Розовой и Л. М. Герасимовой к сложным запросам отнесены те, в которых не просматриваются традиционные пути разыскания документов/данных. Авторы отметили, что особенно трудоемки запросы, вы полняемые в отсутствии читателей: нельзя уточнить, дешифровать запрос, совместно с читателем найти дополнительные поисковые признаки. Значите льную часть этих запросов представляют «отказы» – невыполненные запросы другими библиотеками и информационными центрами1.

Из приведенных в книге примеров можно увидеть широкий круг действи тельно сложных библиографических задач-запросов: расшифровка нестандар тных сокращений в тексте;

идентификация старых книг по отдельным листам без титула – актуальная задача для старых фондов библиотек, при разборке дарственных фондов и архивов;

атрибуция бестекстовых фрагментов изданий (листов карт, планов, альбомов, чертежей, иконографических материалов), которая осуществляется на основе тщательного отбора данных для паспорта признаков с последующим обращением к топонимическим, ономастическим персоналиям, предметным изображениям и т. д.

Cудя по примерам, к числу наиболее сложных относятся запросы ученых гуманитариев, которые часто просят помощи в разыскании публикаций на основе неполных или искаженных ссылок на них. Особенно интересен пред ложенный комплекс приемов поиска по аналогии, введение в поисковый за прос ассоциированных фактографических данных. Библиограф может ока заться «в плену ложных ассоциаций», но ряд сложнейших запросов при точно выбранном направлении реализуются как «блиц-поиск» с одношаговым выхо дом к релевантному библиографическому источнику. Выполнение таких за просов глубокой ретроспекции, требует поиска в массивах малотиражных, ведомственных, архивных материалах, не имеющих машиночитаемых роспи сей, на долгие годы останется одной из сложнейших интеллектуальных задач библиотек.

Особенность подхода к проблеме типизации сложных запросов аналити ческого характера состоит в том, что задача поиска также решается нетипо выми средствами (требует выявления репрезентативного круга источников с определенными ценностными свойствами), но основной акцент должен быть сделан на сравнительном, многоаспектном анализе и синтезе найденных дан ных об объекте. При этом за простой формулировкой запроса может быть скрыто масштабное исследование вопроса с участием опытных библиографов, аналитиков информационных ресурсов. Например, «Достижения отечествен ной математики в 2011 г.», «Фотодиоды: тенденции развития», «Современные молодежные объединения» и т. д.

Розова Н. М., Герасимова Л. М. Традиционный библиографический поиск в библиотеке Российской Академии наук: метод. пособие. СПб.: Б-ка РАН, 1997. 113 c.

При этом категория сложности запроса в нашем случае должна оцени ваться ДО проведения анализа, чтобы была спроектирована убедительная тех нологическая схема анализа. В этой связи предлагается трехтактная оценка категории сложности запроса, включающая три последовательно применен ных критерия:

– Наличие этапа содержательной интерпретации запроса с анализом его предметного поля.

– Количество источников информации и предполагаемых для исполь зования методов анализа информации.

– Необходимость этапа итогового синтезирования полученных данных об объекте.

Для учебных целей вполне достаточным оказалось подразделение запро сов на три категории сложности – локальные, ассоциативные, комплексные (табл. 1). Большая их дифференциация возможна в аналитической практике.

Таблица Категория сложности запроса Категория Примеры запросов сложности запроса Перечень действующих стандартов на библиографическое 1. Локализованные описание электронных документов.

запросы Производители бытовых вентиляторов в Санкт-Петербурге.

Размер налогового сбора на жилую недвижимость в Болгарии.

Обзор рынка биржевой информации в стране.

Новые тенденции в развитии выставочной деятельности для 2. Ассоциативные эксклюзивных товаров.

запросы Причины снижения спроса на офисную недвижимость в Санкт-Петербурге в … г.

Оценка состояния и тенденций развития отечественной науки.

3. Комплексные Новые пищевые добавки: сфера и риски их применения.

запросы Зарубежный опыт продвижения инноваций в промышленности.

Первая категория сложности – локальный запрос – не требует содер жательной интерпретации, ограничен процедурами поиска искомых, чет ко выраженных в запросе сведений в 13 источниках информации. На пример, «Сколько административных районов сейчас в Санкт Петербурге?». Время выполнения локализованных запросов – от неско льких минут до трех часов.

Запросы средней степени сложности требуют от аналитика ассоциа тивного мышления на этапах интерпретации запроса, анализа и синтеза данных;

многоаспектного, расширенного поиска данных об объекте по широкому кругу профильных и смежно профильных регулярных источ ников информации (от 3 до 20). В технологию включается хотя бы один основной и несколько дополнительных методов анализа текстов – от поа спектного, смыслового, казуального анализа текстов, элементов интент анализа до формализованных – частотного, факторного, кластерного ана лиза ключевых слов. Результаты анализа фиксируются в развернутой форме обзорной справки конкретной разновидности, выбранной пользо вателем или аналитиком. Выводное знание формулируется в точном соо тветствии с целью запроса, даются рекомендации по его практическому использованию. Не исключен информационный прогноз по отдельным формализованным индикаторам развития объекта. Выполняются за 17 рабочих дней, либо ежедневно – по часу с еженедельной или ежеме сячной мониторинговой справкой.

Сложные и сверхсложные запросы названы здесь условно «комплек сными». Их выполнение требует от аналитика тщательного анализа пре дметного поля объекта с составлением проблемно-ориентированного ру брикатора, творческого многоэтапного поиска данных в широком круге источников (болем 20), развитого набора индикаторов оценки объекта, составления разноаспектных сравнительных таблиц, анализа оценочных высказываний, составления прогноза или выбора прогнозного сценария.

Их выполнение занимает более 7 дней, чаще всего для этого создается рабочая (проектная) группа аналитиков. Так, в декабре 2011 г. завершен третий этап исследования по гранту РФФИ1. В течение двух месяцев был проведен анализ по теме «Оценка состояния и тенденций развития петер бургской науки». В сборе материала приняли участие студенты 21414 группы библиотечно-информационного факультета2. С их помо щью собраны фактографический и полнотекстовый массива докумен тов/данных по теме за 2011 г. Потребовался комплекс методов для обра ботки собранных данных - частотный анализ полных текстов по теме;

корреляционный, факторный и кластерный анализ частотных словарей;

смысловой поаспектный анализ оценочных высказываний о петербургс кой науке. Впервые в нашей практике был использован метод главных компонент, который позволил в предметном поле выделить устойчивые тенденции в развитии анализируемого объекта.

В выводное знание включается синтезированная, нетривиальная, а также избыточная, потенциально полезная информация об объекте. Ино гда разрабатываются несколько сценариев развития объекта с учетом влияющих факторов. В приложении к справке приводятся сравнительные Грант РФФИ 09-06-00078 «Социологический взгляд на современную отечественную науку (На примере Санкт-Петербурга)», Институт истории естествознания и техники РАН. Науч. рук.: проф. С. А. Кугель.

В сборе и обработке материала активно участвовали студенты 21414 гр.:

Андреева Алена, Петров Кирилл, Пилипенко Рита, Ситникова Ксения, Коптелова Жанна, Ягупова Ольга.

таблицы, список цитируемой литературы, иногда избранные тексты или дайджесты оценочных высказываний.

Средства проектирования. В основе технического проектирования лежат эскиз, чертеж, конструкторская документация, подготовленные с учетом действующих стандартов, технических условий. В техническом проектировании широко используются прикладные программы компью терного проектирования.

При проектировании аналитических технологий основные средства – интеллектуальные, ориентированные на способность проектировщика к методическому алгоритмизированному восприятию профессиональной работы. В их числе формально-логические приемы проектирования – умение сопоставить и соподчинить единичные приемы и процедуры ана лиза информации. Они используются при интерпретации запроса, уточ нении границ объекта, цели и задач аналитического проекта. С их помо щью осуществляется оценка типичного и особенного в запросе, а также логическое соподчинение отдельных процессов.

Содержательное и графическое проектирование технологий включает разнообразные формы фиксации интеллектуальных техноло гий: методика и вербальные алгоритмы (маршрутизаторы), стратегии, сценарии, прогнозы. Для визуализации блок-схем широко применяются графические формы: дерево целей, ресурсов и проблем;

технологическая схема;

организационные диаграммы. В результате даются рекомендации исполнителю по выполнению конкретного типа запросов. При их длите льном использовании блок-схемы составляется должностная инструкция для аналитика – формы фиксации апробированной технологии.

Ресурсы технологического проекта. Обязателен учет имеющихся ресурсов при проектировании аналитической технологии. Особенностью аналитических технологий является четкое планирование информацион ных, интеллектуальных и коммуникативных ресурсов. Именно они сос тавляют основу планирования аналитической технологии. Включен в проектирование технологический и организационный потенциал органи зации, кадровый и мотивационный ресурсы, обеспечивающие качество обзорно-аналитической продукции. Правовой ресурс отражается в проек те как основа соблюдения авторского и смежных прав в обзорно аналитической продукции. Учет демографического и экономического ресурса региона важен для получения повторных запросов для проекти руемой технологии.

Технико-экономическое обоснование проекта. Любой проект тре бует обоснования. Для этого используются временные нормативы в ана литической деятельности, методики для оценки трудозатрат, прямых и косвенных издержек. Проектировщик должен быть ориентирован на снижение издержек в планируемой технологии и подготовку экономиче ски обоснованных типовых схем.

Основные этапы проектирования аналитической технологии.

Специалисты выделяют следующие этапы проектирования социальных технологий: концептуальный, моделирование, конструирование, адапта ция. В аналитической практике более апробированы следующие этапы:

Предпроектная стадия: уточнение объекта и цели проекта по запро сам потребителей информации. Поиск технологий-аналогов, выявление стереотипного и особенного в технологии. Оценка ее востребованности в организации. Выбор участников и соисполнителей, определение сроков предоставления проекта.

Стадия разработки технологической схемы: описание этапов, сопо дчинение интеллектуальных и вспомогательных процессов. Информаци онное моделирование объекта. Апробация отдельных технологических решений. Локализация предметного поля объекта и масштаба использо вания технологии. Технико-экономическое обоснование технологии. Раз работка основной технологической блок-схемы.

Стадия подготовки рабочей документации: локальные и сводные ведомости материальных ресурсов, методические рекомендации или по яснительные записки, должностная инструкция.

В процессе подготовки технологической схемы формируется ключе вая профессиональная компетенция: способность самостоятельно приоб ретать новые знания и умения в области проектирования технологий.

Факторы успеха и риски при проектировании аналитических те хнологий. Главные факторы успеха – накопленные информационные ресурсы по профилю учреждения, финансовая поддержка проекта, ква лифицированные кадры с мотивацией на нововведения, стабильный при ток однотипных запросов. Уникальность и разнообразие запросов на ана литическую информацию предполагают сочетание типовых и специали зированных технологий.

Факторы риска – выбор неадекватных технологий, отсутствие опыта технологических преобразований, пассивная позиция руководителей уч реждения. Особая зона риска – слабая информационная база для анализа объекта. Неструктурированная, латентная и оперативная информация об объекте должна быть включена в технологическую схему сбора и анализа сведений об объекте. Это требует от аналитика креативного отношения к планируемой совокупности информационных ресурсов уже на этапе ин терпретации запроса.

Рассмотрим риски проектирования на конкретном примере локально го запроса – «Информационная реконструкция сценической судьбы опе ры Н. А. Римского-Корсакова «Ночь перед Рождеством»1.

Анализ проведен в январе 2011 г. студенткой 22625 гр. Н. К. Шестопаловой для проверки проектируемой технологии «ретроспективный поаспектный анализ текстов»

Предпроектная стадия. Конкретизирована цель запроса – оценка отношения к опере в ее различных постановках. Выявлена точка рожде ния анализируемого объекта (первая постановка оперы в 1895 г.), опре делен хронологический период сбора материала – 115 лет (до 2010 г.).

Выбран жанр анализируемых материалов об опере – критические мате риалы – опубликованные рецензии и отзывы. Осуществлен поиск фоно вых событий – оперные постановки по мотивам произведений Н. В. Гоголя (оперы Н. Лысенко – 1874 г., П. И. Чайковского – 18741875 гг., Н. А. Римского-Корсакова – 1895 г.).

Определено, что за столь длительный период времени в качестве ос новного метода оптимален поаспектный анализ текстов, позволяющий отбирать информацию в заранее заданных аспектах. Так как в запрос за ложен оценочный аспект (отношение к опере музыкальной критики), то сделан вывод о дополнительных методах анализа оценочных высказыва ний. Для выделения оценочных высказываний включены элементы смы словой фрагментации текстов, интент-анализа, частотного анализа оце нок, а также казуального анализа для выявления отдельных причинно следственных связей.

Оценка востребованности проектируемой аналитической технологии «ретроспективный поаспектный анализ» показал, что преподаватели вуза и студенты самостоятельно восстанавливают историю ведущих исполните лей музыкального произведения при каждом выборе произведения для учебного репертуара, конкурсных и публичных выступлений. Месячный срок выполнения запроса был условно обозначен, так как аналитик парал лельно выполнял иную учебную и профессиональную работу.

Стадия разработки технического проекта. Первичная блок-схема поаспектного анализа текстов носит весьма обобщенный характер трех типовых этапов: Пилотажное исследование: выбор аспектов анализа Составление сравнительных таблиц Обработка данных и вывод ре зультатов анализа.

Затем осуществлены следующие процессы:

– дополнение схемы вспомогательными процессами, – детализация блок-схемы, – обогащение технологии оценочными методами.

В число вспомогательных процессов были внесены: ретроспективный библиографический поиск сведений о публикациях по теме, разыскание и на базе Научной библиотеки Санкт-Петербургской консерватории: Шестопалова Н. К.

Поаспектный информационный анализ текста (по материалам музыковедческих публикаций): диплом. работа / науч. рук. Г. Ф. Гордукалова;

рец. Т. В. Захарчук. СПб.:

СПбГУКИ, 2011. С. 3297.

копирование полных текстов в фондах библиотеки, отбор и оценка реле вантности текстов для анализа.

На разных этапах поаспектного анализа текста используются различ ные приемы и действия аналитика: разметка (фрагментация) текста, изв лечение и формализация информации, анализ тематического поля ключе вых слов, хронологический анализ развития темы, классификация объек тов в пределах предметного поля, частотный анализ ключевых слов, ран жирование данных об объекте, визуализация информации (построение графиков, диаграмм, структурных схем, таблиц).

Уровень детализации блок-схемы зависит от личного опыта анали тика. После многократного использования технологии опытному анали тику достаточно перечислить основные рабочие процессы в алгоритме их реализации. Аналитик-стажер должен получить методическую роспись блок-схемы на естественном языке с фиксацией итоговых форм предста вления информации.

В итоге аналитический модуль станет многоэтапным, но более про дуктивным (рис. 2).

1. Выбора методов анализа 2. Выбор аспектов анализа текстов 3. Реализация поаспектного ретроспективного анализа 4. Интент-анализ текстов 5. Количественный анализ текстов Рис. 2. Блок схема «Модуль 2. Аналитический»

Если детализировать блок-схему для одного метода, то она также достато чно сложна (рис. 3):

1. Пилотажный поаспектный анализ 2. Поаспектный анализ: подготовка сводной таблицы.

3. Анализ авторства и наименований статей.

Выявление сезонности постановок 4. Оценка сценической судьбы оперы, сезонности постановок 5. Синтезирование данных по каждому аспекту анализа высказываний и т.д.

Рис. 3. Фрагмент блок-схемы «Поаспектный анализ»

Естественно, что в блок-схему не включены многие вспомогательные процессы (подготовка и нумерация перечня текстов для анализа, формализа ция и фиксация данных в таблице, и др.). Не отражены также в схеме слабо формализованные интеллектуальные (мыслительные) процессы. Например, размышление об уровне анализа текстов при выборе его аспектов, поиск ре шения при преобразовании таблиц, непростой отбор фрагментов со смешан ными аспектами рассмотрения постановки и др.

На предпроектном этапе была отмечена необходимость использования дополнительных методов для анализа оценочных высказываний – элементы смысловой фрагментации текстов, интент-анализа, частотного анализа оценок, а также казуального анализа для выявления отдельных причинно следственных связей. Они реализуются последовательно, после основного метода. В результате проектирования даже для локального запроса мы имеем весьма развернутую технологическую блок-схему.

Условными обозначениями в ней выделяются этапы, основные и вспомо гательные рабочие процессы, которые указываются в логическом алгоритме их применения. Условные обозначения проектировщик аналитической техно логии избирает самостоятельно, с учетом традиций технического проектиро вания.

Кроме того в итоговую блок-схему вносятся временные нормативы выпо лнения работы, фиксируются формы промежуточных и итоговых результа тов – дайджест оценочных высказываний, сравнительная таблица, корреляци онная матрица, частотный словарь, обзорная справка и т. д. Например, для интент-анализа сначала был составлен дайджест оценочных высказываний в авторской формулировке, который затем был преобразован в наглядную хро нологическую таблицу результатов интент-анализа – кратких оценочных суж дений музыкальных критиков, а также высказанного ими мнения публики (табл. 2).

В обзорную же справку войдут лишь основные выводы. Например:

Наибольшее количество отрицательных суждений относится к XIX веку, положительные распределены равномерно по времени. Современные критики вообще уклоняются от общей оценки оперы.

Музыкальные критики высказывают полярно противоположные сужде ния не только о художественных достоинствах оперы, но и о том, как она была встречена публикой: «никакого успеха» – «крупный успех»;

«слабость музы кального содержания» – «множество превосходных, вдохновенных страниц»;

«опера не удалась ее автору» – «одна из удачнейших опер Римского Корсакова»;

«не имеет отношения к сказке Гоголя» – «безусловно, принадле жит к числу наиболее адекватных Гоголю музыкально-драматических произ ведений». Некоторые из этих суждений (первые две пары) были высказаны примерно в одно время – в 90-е гг. XIX в. и т. д.

При планировании аналитической работы важно оценить примерно бу дущие трудозатраты аналитика, а затем сравнить их с реально затраченным временем. Приведем результаты предпринятого Н. К. Шестопаловой хрономе трирования реальных затрат времени: на ретроанализ информации о столетней жизни оперы потребовалось примерно 40 часов рабочего времени. В том чис ле – на пилотажное исследование – 6 часов, на подготовку сводной таблицы поаспектного анализа – 8 часов, на преобразование таблиц – 5 часов. На про ведение интент-анализа по уже готовой таблице был затрачен 1 час, а для под готовительного количественного анализа кратких текстов (отзывов и рецензий о постановках оперы) 8 часов. Этап синтезирования результатов (интерпрета ция данных, формулировка выводов и рекомендаций) в связи с первым таким опытом занял 11 часов рабочего времени.

Подготовительные работы (поиск полных текстов публикаций, их заказ в фонде библиотеки, копирование и др.) из-за сложности выявления рецензий второй половины XIX в. продолжались в течение 30 часов (без учета техноло гических перерывов и непродуктивно потраченного времени). Таким образом, реализация аналитической технологии по локальному запросу целом, предпо лагает около 70 часов напряженной и интересной работы. Накопление опыта позволит существенно сократить трудозатраты для этапов выбора методов, аспектов анализа, фрагментирования текстов, а также частично упростит про цессы синтезирования данных.

Таблица Результаты интент-анализа критических публикаций о постановках оперы Н. А. Римского-Корсакова «Ночь перед Рождеством»

Положительные Отрицательные прелестная опера (1895) опера не удалась ее автору (1895) крупный успех (1895) в опере мало жизни (1895) внешний успех (1895) публика скучала (1896) прелестная быль-колядка (1898) скучная опера (1896) громадный успех комических эпизодов никакого успеха (1896) (1898) множество превосходных, вдохновенных не имела выдающегося успеха;

(1896) страниц (1898) одна из удачнейших опер Р-К (1938) слабость музыкального содержания (1896) опера, по-настоящему близкая и нужная не имеет отношения к сказке Гоголя народу (1938) (1896) значительность музыкального содержания напыщенность и претенциозность оперы (1938) (1896) отмечена печатью выдающегося мастерства получилось что-то тяжелое, угловатое и (1940) всегда мертвящее. (1896) соединение большой музыки и большой по силе и цельности впечатления уступает литературы (1990) другим операм Р-К (1898) «Ночь».... безусловно, принадлежит к числу «Ночь», конечно же, произведение наиболее адекватных Гоголю музыкально- неровное (1991) драматических произведений. (1991) «Ночь», несомненно, обладает немалой опера уступает другим творениям Р-К самостоятельной ценностью (1991) (1991) На основе итоговой блок-схемы осуществляется расчет необходимых тру дозатрат: к суммированному объему времени для одного исполнителя добав ляется «страховая» доля трудозатрат на непредвиденные обстоятельства – от сутствие полного текста и его дополнительный поиск, необходимость его ска нирования, появление в массиве объемных текстов, консультации у специали стов и др. Случай существующего в документальном потоке, но ненайденного текста обязательно отмечается в подстрочной сноске обзорной справки.

Страховочная часть может составлять от 10 до 30% от планируемого ра бочего времени в зависимости от категории сложности запроса. Сумма рабо чего и страховочного (резервного) времени позволяет оценить время выполне ния запроса (в часах, днях), необходимость в соисполнителях или помощниках для выполнения вспомогательных процессов.

Если запрос выполняется на договорных условиях, то определяется его ценовая характеристика, в которую закладывается себестоимость выполне ния аналитической и вспомогательной работы, дополнительные расходы (оплата доступа к источникам информации, стоимость расходных материалов и др.), НДС и планируемая прибыль исполнителя (дополнительно 520%). Це на аналитического продукта согласовывается с заказчиком на этапе подписа ния договора. Она может существенно варьироваться в зависимости от уника льности аналитического продукта, возрастая на порядок.

Стадия подготовки рабочей документации о проектируемой технологии может ограничиться пояснениями условных обозначений к итоговой блок схеме и методическими рекомендациями ее исполнителю по рискам отдель ных этапов работы. Должностная инструкция аналитика – наиболее свернутая форма управления аналитическим проектом. Составляется она лишь после достаточной апробации и доработки блок-схемы. Важно помнить о том, что проектируемая технология – интеллектуальный потенциал организации, ее коммерческая тайна, а также профессиональный приоритет аналитика.

Сочетание интеллектуальной и машинной технологий. Решение про блемы семантического поиска в сети следует ожидать в массовом использова нии не раньше, чем через 3–5 лет. Оптимизм Тима Бернерса-Ли, его соратни ков и последователей позволяет говорить о столь быстром решении. Подобная ситуация, правда, уже наблюдалась по отношению к машинному переводу.

При благоприятном же стечении обстоятельств задача проектирования анали тических технологий сократится на несколько этапов поиска и отбора интер нет-ресурсов, но всегда будут востребованы этапы согласования поискового предписания, четких условий поиска и отбора и этап интеллектуальной интер претации результатов выполнения сложных запросов. Это предполагает орга ничное сочетание интеллектуальной и машинной аналитических технологий в будущем, а в настоящем – приобретение опыта в грамотном проектировании аналитических технологий.

А. Ю. Копова Бизнес-аналитика:

современный инструментарий, тенденции развития Обзор рыночных и технологических тенденций развития бизнес-аналитики. Выделены тен денции, которые определят развитие бизнес-аналитики в среднесрочной перспективе. Показано расширение рынка программных продуктов для аналитических исследований, появление нового класса информационно-аналитических систем, тесно связанных с общими задачами корпора тивного управления. Определена роль аналитика информационных ресурсов в обеспечении полноты сбора данных о внешнем рынке, ликвидации пробелов в них, отборе индикаторов сле жения за рынком, адаптации программных продуктов к специфике предметного поля, интерпре тации результатов машинной обработки. Для этого аналитику необходимо профессионально владеть современным инструментарием бизнес-аналитики.

Ключевые слова: бизнес, аналитика, информационно-аналитические системы, технология.

Бизнес-аналитика – это сфера профессиональной аналитической деятель ности - специализированное направление анализа информации и развития ана литических технологий, направленное на оптимизацию бизнес-процессов и хозяйственной деятельности предприятия в целом.

Понятие «бизнес-аналитика» трактуют как вольный перевод англоязычно го термина «Business Intelligence – BI», который впервые появился в статье Ханса Луна, опубликованной в IBM Journal в 1958 году. В настоящее время условное сокращение «BI» общепринято в мире, обозначает лишь ту часть бизнес-аналитики, которая обеспечивает разработку и применение технологий анализа бизнес-информации. Всплеск интереса к бизнес-анализу в целом, BI методикам, соответствующим технологиям и программным решениям мы наблюдаем лишь на рубеже XX и нынешнего века.

Причины активного развития бизнес-аналитики. Изменения приори тетов в этой области наглядно демонстрируют осенние конференции Business Intelligence. Их проводит издательство «Открытые системы» совместно с International Data Corporation (IDC) – аналитической фирмой, которая специа лизируется на исследованиях рынка информационных технологий. В ее штате работают более тысячи аналитиков в пятидесяти странах мира. По материалам конференций можно проследить тематическую динамику исследований. Пе реломным оказался 2005 год. Этому способствовал выход бизнеса на новые уровни: крупные компании прочно заняли свои ниши на рынке, наиболее кон курентоспособные фирмы смогли подстроиться под стремительно меняющие ся рыночные условия и своевременно вышли на смежные рынки. Инертные предприятия, которые не анализировали динамичные процессы профильного рынка, утратили свои позиции.

К этому времени во многих организациях были накоплены колоссальные объемы данных о клиентах, поставщиках и партнерах. Эти данные являются ценнейшим активом, поскольку могут служить базой для систем поддержки принятия решений.

Остро встала проблема анализа накопленных массивов данных, чтобы из влекать только ценную и необходимую для бизнеса информацию. Такие инст рументы обработки смогли появиться лишь при наличии на предприятиях быстродействующих корпоративных информационных систем, а информаци онные технологии превратились в ключевой фактор ведения бизнеса. Опера тивный доступ к нужной информации становится одной из стратегических целей предприятий.

Рыночные и технологические тенденции развития бизнес-аналитики.

Специалисты выделяют несколько ключевых тенденций, которые наметились в области бизнес-аналитики за последнее пятилетие и будут определять разви тие этого рыночного сегмента в среднесрочной перспективе. Приведем основ ные тенденции:

1. В сферу BI все активнее проникают идеи SaaS (Software as a Service), охватывающие аналитические приложения, инструментарий интеграции дан ных и собственно информационные сервисы. Соответствующие решения се годня предлагаются либо разрабатываются всеми ведущими поставщиками корпоративного программного обеспечения.

2. Растет популярность решений с открытым кодом. В будущем это мо жет привести к тому, что организации будут использовать смесь из коммерче ских решений и программ с открытым кодом.

3. Процесс принятия решений все чаще начинает основываться на не структурированной или плохо структурированной информации, а это делает крайне востребованными средства ее поиска и преобразования в форму, дос тупную аналитическому инструментарию.

4. Нарождается волна инноваций в области визуального представления информации в аналитических системах, что обещает упростить работу с ними конечных пользователей.

Вместе с тем, в одной из своих публикаций, вышедших весной 2007 г., Найджел Пендс и Карстен Бэндж анализируют 12 «революционных измене ний», которые так и не произошли в индустрии BI. Речь идет об информаци онных системах руководителя, точечных приложениях для создания систем сбалансированных показателей (Balanced Scorecard, BS). Не менее значимы предопределенные модели данных для вертикально-ориентированных анали тических приложений, интеграция средств OLAP1 в ядра СУБД, перенос OLAP (online analytical processing – аналитическая обработка в реальном времени) – технология обработки данных, заключающаяся в подготовке суммарной (агрегированной) информации на основе больших массивов данных, структурированных по многомерному принципу. Термина OLAP предложил Эдгар Кодд в 1993 г. OLAP-структуру принято называть OLAP-куб, который создается из соединения таблиц по схеме звезды или схеме снежинки. В центре схемы находится таблица фактов, по которым делаются запросы. (См. одноименные статьи в Википедии, журналах, на сайтах).

средств бизнес-аналитики в экстранет1, разработка BI-приложений реального времени и ряд других компонентов аналитических систем, которым еще неда вно эксперты пророчили блестящее будущее.

Перспективы развития бизнес-аналитики. Методологическое и функ циональное расширение категории «бизнес-аналитика» привело к тому, что сегодня к аналитическому инструментарию, к которому относятся не только средства извлечения, преобразования и загрузки данных, OLAP-кубы, храни лища данных, инструментальные панели и приложения для генерации отчетов.

Практическая реализация комплексирования данных привела к появлению новых классов аналитических программных продуктов, тесно связанных с общими задачами корпоративного управления.

Современные прикладные модули должны обеспечивать сквозную подде ржку таких процессов управления, как разработка стратегии, планирование, мониторинг результатов, оптимизация и корректировка стратегии, реализация управляющих воздействий.

При разработке стратегии используются средства составления стратегиче ских карт, определения ключевых факторов, влияющих на генерацию допол нительной стоимости, описания ключевых показателей и метрик эффективно сти бизнеса. В процессе планирования необходимы программные средства управления проектами, с помощью которых руководители подразделений мо гли бы детализировать стратегические цели, разрабатывать варианты операти вных планов и программ, определять бюджеты и распределять ресурсы.

Роль аналитика информационных ресурсов в современных техноло гиях. Как и прежде, аналитик обеспечивает полноту сбора данных о внешнем рынке, отвечает за итоговую интерпретацию результатов автоматизированно го процесса обработки данных, отвечает за представленный в системе контент.

Перспективной остается разработка средств коллективной работы для со здания, сбора и консолидации плановых показателей по финансовым и другим аспектам деятельности, средства генерации отчетов, механизмы обработки бизнес-правил, прогнозирования и моделирования процессов. Безусловно, такие программные продукты уже есть на рынке, но они должны стать рабо чим инструментом для сотрудников и аналитиков предприятий разной квали фикации, а не только для нескольких экспертов в области программного обес печения. Лишь в этом случае будет обеспечен непрерывный ввод данных о внешнем рынке.

Мониторинг показателей и анализ результатов мониторинга опирается на инструменты интеграции данных из различных источников и систем, на сред ства консолидации и повышения качества данных, на инструменты многомер Экстранет (расширенная интрасеть) – это защищенная от несанкционированного доступа корпоративная сеть, невидимая для обычных пользователей Интернета, но доступная по кодам авторизации клиентам и партнерам организации.

ного анализа. Аналитик берет на себя ответственность за определение круга источников о внешнем рынке, а это предполагает трудоемкий процесс сравни тельного анализа источников информации.

Наконец, на этапе корректировки стратегии, планов развития организации не обойтись без механизма быстрого реагирования на значимые изменения показателей. В него должны вкладываться граничные условия, виды и спосо бы предупреждений о критических значениях индикаторов, которые будут специфичными для каждой корпоративной системы. Поэтому роль аналитика в адаптации программного обеспечения к предметной области максимальна на этапе его приобретения, апробации, доводки, начального периода работы сис темы, ее последующей модернизации. Следовательно, аналитик должен знать не только возможности современных программных продуктов, но и постоянно осваивать нововведения в них.

Нередко аналитик является первым пользователем корпоративной систе мы, диагностируя ошибки ввода, пробелы в массивах данных.

Среди других технологических тенденций в области бизнес-аналитики эксперты выделяют замену процедур обновления данных, происходящих с заранее определенной периодичностью, на процессы реального времени, распространение функций очистки данных на уровень конечных пользова телей, постепенное стирание границ между отдельными инструментами с интеграцией бизнес-приложений. Повышенное внимание прослеживается также к проблемам эффективного управления метаданными, ключевыми данными и их качеством. Аналитик, понимая значение длинных рядов данных по временному признаку, должен накладывать вето, защищая текс товые и числовые массивы от их мгновенного уничтожения по формаль ному признаку.

Для дальнейшего наблюдения за рынком программного обеспечения, ориентированного на обработку бизнес-информации, важно просматривать материалы конференции «Бизнес-аналитика на современном предприятии:


поддержка управленческих решений, программный инструментарий, инте грация в корпоративные системы», форум по обсуждению проблем бизнес аналитики, а также публикации российского делового портала Tadviser. На данном портале размещены разделы «Информационные технологии», «Аналитика». Полезной является «Карта информатизации бизнеса».

Таким образом, мировой рынок бизнес-аналитики в своем развитии следует целому ряду трендов, главными из которых является упрощение систем для конечных пользователей, но в то же время, развитие интелле ктуальных функций промышленных BI-платформ. Мировой рынок BI систем активно осваивает концепцию мобильности, но адаптация облач ных технологий идет более низким темпами. Значительная часть иннова ций сосредоточена и вокруг решения проблемы обработки больших объ емов данных. Роль аналитика информационных ресурсов состоит в обес печении полноты сбора данных о внешнем рынке, ликвидации пробелов в них, отборе индикаторов слежения за рынком, адаптации программных продуктов к специфике предметного поля, интерпретации результатов машинной обработки. Для этого аналитику необходимо профессионально владеть современным инструментарием бизнес-аналитики.

М. В. Тимина Опыт использования расширенной методики интент-анализа в процессе обучения специалистов информационного профиля Рассмотрена история интент-анализа, содержание метода. Предложены для использова ния два варианта методики. Обосновывается значение расширенной методики в процессе обу чения специалистов информационного профиля. Показаны результаты апробации методики, ра ссчитана доля ошибок и совпадений при выделении интенций в текстах документов. Приведен словарь интенций.

Ключевые слова: методы анализа, интент-анализ, аналитические технологии, словарь ин тенций.

Интент-анализ текста сам по себе является новым методом, находящимся на стыке различных наук: психологии, лингвистики, политологии, семантики.

Конечно, для библиографической практики это тоже новый метод. Главной задачей, которую решает метод, является выявление и анализ авторских инте нций (намерений) в тексте. Этот процесс, пусть проводимый не в полной мере, и не являющийся самоцелью, присутствует в работе библиографа, информа ционного работника.

Первое, с чем читатель имеет дело в любом тексте – это то, о чем го ворится. Это может быть названо интенциональным содержанием автор ского сознания (конкретное воплощение авторского мировидения). Авто рские интенции и творческий акт писателя всегда эмоционально окраше ны. В этом аспекте можно рассматривать любой текст как объективацию авторской эмоциональности.

Интенция (лат. intentio «намерение, замысел») – коммуникативное наме рение говорящего. Термин «интенция» ввели в современную лингвистику по следователи Дж. Остина, одного из создателей теории речевых актов. Как из вестно, Остин предлагает делить речевые акты на три вида: локутивные, илло кутивные и перлокутивные. Задачей нового понятия было достижение более высокой точности в описании иллокуции и иллокутивной функции – второго уровня анализа высказывания1.

Теория речевых актов: Сб. ст. / Сост. и вступ. ст. И. М. Кобозевой и В. З. Демьянкова;

общ. ред. Б. Ю. Городецкого. М.: Прогресс, 1986. 422 с. (Новое в зарубежной лингвистике;

Вып. 17).

Суть метода интент-анализа заключается в выявлении и квалификации ав торских интенций в тексте, дальнейшей их группировке по возможным объек там, оценке и характеристике выявленных интенций по различным шкалам и, наконец, построении выводного знания, в зависимости от цели анализа, в виде таблиц, графиков, диаграмм, ментальных карт (возможны и другие варианты).

Основоположниками интент-анализа в России следует назвать коллектив, сложившийся в Институте психологии Российской академии наук (ИПРАН):

Т. Н. Ушакова, Н. Д. Павлова, В. В. Латынов, В. А. Цепцов, К. И. Алексеев. Их подход подробно рассмотрен в книге «Слово в действии: Интент-анализ поли тического дискурса» и оценивается авторами как психосемантический1.

При разработке расширенной методики интент-анализа для библиографов и информационных работников за основу была взята методика Т. Н. Ушаковой и Н. Д. Павловой. Особое внимание при разработке было уде лено объяснению сути и методики квалификации интенций, в связи со слож ностью этого процесса. Во-первых, проводилась необходимая минимальная теоретическая подготовка с целью объяснить особенности и задачи интент анализа, его отличие от других методов. Во-вторых, в самом задании приводи лись примеры квалификации интенций и основные принципы их выделения.

В-третьих, испытуемым предлагался примерный словарь интенций.

Опытная проверка методики интент-анализа проводилась в течение 2010–2011 года, и в это время сама методика, формулировка заданий не значительно изменялась для того, чтобы стать более понятной для испы туемых, чтобы натолкнуть их на определенные мысли. К примеру, был расширен список вопросов, на которые в ходе испытания должны были ответить студенты, было добавлено большее количество примеров для наглядности объяснения.

Самый сложный и спорный момент в общенаучной методике интент анализа – это квалификация интенций. Для того, чтобы грамотно класси фицировать интенции текста, необходимо, в первую очередь, иметь определенный опыт работы с текстами, а также некоторую долю профес сиональной интуиции. Одной из особенностей методики является то, что для каждого отдельного массива информации (жанра текстов или опре деленной выборки) необходимы разные словари интенций. Это также является пробельной точкой методики, так как на данный момент в раз ных отраслях разработаны только несколько словарей интенций:

– словарь интенций для анализа предвыборных выступлений, раз работанный Т. Н. Ушаковой, Н. Д. Павловой и другими2;

Слово в действии: Интент-анализ политического дискурса / Под ред.

Т. Н. Ушаковой, Н. Д. Павловой;

Рос. акад. наук, Ин-т психологии. СПб.: Алетейя, 2000.

314 с.

Там же.

– словарь И. Дзялошинского для анализа степени толерантности региональных и федеральных СМИ1;

– словарь Е. И. Кирилловой для анализа психотерапевтических сессий2.

Для интент-анализа характерна вариативность, и это объясняет то, что в зависимости от цели анализа и характера документов для анализа применяют ся различные словари интенций. Из этого утверждения следует необходимость составления словаря интенций для справочно-библиографической работы. В ходе проведения эксперимента одной из первых задач значилось составление такого словаря.

Словарь интенций для информационных работников был составлен на ос нове всех работ испытуемых. В ходе эксперимента испытуемым предлагались только несколько вариантов возможных названий интенций с предложением самостоятельно означить присутствующие в тексте интенции. После, в ходе анализа работ, была составлена сводная таблица всех использованных испыту емыми интенций, затем она была сокращена. При помощи словарей синони мов интенции собирались в кластеры, затем выбиралось наиболее общее поня тие для словаря. По итогам этой работы был составлен словарь интенций для информационных работников, в котором представлено 36 интенций. Они бы ли распределены в 4 группы по признаку «характер эмоции», характеризую щей намерение автора или читателя, потребителя информации (табл. 1).

Названные интенции обнаружены студентами в анализируемых текстах, одобрены экспертами. Интенции взаимосвязаны, достаточно динамичны, имеют жанровую специфику по признакам выражения. Группы могут детали зироваться, пополняться, уточняться под тип ситуации и цели интент-анализа.

Они наделяются лингвистическими признаками – ключевыми и служебными словами, междометиями, и даже паузами в устной беседе с читателем, или оценочным замалчиванием значимого компонента по теме в тексте документа, его названии.

Из их числа формируются группы интенций, тесно связанные с запросом.

Например: оценивается отношение автора текста к событию. В этом случае может быть достаточным фиксация признаков сочувствия, оправдания или скрытого обвинения.

Опытная проверка расширенной методики интент-анализа велась в груп пах студентов 2-5 курсов Санкт-Петербургского государственного универси тета культуры и искусств. Временная норма на выполнение анализа одного Социальное насилие и толерантность: реальность и медиа-образы: [Электронный ресурс] / И. Дзялошинский, Независимый институт коммуникативистики. Режим доступа: http://www.dzyalosh.ru.

Кириллова Е. И. Психологический анализ психотерапевтической речи: на материале текста диалога психотерапевтической сессии К. Роджерса с Джен:

[Электронный ресурс]. Режим доступа: http://tinyurl.com.

текста объемом 3000–4500 знаков от 60 до 90 минут в зависимости от уровня подготовленности.

Оценка результатов опытной проверки методики велась в двух направле ниях: выявление ошибок в сравнении с авторским опытным вариантом, подс чет процента совпадений.

Таблица Таксономия интенций Сильная Неопределенная, Сильная Сильная критическая неуверенная пессимистическая позитивная эмоция эмоция в (стохастическая) эмоция в намерении в намерении автора намерении эмоция в намерении автора или или потребителя автора или автора или потребителя информации потребителя потребителя информации информации информации Оправдание Сарказм Замалчивание Добрая ирония Восхищение Злорадство Отрицание Сочувствие Одобрение Открытое Предопределенность Скрытое обвинение обвинение Надежда Дискредитация Обреченность Тревога (подрыв (неопределенность) авторитета) Оптимистический Негативная Пессимистический Предупреждение (о прогноз оценка (критика) прогноз последствиях) Удивление (+) Разоблачение Подозрение Презрение Разочарование Побуждение к Удивление (-) Побуждение к Недовольство действию негативному (рекомендация) действию (рекомендация) Вера Сомнение Скрытая критика Равнодушие Привлечение внимания (рассуждение) Успокоение аудитории Смирение Слабая сторона интент-анализа в том, что он несет на себе отпечаток субъективизма, избавиться от которого представляется сложным до тех пор, пока в методике присутствует человеческий фактор. С другой сто роны, важно понимать, что интент-анализ дает уникальные результаты, которые находятся в интуитивном согласии с пониманием текста челове ком. Будучи изначально таким же читателем, как и другие, эксперт сна чала воспринимает текст, после чего «раскладывает» процесс его воспри ятия и анализирует, а затем фиксирует те эмоции, которые вызывает текст.


Субъективность методики интент-анализа также приводит к необходимо сти создания множества словарей интенций и большого количества вариаций представления выводного знания, а это усложняет процесс унификации мето дики.

В ходе анализа работ подсчитывалось количество интенций в каждой ра боте, общее количество выделенных интенций у испытуемых и у автора мето дики, количество всех трех видов ошибок, а затем подсчитывался процент ошибок (относительно общего количества интенций, выделенных испытуе мыми, а также относительно интенций, выделенных автором методики).

Таблица Процент ошибок и совпадений в результатах испытуемых Полное Формальны Интерпретаци Смысловы Лишни совпаден Всего е и е е ие Кол-во 310 56 129 14 26 (11, ) % 57,94 10,47 24,11 2,62 4,86 %к эксперт. 37,08 6,7 15,43 1,67 3,12 (836) В результате профессиональной оценки методики были получены некото рые рекомендации, в частности, рекомендация создать дополнительную эксп ресс-методику интент-анализа в связи с нехваткой времени у практикующего библиографа для расширенной методики, выделить возможные сферы исполь зования экспресс-методики в работе публичных библиотек.

Необходимо внести коррективы в методику, так как в ней присутствует избыточность для практики справочно-библиографической работы. Задание для эксперимента было запланировано на два академических часа (90 минут), но группа начинающих не всегда успевала выполнить работу в срок, около 30% студентов требовалось дополнительное время, по оценкам исполнителей еще около получаса. Экспериментальным путем выявлен примерный норма тив на средний текст объемом 3000–4500 знаков – 60 минут для опытной гру ппы, 90–120 минут для начинающих.

Разработанная экспресс-методика удобна для быстрого анализа текстов, она менее трудоемка, чем расширенный вариант интент-анализа, но охватыва ет те же уровни текста. Основные принципы методики экспресс-анализа:

Условное разделение текста на логический и интенциональный планы.

Использование метода смысловой вилки для наглядного представления информации. Этот двухаспектный метод удобен, поскольку он упрощает ме тодику до обозримого уровня, но в то же время отражает необходимые сторо ны текста для его освоения.

Определение абзаца как единицы анализа. Абзац обычно состоит из груп пы предложений, которые передают достаточно самостоятельный отрезок мысли и характеризуются определенными структурными закономерностями.

Примем, что автор текста использует абзац для выделения ограниченного по смыслу и интенции отрезка текста.

Экспресс-методика носит пока наиболее общий характер и может разви ваться в следующих направлениях:

– при определении ключевых предметных рубрик – для анализа библиографических описаний – для анализа полного текста.

При дальнейшем развитии экспресс-методики интент-анализа, возможно, будут меняться инструменты работы, сокращаться время, потраченное специ алистами, будут составляться новые словари интенций, а также возможно раз витие интент-анализа для анализа устной речи.

Интент-анализ, являясь одной из разновидностей содержательного анали за, может быть полезен во всех направлениях библиографической деятельнос ти (библиографирование, обслуживание читателей), а также на всех этапах выполнения запросов читателей в процессе их справочно-библиографического обслуживания, а также в справочной работе библиотек на всех этапах обслу живания читателей. Это основные области применения данного метода в биб лиографической деятельности. Цель его использования – повысить качество отбора документов в увеличивающемся потоке информации. Не стоит также забывать о применении метода в работы с электронными документами. Со храняя свою главную функцию повышения качества отбора информации, ин тент-анализ может быть применен в составлении путеводителей по интернет ресурсам.

К. В. Нефедьева Инфографика - визуализация данных в аналитической деятельности Рассмотрены общенаучные и специальные средства визуализации данных, их использо вание в библиографии, информационной аналитике. Показан опыт и проблемы применения средств визуализации в аналитической деятельности – специализация под конкретные аналити ческие задачи, адаптация пользователей к восприятию используемых форм представления дан ных, освоение аналитиком современных пакетов программ для информационного моделирова ния объектов. Впервые предложено обозначать формы свертывания семантической информа ции как целостную область знания – инфография, а средства образно-графического отображе ния данных - инфографика.

Ключевые слова: Визуализация знания, инфография, инфографика, аналитическая деяте льность, библиография, информационное моделирование.

В процессе научной коммуникации возникает проблема возможности предоставления информации, понятной широкому кругу исследователей.

В процессе экспоненциального роста документального потока возрастает пот ребность в свертывании текста, наглядности, целостности отображения смыс ла высказываний, компактного обобщения данных.

Возможности инфографики. Предлагается обозначать формы свертывания семантической информации как целостную область знания – инфография, в рамках которой рассматривать средства образно-графического отображения данных – инфографику.

Инфографика – новый, эффективный способ, который позволяет донести информацию, данные и знания посредством визуальных образов. Этот инст румент особенно хорошо работает там, где необходимо:

– показать устройство или алгоритм работы чего-либо;

– отобразить соотношение предметов или фактов во времени и про странстве;

– продемонстрировать тенденцию развития объекта;

– компактно раскрыть составные части сложного явления;

– организовать большие объемы информации.

Нередко графические формы дополняют текстовую информацию, шире охватывают тему, содержит некоторые пояснения к авторскому высказыванию.

Стремление представить значимую для потребителей информацию с по мощью яркого, запоминающегося образа можно проследить во всей истории земной цивилизации. Исторически первой формой визуализации были наска льные рисунки, затем – планы, схемы, карты. Образной по своему характеру остается иероглифическая письменность. Для ряда отраслей знания (химия, математика, программирование, география и др.) созданы собственные систе мы условных обозначений, которые понятны всем специалистам и с успехом заменяют длинные текстовые разъяснения.

Профессиональное применение инфографии. В библиографии широко используется система разделительных знаков, позволяющая различать элемен ты библиографического описания без дополнительных пояснений. Междуна родными являются коды нескольких библиотечно-библиографических клас сификаций. Аналитик информационных ресурсов свертывает избыточную информацию с помощью сравнительных таблиц, графиков, диаграмм, карт связей между понятиями и анализируемыми явлениями, включая авторов пуб ликаций, организаций-разработчиков, структурных составляющих и др.

Кластеры связей, карты науки, рубрикаторы и онтологии – результат дол говременного поиска форм свертывания социальной информации. Все искус ственно созданные информационно-поисковые языки сложились в результате их длительного развития в рамках библиографии, затем – информатики. При мером могут служить сводные таблицы, диаграммы и карты Н. М. Лисовского, составленные в 1895–1914 гг. на основе его библиографического указателя, который включал сведения о 2883 журналах и продолжающихся изданиях.

Они раскрывали становление русской периодической печати за 200 лет, были представлены на международной книжной выставке и высоко оценивались современниками.

Свою современную и массовую форму инфографика стала обретать, бла годаря вытеснению текста в отдельных жанрах публикаций, в частности в пе риодических изданиях. Так, активное использование рисунков вместо обшир ных текстов привнесла газета USA Today, выходящая с 1982 г. Новая ежедне вная газета стремилась предоставить обобщенный, красочный и быстрый об зор новостей, активно используя элементы визуализации. Согласно проводи мым исследованиям, уже тогда читатели начали отдавать предпочтение хоро шей инфографике в сочетании с короткими блоками информации, а не обыч ным глубоким многополосным материалам. Успех издания у читателей благо приятствовал быстрому распространение инфографики в США. С конца 80-х годов инфографические средства стали широко использовать ведущие европейские издания. В начале 90-х возникают специализированные агентст ва, например, британское Graphic News, а мировые информационные агентст ва (AP, Reuters, AFP и др.) создают специализированные службы. Сегодня в Европе и Северной Америке большая часть общенациональных изданий и маленьких газет применяют информационные рисунки. В сети Интернет сразу же была заложена динамичная система условных обозначений в виде иконок, условных сокращений, графических символов, которые обозначают даже эмо ции и понятны пользователям Интернет-ресурсов.

Помимо СМИ, средства инфографики нашли широкое применение в со вершенно разных областях: науке, статистике, бизнесе, аналитике, маркетинге, в системах обучения. Наглядное представление информации, считается ориги нальным и привлекательным решением для отчетов компаний и презентаций, учебников и инструкций.

Успех объясняется тем, что визуализация позволяет установить связь чув ственного опыта, описывающего реальность в деталях, и теоретических зна ний, упорядочивающих сущность. Всплеск интереса к визуализации инфор мации привел к тому, что к теме подключилось огромное число людей, что, в свою очередь, привело к множеству новых проектов и росту свежих новаторс ких идей в отображении и свертывании информации. В частности, сейчас еже годно проводится международный конкурс аналитиков по визуализации зна ния, созданы специализированные сайты по инфографике1. В СПбГУКИ про блема профессиональной визуализации данных разрабатывается с 1991 г.2, студентами был создан первый сайт в русскоязычном Интернете «Визуализа ция научного знания» на основе работы одноименного семинара аспирантов и студентов в 2000–2005 гг.

Как и в любой развивающейся области, в инфографике сложились раз личные позиции, которые, как правило, объясняются разными целями визуа лизации. Так, началось противостояние между авторами, которые ставят на первое место функциональность, и теми, которые предпочитают главным в визуализации красоту и эстетику. В этой связи Мануэль Лим предложил раз делить сферу инфографики на визуализацию информации и информационное искусство. Однако, несмотря на явную логику в делении, эти направления вза имопроникаемы, потому что цель и аудитория определяют наполнение изоб ражения. Они же диктуют выбор типа сравнения данных.

Визуализация результатов сравнения данных. Для информационной аналитики важна именно эта область инфографики, так как профессионально аналитик находится в переплетении многоаспектных сравнений данных разно го рода.

Любой аспект данных может быть выражен одним из пяти видов сравне ния. Наиболее распространенный – временной аспект, показывает развитие объекта (индикатор возрастает, снижается, колеблется или остается неизмен ным) в определенных хронологических границах.

Покомпонентный аспект позволяет сравнить каждый компонент в про центах от некоего общего целого.

Варик К. Выбор диаграммы: шаг 2. Сравнение. [Электронный ресурс]. Электрон.

дан. Режим доступа: http://www.vmethods.ru. Загл. с экрана. [Дата просмотра 17 сентября 2012 г.];

Ветров Ю. Визуализация данных: классификация [Электронный ресурс].

Электрон. дан. Режим доступа: http://experiment.ru.

Гордукалова Г. Ф. Изображение как новый способ формализации данных о развитии документального потока // Библиотека – информатизация – наука: тез.докл. и сообщ.республ.научн.конф.: 8–10 октября 1991 г., Киев. Ч. II. Киев, 1991. С. 7–9;

Гордукалова Г. Ф. Визуализация знания: прошлое и будущее // Мир гуманитарной культуры академика Д. С. Лихачева: Международные Лихачевские научные чтения 24– 25 мая 2001 г. СПб., 2001. С. 73–76 и др.

Изобразить соотношение данных между собой возможно с помощью по зиционного сравнения, а их зависимость между собой – на основе корреляци онных методов. Попадание объектов в определенные интервалы отображается с помощью частотного сравнения.

Средства визуализации данных. Инфографика может быть представле на в разных формах. Это матрицы, карты, иллюстрации, графики и диаграм мы. Последние делятся на диаграммы сравнения, структурные, карты визуали зации процесса, времени и связей.

Аналитик широко применяет общенаучные формы свертывания данных.

В частности, диаграммы сравнения, которые показывают соотношения набора данных. Во многих случаях строятся вокруг осей. Таковыми могут быть стол бцовая, круговая, кольцевая, лепестковая, тепловая. К ним относится и сугубо информационные отображения – облако тегов, которое позволяет сравнить ключевые слова или фразы внутри текста, задавая каждому размер шрифта.

Показать структуру набора данных и взаимосвязи между объектами поз воляет структурная диаграмма. К этому виду относятся диаграмма Венна Эйлера, формализованная, а также изображенная в виде дерева или менталь ной карты (mind-maps). Последние две показывают иерархию набора данных, где элементы являются родительскими или дочерними по отношению друг к другу. Но первая выстраивается в виде соединенных линиями узлов, как пра вило, сверху вниз, а вторая имеет центрическое строение – от ключевого поня тия отходит один или несколько дочерних элементов. Узел обычно отображае тся кругом или прямоугольником. Например, карта сайта, связи между цити руемыми и цитирующими авторами по признакам частоты социтирования и библиографического сочетания.

Визуализировать процесс, показать последовательность действий и коли чество сценариев развития событий помогут циклическая, блок-схемы (фор мализованные и неформализованные) и диаграмма Сэнки. Шаги процесса, который содержит набор повторяющихся действий, циклическая диаграмма отображает в виде кольца, которое образуют соединенные стрелками шаги.

Начало и окончание процесса – входящей и выходящей из круга стрелками.

Блок-схемы показывают процесс, в виде связанных друг с другом однонаправ ленными стрелками блоков. Диаграмма Сэнки показывает ключевые шаги процесса и интенсивность его протекания на каждом из участков, изображает ся в виде соединяющихся и разветвляющихся линий разной толщины (в зави симости от величины параметра).

Для аналитика блок-схема технологии анализа является основным средст вом, поскольку разрабатывается или продумывается исполнителем при выпо лнении любого запроса. Кроме того, блок-схемы процессов аналитик широко применяет при выполнении логистических обследований информационных потоков предприятия. Он отображает с помощью блок-схем реальное движе ние потока информации, а также проектирует наиболее эффективную схему движения, обработки и использования информации.

Разновидность диаграмм времени представлена временной шкалой и диа граммой Ганта, которая отображает последовательность, длительность, начало и окончание этапов и проекта, в виде одного или нескольких каскадов. Отоб разить множество связей внутри набора данных можно с помощью круговых, линейных диаграмм, связей на карте или дендрограмм.

Данные, зависимые от географии или архитектуры некого объекта изоб ражаются в виде карт: географических, фотографических, дорожных, темати ческих, картограмм или архитектурных планов. Сопоставить между собой значения внутри набора данных в виде таблицы позволяют матрицы.

Неформализованным и самым привлекательным способом передачи ин формации являются наглядные изображения результатов анализа, когда про цесс поэтапно описывается при помощи картинок. Аналитик все чаще прибе гает к этой форме визуализации данных, чтобы наглядно подтвердить выяв ленные тенденции в развитии объекта, а главное – упростить процесс восприя тия сложного аналитического текста для потребителя.

Визуализировать информацию возможно и в трехмерном пространстве при помощи 3-D графики. Можно создать стереоскопическое изображение, создающее иллюзию объемности, и динамическое, которое может быть созда но при помощи стереоскопии или анимации.

Таким образом, аналитик информационных ресурсов располагает широ ким арсеналом общенаучных и специальных средств визуализации выводного знания. Остаются нерешенными проблемы их специализации под конкретные аналитические задачи, адаптации пользователей и освоения аналитиком сов ременных пакетов программ для информационного моделирования объектов.

Раздел Прикладная аналитика Т. В. Захарчук Библиометрические подходы к идентификации научных школ Обсуждается вопрос о методике идентификации научных школ. Рассмотрены известные подходы и методические средства распознавания научной школы. Выделены особенности науч ных школ в разных областях деятельности. Определен набор ключевых признаков научной шко лы. Анализ ссылок в диссертациях предложено рассматривать как основной идентификатор свя зи «учитель – ученик». Эти данные должны дополняться показателями соавторства, цитирова ния и благодарностей в других источниках.

Ключевые слова: библиометрия, научная школа, признаки, идентификация, методы, цити рование, диссертации.

Идентификация научных школ (неформальных научных коллективов) яв ляется чрезвычайно сложной задачей. Проблемы идентификации состава нау чной школы рассматриваются в науковедческой литературе с 1970-х гг. Боль шинство этих публикаций посвящены идентификации состава научной шко лы. Однако, на наш взгляд, не менее важной для установления статуса научной школы становится и идентификация ее признаков. Следовательно, когда мы говорим об идентификации научной школы, необходимо иметь в виду возмо жность идентификации как ее признаков, так и персонального состава.

В настоящее время известны два основных подхода к идентификации и характеристике деятельности научных школ. Первый – историко научный подход основан на глубоком изучении большого числа архив ных и опубликованных материалов, подробном интервьюировании отде льных ученых. Результат таких исследований – монографическое описа ние деятельности школ. Этот путь отличается значительной трудоемкос тью. Видимо, поэтому к настоящему времени известно сравнительно не большое число подобных описаний, в основном научных школ «первой величины» (например, описание школ А. Ф. Иоффе, Л. Д. Ландау, Н. Бора и т. п.). Для широкого сравнительного изучения научных школ вузов, которых немало, подобный путь не всегда приемлем.



Pages:     | 1 | 2 || 4 | 5 |   ...   | 7 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.