авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 |   ...   | 2 | 3 || 5 | 6 |   ...   | 7 |

«Каменистые тропы науки - это горы литературы, уступы книг, которые нужно прочесть, усвоить. Но книги - это путеводитель, по которому можно ориентироваться на дорогах науки. ...»

-- [ Страница 4 ] --

Определяя общий алгоритм порождения текстов, и с­ следователи отмечают, что его можно рассматривать как не­ которую диспозицию, т.е. процедуру, где на каждом шагу предусмотрены различные возможности выбора предложе­ ния и указаны критерии, по которым определяется резуль­ тат. Все больше ученых-лингвистов приходит к выводу, что такие процедуры не могут представлять собой жесткую по­ следовательность операций, а непременно должны включать вероятностные переходы, в ходе которых совершается от­ бор одного из возможных путей продолжения процесса по­ рождения [159, с. 121]. Среди лингвистов нет единого мне­ ния о значимости вероятностных факторов для лингвисти­ ческих единиц разных уровней. Часть из них считает эти факторы значимыми лиш ь для лексического уровня [205, с. 57], другие же предполагают, что вероятностные факто­ ры столь же существенны и на более длинных текстовых це­ почках.

Ввиду отсутствия лингвистических работ, исследующих синтаксические правила следования предложений друг за другом в связном тексте, нет и явных правил, определяю­ щих роль детерминированных и вероятностных факторов порождения на синтаксическом уровне. Лингвисты все чаще приходят к мысли, что автор текста не оперирует отдель­ ным предложением, а оперирует некоторыми единицами (высказыванием, сверхфразовым единством, абзацем), по­ рядок следования которых отражает структуру той внеязы ковой ситуации, которая описана в тексте. Значительная роль отводится и внутриязыковым факторам: из определен­ ного числа языковых единиц, описывающих тот или иной фрагмент действительности;

при синтезе выбирается та, Глава 3. Системы обработки связных текстов которая прочнее утвердилась в нормах общения людей [256, с. 53;

343, с. 83-124].

Явных, четко сформулированных высказываний о линг­ вистических процессах порождения текстов нет. Например, С.Д. Кацнельсон по этому поводу пишет так: «Порождаю­ щий процесс начинается с определения темы и стратегии сообщения... Выработка плана и стратегии сообщения не всегда принимает осознанный характер. Наблюдая речь мно­ гих людей, можно заметить в ней ненужные повторы, не­ последовательность и сбивчивость мысли, незаконченные фрагменты, перескакивание с одной темы на другую и т.д.

При всем этом имплицитно в любой речи имеется план и стратегия изложения... В процессе порождения речи мож­ но выделить три основных ступени: речеосмыслительную (или семантическую), лексико-морфологическую и фоно­ логическую. Первая ступень охватывает все собственно се­ мантические процессы, начиная с квантования элементов сознания (знаний) на отдельные пропозиции и кончая фор­ мированием глубинных семантико-синтаксических струк­ тур.

На второй ступени совершаются процессы отбора лек­ сических единиц и грамматических форм, опосредствующие переход от семантико-синтаксических структур предшеству­ ющей ступени к конкретным предложениям... Каждая сту­ пень характеризуется своими особыми структурными еди­ ницами и механизмами порождения. В некотором смысле можно утверждать, что каждая ступень имеет свой словарь (т.е. набор дискретных элементов), свой синтаксис (меха­ низм преобразования структур одного порядка в структу­ ры другого порядка). На первой ступени в ф ункции диск­ ретных единиц выступают представления и понятия, а в функции порождающих механизмов - структуры содер­ жательной валентности. На второй ступени им на смену при­ ходят лексемы и механизмы формальной валентности...» [159, с. 121].

Также мало известно о механизмах выбора слов в про­ цессе порождения высказываний. Практически единоглас­ но лингвисты делят все слова текста на две группы: группу 140 Основы искусственного интеллекта для лингвистов «несомых» слов или слов «содержания» и группу «несущих»

слов или слов «выражения» [301, с. 44]. Исследуя наполня­ емость синтаксических конструкций словами содержания, лингвисты отмечают, что выбор того или иного слова осу­ ществляется по логической программе, определенной за­ мыслом высказывания, с учетом частоты элемента, степени интенсивности его связи с другими элементами, входящи­ ми в порождаемое предложение.

Процедура выбора слова подробно описана в работах [205, с. 198-205;

256, с. 134-143;

274, с. 22-26]. Суть ее сво­ дится к следующему. Поиск слова производится поэтапно, при этом критерии отбора на разных этапах могут быть раз­ ными. Например, на первом этапе определяются те наибо­ лее крупные группы слов, в которых осуществляется поиск.

Основной критерий здесь - семантико-грамматический, он определяется функцией слова в конструируемом предложе­ нии. Так,- если заполняется позиция подлежащего или до­ полнения, поиск идет в зоне имен существительных или ме­ стоимений. Если осуществляется поиск сказуемого, про­ сматривается массив глаголов. П ри поиске определения какого-то слова анализируются группы имен прилагатель­ ных, причастий, порядковых числительных и т.д.

Но массивы имен существительных, глаголов, имен при­ лагательных и т.п. содержат тысячи и десятки тысяч еди­ ниц. Поэтому в структуре конструируемого высказывания должны быть какие-то дополнительные признаки, сужаю­ щие зону поиска. Например, должен быть указан семанти­ ческий подкласс, к которому относится искомое имя суще­ ствительное. Тогда придется уже искать, например, в гораздо малочисленной зоне имен существительных одушевленных, или имен существительных, обозначающих явления приро­ ды, и т.п. Аналогично семантический критерий может зна­ чительно сузить зоны поиска глаголов, имен прилагатель­ ных, причастий и т.д. И, наконец, выбор слова в мельчайших группах производится с учетом вероятности употребления слова в той или иной предметной области. Это, однако, не означает, что обязательно выбирается самое вероятное, са­ Глава 3. Системы обработки связных текстов мое употребительное слово из всех возможных. Наиболее вероятное слово берется лишь в том случае, если оно удов­ летворяет другим факторам, регулирующим его выбор. В исследовании [135] сделана попытка синтезировать эти дан­ ные в рамках вероятностно-алгоритмической модели по­ рождения текста.

Таким образом, анализ точек зрения современной линг­ вистики на проблему организации содержания текста по­ казывает, что в общих чертах подтверждается рассмотрен­ ная выше психолингвистическая модель порождения выска­ зывания.

3.5. Системы порождения прозаических текстов 3.5.1. Подходы к порождению прозаических текстов 3.5.1.1. Обшие понятия Известны достаточно подробные обзоры и анализ под­ ходов к порождению текстов различных языков [140;

313;

329;

330;

399;

401]. В рамках данной работы нет возможно­ сти детально рассмотреть предлагаемые идеи и концепции.

Кратко проанализируем идеи о порождении высказываний, состоящих из одного предложения, отдельного абзаца и не­ больших текстов различного вида.

Прежде чем охарактеризовать существующие подходы к порождению текстов и реализующие их компьютерные си­ стемы, отметим основные составляющие таких систем:

• базу знаний системы;

• алгоритм порождения текста.

Содержание базы знаний систем порождения зависит от цели создания таких систем. Она может включать и некото­ рое множество букв или слов, и определенные синтаксиче­ 142 Основы искусственного интеллекта для лингвистов ские и/или семантические части текстов (предложения, абза­ цы, строфы и т.п.), а также ряд других специальных тексто­ вых образований [105, с. 379;

312, с. 162-164;

156;

447].

Алгоритм порождения представляет собой последователь­ ность правил, позволяющих, используя базу знаний, стро­ ить некоторый текст. Как отмечалось выше, правила могут быть жесткими, строго детерминированными, например, оп­ ределяемыми заранее заданными структурами предложений, и случайными, например, при выборе для определенной по­ зиции предложения некоторого имени существительного с признаком «одушевленное лицо». В более сложных систе­ мах могут использоваться комбинированные правила, учи­ тывающие детерминированные и случайные аспекты тек стообразования. Рассмотрим подробнее некоторые из реа­ лизованных на компьютере систем порождения небольших по размеру текстов.

3.5.1.2. Порождение единиц текста - предложений и абзацев Первые опыты по порождению языковых единиц с по­ мощью компьютера проводились над отдельными предло­ жениями. Одна из таких программ основывалась на лингви­ стическом анализе 50 предложений из «Повестей Белкина»

А. С. Пушкина. Были изучены структуры этих предложений.

Знаменательные классы слов были разделены на семанти­ ческие подклассы: выделено 33 подкласса имен существи­ тельных, 29 подклассов имен прилагательных, 7 подклассов наречий и т.п. Для каждого глагола, входившего в состав сло­ варя исходных 50 предложений, указывались классы имен су­ ществительных, которые могут выступать в роли подлежа­ щих и дополнений. Для имен существительных указывались согласуемые классы имен прилагательных и наречий.

Алгоритм порождения в более общем виде можно опи­ сать так. Случайным образом (наугад, по датчику случай­ ных чисел) выбиралась одна из возможных синтаксических Глава 3. Системы обработки связных текстов схем предложения, зафиксированная в 50 изученных фра­ зах. Затем опять наугад из словаря в эту синтаксическую схе­ му подставлялся глагол. В зависимости от его семантиче­ ского подкласса выбирались имена существительные для за­ пол н ен и я п о зи ц и й подлеж ащ его и д оп ол н ен и я. Затем исходя из семантического подкласса имен существительных выбирались имена прилагательные и причастия с опреде­ ленными семантическими признаками и т.д. В заключение проводилось морфологическое оформление выбранных слов суффиксами и окончаниями в зависимости от числа и лица подлежащего, времени глагола и т.д. В итоге компьютером были порождены такие предложения: «Вы будете беспоко­ ить ваших стариков», «В самом деле я не ошибаюсь», «Мы, заметя старого и решительного сына, найдем твоих прапор­ щиков» [117].

Н есколько иной подход к порождению предлож ений представлен в работе [156].

Более сложным текстовым образованием является абзац.

Так, в представленной в работе [447] программе для созда­ ния этой структуры использовался словарь из 550 русских слов, грамматика русского языка, заданная в виде возмож­ ных синтаксических схем предложений, и сведения о со­ вместной встречаемости слов. Причем слова, включенные в словарь, были разделены на 74 семантических подкласса.

При синтезе текста в соответствии с одной из возможных структур предложений путем заполнения ее словами стро­ илось первое предложение. Затем с учетом структуры пер­ вого предложения отбиралась и заполнялась структура сле­ дующего предложения и т.д.

Другой подход к синтезу абзаца связан с использовани­ ем так называемых риторических предикатов [140;

124]. Вы­ деляют несколько десятков таких предикатов, например:

• атрибуция («У меня есть новый справочник»);

• эквивалентность («Этот метод аналогичен классичес­ кому»);

• аналогия («Коктейль с белым вином готовится точно так же, как и с красным вином»);

144 Основы искусственного интеллекта для лингвистов • альтернатива («В театр я хотел бы пойти или сегодня, или завтра»);

• причинно-следственная связь («Добавление спирта в период ферментации замедляет ее развитие») и т.д.

Имея такой список, можно строить любые тексты, состо­ ящие из одного абзаца. Последовательность риторических предикатов в абзаце не случайна. Определенным типам тек­ стов («описание», «объяснение», «сравнение», «доказатель­ ство» и т.п.) соответствуют свои последовательности пре­ дикатов, которые называются схемами дискурса. Эти схемы выявляются в процессе анализа большого числа текстов оп­ ределенного типа, относящихся к конкретным тематикам или подъязыкам [140, с. 124-135;

423]. Заполняя выбран­ ную схему дискурса конкретными предложениями, реали­ зующими риторические предикаты, получают абзацы опре­ деленного типа. Существуют и иные подходы к порожде­ нию абзацев [439].

3.5.1.3. Порождение пословиц, поговорок и загадок Б о л ь ш о й ц и к л работ по формализации содержания па­ ремий и их порождению на компьютере проводится в М ин­ ском государственном лингвистическом университете [141;

142;

143;

144]. Так, после анализа французских пословиц и поговорок и выделения в них содержательных и формаль­ ных слов, а также определения при этом типов ассоциа­ тивных отношений между правой и левой частями посло­ виц авторам удалось создать компьютерную систему п о­ рождения таких высказываний. Компьютер синтезировал 249 французских пословиц и поговорок. И з них 11% со­ впали с аналогичными высказываниями, созданными чело­ веком, а 24,5% были совершенно новыми. К числу последних относятся, например, такие [144, с. 130;

141, с. 159]: Sagesse vaut mieux que profit («Мудрость дороже денег»), Qui vient а temps est content («Удовольствие для того, кто приходит во­ Глава 3. Системы обработки связных текстов время»), II vaut mieux ttre leger de bourse que d ’ etre esclave («Лучше быть бедняком, чем рабом»), Les mauvaises companies gktent le miel («В плохой компании и мед не сладок»), Les plus beaux diseurs font toujours lesjours courts («Для болтуна все дни коротки»).

Пытаясь формализовать содержание французских зага­ док [143], исследователи кафедры информатики и приклад­ ной лингвистики МГЛУ построили две системы порождения таких паремий. В одной системе использовался логико-се­ мантический подход, а во второй - структурно-вероятност­ ный. При использовании второго подхода компьютер син­ тезировал около 150 загадок, 5 из которых совпали с загад­ кам и, созданны м и человеком, а 70% были соверш енно новыми, оформленными правильно как семантически, так и грамматически. Примеры новых загадок [143, с. 162]: Jaune dedans, tout habille de blanc («Желтое внутри, белое снару­ жи» - яйцо), Elle fa it le tour de la chambre et emmene tout ce qu ’ elle trouve («Обходит всю комнату и все, что находит, за­ бирает себе» - метла), Qu ’est-ce qui est toujours mouille quoique ne voit nipluie ni beau vent? («Что всегда влажное и не видит ни дождя, ни солнца» - язык), Q u’ est-ce qui se tient contre le d e l et la terre, n ’est de chair ni de sang, etantfrappe, fa it les gens a I’eglise ? («Что висит между небом и землей, ни из плоти, ни из крови, зовет людей в церковь» - колокол), Qui est-ce qui va et vient et revient toujours dans son petit coin? («Что ходит туда сюда и всегда возвращается в свой угол» - метла).

3.5.1.4. Порождение связных текстов: технических описаний, рекламных текстов, рассказов, романов Значительно различаются подходы к созданию целых тек­ стов. Первые опыты подобного рода проделаны человеком еще до появления компьютеров. Так, в 1929 г. на русском языке был издан роман английского писателя Корнелиуса Крока «Зеленые яблоки», который выдержал свыше 600 из­ даний и пользовался большой популярностью. Вот как ав­ 146 Основы искусственного интеллекта для лингвистов тор романа описывает процесс его создания [266, с. 324]: «Вы спрашиваете меня, какя создал такой замечательный роман...

Сидя долгие дни в одиночной камере, я был лишен всего: и газет, и книг, и бумаги... Наконец, надо мною сжалились и дали груду романов без начала и конца и, по-видимому, раз­ ных авторов... И вот тогда я ухватился за произведения не­ известных авторов, я вырывал страницы из разных книг и соединял их в порядке развертывания моего сюжета. Я рад, что явился новатором, открывшим новый способ создания блестящих бестселлеров. Только ножницы и клей!» В каче­ стве материала для своих романов Корнелиус Крок иполь зовал произведения Джека Лондона, М арка Твена, Стефана Цвейга, Герберта Уэллса и других писателей.

Аналогичный метод применил французский журналист Патрик Тевенон, написавший известный роман «А.А.» о бед­ ной актрисе. Он специализировался как журналист на ре­ цензиях о спектаклях и потому в качестве материала для ро­ мана выбрал журнальные и газетные вырезки о театрах и спектаклях [266, с. 324]. Следуя этому принципу, нечто по­ добное выполнила позже электронная машина. Она напи­ сала за 61 ч. 30 мин. роман под названием «Слепой фараон», опубликованный в СШ А в 1983 году [266, с. 330]. В публика­ ции [10] приводится достаточно много электронных адре­ сов, по которым можно найти компьютерные гипертексты типа «Лоскутное одеяло», «Жидкое стекло», «Anna Karenina goes to Paradise», «РОМАН», «Гостевая книга Буратино», «Робот Сергей Дацюк» и др.

Если говорить о серьезных научных исследованиях, цель которых заключается в изучении принципов организации текстов и роли их отдельных составляющих посредством компьютерного моделирования процесса создания текста, можно выделить целый ряд используемых при этом методов.

Простейший из методов связан с созданием небольших техни­ ческих текстов в ответ на запрос человека. В компьютерной памяти хранится база знаний, формально представляющая некоторые физические объекты. Примером систем порож­ дения связных текстов подобного рода могут служить аме­ Глава 3. Системы обработки связных текстов риканские системы RESEARCHER и TAILOR, являющиеся единым комплексом и позволяющие пользователю получать сведения из рефератов патентов, описывающих сложные фи­ зические объекты. На основе английских рефератов патентов система RESEARCHER строит базу знаний и делает обобще­ ния из текстов рефератов об особенностях описываемых в них физических объектов (входные тексты - это описания слож­ ных физических объектов, а не событий). Система TAILOR служит для генерации текстов в ответ на запрос. Она состоит из двух компонентов: стратегического, определяющего тип информации, выбираемой из базы знаний («что сказать»), и тактического, непосредственно формирующего сообщение на английском языке («как сказать»). Стратегический компонент учитывает цель порождения текста («дать определение», «опи­ сать», «сравнить», «подтвердить» и т.п.) и знания пользовате­ ля в используемой предметной области. Предварительно в си­ стему были введены обобщенные модели текстов разного вида (описаний, объяснений, рассуждений и т.д.). В частности, учитывались приемы, которыми пользуются составители сло­ варных статей о физических объектах для энциклопедий и справочников [140, с. 124-125;

298, с. 61]. Например, ориен­ тированный на специалиста текст вида «описать» можно пред­ ставить в виде дерева составляющих, включающего следую­ щие компоненты:

• отнесение описываемого объекта к какому-либо обоб­ щенному классу (например: «телефон», «компьютер», «ко­ фемолка»);

• представление составляющих описываемого объекта;

• представление информации, характерной для каждой составляющей объекта;

• представление дополнительной информации об опи­ сываемом объекте.

Следуя этой стратегии, в ответ на запрос «Опишите теле­ фон» система TAILOR порождает такой текст:

Телефон — это устройство. Телефон состоит из микрофона, кор­ пуса, шнура и приемника;

микрофон имеет двухрезонансную систему 148 Основы искусственного интеллекта для лингвистов и диафрагму. Корпус - это своего рода кожух. Шнур — это провод. У приемника есть мембрана, воздушный зазор и электромагнит...

Кроме того, по данной стратегии можно сгенерировать текст в виде описания процесса, приводящего объект в действие (на­ пример, для неспециалиста). То же задание на описание теле­ фона может быть реализовано в виде следующего текста:

Когда абонент говорит, звуковые волны попадают на мембрану. При этом мембрана колеблется точно так же, как молекулы воздуха...

Другим примером текстов, синтезируемых компьютера­ ми в ответ на вопрос человека, может быть такой [216, с. 82]:

Вопрос: Что такое управляемый снаряд?

Т екст: Управляемый снаряд — это снаряд с собственной двигатель­ ной установкой. Есть два типа управляемых снарядов в базе знаний научно-исследовательского управления ВВС : торпеды и реакт ивные снаряды. Цель управляемого снаряда находится в воздухе или на по­ верхности земли. Цель торпеды расположена под водой. Располож е­ ние цели управляемого снаряда указывается атрибутом базы данных описание, а параметры полета управляемого снаряда указывает ат ­ рибут базы данных — высота. Параметры действия торпеды под во­ дой указываются атрибутом базы данных — глубина (например, м а к ­ симальная глубина действия). У управляемого снаряда в базе данных есть атрибуты: время полета до цели, единицы, горизонтальная даль­ ность, единицы и имя.

Второй подход к порождению связных текстов предпо­ лагает предварительное изучение большого числа текстов определенного типа (любовных писем, рассказов на одну тему, однотипных описаний и т.д.). В результате изучения выявляются все возможные синтаксические типы предло­ жений, составляющие текст, порядок их следования друг за другом, специфичные слова. При порождении подобных текстов компьютер по датчику случайных чисел выбирает одну из синтаксических структур, которая может начинать, Глава 3. Системы обработки связных текстов например, любовное письмо. Эта структура наполняется словами, типичными для начала письма («сокровище», «лю­ бимая», «ненаглядная» и т.п.). Затем выбирается одна из син­ таксических структур, которая может следовать за первой.

Она также наполняется словами из словаря и т.д.

Описание процесса сочинения простого приключенческого рассказа с помощью компьютера можно найти в работе [365], а ниже приводятся два текста, созданных на основе второго подхода [266, с. 329-330;

85, с. 4-7]:

Любовное письмо М ое маленькое сокровище! Моя вразумительная привязанность чу­ десно привлекает твой ласковый восторг. Ты мое любящее обожание, мое распирающее грудь обожание. М ое братское чувство с зат аен­ ным дыханием ожидает твоего дорогого нетерпения. Обожание моей любви нежно хранит твой алчный пыл.

Твой тоскующий М У К Отрывок из рассказа Мой горизонт состоит лишь из красной портьеры, откуда с переры­ вами исходит удушливая жара. Едва можно различить мистический си­ луэт женщины, гордой и ужасной: эта знатная дама, должно быть, одно из времен года. Кажется, она прощается. Я больше ничего не вижу и продвигаюсь к занавесу, который мои р ук и смущенно раздвигают.

Вот, по т у сторону, странный трагический пейзаж;

циветта скре­ бет землю, птицы летают с обеих сторон, садятся на ветви деревь­ ев, наполовину иссохших. А тут и черепаха, застывшая неподвижно;

она почувствовала мое присутствие. Но почему она покрыта инеем!

М альчик подбегает;

его пухленькие руки, его серьезное и смуглое лицо придают ему вид молодого героя.

В последние годы данный подход значительно модифи цоровался и наполнился новым содержанием. Специали­ сты пытаются создать автоматизированные и автоматиче­ ские системы порождения текстов различных инструкций, описаний, небольших научных текстов [332;

329;

313;

427].

При этом тексты рассматриваются как структуры, состоя 150 0 моим искусственного интеллекта для лингвистов (дие не из отдельных предложений, а из некоторых более крупных логико-смысловых единиц. Один из вариантов та­ ких исследований связан с возможностью создания техни­ ческой документации на разных языках [331;

426].

В качестве примера можно привести систему порожде­ ния английских рекламных текстов [145]. Выделив в иссле­ дованном множестве текстов такие логико-семантические составляющие, как «заголовок», «основной текст», «лозунг», «прескриптор», и построив из их линейны х комбинаций формулы рекламных текстов, авторы синтезировали с по­ мощью компьютера более 100 рекламных текстов по пред­ метным областям «Напитки» и «Косметика и парфюмерия».

Ниже приводится один из таких текстов и его перевод на русский язык:

Juice...Untamed spirit.

When part o f low— t, high— er diets rich in fruits and vegetables xxx, fa fib department o f citrus, xxx.

After reading how research has found that certain nutrients like those in 100% pure juice may help prevent some types o f cancer, M r Johnson, known fo r his frugality, finally relented to his employees ’ demands and improved the company’ health plan.

s Juice...

Fight cancer. Fight harder. D rink more orange juice.

Сок... Страшная сила.

Входит в состав диеты с низким содержанием жиров, обогащенной содержащимися во фруктах и овощах углеводами. Отдел цитрусовых.

Прочитав о том, что согласно исследованиям, отдельные пит а­ тельные вещества, например, содержащиеся в стопроцентно чистом натуральном соке, могут помочь предотвратить некоторые виды рака, известный своей экономностью господин Дж онсон наконец-то согласился с требованиями своих служ ащих и улучш ил план охраны здоровья в своей компании.

Сок...

Боритесь с раком. Боритесь настойчивей. П ейт е больше апельси­ нового сока.

Глава 3. Системы обработки связных текстов Наконец, в экспериментах по изучению законов тексто образования объем исходной информации становится еще более значительным. В памяти компьютера размещаются не только словари, грамматические правила и правила, обес­ печивающие связь предложений в абзацах и абзацев в тек­ стах, но и знания слушателя и его симпатии. В итоге приве­ денная в работе [415] программа синтезирует несколько рас­ сказов на одну и ту же тему в зависимости от интересов и симпатий четырех слушателей: террориста, жены террори­ ста, американского солдата, ведущего борьбу с террориста­ ми, и простого американского гражданина. Ниже приводят­ ся два рассказа. Первый из них создан для террориста и дол­ жен вызвать у него симпатию к действиям террористов.

Второй рассказ должен вызвать симпатию рядового амери­ канского солдата к жертвам террора.

Story An Austin car used by two escape from Belfastfootball stadium yesterday.

A twelve year old girl, M ary, was shot and wounded with a seventy calibre rifle. She was taken to M ary Magdalene hospital and treated and discharged.

She is an orphan at present. A forty year old British soldier fromLeeds, a city, B ill Smith, was shot and killed. H e will be buried tomorrow. A tw enty five year old passerby woman, Rosie Areas, was shot and killed. She will be buried in Belfast cemetery three days from now.

Story A forty year old englishman from Leeds, a city, Bill Smith, was shot and killed with a seventy calibre rifle at Belfast football stadium yesterday. The soldier will be buried tomorrow. A twelve year old girl, M ary, was shot and wounded. She was taken to M ary M agdalene hospital and treated and discharged. She is on orphan at present. A twenty-five year old passerby woman, Rosie Areas, was shot and killed. She will be buried in Belfast cemetery three days from now. An Austin car used by two gunmen to escape.

Ш ирокое развитие получили два подхода к изучению организации текстов художественных произведений. Один из них связан с построением так называемых повествова­ 152 Основы искусственного интеллекта для лингвистов тельных грамматик [260, с. 414-428;

65, с. 200-206;

299;

53;

345]. При этом процесс порождения текста записывается в виде следующей системы правил1 [260, с. 419]:

РАССКАЗ - СОБЫТИЙНАЯ СТРУКТУРА + ОБРАМЛЕНИЕ ОБРАМЛЕНИЕ - [СОСТОЯНИЕ] [СОБЫТИЕ] [СОСТОЯНИЕ И СОБЫТИЕ] СОСТОЯНИЕ -СОСТОЯНИЕ + (СОСТОЯНИЕ) СОБЫТИЕ - СОБЫТИЕ + (СОБЫТИЕ) + (СОСТОЯНИЕ) СО­ БЫТИЙНАЯ СТРУКТУРА - ЭПИЗОД + (ЭПИЗОД) ЭПИЗОД - НАЧАЛО + РАЗВИТИЕ + ОКОНЧАНИЕ НАЧАЛО -[СОБЫТИЕ] [ЭПИЗОД] РАЗВИТИЕ - [ПРОСТАЯ РЕАКЦИЯ + ДЕЙСТВИЕ] [СЛОЖНАЯ РЕАКЦИЯ + ПУТЬ К ЦЕЛИ] ПРОСТАЯ РЕАКЦИЯ -у ВНУТРЕННЕЕ СОБЫТИЕ + (ВНУТ­ РЕННЕЕ СОБЫТИЕ) ДЕЙСТВИЕ - СОБЫТИЕ СЛОЖНАЯ РЕАКЦИЯ -» ПРОСТАЯ РЕАКЦИЯ + (ЦЕЛЬ) ЦЕЛЬ ВНУТРЕННЕЕ СОСТОЯНИЕ ПУТЬ К ЦЕЛИ - [ПОПЫТКА + РЕЗУЛЬТАТ] [ПУТЬ К ЦЕЛИ + ПУТЬ К ЦЕЛИ] ПОПЫТКА -+ СОБЫТИЕ РЕЗУЛЬТАТ - [СОБЫТИЕ] [ЭПИЗОД] ОКОНЧАНИЕ - [СОБЫТИЕ + ЭМФАЗА] [ЭМФАЗА] [ЭПИЗОД] ЭМФАЗА - СОСТОЯНИЕ С учетом этих правил следующая «История о короле», на­ пример, может быть порождена следующим образом (рис. 3.9):

(1) Некогда жил король, (2) у него были три любимые дочери.

(3) Однажды три дочери пошли гулять в лес.

(4) Они так радовались, (5) что забыли о времени 1 В квадратных скобках содержатся альтернативные элементы, в круглых - элементы возможные, но не обязательные.

Глава 3. Системы обработки связных текстов (6) и слишком задержались.

(7) Появился дракон (8) и похитил трех дочерей.

(9) Когда он уносил их, они стали звать на помощь.

(10) Три героя услыхали этот крик (11) и отправились спасать дочерей короля.

(12) Герои пришли (13) и вступили в борьбу с драконом.

(14) Они убили дракона (15) и спасли девушек.

(16) Затем герои благополучно вернули девушек во дворец.

(17) Когда король услыхал о спасении, (18) он наградил героев.

К ак видно из схемы, «История о короле» состоит из трех эпизодов, включающих, соответственно, высказывания (1 ) (6), (7)—(15) и (16)—(18). Это - своеобразные «начало» («эк­ спозиция»), «середина» («тело») и «конец» («постпозиция») данной истории [422]. Содержащиеся в прямоугольниках части схемы на рис. 3.9 обозначают ветви, не получающие развития в рассматриваемой истории. Ц иф ры в круглых скобках здесь соотносятся с номерами правил словесной «Истории о короле» (стр. 152-153). Примерно по такому же принципу компьютером были порождены упомянутые выше (см. с. 151) тексты, ориентированные на интересы и симпа­ тии слушателей [415].

Второй подход к анализу структуры художественных тек­ стов и последующему их порождению связан с выделением в текстах определенного жанра инвариантов - набора неиз­ менных синтаксических единиц - и выявлением правил их сочетаемости [105;

367]. В работе [381] В. Ш кловский пока­ зал, что такими неизменными единицами в новеллах К о­ нан Дойля о Ш ерлоке Холмсе могут быть инвариантные функции действующих лиц (всего их девять): «ожидание», «приход клиента», «улика», «выезд на место преступления», «неверное толкование» и т.д. [105, с. 368;

33, с. 115]. Опре­ деленные инварианты были найдены и для описания про 154 Основы искусственного интеллекта для лингвистов История о короле обрам тение событ тйная структура ние coctoj окон­ окон­ ю разв* гие око состоя- состоя- начало размытие чание чание ние(1) ние (2) разв* гие простая дейс 'вие простая дейс гв ie собьг реакция реакция событие п[ остая действие событие рсисция (16) (17) (18) (7) 8) (4) (5) (6) (3) (9) со- со- со- нЯча- pai- оксн- со- со- со со- внут- внут- со бы- бы­ бы- л вц бы- рен- рен- бы­ чан|ие бы- бы- бы­ тие тие тие тие тие тие тие нее нее тие со- со" бы- бы­ тие тие сложная событие путь к эмфаза собь тие реакция цели (15)' событие событие результат простая реакция событие событие (Ю) (П) (14) (12) (13) внутреннее собы состояние со6ы.

собы_ тие тие тие Рис. 3.9. История о короле изведений А.С. Пушкина [117]. Но особенно большое раз­ витие данный подход получил после опубликования извест­ ной работы В. Проппа «М орфология сказки» [303]. Идеи этого автора нашли широкую поддержку в разных странах [53;

199;

230;

308;

20].

Глава 3. Системы обработки связных текстов 3.5.2. Порождение на компьютере русской сказки 3.5.2.1. Этап идентификации Суть этапа идентификации по отношению к системе по­ рождения сказки состоит в следующем. Необходимо со­ здать систему порождения русской волшебной сказки, опи­ рающуюся на некоторый набор неизменных синтаксиче­ ских единиц (инвариантов) и правила их сочетаемости.

Таким образом, тип базы знаний для порож дения этого вида повествовательных текстов и ее основные составля­ ющие определяются теми инвариантными единицами, ко­ торые будут выделены в процессе анализа сказок по мето­ дике В. Проппа.

3.5.2.2. Этап концептуализации Как отмечалось выше, система порождения прозаическо­ го текста является одной из разновидностей систем обработ­ ки связных текстов. При построении системы порождения повествовательного текста этап концептуализации сводится к выделению инвариантов сказок и установлению взаимоза­ висимости между ними. Как показали В. Пропп и его после­ дователи, постоянными, устойчивыми элементами сказки являются функции действующих лиц. Они не зависят от того, кем и как выполняются. Авторы выделили 31 функцию [303, с. 24-72]: 1) отлучка;

2) запрет;

3) нарушение запрета;

4) вы­ ведывание;

5) выдача;

6) подвох;

7) пособничество;

8) недо­ стача;

9) посредничество;

10) начинающееся противодей­ ствие;

11) отправка;

12) первая функция дарителя;

13) реак­ ция героя;

14) снабжение, получение волшебного средства;

15) пространственное перемещение между двумя царствами;

16) борьба;

17) клеймение, отметка;

18) победа;

19) ликвида­ ция беды или недостачи;

20) возвращение;

21) преследова­ 156 Основы искусственного интеллекта для лингвистов ние, погоня;

22) спасение;

23) не узнанное прибытие;

24) нео­ боснованное притязание;

25) трудная задача;

26) решение задачи;

27) узнавание;

28) обличение;

29) трансфигурация (герою дается новый облик);

30) наказание;

31) свадьба. Каж­ дая из этих функций в конкретных сказках выражается опре­ деленными глаголами. Например, функция «отлучка» может выражаться глаголами «пойти», «уходить», «отправляться» и т.д. Для функции «борьба» характерны глаголы «сражаться», «бороться», «биться», «убивать» и пр.

Другими инвариантами русской волшебной сказки яв­ ляются действующие лица. Выделено 10 действующих лиц [299, с. 72-74;

82, с. 217]: 1) Герой (ГР);

2) Антигерой (анта­ гонист, вредитель) (АГ);

3) Прорицатель (П Ц );

4) Даритель (снабдитель) (ДР);

5) Помощ ник (П М );

6) Антипомощник (АП);

7) Глупец (ГЛ);

8) Антидаритель (АД);

9) Награда (Н Д);

10) Препятствие (П Р). В последующих научных ра­ ботах [229;

252;

62] число и типы таких действующих лиц исследовались более дифференцированно. Например, в ра­ боте [252, с. 218-246] в качестве действующих лиц выделя­ ются «люди», «сверхъестественные существа», «животные», «растения», «предметы», «мачеха», «падчерица», «умельцы», «бедняк», «богач» и т.д.

Каждое из приведенных выше действующих лиц полу­ чает в сказке конкретное воплощение в виде персонажей.

Например, Помощником могут быть «Сивка-бурка, вещая каурка», «странник», «Конек-горбунок», «волк», «орел», «заяц», «щука» и т.д. Число таких воплощений для разных действующих лиц различно. Например, одно воплощение находят в сказках такие действующие лица, как Герой, А н­ тигерой, Награда. Количество воплощений других действу­ ющих лиц не должно превышать числа встреч в основной теме сказки (ее теле).

Каждое действующее лицо в сказке может быть описано тремя характеристиками: атрибутами, поступками и встре­ чами.

Атрибуты - это совокупность всех внешних качеств пер­ сонажей: их возраст, пол, положение, внешний облик, осо­ Глава 3. Системы обработки связных текстов бенности этого облика и прочие индивидуальные черты [303, с. 79]. Например, Баба-яга описывается как «старая и без­ зубая» женщина (или «седая и беззубая»). Она, как прави­ ло, «лежит на печи», «живет в домике на курьих ножках» и т.п. В процессе анализа сказок для каждого воплощения всех действующих лиц составляются специальные списки спе­ цифичных для них атрибутов (табл. 3.1).

Поступки - это действия, совершаемые действующими лицами сказки. Например, «пойти», «отправиться», «сражать­ ся», «достать» и т.д. В конкретной сказке для каждого персо­ нажа можно задать конечный перечень таких поступков.

Встречи действующих лиц непосредственно связаны с их поступками: встречаясь, действующие лица совершают не­ которые поступки. Например, в результате встречи Героя с Дарителем может выполниться один из трех возможных поступков.

1. Даритель снабдит Героя определенным волшебным средством (ковром-самолетом, клубком ниток и т.д.).

2. Даритель даст Герою Помощника (щуку, коня, волка).

3. Д аритель даст Герою совет о том, как действовать дальше.

Таблица 3. Фрагмент списка атрибутов действующих лиц сказок Действующее Конкретное Атрибуты лицо воплощение ГР Иванушка умный и сильный Солдат бравый и хитрый АГ Баба-яга старая и беззубая лежит на печи живет в домике на курьих ножках Змей злой и страшный, пятиголовый В русских волшебных сказках выделено более 30 типов встреч [303, с. 33;

82, с. 219]. Так, Герой может встречаться со всеми остальными действующими лицами;

Даритель - с Героем, Помощником и Наградой, а Глупец - лиш ь с Ан­ тидарителем.

158 Основы искусственного интеллекта для лингвистов Таким образом, основу базы знаний системы порожде­ ния сказки составляют действующие лица, атрибуты, по­ ступки и встречи действующих лиц.

На следующем шаге этапа концептуализации необходи­ мо выяснить, каким образом эти данные будут связаны в единой базе знаний системы порождения текста. К ак пока­ зывает детальный анализ процесса построения сказки [303, с. 114-115;

82, с. 217-223;

85, с. 127;

83, с. 129], база знаний всей системы слагается из трех самостоятельных баз знаний:

экспозиции, тела сказки и постпозиции.

Экспозиция или начальная часть сказки представляет со­ бой некоторое конечное множество частей фраз, целых фраз или последовательностей фраз. Такие фразы могут выражать стандартные формулы начала сказки (например, В некото­ ром царстве, некотором государстве), содержать название места и время совершения начальных действий сказки, име­ на Героя, его родителей, других персонажей. В экспозицию входят фразы, выражающие чье-либо мнение о Герое или да­ ющие ему некоторые пророчества. Завершается экспозиция, как правило, завязкой. Это - тоже фраза типа И пошел он сча­ стья искать. В некоторых сказках экспозиция может состо­ ять всего из одной фразы. Например, в одной из сказок она такова: Пошел отставной солдат Тарабанов странствовать.

Здесь объединена завязка и конкретное имя героя.

Все фразы экспозиции можно объединить в восемь групп:

1. Традиционные формулы начала сказки.

2. Фразы, содержащие название места и время началь­ ного действия сказки.

3. Фразы, представляющие Героя.

4. Фразы, знакомящие с родителями Героя.

5. Фразы, представляющие других людей или других дей­ ствующих лиц.

6. М оления о Герое или какие-либо пророчества.

7. Фразы, описывающие рождение Героя.

8. Фразы - стандартные завязки действия.

Фразы или их части, содержащие все или некоторые из этих фактов, выявляются в процессе анализа определенно­ Глава 3. Системы обработки связных текстов го числа сказок и затем представляются в виде отдельных списков. Например, в раздел «Традиционные формулы на­ чала сказки» попадут такие фразы и их части:

Было оно или не было, правда ли то или нет, послушаем луч­ ше, что сказка сказывает.

Жил...

Был...

Жил-был... имел...

Жили-были...

Ж и ли...

Жили себе...

В раздел «Место и время» будут включены такие состав­ ляющие:

В некотором царстве, в некотором государстве...

В некотором царст ве...

В некотором государст ве...

Дело было в старину, когда еще Христос ходил по земле вместе с апостолами...

В те давние времена...

В старые годы стояла одна деревушка...

Давным-давно...

В одной деревне...

Н а Руси...

П о соседству...

К числу «Родителей» будут отнесены, например, муж и жена, бедная женщина, журавль да цапля, бедняк, дед и баба, царь, вдова, лесник, царь с царицею, один человек, король и королева, старик со старухой.

«Завязка» такж е представляет собой набор типичны х фраз. Например:

И пошел он счастья искать.

Отец с матерью умерли в одночасье.

Вздумалось однажды братьям пойти в лес за грибами.

160 Основы искусственного интеллекта для лингвистов Пришла пора выдавать ее замуж.

Однажды король поехал на охоту и взял советников с собой.

Иногда «Завязка» представляется двумя, а то и большим числом предложений. Например:

Царь с царицею достигли древних лет, заболели и не чают уж вы з­ дороветь. Призывают Ивана и наказывают...

Н а другой день царь с царицею померли. Иван-царевич похоронил родителей и стал жить по их наказу.

Налетел змей, унес царскую дочь. Послал царь И вануш ку отыс­ кать дочь, обещал царскую дочь в жены.

Царь состарился и помер, а корону принял Царевич. Как узнали про то соседние короли, сейчас собрали несчетные войска и пошли на него войною.

Соответствующими фразами или их частями наполнены и другие списки, формирующие экспозицию. Очевидно, что во фразах и их частях, входящих в группу № 8 («Завязка»), можно выделить некоторые «переменные»: «он», «отец с ма­ терью», «братья», «она», «король», «советники», «царь с ца­ рицею», «змей», «царская дочь» и т.д. Вместо них в таких фразах могут стоять любые имена группы № 4 («Родители Героя»), группы № 5 («Другие люди»). В состав фраз, пред­ ставляющих людей и других действующих лиц (группа № 5), могут входить имена второстепенных действующих лиц, а также имя любого основного действующего лица (кроме Ге­ роя). Такие переменные во фразах или их частях обознача­ ются либо условными именами основных действующих лиц, либо буквами «X, Y, Z» и т.д., вместо которых в процессе порождения сказки подставляются имена родителей, конк­ ретных персонажей или второстепенных действующих лиц.

Например:

И пошел ГР счастья искать.

X умерли в одночасье.

Налетел АГ, унес Н Д. Послал X ГР отыскать Н Д, обещая Н Д в жены.

Глава 3. Системы обработки связных текстов X состарился и помер, а корону принял ГР. Как узнали про то Z, сейчас же собрали несчетные войска и пошли на ГР войною.

В таких и им подобных фразах через ГР обозначается Ге­ рой, через НД - Награда. Буквой «X» в дальнейшем будем обозначать родителей, a «Z» - второстепенных действую­ щих лиц (в данном конкретном примере Z - «соседние ко­ роли»), Указанные восемь групп фраз с обозначенными в них переменными также входят в состав базы данных.

Тело сказки в самом общем виде есть конечная последо­ вательность встреч действующих лиц, связанных соедини­ тельными фразами. К числу последних относятся, напри­ мер, такие: Идет он и видит..., Сел он на ковер-самолет и полетел..., Долго-ли, коротко-ли шел он и наконец увидел..., И пошел он дальше... [82, с. 216]. Тип встреч определяется главным образом типом встречающихся действующих лиц.

При таких встречах Герой (или другое действующее лицо) встречается с другим действующим лицом (Дарителем, По­ мощником, Антигероем и т.д.), получает от него совет (по­ мощь), борется с ним или просто получает возможность сле­ довать дальше.

Последовательность встреч в сказках очень часто достаточ­ но трудно обосновать с точки зрения обычной житейской логики. Она, как правило, мотивируется общим замыслом сказки: наприм ер, необходимо подчеркнуть трудности, встречающиеся Герою в процессе достижения им конечной цели, или желанием показать удачливость Героя в достиже­ нии цели. В то же время число встреч действующих лиц и последовательность таких встреч не всегда произвольны.

Так, если в теле сказки произошло несколько встреч Героя с Помощником или Героем получено несколько волшебных средств, далее должно обязательно появиться не меньшее число встреч с препятствиями, которые Герой преодолева­ ет с помощью Помощ ников или полученных волшебных средств. Конкретный выбор Помощ ника или волшебного средства уже предопределяет те препятствия, которые при­ дется преодолеть Герою. Например, если Помощником выб 6 О сно вы и с к у с с т в е н н о го интеллекта для л и н гв и ст о в 162 Основы искусственного интеллекта для лингвистов рана «щука», препятствием будет некоторая водная среда («море», «река», «озеро» и т.п.), в которой надо найти неко­ торое волшебное средство (например, «перстень») или ко­ торую должен преодолеть Герой. Если волшебным сред­ ством будет «дубинка», препятствие связано со встречей с Антигероем или Антидарителем, в борьбе с которым Герой победит с помощью этой «дубинки».

Исследователи сказок отмечают, что препятствия быва­ ют двух видов: те, которые преодолевает Герой, и те, кото­ рые создаются преследующими Героя Антигероем и Анти­ дарителем. К числу последних относятся, например, пре­ пятстви я «дремучий лес», «водная преграда», которы е создает в сказках такое волшебное средство, как «волшеб­ ный платочек». Есть свои особенности и у других типов встреч. Причем, чем ближе сказка к завершению, тем боль­ ше ограничений накладывается на выбор типов встреч.

В более слож ны х сказках м огут п рисутствовать н е ­ сколько параллельных линий встреч. Одна из них являет­ ся основной, другие - вспом огательны м и (боковы м и).

Чащ е всего последние служат для подготовки встреч в основной линии. Иногда боковые линии можно считать са­ мостоятельными сказками, косвенным образом связанны­ ми с основной темой. Например, есть сказки, описываю­ щие жизнь трех братьев. К ак правило, основная тема такой сказки определяется встречами и поступками главного Ге­ роя - младшего брата. А две вспомогательные темы связа­ ны со старшими братьями, которые не выполняют просьб или заданий определенных действующих лиц сказки, не достигают намеченных целей и способствуют тем самым достижению цели главного Героя. Линия каждого старшего брата в таких случаях - это самостоятельная сказка с не­ удачным концом.

Иногда вспомогательная линия представляет собой фраг­ мент, вставленный в основную линию Героя. Например, в одной из встреч Герой не выполняет требование другого дей­ ствующего лица (Дарителя, Помощника и т.д.). Тогда впо­ следствии для достижения конечной цели Герою придется Глава 3. Системы обработки связных текстов достичь некоторых вспомогательных целей, и действия по их достижению составят боковую линию, вплетающуюся в основную линию действий Героя.

Постпозиция - это завершающая часть сказки. Она мо­ жет включать фразы, содержащие заключения сказочника в виде некоторой морали сказки. Есть определенные тради­ ционные формулы конца сказки. Например: Я там был, мед, пиво пил, по усам текло, а в рот не попало. Часто сказка за­ канчивается получением Героем некоторой Награды («свадь­ ба», «богатство» и т.п.). Иногда постпозиция усекается до одной фразы типа Царь обрадовался и выдал за него свою дочь.

Таким образом, в состав постпозиции включаются фразы следующих трех типов:

1. Фразы, характеризующие награду Героя, например:

Батрак взял себе его имение.

Немного прошло времени —разорился завистливый брат и из бога­ того мужика сделался голым бедняком.

Царевич наградил его генеральским чином, наделил богатыми име­ ниями и оставил во дворце жить.

Получил Иванушка царскую дочь в жены.

Иван-царевич вошел в дом Кощея, взял Василису-Премудрую и во­ ротился домой;

2. Фразы, относящиеся к заключению сказочника, на­ пример:

Знамо господь покарал за великую жадность.

После того они жили вместе долго и счастливо.

Пришлось женихам оглобли поворачивать, разъехались они по сво­ им дворам, а королевна стала со своим мужем жить-поживать да добро наживать.

И стали королевич с королевною жить-поживать да добро нажи­ вать.

После того царь и царица с царевичами и царевною жили долго и счастливо.

И стали все они счастливо жить да быть.

164 Основы искусственного интеллекта для лингвистов Сыграли свадьбу, стали жить-поживать, добро наживать.

Наградил щедро мужика и отпустил домой.

Воротился солдат домой и зажил себе привольно, богато.

Тут-то батраку пошло житье, что твоя масленица, и умирать не надо;

3. Фразы - традиционные формулы конца сказки, на­ пример:

На том угощенье я был;

дали мне вина корец, моей сказки конец.

Захотелось мне тогда князя со княгиней повидать, да стали со двора пихать;

я в подворотню шмыг —всю спину сшиб.

Я там был, мед, вино пил, по усам текло, а в рот не попало.

И был в те поры у нового полковника большой пир, на том пиру я был, мед-вино пил, по усу текло, в рот не попало.

В этих фразах, как и во фразах экспозиции, есть «пере­ менные»: «батрак», «завистливый брат», «царевич», «Ива­ нушка», «Иван-царевич», «Кощей», «Василиса Премудрая», «они», «женихи», «королевна» и т.д. К ак и для фраз экспо­ зиции, будем условно обозначать «переменные» буквами, соответствующими основным действующим лицам, буквой «X» - родителей, буквами «У», «Z» и т.д. - второстепенных действующих лиц («Кощей», «женихи» и т.п.).

Тогда в базе данных постпозиции эти фразы будут запи­ саны следующим образом:

ГР наградил ПМ генеральским чином, наградил богатым имениями и оставил во дворце жить.

Получил ГР НД в жены.

Пришлось У оглобли поворачивать, разъехались они по своим дво­ рам, а ГР стала со своим мужем жить-поживать да добро нажи­ вать.

Воротился ГР домой и зажил себе привольно, богато.

Такие списки составляют отдельную часть базы данных системы порождения сказки.

Глава 3. Системы обработки связных текстов Как видно из вышеизложенного, базы знаний экспози­ ции и постпозиция представляют собой обычные базы дан­ ных в виде списков фраз. База знаний, опираясь на которую компьютер строит тело сказки, представляется в виде сети фреймов [83, с. 129;

291, с. 165-166;

82, с. 219;

84, с. 192].

Рассмотрим основные фреймы сети.

Фрейм действующих лиц (ЛИЦА) может быть представ­ лен так:

Л И Ц А [Г Е РО Й ;

А Н Т И Г Е Р О Й ;

П Р О Р И Ц А Т Е Л Ь ;


Д А РИ Т Е Л Ь ;

П О М О Щ Н И К ;

А Н Т И П О М О Щ Н И К ;

ГЛ У П Е Ц ;

А Н Т И Д А Р И Т Е Л Ь ;

Н А Г Р А Д А ;

П Р Е П Я Т С Т В И Е ], где ГЕРОЙ, А Н ТИ ГЕРО Й и т.п. - имена фреймов более низкого уровня. В них записаны конкретные воплощения указанных действующих лиц, их атрибуты и возможные дей­ ствия (поступки):

Г Е Р О Й [С И В А Н У Ш К А, АГ1, Д Г 1 ;

С И В А Н -Ц А Р Е В И Ч, АГ2, Д Г2;

М Л А Д Ш И Й Б РА Т, А ГЗ, Д Г З ;

...] А Н Т И Г Е Р О Й [БА БА -ЯГА, АА1, ДА1;

К О Щ Е Й Б Е С С М Е Р Т ­ Н Ы Й, АА2,ДА2;

З М Е Й, ААЗ, Д А З ;

... ] П О М О Щ Н И К [С И В К А -БУ РК А, А П 1, Д П 1 ;

С К О Н Е К -Г О Р Б У Н О К, А П 2, Д П 2 ;

Щ У К А, А П З, Д П З ;

...] В рассмотренных фреймах конкретных действующих лиц вслед за персонажами, реализующими действующее лицо («И В А Н У Ш К А », « И В А Н -Ц А Р Е В И Ч », «М Л А Д Ш И Й БРАТ» и т.д.), указываются их атрибуты АГ1, АГ2, АГЗ,...

АА1, АА2, ААЗ,... АП1, АП2, АПЗ..., а также специфичные для данных персонажей действия (поступки): ДГ1, ДГ2, Д ГЗ,... ДА1, ДА2, ДАЗ и т.д. И атрибуты, и действия (по­ ступки) - это тоже фреймы. Для атрибутов - это фреймы экземпляры, содержащие конкретные фразы, описывающие тот или иной персонаж. Например, для персонажа «БАБА ЯГА» соответствующий фрейм-экземпляр АА1 будет выг­ лядеть так:

166 Основы искусственного интеллекта для лингвистов АА1 [Сстарая и беззубая;

живет в домике на курьих ножках;

лежит на печи].

Фреймы действий (поступков) в свою очередь состоят из других фреймов [84, с. 192-214;

82, с. 219]. Например, для персонаж а «К О Щ ЕЙ Б Е С С М Е Р Т Н Ы Й », входящего во фрейм А Н Т И Г Е РО Й, наиболее типичны м и действиям и (фрейм ДА2) будут ПОХИЩ АТЬ и УБИВАТЬ:

ДА2 [ПОХИЩАТЬ;

УБИВАТЬ].

Названия этих действий являются названиями фреймов еще более низкого уровня:

ПОХИЩАТЬ [КТО;

КОГО;

С ПОМОЩЬЮ Ч Е Г О ;

ОТ КУДА;

ЗАЧЕМ] УБИВАТЬ [КТО;

КОГО;

КАК;

ГДЕ;

КОГДА;

ЗА ЧЕМ].

Для персонажа «ЩУКА», относящегося к фрейму П О ­ М О Щ Н И К, будут характерны такие поступки, как П Р Е ­ ОДОЛЕВАТЬ И ИСКАТЬ:

ДПЗ [ ПРЕОДОЛЕВАТЬ^ ИСКАТЬ] ПРЕОДОЛЕВАТЬ [КТО;

ЧТО;

КАК;

С КАКОЙ ЦЕЛЬЮ] ИСКАТЬ [КТО;

ЧТО;

ГДЕ].

Глагольные фреймы могут использовать различные дей­ ствующие лица сказки. К числу их, например, относятся1 :

1 По сути глагольные фреймы представляют собой полные структуры будущих предложений с соответствующими глаголами. Например, струк­ тура ЗАБРАТЬ [КТО;

КОГО;

ГДЕ;

КОГДА;

У КОГО] в конк­ ретной сказке может быть реализована так: Иванушка ЗАБРАЛ царевну из пещеры поздно ночью у Змея Горыныча. Практически не все позиции таких глагольных фреймов (КТО;

ГДЕ;

КОГДА;

У К О Г О и т.д.) реа­ лизуются в предложениях. Предыдущий глагольный фрейм может быть записан также:

Иванушка ЗАБРАЛ царевну у Змея Горыныча.

Иванушка ЗАБРАЛ'царевну поздно ночью.

Глава 3. Системы обработки связных текстов В Е Р Н У Т Ь С Я [ К Т О ;

КУ Д А ;

К О ГД А ;

С Ч Е М ;

...] В И Д Е Т Ь [К Т О ;

Ч Т О ;

К О Г О ;

К О ГД А ;

Г Д Е ;

...] В О Й Т И [ К Т О ;

КУ ДА ;

К А К ;

С К Е М ;

...] ЗА Б РА Т Ь [ К Т О ;

К О Г О ;

Г Д Е ;

К О ГД А ;

У К О Г О ;

...] И Д Т И [ К Т О ;

КУ ДА;

С К А К О Й Ц Е Л Ь Ю ;

...] О Б Е Щ А Т Ь... П О М О Ч Ь [ К Т О ;

К О М У ;

К О Г Д А ;

...] О Т П Р А В И Т Ь С Я... И С К А Т Ь [ К Т О ;

Ч Т О ;

К О Г О ;

К О Г Д А ;

...] П О ЗВ А Т Ь [ К Т О ;

К О Г О ;

КУ Д А ;

К О Г Д А ;

...] П О П Р О С И Т Ь... С Д Е Л А Т Ь [ К Т О ;

Ч Т О ;

К О Г Д А ;

К О Г О ;

...] П Р И Л Е Т Е Т Ь [ К Т О ;

КУ Д А ;

З А Ч Е М ;

...] С Д Е Л А ТЬ [ К Т О ;

Ч Т О ;

К О ГД А ;

К А К ;

...] С И Д Е Т Ь [К Т О ;

Г Д Е ;

К О Г Д А ;

...] С М О Т Р Е Т Ь [ К Т О ;

Ч Т О ;

Г Д Е ;

К О ГД А ;

К А К ;

...] С Х В А Т И Т Ь [ К Т О ;

К О Г О ;

К О Г Д А ;

...].

Стоящие во фреймах-действиях (поступках) слова КТО, КОГО, КАК, ГДЕ, КОГДА и т.д. являются именами конк­ ретных персонажей или различными фразами, сообщающи­ ми о целях (ЗА ЧЕМ, С КА КО Й Ц ЕЛ ЬЮ ), средствах (С ПОМ ОЩ ЬЮ ЧЕГО), месте и времени совершения действия данным персонажем. Например, фреймы-экземпляры П РЕ ­ ОДОЛЕВАТЬ И ИСКАТЬ могут выглядеть так:

П Р Е О Д О Л Е В А Т Ь [ И В А Н У Ш К А ;

М О Р Е ;

Н А Л О Д К Е ;

Н А Й ТИ КО Щ ЕЯ БЕССМ ЕРТНО ГО ] И С К А Т Ь [ П Е Р С Т Е Н Ь ;

Н А Д Н Е М О РЯ ].

Как отмечалось выше (с. 161), основой тела сказки являет­ ся последовательность встреч действующих лиц. Возможные типы встреч можно представить в виде табл. 3.2, где знаком «+» («плюс») отмечаются возможные встречи (расшифров­ ку обозначений действующих лиц см. на с. 156).

Путем анализа разных сказок устанавливают допустимые пары встреч и их возможные последовательности. Такая ин­ ф ормация представляется в виде специальны х фреймов 168 Основы искусственного интеллекта для лингвистов встреч (аксиом встреч). Примеры подобных фреймов при­ ведены ниже:

С К А З 113 [Г Р - А Г;

С Э 1 ;

Г Р - А Г;

С Э 2;

Г Р - АГ;

С Э З;

Г Р - А Г;

С Э 4 ;

АГ - П Р ;

С Э 5 ;

Г Р - П Р;

С Э 6;

АГ - П Р ;

С Э 7 ;

Г Р - П Р ;

С Э 8;

А Г - П Р;

С Э 9;

Г Р - П Р ;

С Э 10;

Г Р - Н Д] С К А 32 [Г Р - Д Р ;

С Э 11;

Г Р - Д Р ;

СЭ12;

Г Р - Д Р ;

СЭ13;

Г Р - П Р ;

С Э 14;

Г Р - П Р ;

СЭ15;

Г Р - П Р;

СЭ16;

Г Р - А Г;

СЭ17;

Г Р - Н Д ] С КА ЗЗ [ГР - Н Д ;

СЭ18;

Г Р - П М ;

СЭ19;

Г Р - П М ;

СЭ20;

Г Р - П Р ;

С Э 21;

Г Р - А Г;

СЭ22;

Г Р - АГ;

СЭ23;

Г Р - Н Д ].

Таблица 3. Возможные типы встреч действующих лиц сказки Действующие пц ГР АГ ПМ ГЛ НД АП АД ПР ДР лица + + + + + + + + + ГР + + + + + + + АГ пц + + + + + ДР + + + + ПМ + + АП + ГЛ АД + + НД ПР 13 В п р е д с т а в л е н н о м п р и м е р е С К А 3 1, С К А 3 2, С К А З З,... - и м е н а ф р е й ­ м о в в стр еч. Ч е р е з Г Р - А Г, А Г - П Р, Г Р - Н Д о б о з н а ч е н ы и м е н а ф р е й м о в б о л ее н и з к о г о у р о в н я, п р е д с т а в л я ю щ и е к о н к р е т н ы е в с т р е ч и. Ч е р е з С Э 1, С Э 2, С Э З и т.д. о б о з н а ч е н ы ф р а з ы - с о е д и н и т е л ь н ы е э л е м е н т ы. Т а к и е ф р а з ы в ы д е л я ю т ся в п р о ц е с с е а н а л и з а к о н к р е т н ы х с к а з о к и п р е д с т а в л я ­ ю тся в ви д е с п и с к а, я в л я ю щ е г о с я ч а сть ю б азы з н а н и й с и с т е м ы п о р о ж д е ­ н и я т е л а с к а з к и. Э т и э л е м е н т ы ф р е й м о в встр е ч ф а к у л ь т а т и в н ы и в о т д е л ь ­ н ы х сл у чаях м о гу т н е у ч и т ы в а ть с я.

Глава 3. Системы обработки связных текстов Каждый тип встреч (ГР - АГ, ГР - П Р, ГР - Д Р, АГ П Р, П Р - ГЛ и т.д.) характеризуется поступками, которые совершают участники встречи. Для каждой пары встречаю­ щихся они задаются в виде нескольких глагольных фрей­ мов. Например:

ГР - АГ [О Т Ы С К А Л ;

У Б И Л ] ГР - АГ [С П РЯ ТА Л С Я ;

П Р И Л Е Т Е Л ;

С Х В А Т И Л ;

П О ЗВАЛ ;

У БИ Л ] ГР - А Г [ Б И Л С Я ;

Н Е П О Б Е Д И Л ;

Б И Л С Я ;

Н Е П О Б Е Д И Л;

ПОБЕДИЛ] ГР - П М [ И Д Е Т ;

В И Д И Т ] ГР - П М [ П О П Р О С И Л... С Д Е Л А Т Ь ;

СД ЕЛ А Л ;

О Б Е Ш А Л... П О М О Ч Ь ] ГР - П М [Х О Т Е Л... С Т У К Н У Т Ь И ЗА М О Р О ЗИ Т Ь ;

П О Л Ю Б И Л А С Ь ;

Ж А Л Ь СТА ЛО ;

Б Р О С И Л ;

О Д ЕЛ А С Ь ;

П О Д О Ж Д А Л;

С И Д И Т ] ГР - П Р [Д О Б РА Л С Я ;

У В И Д Е Л ;

П О Г О В О Р И Л ;

П О Ш Е Л ;

УСЛЫ ХАЛ;

О ГЛ Я Н У Л С Я ;

О К А М Е Н Е Л ] ГР - П Р [Б Л А ГО С Л О В И Л И ;

С Е Л ;

П О Л Е З ;

С П У С К А Л С Я ;

С П У С Т И Л С Я ;

П О Ш Е Л ] ГР - П Р [ И Д Е Т ;

В И Д И Т ;

В О Ш Е Л ;

С М О Т Р И Т ;

С И ДИ Т] А Г - Н Д [Н А Л Е Т Е Л ;

У Н Е С ] Г Р - Н Д [О Т П РА В И Л С Я... И С К А Т Ь ] Г Р - Н Д [ЗА БРА Л ;

В Е Р Н У Л С Я ] На рис. 3.10 показано, как выглядит сеть фреймов, явля­ ющаяся базой знаний системы порождения сказки.

СКАЗ Основы искусственного интеллекта для лингвистов сильный красивая и добрая Рис. 3.10. Сеть фреймов для порождения сказки Глава 3. Системы обработки связных текстов 3.5.2.3 Этап формализации задачи.

Алгоритм порождения русской сказки На этапе формализации строится алгоритм порождения сказки, опирающийся на созданные базы данных и базу зна­ ний. Фактически - это разработка компонента генерации ЕЯ системы обработки связных текстов. Описывая в общем виде такой алгоритм, В. Пропп и его последователи [303, с. 103;

230, с. 137] отмечали, что содержание сказки может быть представлено в виде последовательности коротких фраз.

Например: Родители уезжают в лес. Они запрещают детям выходить на улицу. Змей похищает девушку и т.д. Последо­ вательность сказуемых во фразах представляет собой ком ­ позицию1 сказки, а все подлежащие, дополнения и другие части таких фраз определяют ее сюжет15.

Каждое действие, выраженное во фразе сказуемым, за­ меняется одной из выделенных ранее функций действую­ щих лиц («отлучка», «запрет», «подвох», «борьба» и т.п.).


Последовательно выстроенные в ходе развертывания дей­ ствия конкретной сказки эти функции образуют линейный синтагматический ряд. Рассмотрим более подробно состав­ ные части такого ряда относительно каждого компонента части сказки: экспозиции, тела сказки и постпозиции.

Как отмечают ученые, исследующие русские народные сказки [85, с. 8 -9 ;

82, с. 214-216], экспозиция формируется из указанных выше 8 групп фраз (с. 158) в соответствии со следующей структурной схемой (рис. 3.11). Сначала по дат­ чику случайных чисел компью тер вы бирает возможную структуру экспозиции: 145, 1238, 18, 2345 и т.д. (цифры оз­ начают номера списков фраз, которые могут входить в экс­ позицию). Допустим, это - структура 18. Далее в списках с соответствующими номерами (в нашем примере № 1 и № 8) 1 Под композицией сказки понимается последовательность представлен­ ных в ней событий (встреч, поступков) и их потребностей (ср.: [61, с. 168]).

1 Сюжет сказки - это ее идейно-тематическая концепция, раскрыва­ ющая основное содержание сказки (ср.: [61, с. 167-168]).

172 Основы искусственного интеллекта для лингвистов по датчику случайных чисел выбирается по одной из фраз, частей фраз или последовательностей фраз. Пусть в списке № 1 была найдена случайным образом фраза: Жил-был X, имел НД, а в списке № 8 - последовательность двух фраз:

Налетел АГ, унес НД. Послал X ГР отыскать НД, обещал Н Д в жены. Таким образом, формула экспозиции порождаемой сказки будет следующей: Жил-был X, имел НД. Налетел АГ, унес НД. Послал X Г Р отыскать НД, обещал Н Д в жены. Ана­ логично определяются формулы экспозиций для других ва­ риантов сказок.

Рис. 3.11. Структура экспозиции сказки Порождение тела сказки начинается с выбора по датчи­ ку случайных чисел одной из возможных аксиом встреч [82, с. 219-223;

83, с. 129-130;

85, с. 12-19]. Предположим, выб­ рана аксиома, имеющая имя СКАЗЗ16:

СКАЗЗ [ГР - НД;

ГР - ПМ;

ГР - ПМ;

ГР - ПР;

ГР АГ;

ГР - НД].

1 В данной аксиоме встреч не учитываются фразы - соединительные элементы.

Глава 3. Системы обработки связных текстов Далее опять по датчику случайных чисел среди возмож­ ных представлений глагольных фреймов ГР - НД, ГР - ПМ и т.д. компьютер выбирает конкретные представления. Д о­ пустим, были выбраны такие цепочки поступков:

ГР - Н Д [С О Т П РА В И Л С Я... И С К А Т Ь ] ГР - П М [ И Д Е Т ;

В И Д И Т ) ГР - П М [С П О П Р О С И Л... С Д Е Л А Т Ь ;

СД ЕЛ А Л ;

О Б Е Щ А Л... П О М О Ч Ь ] ГР - П Р [ И Д Е Т ;

В И Д И Т ;

В О Ш Е Л ;

С М О Т Р И Т ;

С И Д И Т] ГР - АГ [С П РЯ Т А Л С Я ;

П Р И Л Е Т Е Л ;

С Х В А Т И Л ;

П О ЗВАЛ;

У Б И Л ] ГР - Н Д [ЗА БРА Л ;

В Е Р Н У Л С Я ].

Как уже отмечалось, слова ОТП РАВИЛСЯ... ИСКАТЬ, ИДЕТ, ВИДИТ и т.д. - это имена глагольных фреймов, определяющих структуру предложений с данными глагола­ ми. Все глагольные фреймы анализируемого примера приве­ дены на с. 167. Для упрощения процесса построения сказки представим глагольные фреймы в следующем виде17:

О Т П Р А В И Л С Я... И С К А Т Ь [ К Т О ;

К О ГО ] И Д Е Т [К Т О ] В И Д И Т [К О ГО ] П О П Р О С И Л... С Д Е Л А Т Ь [ К Т О ;

К О Г О ;

Ч Т О ] СДЕЛА Л [ К Т О ;

Ч Т О ] О Б Е Щ А Л... П О М О Ч Ь [К Т О ;

К О М У ] И Д Е Т [К Т О ] В И Д И Т [Ч Т О ] В О Ш Е Л [ К Т О ;

КУДА] С М О Т Р И Т [К Т О ] С И Д И Т [К Т О ] С П Р Я Т А Л С Я [К Т О ] П Р И Л Е Т Е Л [К Т О ] 1 Выбор наполняемости конкретного глагольного фрейма проводится также на основе данных датчика случайных чисел.

174 Основы искусственного интеллекта для лингвистов СХ ВА ТИ Л [К Т О ;

К О ГО ] П О ЗВА Л [К О ГО ] ЗА БРА Л [ К Т О ;

К О ГО ] В Е Р Н У Л С Я [КУДА ].

В итоге получается следующая более общая формула тела создаваемой сказки:

СКА ЗЗ {ГР - Н Д [О Т П РА В И Л С Я... И С К А Т Ь, К Т О, К О ГО ];

ГР - П М [ И Д Е Т, К Т О ;

В И Д И Т, КО ГО 1;

П М - Г Р [ П О П Р О С И Л СД ЕЛ А ТЬ, К Т О, К О ГО, Ч Т О ;

СДЕЛА Л, К Т О, Ч Т О ;

О Б Е Щ А Л... П О М О Ч Ь, К Т О, КО М У ];

ГР - П Р [ И Д Е Т, К Т О ;

В И Д И Т, Ч Т О ;

В О Ш Е Л, К Т О, КУДА;

С М О Т Р И Т, К Т О ;

С И Д И Т, К Т О ] ;

Г Р - А Г [С П РЯ ТА Л С Я, К Т О ;

П Р И Л Е Т Е Л, К Т О ;

СХ ВА ТИ Л, К Т О, К О Г О ;

П 0 3 В А Л, К О Г О ;

У Б И Л И, К О Г О ] ;

Г Р - Н Д [ З А Б Р А Л, К Т О, К О Г О ;

В Е Р Н У Л С Я, КУДА]} Подставляя в эту формулу вместо элементов КТО, КОГО, ЧТО, ЧЕМ У и т.д. соответствующие условные обозначения действую щ их лиц, стоящ ие перед им енам и глагольных фреймов, компьютер получает следующую более конкрет­ ную формулу порождаемой сказки:

О Т П Р А В И Л С Я ГР И С К А Т Ь Н Д И Д Е Т ГР В И Д И Т П М П О П Р О ­ С И Л П М ГР С Д ЕЛ А ТЬ «ЧТО» СДЕЛАЛ ГР «ЧТО» О Б Е Щ А Л П М П О М О Ч Ь ГР И Д ЕТ ГР В И Д И Т П Р ВОШ ЕЛ ГР В П Р С М О Т РИ Т Г Р С И Д И Т Н Д С П Р Я Т А Л С Я ГР П Р И Л Е Т Е Л А Г С Х В А ТИ Л ГР АГ ПОЗВАЛ П М У Б И Л И А Г ЗА БРА Л ГР Н Д В Е РН У Л С Я «КУДА»

Структуру постпозиции можно представить в виде следу­ ющей схемы [82, с. 216-217;

85, с. 10] (рис. 3.12). Каждому прямоугольнику схемы соответствует определенный набор фраз (см. с. 163-164). Причем в реальной сказке могут при­ сутствовать фразы всех трех, двух или какого-то одного типа.

Выбор числа типов фраз и конкретных фраз внутри каждого типа проводится с помощью датчика случайных чисел.

Глава 3. Системы обработки связных текстов Рис. 3.12. Структура постпозиции сказки Пусть для порождаемой сказки компьютер выбрал после­ довательность типов фраз - 12. Допустим, что среди отно­ сящихся к списку № 1 фраз постпозиции (с. 163) по датчи­ ку случайных чисел выбрана следующая: Получил ГР Н Д в жены. Аналогичный поиск фраз постпозиции (с. 163-164) в списке № 2, предположим, привел к такому результату;

Сыграли свадьбу, стали жить-поживать, добро наживать. А вся формула постпозиции и этом случае выглядит так: П о­ лучил ГР Н Д в жены. Сыграли свадьбу, стали жить-пожи­ вать, добро наживать.

Объединяя формулы экспозиции, тела сказки и постпо­ зиции, компьютер получает полную формулу порождаемой сказки:

ЖИЛ-БЫЛ X, ИМЕЛ НД. НАЛЕТЕЛ АГ, УНЕС НД. ПОСЛАЛ X ГР ОТЫСКАТЬ НД, ОБЕЩАЛ НД В ЖЕНЫ.

ОТПРАВИЛСЯ ГР ИСКАТЬ НД. ИДЕТ ГР, ВИДИТ ПМ. ПОПРО­ СИЛ ПМ ГР СДЕЛАТЬ «ЧТО», СДЕЛАЛ ГР «ЧТО», ОБЕЩАЛ ПМ ПОМОЧЬ ГР. ИДЕТ ГР, ВИДИТ ПР, ВОШЕЛ ГР В ПР, СМОТРИТ ГР, СИДИТ НД. СПРЯТАЛСЯ ГР, ПРИЛЕТЕЛ АГ, СХВАТИЛ ГР АГ, ПОЗВАЛ ПМ, УБИЛИ АГ. ЗАБРАЛ ГР НД, ВЕРНУЛСЯ «КУДА».

ПОЛУЧИЛ ГР НД В ЖЕНЫ. СЫГРАЛИ СВАДЬБУ, СТАЛИ ЖИТЬ-ПОЖИВАТЬ, ДОБРО НАЖИВАТЬ.

Наконец, на последнем этапе порождения сказки среди возм ож ны х воп лощ ен и й действую щ их л и ц (см. с. 156) компьютер выбирает конкретных персонажей для X (роди­ 1 76 Основы искусственного интеллекта для лингвистов телей), ГР (Героя), АГ (Антигероя), П М (Помощника) и НД (Награды), используя датчик случайных чисел. Пусть были выбраны следующие конкретные деятели: X - царь, ГР Иванушка, АГ - змей, ПМ - странник, НД - царевна, П Р пещера. Как видно, в формуле сказки остались две перемен­ ные «ЧТО» и «КУДА». Вместо «КУДА» компьютер может подставить какую-либо часть фразы из списка «Место и вре­ мя действия» базы данных системы порождения сказки («в деревню», «в некоторое государство», «в царство» и т.п. или же слова «назад», «обратно», «домой» и т.д.). Предположим, компьютер выбрал слово «назад»: («КУДА» - «назад»). Н а­ конец, под «ЧТО» можно подразумевать какой-нибудь «вол­ шебный» предмет». Полные списки волшебных предметов также включаются в базу данных системы порождения сказ­ ки. Пусть по датчику случайных чисел в этом списке найде­ но слово «дубинка» («ЧТО» - «дубинка»). Тогда в полном виде синтезированная компьютером сказка будет выглядеть так:

Жил-был царь, тел дочь. Налетел змей, унес дочь. Послал иарь Ива­ нушку отыскать дочь, обещал дочь в жены.

Отправился Иванушка искать дочь. Идет Иванушка, видит стран­ ника. Попросил странник Иванушку сделать дубинку, сделал Иватшка дубинку, обешал странник помочь Иванушке. Идет Иватшка. видит пещеру, вошел Иватшка в пещеру, смотрит Иватшка. сидит дочь.

Спрятался Иватшка. прилетел змей, схватил Иватшка змея, по­ звал странника, убили змея.

Забрал Иватшка дочь, вернулся назад. Получил Иватшка дочь в жены.

Сыграли свадьбу, стали жить-поживать, добро наживать.

В процессе синтеза сказки по данному алгоритму при первом упоминании действующих лиц можно указать в виде частей фраз их атрибуты (см. с. 156-157). Тогда экспозиция сказки могла выглядеть так:

Жил-был могучий и богатый царь, имел красивую и добрую дочь. Нале­ тел злой и страшный змей, унес дочь. Послал царь умного и сильного Иванушку отыскать дочь...

Глава 3. Системы обработки связных текстов Более совершенный алгоритм построения сказки с ис­ пользованием тех же исходных данных приводится в рабо­ тах [86;

83, с. 130-131].

Если в общую формулу сказки вместо переменных ком­ пьютер подставит других персонажей, получится сказка с той же композицией, но с другими действующими лицами.

Выбрав другую аксиому встреч, компьютер может постро­ ить сказку с другой композицией. Выбор композиции сказ­ ки, конкретных поступков действующих лиц при встречах, наполнение конкретных глагольных фреймов и выбор са­ мих персонажей проводится автоматически на основе дан­ ных датчика случайных чисел. Вмешательство человека в процесс порождения сказки в разрабатываемой системе не предусматривается. Однако человек может принимать уча­ стие в процессе порождения текста на любом из четырех пе­ речисленных этапов построения сказки. Например, если по­ ручить человеку выбор персонажей сказки, в диалоговый компонент можно включить такие фразы:

«Выберите, пожалуйста, главного Героя будущей сказки из числа следующих персонажей:

1. Иванушка 2. Солдат 3. Иван-царевич 4. Падчерица»

Подобные фразы система будет выдавать при выборе ос­ тальных действующих лиц, включенных в общую формулу сказки. Можно поручить человеку выбор общей компози­ ции сказки. Например:

«Выберите, пожалуйста, одну из следующих возможных композиций сказки:

1. Герой - Антигерой;

Герой - Антигерой;

Герой - Ан­ тигерой;

Герой - Антигерой;

Антигерой - Прорицатель;

Герой - Прорицатель;

...

2. Герой - Даритель;

Герой - Даритель;

Герой - Д ари­ тель;

Герой - Прорицатель;

...

3. Герой - Награда;

Герой - Помощ ник;

Герой - П о­ мощник;

Герой - Прорицатель;

...»

178 Основы искусственного интеллекта для лингвистов 3.5.2.4. Этап выполнения и тестирования На этапе выполнения задачи рассмотренный выше алго­ ритм программируется на каком-либо алгоритмическом язы­ ке и полученная программа выполняется на компьютере.

Приведенная выше сказка была синтезирована электронно вычислительной машиной в ходе выполнения созданной в Москве программы TALE (язык программирования Л И С П ) [83, с. 129-130;

82, с. 221-223].

С использованием идей В. Проппа и развитием их К. Бре моном [53] в Германии была создана программа, синтези­ рующая сказки типа [83, с. 129;

85, с. 6]:

Моревичи жили в отдаленном районе. Отец был Ерема. Мать была Василиса. Старший сын был Балдак. Средний сын был Марко. Млад­ ший сын был Борис. Николай тоже жил там. Николай был рожден чудесным образом. У Болдака был волшебный конь. В отдаленном рай­ оне появился медведь. Медведь завладел волшебным конем...

Аналогичный подход был использован при порождении французских сказок [141;

142]. Исходным материалом для создания базы знаний системы порождения сказок послу­ жили тексты 14 французских волшебных сказок Ш. Перро, Б. Клавеля, С. Мендеса и М. Гаске [142, с. 181]. С помощью программы, написанной на языке QBASIC, было синтези­ ровано 50 французских сказок. Ниже приводится одна из порожденных компьютером сказок и ее перевод на русский язык:

Le conte № Unjour, Le Petit Poucet qui parlait peu —ecoutait beaucoup partit chez sa grand-mere, qui demeurait dans un autre village.

Le Petit Poucet demanda une boule de neige a L ’ours gris chaque jour.

L’ ours aida Le Petit Poucet chaque jour et accompagna Le Petit Poucet dans une ville.

Ils se mirent a courir vers la maison.

Глава 3. Системы обработки связных текстов Le Petit Poucet donna la main a La fille du mi quelques jours apres et dpousa La fille du mi quelquesjours apres chez la grand-mere. La fille du mi fut folle de Le Petit Poucet.

Ce pauvre homme monta a la chambre de la petite Aurore.

La princesse Amarante qui avait le Coeur clos a toute tendresse ouvrit au palais quelques jours apres. L ’ urs courut au palais sans peur et passa des o Spies a trovers du corps de La princesse Amarante au palais quelques jours apres.

Ils etaient la, lorsque le mi entra dans la cour, a cheval.

Le Petit Poucet rencontra La fille du roi a la cuisine, La fille du roi epousa Le Petit Poucet le тёте jour a la cuisine.

Le Petit Poucet en devint amoureux.

FIN Сказка № Однажды Мужичок-с-Ноготок, который мало говорил —много слушал, отправился к своей бабушке, которая жила в другой деревне.

Каждый день Мужичок-с-Ноготок просил волшебный снежок у Медведя. И каждый день Медведь помогал Мужичку и провожал его в город.

Они побежали к дому.

Через несколько дней Мужичок-с-Ноготок попросил руки королев­ ской дочери и, так как королевская дочь очень любила Мужичка, через несколько дней они были помолвлены у бабушки.

Так бедолага оказался в комнате маленькой Авроры.

Принцесса Гвоздика, сердце которой было черствым, как камень, вернулась во дворец через несколько дней. Медведь смело ворвался во дворец и разрубил мечом принцессу Гвоздику.

Когда король въехал во двор верхом на лошади, они еще были там.

Мужичок-с-Ноготок встретил королевскую дочь на кухне, и в тот же день они поженились.

Мужичок-с-Ноготок влюбился.

КОНЕЦ Тестирование системы порождения сказки заключается в проверке большого числа порождаемых формул сказок с использованием разных действующих лиц. Если в резуль­ 180 Основы искусственного интеллекта для лингвистов тате происходят отдельные нарушения логики изложения, то в алгоритм вводятся определенные изменения и допол­ нения. При неточностях в грамматических структурах от­ дельных фраз корректируются базы данных системы порож­ дения (подробнее см. [141;

142]).

3.6. Система порождения русских стихотворных текстов 3.6.1. Подходы к порождению стихотворений Прежде чем перейти к детальному рассмотрению сфор­ мулированной в заголовке данного подраздела задачи, ос­ тановимся кратко на понятии «стихотворный текст» и не­ обходимости его создания системой искусственного интел­ лекта. Несмотря на то, что, по выражению Поля Валери, «стихотворение создается не из идей и не из чувств, оно со­ здается из слов» [241, с. 275], в данной работе описывается процесс синтезирования не стихотворений как поэтических текстов, а стихотворных текстов. Под этим понятием бу­ дем иметь в виду разбитые на строфы последовательности семантически связанных предложений. Строфой назовем сочетание двух и более стихов, объединенных особой риф ­ мовкой и интонацией и образующих единое ритмическое целое [265, с. 99;

54, с. 48-62]. Стих —это предложение или часть предложения стихотворного текста, слова которого образуют определенное правильное чередование ударных и неударных слогов [366, с. 22-48;

54, с. 38-39;

265, с. 8 7 100]. Цель порождения стихотворных текстов - не удовлет­ ворение эстетических потребностей человека, а попытка моделирования процесса создания такого текста, в котором сложнейшим образом переплетаются грамматические, семан­ тические и стилистические правила, с одной стороны, и ос­ новные формальные показатели стихотворной речи - ритм, метр, рифма, - с другой.

Глава 3. Системы обработки связных текстов Система порождения стихотворных текстов - это одна разновидностей систем обработки связных текстов. Как ИЗ И в задаче создания системы порождения русской сказки, здесь необходимо каким-то образом построить базу знаний, опираясь на которую, система будет строить стихотворные тексты. Поэтому рассмотрим существующие подходы к ана­ лизу исходного лингвистического материала (стихотворе­ ний).

Первые «безмашинные» попытки создания стихотворных текстов относятся к началу XX столетия. Их цель сводилась к познанию законов стихосложения. В то время казалось, что исследователи полностью постигли эти законы. П ояви­ лось большое число работ, в которых предлагалось научить писать стихи любого желающего18. К их числу относится и исследование поэта Н. Гумилева. Он составил специальные таблицы, по которым можно было сочинять стихи «без рис­ ка написать плохо» [33, с. 118]. Обучение процессу написа­ ния стихов Н. Гумилев проводил на специальном семина­ ре. Когда А. Блок посетил этот семинар, все происходящее его так возмутило, что он написал статью «Без божества, без вдохновенья...», где раскритиковал предлагаемый подход к сочинению стихотворений.

Появление компьютеров способствовало возникновению идей их использования для стихосложения с разными целя­ ми. В простейшем случае стихотворные тексты «сочинялись»

для проверки возможности компьютера оперировать опре­ деленным множеством слов. Соответствующие алгоритмы порождения были достаточно просты и не содержали мно­ гих необходимых ком понентов процесса стихосложения.

Так, один американский компьютер, используя словарь из 130 слов и жесткую структуру нескольких, выбираемых слу­ чайным образом строк, писал белые стихи следующего типа [266, с. 330-331]:

18 П р и м е р а м и т а к и х р а б о т я в л я ю т ся : К а к н а у ч и т ь с я п и с а т ь с ти х и. С ост.

Кранц Л.Д. П у т ь к сл ав е. К а к с т а т ь п о э т о м ? - М., Я. Х а р е в и ч.- С П б., 1908;

1915 и д р.[172, с. 9].

182 Основы искусственного интеллекта для лингвистов Стихотворение № Пока жизнь создает ошибочные, совершенно пустые образы, Пока медленно время течет мимо полезных дел, А звезды уныло кружатся в небе, Люди не смогут смеяться1.

Много современных компьютерных строк типа буриме, хокку (хайку), сонетов, ронгов и т.д. можно найти в публи­ кациях [180;

10]. Более сложная база данных использова­ лась при порождении немецких текстов [394;

442;

118]. В машину вводился определенный словарь (причем он время от времени менялся). Каждому слову с помощью специаль­ ных индексов задавались грамматические характеристики (часть речи, число, падеж, род, связь с другими словами и т.д.). Использовался очень простой механизм синтеза, по­ зволяющий строить небольшое число типов предложений.

В процессе порождения текста по датчику случайных чисел из слов синтезировался один из возможных типов предло­ жений. Затем, также случайным образом строились второе, третье и другие предложения. Они располагались последо­ вательно друг за другом, образуя «автопоэмы». Например, «Автопоэма № 151» выглядела следующим образом:

Autopoem № Hurra! Helle Kritiker dichten Und der Effekt ist langsam.

Warm trillert der wertvolle unsinn.

Eine Gestalt gleitet rund und starr.

Metrisch schaltet das sinnlose Metrum.

Weil der Pinsel Rasselt, sind Wir ob und zukuenstlich.

Morgen ist die Boiance schnell.

Kunst ist Beweglich und Musikalish.

Die Loesung lemt.

Wenn das Gleichmass erscheint,musiziertem Material.

1 Перевод с английского языка.

Глава 3. Системы обработки связных текстов Русский перевод:



Pages:     | 1 |   ...   | 2 | 3 || 5 | 6 |   ...   | 7 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.