авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 |   ...   | 3 | 4 || 6 | 7 |

«Каменистые тропы науки - это горы литературы, уступы книг, которые нужно прочесть, усвоить. Но книги - это путеводитель, по которому можно ориентироваться на дорогах науки. ...»

-- [ Страница 5 ] --

Автопоэма № 1 5 Ура! Светлые критики сочиняют А эффект является медленно.

Тепло пускает трели драгоценная бессмыслица.

Какой-то образ скользит круглый и твердый.

Метрически управляет бессмысленный ритм.

Потому что кисть трещит мы по времени манерны.

Завтра явится равновесие быстро.

Искусство подвижно и музыкально.

Решение учит.

Когда появляется равномерность, музицирует материал.

Как показывает анализ этого и других машинных стихот­ ворных текстов [118, с. 283;

266, с. 401;

441;

158], семанти­ ческие связи между частями предложений и предложениями в них полностью разрушены. Нет ритмических особеннос­ тей, отличающих стихотворный текст от прозаического.

Несколько иной подход к порождению стихотворных тек­ стов описан в работе [440]. Для порождения текста компьюте­ ру задается словарь слов, список определенных фраз и неко­ торая процедура подбора фраз и слов во фразы. Здесь после­ довательность фраз не всегда случайна. Некоторые фразы могут строго следовать лишь за определенными высказыва­ ниями. Наполнение фраз словами определяется некоторыми семантическими правилами. В итоге автор указанной работы с помощью компьютера написал цикл стихотворных текстов «Сюита подсолнуха», объединенных общей темой бренности бытия. Начало открывающего этот цикл стихотворения в пе­ реводе с английского выглядит так [239, с. 160-162]:

Павана для детей далекого Космоса Ледовые миры, Населенные призраками планет, 2 Пунктуацию и акценты (например, курсив) в подобных текстах рас­ ставляет сам автор программы, внося их в готовый компьютерный текст.

184 Основы искусственного интеллекта для лингвистов Ледовые миры, Арктур, Андромеда и Вега, На орбитах, затерянных в звездной пыли, Средь хрустальной вечности.

Ваше семя раскидано и горит алмазами бесконечности, Затерявшись в пустом океане, В шаг с мерным танцем Вселенной Кружась и кружась на орбитах.

Можно заметить, что и в этих машинных текстах отсут­ ствует семантическое единство его составляющих и необ­ ходимые для традиционных стихов ритм и рифма.

Более совершенным в этом плане является алгоритм по­ рождения стихотворных текстов, описанный в работе [158].

В основе словаря этой порождающей модели лежит лекси­ ка стихотворений из сборника О. Мандельштама «Камень».

Каждое слово в таком словаре сопровождается информацией о метре, рифме, грамматических характеристиках. К числу последних относится указание о том, чем конкретное слово может служить в предложении (подлежащим, сказуемым, определением, обстоятельством), его роде, числе, падеже, времени. Принимается, что каждая строка будущего сти­ хотворения состоит из одного подлежащего, одного сказуе­ мого, нескольких определений и обстоятельств. Задание на порождение стихотворения включает: количество строк в каждой строфе;

тип окончания последнего слова строки (мужское, женское);

типы рифмующихся строк (смежные, перекрестные, охваченные);

количество слогов в строке. В процессе порождения по датчику случайных чисел сначала подбираются последние рифмующиеся слова всех строк стро­ фы. Затем каждая строка достраивается слева путем выбора слов из словаря также случайным образом. Каждое подбира­ емое слово проверяется на соответствие выбранному ритму строки и грамматическим характеристикам уже отобранных слов. В процессе реализации этого алгоритма в виде програм­ мы компьютером было получено несколько десятков стихо­ творений. Одно из них выглядит следующим образом:

Глава 3. Системы обработки связных текстов Умирающий —в смятеньи.

Вновь, как тень, огни дрожат, Вновь над бездною движения — Где-то далеко —душа...

Крик смертельный рядом, зыбкий, Тлели в хрустале глаза, Шелест мечется с улыбкой, Где-то в чаще небеса.

К ак видно, здесь уже есть определенный ритм и рифма.

Однако слабы семантические связи между отдельными стро­ ками таких текстов.

Рассмотрим, насколько близки описанные процедуры создания стихотворных текстов к тем реальным процессам стихосложения, о которых говорят сами поэты и исследо­ ватели их творчества. П роцесс создания стихотворения «Сергею Есенину» подробно описал В. М аяковский [228].

Сначала, отмечает автор, в его воображении возникает не­ который «ритм - основа всякой поэтической вещи, прохо­ дящая через нее гулом:

т а-ра-ра / ра-ра / ра, ра, ра, ра / ра-ра / ра-ра-ри /р а ра ра / p a p a / ра р а ра ра / ра р а р а / р а ра ра ра ра ра р и / ра ра ра / ра ра ра / ра р а / р а / р а ра.

Затем, начинают возникать отдельные слова:

Вы ушли ра ра ра ра ра в мир иной...

Может быть, летите ра ра ра ра ра ра.

Ни аванса вам, ни бабы, ни пивной.

Ра ра ра / ра ра ра / трезвость.

Десятки раз повторяю, прислушиваясь к первой строке:

Вы ушли ра ра ра ра ра в мир иной...Что же это за «ра ра ра»

проклятая и что же вместо нее вставить? Может быть оста­ вить без всякой «рарары»? Вы ушли в мир иной. Нет!.. Без 186 Основы искусственного интеллекта для лингвистов этих слогов какой-то оперный галоп получается, а эти «ра ра ра» куда возвыш еннее. «Ра ра ра» вы кидывать никак нельзя - ритм правильный. Начинаю подбирать слова: Вы ушли, Сережа, в мир иной...;

Вы ушли бесповоротно в мир иной...;

Вы ушли, Есенин, в мир иной...Какая из этих строчек лучше? Все дрянь! Почему?

Первая строка фальшива из-за слова «Сережа». Я никог­ да так амикошонски не обращался к Есенину, и это слово недопустимо и сейчас, так как оно поведет за собой массу других фальшивых, не свойственных мне и нашим отноше­ ниям словечек: «ты», «милый», «брат» и т.д.

Вторая строка плоха потому, что слово «бесповоротно» в ней необязательно, случайно, вставлено только для разме­ ра: оно не только не помогает, ничего не объясняет, оно про­ сто мешает. Действительно, что это за «бесповоротно»? Разве кто-нибудь умирал поворотно? Разве есть смерть со сроч­ ным возвратом?

Третья строка не годится своей полной серьезностью (це­ левая установка постепенно вбивает в голову, что это недо­ статок всех трех строк). Почему эта серьезность недопусти­ ма? Потому что она дает повод приписать мне веру в суще­ ствование загробной ж изни в евангельских тонах, чего у меня нет, - это раз, а во-вторых, эта серьезность делает стих просто погребальным, а не тенденциозным - затемняет це­ левую установку. Поэтому я ввожу слова «как говорится»:

Вы ушли, как говорится, в мир иной. Строка сделана - «как говорится», не будучи прямой насмешкой, тонко снижает патетику стиха и одновременно устраняет всяческие подо­ зрения по поводу веры автора во все загробные ахинеи. Стро­ ка сделана и сразу становится основной, определяющей все четверостишие, - его нужно сделать двойственным, не при­ плясывать по поводу горя, а с другой стороны, не распус­ кать слезоточивой нуди. Надо сразу четверостишие переры­ вать пополам: две торжественные строки, две разговорные, бытовые, контрастом оттеняющие друг друга».

Далее, описывая процесс создания первой строфы, В.Ма яковский показывает ту работу, которую выполняет поэт при Глава 3. Системы обработки связных текстов подборе рифмы. «Четверостишие в основном готово, оста­ ется только одна строка, не заполненная рифмой:

Вы ушли, как говорится, в мир иной.

Может быть, летите ра-ра-ра-ра.

Ни тебе аванса, ни пивной — Трезвость.

Может быть можно оставить незарифмованной? Нельзя.

Почему? Потому что без рифмы (понимая рифму широко) стих рассыплется. Риф ма возвращ ает нас к предыдущей строке, заставляет вспом нить ее, заставляет все строки, оформляющие одну мысль, держаться вместе... В моем сти­ хе необходимо зарифмовать слово «трезвость». Первыми пришедшими в голову будут слова «резвость», например:

Вы ушли, как говорится, в мир иной.

Может быть, летите...знаю вашу резвость!.

Ни тебе аванса, ни пивной — Трезвость.

Можно эту рифму оставить? Нет. Почему? Во-первых, потому, что эта рифма чересчур полная, чересчур прозрач­ ная. Когда вы говорите «резвость», то рифма «трезвость» на­ прашивается сама собой и, будучи произнесенной, не удив­ ляет, не останавливает вашего внимания... Слово «резвость»

плохо еще и тем, что оно вносит элемент насмешки уже в первые строки, ослабляя, таким образом, всю дальнейшую контрастность. Может быть, можно облегчить себе работу, заменив слово «трезвость» каким-нибудь легче рифмуемым или не ставить «трезвость» в конце строки, а дополнить строку несколькими слогами, например, «трезвость, тишь»?.. По моему, этого делать нельзя - я всегда ставлю самое характер­ ное слово в конце строки и достаю к нему рифму во что бы то ни стало. Взяв самые характерные звуки рифмуемого слова «резв», повторяю множество раз про себя, прислушиваясь ко всем ассоциациям: «ре», «резв», «резерв», «влез», «врез», 188 Основы искусственного интеллекта для лингвистов «врезв», «врезываясь». Счастливая рифма найдена. Глагол да еще торжественный! Но вот беда, в слове «трезвость», хотя и не так характерно, как «резв», но все же ясно звучит «т», «сть». Что с ними делать? Надо ввести аналогичные буквы и в предыдущую строку. Поэтому слово «может быть» заменя­ ется словом «пустота», изобилующим и «т» и «ст», а для смяг­ чения «т» оставляется «летите», звучащее отчасти как «леть ите». И вот окончательная редакция:

Вы ушли, как говорится, в мир иной.

Пустота, —летите, в звезды врезываясь...

Пи тебе аванса, ни пивной — Трезвость».

Говоря далее о построении стихотворения из таких чет­ веростиший, В. М аяковский пишет: «Первое четверостишие определяет весь дальнейший стих. Имея в руках такое чет­ веростишие, я уже прикидываю, сколько таких нужно по данной теме и как их распределить для наилучшего эфф ек­ та. Тема большая и сложная, придется потратить на нее та­ ких четверостиший, шестистиший да двухстиший - кирпи­ чей штук 20-30. Наработав приблизительно почти всё эти кирпичи, я начинаю их примерять, ставя то на одно, то на другое место, прислушиваясь, как они звучат, и стараясь представить себе производимое впечатление».

Есть и другие мнения по поводу процесса создания сти­ хотворений. Так, поэт А. Фет говорил, что стихи как бы «сами попадают под ноги в виде образа, целого случайного стиха или даже простой рифмы, около которой, как около зародыша, распухает целое стихотворение» [310, с. 445]. Как видно, основой стиха поэт считает не ритм, как В. М аяков­ ский, а рифму.

Если для В.Маяковского важно было создать первую стро­ фу, то узбекская поэтесса Зульфия считала главным найти концовку стихотворения [32, с. 119]: «Начав стихотворение, я не могла продолжить его раньше, чем находила ему кон­ цовку. Я знала, куда иду, и отыскивала путь самый короткий:

Глава 3. Системы обработки связных текстов стихи становились лаконичней и насыщеннее. Писалось мне тогда очень быстро - конечно, как раз оттого, что я заранее держала всю будущую постройку в голове». У Зульфии есть и мысли, подтверждающие высказывания А. Фета: «Строчка, стих начинаются подчас от случайного слова, в каком-то по­ вороте поразившего нас своим звучанием, или на стыке двух слов, столь же случайных, сливающихся в неожиданной фо­ нетической и смысловой перекличке... Или того больше: клю­ чевая для всей поэтической вещи метафора возникает из риф­ мовки - да, да, из простого подбора рифмующегося слова! И не потребуйся такая рифма - не явился бы самый образ...»

[32, с. 115]. Как видно, своеобразными «опорными точками»

стихотворения у А. Фета, Зульфии и целого ряда других по­ этов являются рифмующиеся слова.

Несколько иначе смотрит на процесс «движения смыс­ ла» А. Блок: «Всякое стихотворение - покрывало, растяну­ тое на остриях нескольких слов. Эти слова светятся как звез­ ды. И з-за них существует стихотворение. Тем оно темнее, чем отдаленнее эти слова от текста» [132, с. 53]. Очевидно, для А. Блока важны в качестве опорных точек ассоциации, определенным образом связанные с исходным замыслом.

Анализируя приведенные и им подобные высказывания о процессе рождения стихов, а также результаты исследо­ ваний литературоведов, психолингвистов и лингвистов [132, с. 41-64], касающиеся проблемы построения текстов, мож­ но следующим образом представить процесс создания сти­ хотворного текста человеком (рис. 3.13).

Надо признать, что ни один из рассмотренных выше ал­ горитмов порождения стихотворных текстов компьютером не удовлетворяет действиям, приведенным на рис. 3.13. Во всех описанны х ком пью терны х процедурах отсутствует «привязка» к единому замыслу (нет семантической связи между отдельными строками), во многих нет единого рит­ ма, отсутствуют рифмы. В описанных простейших програм­ мах нет блоков обратной связи (т.е. блоков Е, F, G, I), по­ зволяющих автоматически совершенствовать создаваемые стихотворные тексты. Все это возможно сделать лишь в рам­ ках ЕЯ-систем искусственного интеллекта.

190 Основы искусственного интеллекта для лингвистов Рис. 3.13. Принципиальный алгоритм построения стихотворения человеком (начало) Глава 3. Системы обработки связных текстов стихотворения человеком (окончание) Ближе всего к реальному процессу стихосложения, пред­ ставленному в виде алгоритма на рис. 3.13, подходит идея порождения текста компьютером, описанная в работах [129;

133;

135]. Суть данного подхода заключается в следующем.

Каждый текст выражает индивидуальные лингвистические и экстралингвистические знания автора. Лингвистические знания связаны со спецификой употребляемых автором слов, словосочетаний, типов предложений и их последовательно­ стей (абзацев, строф). Экстралингвистические особенности автора проявляются в выборе манеры изложения (повествова­ ние, описание, сказка и т.п.), в способе представления ситуа­ ций окружающей действительности, выражающемся структур­ ной организацией абзаца или строфы и порядком следования в тексте этих укрупненных единиц, подборе эмоционально окрашенных слов и т.п. [133, с. 3-14].

192 Основы искусственного интеллекта для лингвистов Вторая особенность этого подхода состоит в том, что каж­ дый текст представляется в виде статической и динамиче­ ской составляющих. Статическая составляющая - это за­ мысел текста, выражаемый перечнем его основных ключевых слов. Обычно это - имена существительные, обозначающие главных действующих лиц или описываемых в тексте глав­ ных объектов, а также названия основных мест действия.

Динамическая составляющая представляется сем антико­ синтаксическими структурами абзацев и строф текста. Пред­ полагается, что каждая строфа или абзац связывает описы­ ваемые ситуации действительности с типичными для конк­ ретного автора семантико-синтаксическим и структурами таких единиц [133, с. 15-38].

Для порождения текста по описываемой теории база зна­ ний должна содержать словарь автора, где каждой единице приписаны грамматические, синтаксические и семантичес­ кие характеристики, типичные для данного автора семанти ко-синтаксические формулы абзацев (строф), а также сведе­ ния о порядке следования таких единиц в тексте [133, с. 39 55]. Так как система будет порождать стихотворные тексты, то необходимы сведения о ритмических структурах строк сти­ хотворений автора и о специфичных для него рифмах.

3.6.2. Этап идентификации Этап идентификации задачи создания системы порожде­ ния стихотворного текста можно сформулировать следующим образом: создать систему порождения русского стихотворного текста, моделирующего структуру таких текстов некоторого автора, в основу которой положена вероятностно-алгорит­ мическая модель порождения текста [129;

133;

135]. В каче­ стве статической составляющей модели порождения прини­ мается таблица основного содержания будущего текста, со­ держ ащ ая главны е и вто р о степ ен н ы е слова тек ста, специфичные для стихов моделируемого автора. Динамичес­ кая составляющая модели включает определенную последо­ Глава 3. Системы обработки связных текстов вательность семантико-синтаксических структур текста, наи­ более используемых данным автором. Модель опирается на словарь автора, в котором каждой единице приписаны мор­ фологические, синтаксические и семантические признаки, типичные для текстов моделируемого автора.

3.6.3. Этап кониептуализаиии 3.6.3.1. Словарь системы порождения стихотворного текста В качестве исходного материала для построения базы зна­ ний системы порождения исследовались около 100 стихотво­ рений, включенных в сборник [130]. Сначала на основе ста­ тистического анализа всех отобранных стихотворений был построен словарь системы, включающий около 3 О О слов.

О Все слова были разделены на 16 грамматических классов, каж­ дому из которых дан определенный индекс (табл. 3.3).

Таблица 3. Классы слов, используемые в системе порождения стихотворного текста № п/п Наименование класса слов Код класса слов 1 Существительное N 2 S Имя собственное 3 Прилагательное А 4 Краткое прилагательное Е 5 Глагол V 6 Причастие R 7 Краткое причастие X 8 Деепричастие К 9 Числительное количественное L 10 Числительное порядковое В 11 Наречие D 12 Местоимение Р 13 Предлог G 14 Союз С 15 Т Частица 16 м Междометие 7 О сно вы и с к у с с т в е н н о го интеллекта для л и н гв и ст о в 194 Основы искусственного интеллекта для лингвистов Подробно принципы создания автоматического словаря будут рассмотрены в главе 4. Не останавливаясь сейчас де­ тально на этих вопросах, представим на рис. 3.14 машинную словарную статью для русского существительного АВТОБУС.

Как видно из рис. 3.14, машинные словарные статьи автома­ тического словаря системы порождения стихотворного тек­ ста построены на основах (квазиосновах) слов и в них вве­ дены три новые зоны:

• зона эмоционального настроя (как часть зоны семан­ тических сведений);

• зона признаков принадлежности к определенным се­ мантическим изотопиям (как часть зоны семантических све­ дений);

• зона структурной организации слова.

Первая зона служит для «настроя» стихотворного текста на определенный эмоциональный лад [192]. Это делается путем подбора в стихотворный текст слов с такими признаками как «радостное» «тоскливое», «бодрое», «агрессивное» и т.д. Пол Семантич. 1-я изотопич. 2-ая изотопич. 3-Я изотопич. Эмоц.

Сем.

цепочка цепочка настрой цепочка класс подкласс ь -Е о О 0 | 7 | 0 |4| N 0 I1I о о Зона семантических сведений Единственное число Им.п. Род.п. Тв.п. Пр.п.

Дат.п. Вин.п.

Чис­ П а­ Тип фор Род мообраз.

ло деж 3 | 2 14 | 2 4| ОI 0 1 1 4 Зона структурной информации Зона морфологических сведений Множественное число Тв.п Пр.п. Основа слова Им.п. Род.п. Дат.п. Вин.п АВТОБУС X 4 4 12 4 12 4 12 4 12 5 Зона структурной информации Рис. 3.14. Машинная словарная статья для существительного АВТОБУС Глава 3. Системы обработки связных текстов ный набор эмоциональных признаков с кодами, использован­ ными в предлагаемом алгоритме, приведен в табл. 3.4.

Таблица 3. Эмоциональные признаки русских слов автоматического словаря № п /п Н аи м ен ован и е эм оционального К о д п ри зн ака п р и зн ака Бодры й П ечальны й 2 Т оскливы й Н еж ны й 4 С ветлы й 5 Радостны й 6 Об 7 А г р е с с и в н ы й (зл о й ) Вопрос о принадлежности слов к определенным семан­ тическим изотопиям будет рассмотрен ниже (с. 200-201).

Зона структурной организации слова служит для указания в каждой форме слова числа слогов и места ударного слога.

Такие сведения необходимы для соблюдения ритма строки:

Они используются при подборе в строку словоформ опре­ деленного ритма (подробнее см. с. 227-247). Например, ма­ шинная основа существительного АВТОБУС получит сле­ дующую структурную информацию (ср.: рис. 3.14):

Единственное число Множественное число Дат.п. Вин.п.

Дат.п. Вин.п. Тв.п. Пр.п. Им.п. Тв.п. Пр.п.

Им.п. РОД.П.

РОД.П.

5 I 4 I2 4 I 4| 3 4 12 4|2 4 4 12 4 12 4 3 Эта информация расшифровывается так: слово АВТО­ БУС в именительном падеже единственного числа имеет три слога («ав-то-бус») и ударение в этой форме падает на 2-й слог. В творительном падеже множественного числа слово будет иметь 5 слогов («ав-то-бу-са-ми») и ударение будет падать также на 2-й слог. Аналогичным образом кодирует­ ся структурная информация для слов всех грамматических классов.

Приписываемая каждому слову словаря морфологическая и синтаксическая информация полностью совпадает с инфор­ 196 Основы искусственного интеллекта для лингвистов мацией, сопровождающей русские лексические единицы ав­ томатического англо-русского словаря, подробно описанного в главе 4. В разрабатываемой системе порождения стихотвор­ ного текста значительно увеличено число типов формообра­ зования существительных (их стало 60), прилагательных (30), глаголов (60). Значительно возросло число семантических подклассов существительных (стало 110), глаголов (270), при­ лагательных и причастий (126), деепричастий (270), наречий (31). Каждое слово словаря занимает два или три байта для обозначения его принадлежности к тем или иным семанти­ ческим подклассам. В табл. 3.5 даны примеры семантических подклассов используемых слов.

С учетом вышеизложенного были закодированы все сло­ ва автоматического словаря русского языка. На рис. 3.15 при­ веден его фрагмент.

Таблица 3. Примеры семантических подклассов русских слов К л асс Н аи м ен о ван и е сем ан ти ч еско го п одкл асса Код сл о в под кл асса Части тела человека, способные чувствовать N и Другие части тела человека N О X Л ицо и части лица человека N Л К Внутренние состояния и ощ ущ ения, специфичные для N человека 0 Понятия, связанные с разговором по телефону N Понятия, связанные с взаимоотнош ением N о мужчины и женщ ины 1 Явления природы N S Понятия, связанные с письменными источниками N знаний Глаголы существования:

быть V имеется V е;

§ сущ ествует V Глаголы физического изменения ЧОЮ и Каузативные глаголы V Глаголы психофизических действий. V свойственных человеку Прилагательные, обозначаю щ ие качественные ев V признаки:

1. * свойственные человеку и всему тому, что связано с А 51 человеком ё S* свойственные особям животного мира А Глава 3. Системы обработки связных текстов Окончание табл. 3. К ласс Н аи м ен о ван и е сем ан ти ческого подкласса К од слов подкласса и используемые для описания предметов неживой' А о природы к О тносительные прилагательные, характеризующ ие объект:

к А по его отнош ению к какому-либо одуш евленному Я о.

объекту с к по отнош ению ко времени А г S по отнош ению к отвлеченному понятию А Причастия, обозначаю щ ие признаки физических действий:

свойственных человеку, особям ж ивотного мира и R используемых при описании предметов неживой природы R свойственных только человеку и Причастия, обозначаю щ ие признаки эмоциональных R действий, свойственных только человеку Л У Причастия, обозначаю щ ие признаки психических Я о.

состояний:

с:

R свойственных только человеку свойственных только человеку, особям животного R м ира и приписываемых предметам неживой природы П ризнаки психических эмоциональных состояний, R специфичны х только для человека 1) Деепричастия, обозначаю щ ие физические действия:

К свойственные только человеку я свойственные человеку, особям ж ивотного мира К У о. Деепричастия, обозначаю щ ие психические состояния:

с и свойственные только человеку К и КС К свойственные человеку, особям ж ивотного м ира О пределительные качественные наречия D и О пределительные количественные наречия D S О пределительные наречия образа и способа действия D П редикатные наречия:

§ И" X слова, выражаю щ ие состояния природы D слова, выражаю щ ие модальность, возможность D М 8 7 0 4 3 0 0 3 0 0 0 1 7 0 1 0 0 0 7 5 5 6 5 6 5 5 5 6 6 5 5 5 6 6 5 6 5 6 5 5 5 5 5 7 5 6 5 7 5 5 5 6 5 # а б с т р а к ц и о н и зм N O 1 3 0 0 4 0 4 5 0 7 7 0 0 0 1 0 0 0 1 3 2 4 2 4 2 3 2 4 2 4 2 4 2 4 2 4 2 4 2 5 2 4 2 # ав то б у с Ш 0907801400000010007334343334343434343435343#автом ат Основы искусственного интеллекта д я лингвистов SO1 5 0 7 9 0 4 6 0 0 0 1 5 0 1 7 2232 3 2 3 2 3 2 3 2 3 2 3 2 3 2 3 2 4 2 3 2 # А д ам Е 0 0 5 1 1 4 0 7 9 0 4 6 0 0 0 1 5 0 0 0 1 2 3 2 4 2 4 2 3 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 5 2 5 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 5 2 4 2 # ад а м о в Ы 0 6 6 4 0 6 8 0 0 9 0 3 1 4 5 0 2 0 0 0 3 4 2 4 2 4 2 4 2 4 2 4 2 4 2 3 2 4 2 4 2 5 2 4 2 # ак ац и SO16 6 0 7 5 0 3 7 0 0 8 4 6 0 2 0 0 2 1 3232323 2 3 2 3 2 3 2 3 2 3 2 3 2 4 2 3 2 # А л ен Е 1 1 4 0 7 5 0 3 7 0 0 8 4 6 0 0 0 1 3 3 2 5 2 5 2 3 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 2 5 2 5 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 5 2 4 2 # ал ен к и н V 1 4 3 0 4 6 0 1 0 0 2 8 4 5 0 0 0 0210 2 0 0 1 0 0 9 2 2 3 2 3 2 3 2 4 2 3 3 3 3 3 2 3 2 3 2 3 2 2 2 3 2 2 2 3 2 2 2 3 2 3 2 3 2 4 3 4 3 3 3 3 3 3 4 3 3 3 3 3 5 3 3 3 3 4 3 4 3 4 3 4 3 2 2 3 2 # ал е / з а SO 1 6 0 3 7 0 0 8 0 4 6 0 0 0 2 0 0222121212211122221212111211113121# А л л F 0 0 6 0 5 0 5 5 0 4 3 0 2 8 4 5 0 0 0 1007213131212121312121312121313131312121312121313121 # а л М 010211#а Т 130000#б G06120211#6e D 0 1 1 0 0 3 0 7 1 3 2 # б езу м н о л Ш )7 6 0 1 7 0 5 6 0 1 0 1 6 0 0 2 1 0 0 0 2 4 2 5 2 5 2 4 2 4 2 4 2 5 2 4 2 4 2 5 2 4 2 4 2 5 2 4 2 4 2 5 2 4 2 4 2 5 2 5 2 5 2 5 2 4 2 4 2 5 2 4 2 4 2 4 2 5 2 4 2 # б о л таю щ К 1 4705106902887230422#боясь С 030010#а Р 0 4 0 0 0 2 0 1 8111111112111111111112111 # в Рис. 3.15. Фрагмент автоматического русского словаря системы порождения стихотворного текста Глава 3. Системы обработки связных текстов 3.6.3.2. Тема текста Согласно используемой нами теории порождения текста содержание каждого абзаца прозаического текста опреде­ ляется его предметно-логическим содержанием, дифферен­ цированным по типам главных и второстепенных субъек­ тов и объектов, мест и времен представленной в абзаце м ик­ роситуации, последовательным изложением (описанием) фактов действительности или логической последовательно­ сти мыслей [129, с. 204-209;

133, с. 9-14). Главные и второ­ степенные субъекты и объекты, места и времена действий задаются главными и второстепенными опорными словами, вы­ деляемыми из текста статистическим путем [129, с. 172-187;

133, с. 15-22;

134]. Обычно в прозаическом художествен­ ном тексте главные опорные слова передают его главных действующих лиц (главных персонажей). В таких произве­ дениях главное действующее лицо может быть одно («Гам­ лет», «Дон Кихот» и т.д.) или несколько («Война и мир» Пьер Безухов, Андрей Болконский, Наташа Ростова и др.;

«Мастер и Маргарита» - Воланд, Понтий Пилат, Мастер, Маргарита и другие) [61, с. 159]. Эпизодические персонажи художественного прозаического текста передаются второ­ степенными опорными словами, которые играют в тексте вспомогательную роль [61, с. 159].

Несколько по-иному подходят исследователи к выделе­ нию главных и второстепенных опорных слов поэтических текстов. В таких текстах не рассказывается о действиях и событиях, которые происходят с героями в разное время и в разных местах. Стихотворение содержит некоторое краткое сообщение о чувствах героя, его внутреннем мире, его отно­ шении к окружающей действительности [76, с. 45;

61, с. 153].

В общем случае в лирическом стихотворении выделяют три основных действующих лица [210, с. 224;

166]: 1) тот, кто говорит - «я» («мы»);

2) тот, к которому обращаются - «ты»

(«вы», «Вы»);

3) тот, кто не является ни первым, ни вторым «он» («она», «оно», «они»). Причем «я» - это не обязатель­ 200 Основы искусственного интеллекта для лингвистов но автор стихотворения [61, с. 214). Стихотворение может быть написано от имени какого-то другого лица («Нет име­ ни тебе, мой дальний» А. Блока, «Я убит подо Ржевом» А. Твар­ довского, «Гойя» А. Вознесенского и т.д.). В разных поэти­ ческих текстах «ты» может быть и «родиной», и «любимой», и «богом» и т.д. То же самое можно сказать и о местоиме­ нии «он» («она», «оно»). Такие семантически однозначные единицы текста обычно называются контекстуальными си­ нонимами.

Учитывая сказанное, назовем главными опорными слова­ ми (ГОС) стихотворного текста перечисленные выше мес­ тоимения вместе с их контекстуальными синонимами. Сре­ ди них будем выделять: ГОС1 - пердре главное опорное сло­ во («я», «мы» и их контекстуальные синонимы );

ГОС2 второе главное опорное слово («ты», «вы», «Вы» и их си­ н оним ы );

ГОСЗ - третье главное опорное слово («он», «она», «оно», «они» и их синонимы). К числу главных опор­ ных слов текста будем относить и те существительные (с их контекстуальными синонимами), которые имеют пер­ востепенное значение для формирования основного содер­ ж ания текста. Эти главные опорные слова будем обозна­ чать через ГОС4.

Еще одной важной особенностью поэтического текста является то, что его семантическая связность определяется в результате взаимодействия компонентов такого текста как по горизонтали, так и по вертикали. Семантическая связ­ ность по горизонтали, специфичная для любого прозаиче­ ского текста, регулируется синтаксической и семантической валентностью слов предложения. Семантическая связность поэтического текста по вертикали предполагает наличие у группы слов (или нескольких групп слов) какого-то общего семантического признака. Такая группа слов образует еди­ ную семантическую цепочку - семантическую изотопию [348, с. 131). Например, слова «вечер», «утро», «час», «се­ кунда» имеют общий семантический признак «время» и по­ этому образуют семантическую изотопическую цепочку.

Общие семантические признаки можно выделить и в груп­ Глава 3. Системы обработки связных текстов пах слов: «мир», «даль», «расстояние»;

«поезд», «путь», «дви­ жение»;

«тело», «рука», «глаза»;

«открытка», «поздравление», «привет» и т.д.

В словаре предлагаемой модели порождения для каждо­ го слова указывается его принадлежность к трем изотопи­ ческим цепочкам. Например, слова «вечер» и «утро», отне­ сенные выше к изотопической цепочке «время», могут при­ надлежать и к иным цепочкам. Так, «вечер» может войти в изотопическую цепочку «характеристика ночи: вечер, ночь, звезды, луна» и т.п. Слово «утро» может войти в ряд слов:

«луч, огонек, свет, утро» и т.п. Их можно объединить изото­ пической цепочкой «понятия, дающие надежду на будущее».

Составляющие таких цепочек, повторяясь в разных местах стихотворения, являются средством развертывания содер­ жания поэтического текста, средством создания его опре­ деленного образно-эмоционального фона [120, с. 38-46;

348;

171;

201 ]. В конкретном стихотворении может быть несколь­ ко изотопических цепочек. Множество слов, входящих в каж­ дую цепочку, будем называть микротемой (ср. [201, с. 226]).

Главные опорные слова текста и все его микротемы образу­ ют тему стихотворного текста (от др.-греч. thema - нечто, положенное в основу).

Тема готового поэтического текста выделяется путем его содержательного анализа. Так, анализируя стихотворение «Глупышка» [130, с. 165-166], можно представить его тему следующим образом (табл. 3.6):

ГЛУПЫШ КА Глупышка милая! М илая девочка!

Как ты волнуешься, как ты дрожишь!

Словно под ветром ты — тонкая веточка.

Словно под натиском бури — камыш!

Ты —успокойся! Причина — пустая ведь:

Ты возвращаешь муж чине презент.

Он же забыл всем известную заповедь — Ж енщину брать лишь под стать своих лет!

202 Основы искусственного интеллекта для лингвистов Девочка милая! М илая вольница!

Как ты боишься обязанной быть.

Думаю, ночь провела ты с бессонницей, Н о не держи на него ты обид.

Понял он все! Ты — комета из прошлого!

Ты — как укор продающим себя!

Понял и глупость подарка он пошлого — Ты не способна принять, не любя!

Годы пройдут, и, себя не неволя, Вспомнишь звонки, как подарок дарил.

И улыбнешься ты с грустью и болью:

«Этот муж чина —меня он любил!»

Таблица 3. Тема стихотворного текста «Глупышка» Тип слов текста Код слов Слова ГОС2 С2 ты, глупы ш ка, девочка, ж ен щ и на, вольница, укор, ко м ета ГОСЗ СЗ он, муж чина ГОС4 С4 подарок, п р езен т М икротем ы МОЗО грусть, боль, о б и д а М 007 л ета, годы, п рош лое М 069 ночь, бессо н н и ц а М 068 веточка, кам ы ш М 015 ветер, буря, натиск Коды М007, М015, М030, М068, М069 представляют со­ бой условное обозначение изотопических цепочек слов.

Фрагмент общего перечня цепочек, выявленных в исследу­ емых стихотворениях, и их кодов приведен в табл. 3.7.

Анализ всех вошедших в сборник [130] стихотворений позволил выделить их темы. Фрагмент результатов представ­ лен в табл. 3.8.

2 В памяти компьютера главные опорные слова каждого текста хра­ нятся в более дифференцированном виде.

Глава 3. Системы обработки связных текстов Таблица 3. Фрагмент перечня изотопических цепочек и их кодов Н аи м ен о ван и е Код П р и м ер ы входящ и х изотопической цепочки цепочки в цепочку слов Предметы, связанны е с М001 Квартира, хрусталь, вино, комна­ описанием квартиры та, портрет, диван Понятия, связанные с успехом М 002 Слава, деньги, карьера, диплом, человека в ж изни талант, степень, ода, работа Понятия, связанные с внут­ М 003 Душ а, совесть, ж изнь, судьба, ренним миром человека правда, вера, мысли, воля, слово, память, чувство, огонь, сознание, откровенность Понятия, связанные с вы ­ М 034 сад, цветенье, весна, май, п ри­ ражением светлого и чистого в рода, лучи, узор душ е человека Понятия, связанные с п о ­ М035 открытка, привет, пожелание, сланиями и подарками тепло, сказки, ответ, вопрос, за­ минка, пластинка, слово, судьба Понятия, связанные с цветами М 049 букет, цветы, розы, сирень, крас­ ки, лепестки, ромаш ка, ландыш, лилии, цвет, стебельки Понятия, связанные с небом М053 звезда, комета, созвездья, небеса, солнце, небо, ночь, вечер, луна, серп Понятия, связанны е с М 076 лекарство, угар, средство, таблет­ болезнью ки Понятия, связанны е с прави­ М 077 семафор, огонь, ш офер, дар, п е­ лами движ ения на дорогах реход Таблица 3. Фрагмент тем анализируемых стихотворений Н азв ан и е Т и п слов К о д слов С лова сти х о тв о р ен и я «М не не надо ГОС1 я С больш их квар­ ГОС4 С4 мир, дали, страны, расстояния тир»

Микротемы М001 квартира, хрусталь, вино М 002 слава, деньги, карьера, месть М003 душ а, совесть, жизнь М 004 вагон, расстояние «Ю ность» ГОС4 С4 пора, ю ность, жизнь Микротемы М005 любовь, ласка, сказка 204 Основы искусственного интеллекта для лингвистов Продолжение табл. 3. Н азв ан и е Т и п слов К од слов С лова сти х о тв о р ен и я «Ещ е один окон­ ГОС1 С1 мы, все чен день» ГОС4 С4 жизнь М икротемы М 007 день, час (Я полу­ ГОС «Сестре я С чил)» ГОС2 С2 ты, дочка, одна ГОСЗ СЗ оно, письмо Микротемы МОП отец, мать, сестра, подруга М013 хлеб, уголь, вода, борщ М 020 платья, игруш ки, дом, семья М 014 труд, медаль, завод «Страстное» ГОС1 я С ГОС2 С2 ты, тело, полумертвая М икротемы M 0I6 плечи, глаза, тело М017 р еч и,сло в а «Тебе, любимая» ГОС1 С1 мы ГОС2 С2 родная, милая ГОС4 С4 он, день, миг, полночь М М икротемы карнавал, веселье, песня, маски снег, метель М026 ж изнь, сказка М «Опять, опять ГОС1 я С тревож но ста­ ГОС2 С2 ты, тот, кто, любимая, образ л о...»

ГОС4 С4 награда, кольцо «Опять, опять М икротемы М 016 волосы, взгляд, лица тревож но ста­ М 027 счастье, весна, начало л о...»

«В феврале цве­ ГОС1 С1 я, мы, поэт тут в Рангуне ГОСЗ СЗ люди, всякий, другие, одни розы...»

М икротемы М 026 ветер, зим а, морозы, февраль М 018 пальмы, розы, ж ара М 028 сердце, чувство, грусть, тоска, счастье жизнь, молодость, игра, ю ность М комната, квартира М Глава 3. Системы обработки связных текстов Окончание табл. 3. Слова Н азван и е Т и п слов К од слов сти х о тв о р ен и я я,б ольн ой «Вам когда- ГОС1 С нибудь запрещ а­ ГОС2 С2 Вы, глаза, ли...» С4 море, волна М028 чувство, душ а, чистота, прикрасы М икротемы зима, природа-искусство, прош лое, весна М глаза, волосы волны, море, дали М М я ГОС1 С «Солнышко»

ты, жена, невеста, солныш ко, ГОС2 С одна ГО СЗ он, водитель СЗ покой, достаток, целитель, М Микротемы свадьба, ожиданье, мечты лето, цветы, солнце, блеск, тепло М дно, дорога, случай слова, треск М чувства, разум М М 3.6.3.3. Предметно-эмоциональное содержание строфы текста Одним из важнейших понятий, раскрывающих тему тек­ ста, является понятие предметно-эмоционального содержания строфы. Определим его следующим образом: предметно-эмо­ циональное содержание (ПЭС) строфы - это опирающееся на главные опорные слова текста сообщение, раскрываемое детально одной или несколькими микротемами. Например, предметно-эмоциональное содержание пяти строф стихот­ ворения «Глупышка» может быть сформулировано так:

1-я строфа: констатация некоторого обращения автора к действующему лицу С2 и некоторая характеристика С2, рас­ крываемые микротемами М015, М037, М068.

206 Основы искусственного интеллекта для лингвистов 2-я строфа: констатация некоторого обращения автора действующему лицу С2 и некоторого состояния и/или дей­ ствия действующего лица СЗ, раскрываемых микротемами М007 и М035.

3-я строфа: констатация некоторого обращения автора к действующему лицу С2 и некоторая характеристика С2, рас­ крываемые микротемами М037, М069, М030.

4-я строфа: констатация некоторых состояний и/или дей­ ствий действующего лица СЗ и состояний и/или действий действующего лица С2, раскрываемых микротемами М037, М035, М007.

5-я строфа: констатация некоторых действий и/или со­ стояний действующего лица С2 и его действий и/или со­ стояний, связанных с действующим лицом СЗ, раскрывае­ мых микротемами М007, М030, М035.

Рассмотрим стихотворение «Вам когда-нибудь запреща­ ли... » [130] (главные опорные слова и микротемы этого сти­ хотворения приведены в табл. 3.8, с. 205):

Вам когда-нибудь запрещали После долгой и скучной зимы Окунуться в морские дали И почувствовать свежесть волны?

И барахтаться в ней и смеяться, Петь и плакать от всей души.

Чистотой, как весной, наслаждаться.

И шептать «Хороши! Хороши!»

То же море и те ж е дали, Те же чувства — все без прикрас Соединила природа-искусство В чистоте Ваших милых плаз.

Я смотрю — не могу оторваться, Говорю что, не знаю сам!

М не в глазах бы Ваших остаться Иль погладить по волосам...

Глава 3. Системы обработки связных текстов Лак больной не может купаться, Так в глазах я не смею тонуть:

Надо б с прошлым сейчас расстаться, Д а уж поздно - всего не вернуть.

Предметно-эмоциональное состояние его строф можно задать следующим образом:

1-я строфа: констатация некоторого обращ ения к С2, некоторого действия и/или состояния С2, связанного с С4, раскрываемых микротемами М007 и М019.

2-я строфа: констатация некоторого действия и/или со­ стояния С2, связанных с С4, раскрываемых микротемами М019 и М028.

3-я строфа: констатация некоторого утверждения автора о С2, связанного с С4, раскрываемого микротемами М007, М016, М019, М028.

4-я строфа: констатация некоторых состояний и/или дей- ствий С1, связанных с С2, раскрываемых микротемой М016.

5-я строфа: констатация некоторых действий и/или со­ стояний С1, раскрываемых микротемами М007 и М016.

Аналогичным образом было определено предметно-эмо­ циональное содержание всех строф анализируемых стихот­ ворений. Обозначим выделяемые предметно-эмоциональные содержания через Si. В табл. 3.9 приведен фрагмент, содер­ жащий выделенные предметно-эмоциональные содержания строф анализируемых текстов и частоты употребления строф с определенным предметно-эмоциональным содержанием (F - абсолютная частота;

f - относительная частота: f = F /N, где N = 491 - общее число строф в анализируемых стихот­ ворениях).

208 Основы искусственного интеллекта для лингвистов Таблица 3. фрагмент предметно-эмоционального содержания строф стихотворений П редм етн о -эм оц и он альн ое Код Ч астота содерж ан и е строф ы стр о ф ы F f Констатация некоторых действий и/или со­ S01 73 0, стояний С1, связанных с действиями и/или со­ стояниями С2 (или некоторая характеристика С2) К онстатация некоторого действия и/или сос­ S02 49 0, тояния С К онстатация некоторых действий и/или S03 0, состояний С2 и действий и/или состояний С К онстатация некоторой обстановки и некото­ S04 22 0, рого состояния и/ или действия С К онстатация обращ ения к С2, некоторого дей­ S34 3 0, ствия и/ или состояния С2 и некоторого дей­ ствия и/ или состояния СЗ К онстатация обращ ения к С2, некоторого дей­ S35 3 0, ствия и/или состояния СЗ и некоторого дей­ ствия и/или состояния С К онстатация некоторых действий и/или состо­ S72 1 0, яний С2 и действий и/или состояний СЗ, свя­ занных с С К онстатация некоторых утверж дений С1 и не­ S73 0, которого его обращ ения к С К онстатация некоторой обстановки'и некото­ S74. 1 0, рого обращ ения к С 3.6.3.4. База знании системы порождения стихотворного текста Предметно-эмоциональные содержания строф сведены в один список, представляющий собой часть базы знаний сис­ темы. Каждая ее составляющая имеет вид фрейма STROPH [CODLXi;

TEi], где CODLXi - имя фрейма, содержа­ щего перечень кодов главных опорных слов, встретивших­ ся в конкретной строфе (в общем виде номер строфы обо­ значается буквой i), a TEi - имя фрейма, представляющего предметно-эмоциональное содержание данной строфы. Рас­ Глава 3. Системы обработки связных текстов смотрим подробнее первый из двух указанных фреймов низ­ шего уровня.

В стихотворении «Глупышка» 2-я строфа (с. 201) опи­ сывается предметно-эмоциональным содержанием S30 «Кон­ статация некоторого обращения автора к С2 и некоторого состояния и /и ли действия СЗ». К ак видно, в формулиров­ ке данного содержания участвуют главные опорные слова С2 и СЗ. Тогда фрейм CODLXi записывается так: CODLX [С2, СЗ].

Для предметно-эмоционального содержания 2-й строфы стихотворения «Вам когда-нибудь запрещали...» этот фрейм выглядит следующим образом: CODLX2 [С2, С4].

Ф рейм TEi в свою очередь состоит из ф реймов более низкого уровня: TEi [Si;

SESFOSj, ISCj;

SESFOS2, ISC2...], где Si - общее предметно-эмоциональное содер­ жание строфы, (см. табл. 3.9);

SESFOSi - семантико-син таксические формулы строфы, которыми можно реализо­ вать общее ПЭС и которые записаны на специальном, по­ нятном компьютеру язы ке;

ISCi - имя фрейма низш его уровня, содержащего коды изотопических цепочек, специ­ фичных для каждой семантико-синтаксической формулы.

Рассмотрим подробнее вопрос о семантико-синтаксиче ских формулах строф. Анализируя различные строфы с од­ ним и тем же предм етно-эм оциональны м содержанием, можно заметить, что все они «наполнены» разными слова­ ми и предложениями. Естественно, возникает вопрос: «Как же описать для компьютера выделенные в процессе анали­ за предметно-эмоциональные содержания?» С этой целью был разработан специальный понятный компьютеру семан тико-синтаксический язы к С Е М С И Н Т [129, с. 89-138;

133, с. 26-38], в состав которого входят:

• 20 семантических функций, подобных семантическим падежам Ч. Филлмора [357];

• коды предлогов (см. табл. 3.10);

• коды местоимений (см. табл. 3.11);

• коды союзов и союзных слов (табл. 3.12);

• коды частиц (табл. 3.13);

210 Основы искусственного интеллекта для лингвистов • коды семантических подклассов существительных, гла­ голов, прилагательных, причастий, деепричастий, наречий и междометий (см. табл. 3.5).

Таблица ЗЛО Коды предлогов языка СЕМСИНТ (фрагмент) П р ед л о г Код Т ребуем ы й падеж П ред л о г К од Т ребуем ы й падеж в вин., предд.

G G во вин., предл., перед К20 твор.

на G03 вин., предл., после К21 род.

G с род., вин., творит. сквозь К52 винит.

со G05 род., вин., наряду К.53 твор.

твор., дат. спустя К54 вин.

к G06 дат.

G ко внутрь К 66 род.

по G08 вин., дат. предл. вперед К67 род.

ибо К80 вин., предл.

за вин., твор.

К09 в течении К81 родит.

Таблица ЗЛ Коды местоимений языка СЕМСИНТ (фрагмент) С е м ан ти ч еск и й подкласс М естои м ен ие К од Личные местоимения я Р мы Р ты РОЗ вы Р он Р она Р Притяжательные местоимения мой Р наш Р твои Р ваш Р Указательные местоимения этот Р Глава 3. Системы обработки связных текстов Окончание табл. 3. М естоим ение К од С ем ан ти ч еск и й п одкласс тот Р Указательные местоимения весь Р Определительные местоимения сам Р самый РЗЗ Р кто Относительные местоимения Р что Р Вопросительные местоимения кто Р что какой Р Р никто Отрицательные местоимения ничто Р Р Неопределенные местоимения некто Р нечто Р какой-нибудь чей-нибудь Р несколько Р Таблица 3. Коды союзов и союзных слов языка СЕМСИНТ (фрагмент) Код С ою з К од С ою з К од С ою з (сою зное слово) (сою зное слово) (сою зное слово) ли С следовательно С и С С С02 словно С39 же что так С40 оттого что С а СОЗ ежели С С04 С как потому что С42 какая С С05 только но каков С С то С06 чтоб С44 какие С С так как ибо иль С 212 Основы искусственного интеллекта для лингвистов Таблица 3. Коды частиц языка СЕМСИНТ (фрагмент) Ч астица К од Ч астица К од Ч астица К од будто Т01 тут Т35 рис. Т бы Т02 уж Т36 Т ведь T03 хоть Т37 см. Т вон Т04 чтоб хотя Т38 Т все-таки чтобы Т05 Т39 исклю чительно ТбО Приведем в качестве примера запись на языке С Е М ­ С И Н Т предметно-эмоционального содержания строфы с кодом S02 «Констатация некоторых действий и /или состо­ яний С1». В стихотворении «Вам когда-нибудь запрещали...»

4-я строфа, имеющая указанное предметно-эмоциональное содержание, на языке С Е М С И Н Т записывается следующим образом:

A A G Р 0 1 * * С 0 1 + R 1 /1 V 0 2 6 —[A A G Р 0 1 ] + R 1 / T21*V038*V034, [A A G P01] + R 1/1 V 043 + А01 P 3 5, [A A G P01] + R 2 / 1T21*V027 + AAGP32!

AB1 P01**C01 A03G01*N003**C02*T02 + АОЗ P13*[N003] + + R3/4V C74 + R 2/4 V 012+A O 3 G 08*N055.

Такое преставление предметно-эмоционального содержа­ ния строфы называется семантико-синтаксической формулой строфы и обозначается через SESFOSi. В формуле AAG семантическая функция языка С Е М С И Н Т, обозначающая активного одушевленного производителя действия (агенса)', АВ1 - семантическая функция, обозначающая одушевленно­ го получателя некоторого события (пациенса)', А01 - семан­ тическая функция, обозначающая неодушевленный объект некоторого события в винительном падеже', АОЗ - семанти­ ческая функция, обозначающая неодушевленный объект не­ Глава 3. Системы обработки связных текстов которого события в предложном падеже', R обозначает место сказуемого в предложении. Следующая за этой буквой первая цифра указывает на валентность глагола в данном предложе­ нии, а вторая цифра (стоящая после знака «/») обозначает вре­ мя глагола (1 - настоящее;

2 - прошедшее;

3 - будущее;

4 инфинитив);

Р01 - код местоимения «я»;

V026, V038, V034, V043, V027, V019, V012 - коды семантических подклассов гла­ голов;

Т21 - код отрицательной частицы «не»;

Р35 и Р32 коды местоимений «что» и «сам»;

К01 и К08 - коды предлогов «в» и «по»;

N003, N055 - коды семантических подклассов су­ ществительных;

Т02 - код частицы «бы»;

С74 - код союза «иль». За стоящими после Р01 и N003 знаками «**» указывает­ ся тип опорного слова, взятый из таблицы основного стати­ ческого содержания данного текста. Выражения в квадратных скобках свидетельствуют о том, что их содержимое не должно «наполняться» конкретными словами. Оно необходимо для формирования полной структуры предложения и подсоеди­ нения к его словам необходимых суффиксов и окончаний.

Если проанализировать лексическое наполнение рас­ сматриваемой строфы, можно заметить, что существитель­ ные «глаза» и «волосы» относятся к изотопической цепочке М016 «Части тела человека и их особенности». Тогда соответ­ ствующий этой строфе фрейм имеет следующее начало (ср. с.

209): ТЕ4 [S02;

SESFOS„ М016;

SESFOS2,......]. С уче­ том сказанного строка базы знаний STROPH, соответству­ ющая предметно-эмоциональному содержанию с кодом S02, выглядит так:

ST R O P H [С 1;

S 0 2 ;

SE S FO S,, М 016;

SE S FO S 2, Так как частота употребления предметно-эмоциональ­ ного содержания с кодом S02 «Констатация некоторых дей­ ствий и /или состояний С1» равна 49 (см. табл. 3.9), то в базе знаний системы в приведенном выше фрейме STROPH после S02 в самом общем случае может быть записано 49 формул SESFOSi (если среди них нет одинаковых!) с соответствую­ щими им кодами главных опорных слов.

214 Основы искусственного интеллекта для лингвистов Аналогичным образом в базе знаний были описаны все остальные предметно-эмоциональные содержания, приве­ денные в табл. 3.9.

3.6.4. Этап формализации.

Алгоритм построения семантико синтаксической формулы стихотворного текста Согласно вышеизложенному, каждая строфа стихотвор­ ного текста может быть представлена определенной семан­ тико-синтаксической формулой. Последовательность таких формул для конкретного стихотворения будем называть се­ м ант и к о -си н т а кси ч еск о й формулой ст ихот ворения SESFOV. В общем виде фрейм стихотворения можно пред­ ставить следующим образом:

V ER S [SE SFO S,;

R 01;

SESFO S2;

R 0 2 ;

... SESFO Sk ;

v i.

где SESFOS. - семантико-синтаксические формулы строф, a ROI, R02 и т.д. -правила, которые связывают эти строфы между собой.

Рассмотрим порядок следования строф в стихотворении.

Если в прозаическом тексте порядок расположения абзацев зависит от общего замысла произведения, его фабулы, не­ обходимости развития действия в желаемую для автора сто­ рону, то в относительно небольших поэтических произве­ дениях дело обстоит несколько иначе. Как отмечает В. М а­ яковский2 и другие поэты и исследователи поэтического творчества [32;

54;

76], архитектоника стиха (взаимное рас­ положение строф) определяется в основном интуицией авто­ 23 С р. в ы ш е (с. 188) у В. М а я к о в с к о г о : « Н а р а б о т а в п р и б л и з и т е л ь н о п о ­ ч т и все э т и к и р п и ч и (с т р о ф ы - А.З., И.З.), я н а ч и н а ю и х п р и м е р я т ь, став я т о н а о д н о, т о н а д р у го е м есто, п р и с л у ш и в а я с ь, к а к о н и зв у ч ат, и ста р а я с ь п р е д с т а в и т ь себ е п р о и зв о д и м о е в п е ч а тл е н и е ».

Глава 3. Системы обработки связных текстов ра, желанием достичь определенных эмоциональных воздей­ ствий. Такой механизм выбора и расстановки строф может быть смоделирован путем подключения в систему порожде­ ния стихотворного текста датчика случайных чисел. Вместе с тем анализ исследуемых текстов показал, что не все стро­ фы могут быть выбраны случайным образом. Некоторые из них непосредственно связаны с предыдущими строфами.


Такая взаимосвязь строф во фрейме VERS обозначена фрей­ мами низшего уровня с именами R01, R02... Rk. В общем слу­ чае фрейм Rk выглядит следующим образом:

R J RSk ;

R F k ], где RSk - чисто содержательные правш а, ограничивающие порядок следования строф с определенными общими пред­ метно-эмоциональными содержаниями. Например, в сти­ хотворении «Характеристика» [130, с. 121] вторая строфа не может существовать без первой. Это чувствуется из содер­ жания всего стихотворения. Здесь нет формальных показа­ телей связи между строфами. Такие виды правил называют­ ся содержательными и формализовать их пока невозможно.

Более распространены правила второго рода - R Fk. Это формальные правш а, ограничивающие порядок взаимного расположения строф, записанных на языке СЕМ СИНТ. Как видно из краткого описания данного языка (с. 210-212), он содержит коды конкретных предлогов, союзов и союзных слов, местоимений. В нем используются коды семантических под­ классов всех знаменательных слов. Эта особенность языка С Е М С И Н Т дает возможность найти в SESFOS элементы, связывающие строфы между собой. Анализ исследуемых стихотворений позволяет выделить следующие виды фор­ мальных правил связи соседних строф.

1. Первая строка последующей строфы начинается сле­ дующими союзами, союзными словами, частицами, место­ имениями, наречиями: «и», «а», «но», «то же», «вот так», «вот», «потому что», «так», «тот», «ведь», «нет», «пусть», «все таки», «такие», «это» и т.п. Например, в приведенном выше 216 Основы искусственного интеллекта для лингвистов стихотворении «Вам когда-нибудь запрещали...» первая и вторая строфы связаны союзом «и», а вторая и третья - ме­ стоимением с частицей («то же»).

2. В вышестоящей строфе открываются кавычки, а закры­ ваются они в нижестоящей строфе (например, стихотворе­ ния № 19, 30, 35).

3. Вышестоящая строфа заканчивается двоеточием, пред­ полагающим какое-то пояснение, прямую речь в последу­ ющей строфе или припев (стихотворения № 13, 21, 56).

4. Предыдущая строфа заканчивается вопросительным или восклицательным знаком, а нижеследующая начинает­ ся глаголом (словами «надо», «слушай») (например, стихо­ творения № 4, 15, 18, 45, 54).

5. Последняя строка предыдущей строфы заканчивается кавычками. Первая строка последующей строфы также на­ чинается кавычками (например, стихотворение № 21).

6. В последней или предпоследней строке предыдущей строфы и в первой строке последующей строфы стоит один и тот же глагол. Эта последняя строка может начинаться слу­ жебными элементами или словами «да», «надо» и т.п. (на­ пример, стихотворения № 22, 23, 34, 38).

7. В первой строке последующей строфы в вопроситель­ ном предложении нет подлежащего (например, стихотво­ рение № 29).

8. Первая, вторая или третья строки предыдущей стро­ фы и первая строка последующей строфы начинаются с од­ ного и того же служебного слова «пусть», «когда», «может», «вновь», «твой» (например, стихотворения № 23, 38, 42).

Служебное слово может быть и на втором месте в строке.

9. Последняя строка предыдущей строфы заканчивается именем собственным, а первая строка последующей стро­ фы начинается с местоимений «он», «она», «вы» (например, стихотворение № 29).

10. Последняя строка предыдущей строфы и первая стро­ ка последующей строфы начинаются с глаголов и, как пра­ вило, в них нет подлежащих (наприм ер, стихотворение № 49).

Глава 3. Системы обработки связных текстов 21 11. В последней строке предыдущей строфы и первой строке последующей строфы есть одно и тоже существитель­ ное (например, стихотворение № 56).

12. Первая строка последующей строфы не имеет подле­ жащего и начинается с глагола, который имеет те же грам­ матические признаки (время, лицо, число, род), что и гла­ гол в последней или предпоследней строке предыдущей строфы (например, стихотворения № 58, 59).

В анализируемых стихотворениях выявлены строфы с определенным предметно-эмоциональны м содержанием, следующие друг за другом в соответствии с перечисленны­ ми выше правилами. Ф рагм ент полученных результатов приведен в табл. 3.14. Если какие-либо пары строф не по­ пали в данную таблицу, это значит, что их взаимное следо­ вание ничем не ограничивается. Таким образом, во фрейме R J RSk ;

R Fk ] отсутствуют содержательные правила RSk, а формальные правила R Fkпредставлены 12 отмечен­ ными выше вариантами.

Таблица 3. Взаимное следование строф Код ПЭС Код ПЭС последующей строфы предыдущей S S01 S07 S09 S12 S строфы + S + + S + S S + S + S S + S + S + S 218 Основы искусственного интеллекта для лингвистов Окончание табл. 3. Код ПЭС последующей строфы Код ПЭС предыдущей S34 S S24 S S20 S S строфы + S + S + + S + S + S S + S S S S 3.6.4.1. Особенности строф, зависящие от их расположения в тексте Как показывают многочисленные результаты исследова­ ния прозаических текстов [251;

269], для них важно, на ка­ ком месте стоит абзац текста. С этой точки зрения ученые выделяют три типа абзацев: начальные, внутренние (меди­ альные) и конечные (заключительные).

Анализ строф используемых стихотворений показал, что в качестве первых (начальных) чаще всего выступают строфы со следую щ им предметно-эмоциональным содержанием (ПЭС)23: S01(13), S06(8), S04(6), S02(5), S10(5), S12(4), S03(3), S09(3), S14(3), S17(3), S29(3), SI 1(2), S13(2), S15(2), S21(2), S22(2), S23(2), S39(2). Один раз в качестве начальных строф встретились строфы со следующим ПЭС: S19, S24, S26, S28, S30, S34, S37, S40, S42, S44, S45, S47, S59, S68, S69, S75, S77.

Строфы с другим ПЭС в качестве первых строф стихотворе 2 В скобках за кодом ПЭС указывается его частота в исследованных стихотворениях.

Глава -3. Системы обработки связных текстов НИЙ найдены не были. В результате исследования первых строф на наличие в них каких-либо специфичных формальных при­ знаков выяснилось, что такие признаки отсутствуют.

Аналогичная работа была проделана с последними (конеч­ ными) строфами стихотворений. Чаще всего в такой функции употреблялись строфы со следующими ПЭС: S01 (17), S02(9), S06(5), S04(4), S09(4), S10(4), S12(4), S03(3), SI 1(3), S15(3), S17(3), S05(2), S08(2), S24(2), S29(2). По одному разу в кон­ це стихотворений встретились строфы с такими ПЭС: S13, S14, S18, S21, S25, S28, S30, S34, S35, S39, S40, S41, S44, S51, S55, S58, S62, S64, S74, S75. Более глубокий содержатель­ ный анализ конечных строф показывает, что для них спе-, цифичны некоторые формальные показатели. Они могут быть представлены в виде следующих правил.

1. Первая строка последней строфы начинается, как пра­ вило, со следующих слов и словосочетаний: «да», «пусть», «теперь», «и так», «так», «но», «прости», «снова», «вновь», «надо», «и вот тогда», «вот почему», «да-да», «не могу», «лишь», «потому-то».

2. В первой, второй или третьей строке последней стро­ фы есть слова «так пусть» или «прощай».

3. В последней строке последней строфы есть слова «ни­ когда уж», «люблю», «не надо».

4. Перед первой строкой последней строфы стоит мно­ готочие (...).

3.6.4.2. Алгоритм построения формулы текста и его реализация С учетом вышесказанного алгоритм построения семан­ тико-синтаксической формулы стихотворения SESFOV мо­ жет быть представлен следующим образом (рис. 3.16). Рас­ смотрим работу этого алгоритма на конкретном примере.

Пусть необходимо построить стихотворный текст, состоя­ щ ий из двух строф (в блоке А К = 2). Допустим, что задание на порождение текста дается в блоке В в виде табл. 3.15.

220 Основы искусственного интеллекта для лингвистов Таблица 3. Тема порождаемого стихотворения О п орны е сл ова Т ип опорного слова Код мы ГОС1 С1/ родная ГОС2 С2/ милая С2/ С4/1 день ГОС С4/2 миг полночь С4/ карнавал, веселье, песни, маски М М икротемы снег, метель М жизнь, сказка М Пусть в процессе выполнения блока С была получена стро­ фа с ПЭС под кодом S29 «Констатация некоторого обраще­ ния к С2, некоторого состояния и/или действия С1, связан­ ного с С4». Так как порождается первая строфа, далее выпол­ няется блок Е. По приведенному на с. 218 списку компьютер проверяет, может ли строфа с ПЭС под кодом S29 бьггь пер­ вой. Видно, что данная строфа может начинать стихотворный текст. Во фрейме STROPH базы знаний для S29 указано, что в его реализации участвуют главные опорные слова С1, С2, С4.

Все они присутствуют среди главных опорных слов заданной темы (табл. 3.15). Значит, выбранное ПЭС под кодом S29 для данной задачи подходит. Это фиксируется в блоке F.

Далее во фрейме TEi для S29 по датчику случайных чи­ сел среди пяти формул SESFOS компьютер находит, напри­ мер, следующую формулу (блок G):

A A G N 0 3 6 * * C 2 /1, N 036*C 2/2! A E L P 1 9 * N 0 6 7 * * C 4 /1 + R l / 2V034!

R 4 /1 T 2 1 * V 0 4 2 + A S2P05 + A P 2 P 0 2 * * C 1 /1 + A04T25*N096**26;

A04T25*N096** C05 + R 1/2V 034 + AS2P11*A004*N045**24, C01 + R 3 /1 V 0 0 2 + A 0 1 N 0 6 1 + A B 2 T 2 5 * N 0 8 8 * * 2 4, AB2T25*N045**24!

В этом же фрейме указано, что для выбранной SESFOS характерны микротемы М024 («карнавал», «песни», «весе Глава 3. Системы обработки связных текстов Начало А Задать число строф К Задать тему стихотворения В Выбрать из базы знаний по датчику случайных чисел С строфу с некоторым ПЭС Порождается первая строфа?


Строфа с выбранным ПЭС мож ет бы ть первой?

да О В этой строфе есть ГОС, предусмотренные темой?

да Выбрать во ф рейме TEi, соответствую щ ем данном у ПЭС, по G датчику случайных чисел одну из формул SESFOSi т В выбранной SESFOSi есть изотопические цепочки, да совпадающ ие с цепочками темы?

Запомнить первую SESFOS Рис. 3.16. Принципиальный алгоритм построения семантико синтаксической формулы стихотворного текста (начало) 222 Основы искусственного интеллекта для лингвистов О да Выбрана полезная k -я SESFOS?

© Выбранная строфа Si мож ет стоять за предыдущ ей Sm ?

В этой строфе есть ГОС, предусмотренные темой?

Выбрать во фрейме TEi, соответствую щ ем данном у ПЭС, М по датчику случайных чисел одну из формул SESFOSi да •© В выбранной SESFOSi есть изотопические цепочки, совпадаю щ ие с цепочками темы?

да О Запомнить очередную SESFOSi Рис. 3.16. Принципиальный алгоритм построения семантико­ синтаксической формулы стихотворного текста (продолжение) Глава 3. Системы обработки связных текстов Рис. 3.16. Принципиальный алгоритм построения семантико­ синтаксической формулы стихотворного текста (окончание) лье»), М026 («снег», «метель»). В соответствии с блоком Н они совпадают с изотопическими цепочками М024 и М исходного задания (темы). Поэтому далее выполняется блок I, позволяющий запомнить выбранную SESFOS. Затем уп­ равление вновь передается блоку С, в котором по датчику случайных чисел из базы знаний выбирается новая строфа.

Пусть это будет строфа с ПЭС под кодом S40 «Констатация некоторого состояния и/или действия С4 и некоторой об­ становки». В блоке D выясняется, что порождается не пер­ вая строфа, и управление передается блоку J, а затем блоку Р, так как компьютер определит, что строится последняя строфа текста. Просматривая коды ПЭС строф, которые могут быть конечными, он обнаружит, что строфа с ПЭС под кодом S40 может быть последней. В этом случае управ­ ление передается блоку Q. В соответствии с таблицей вза­ имного следования строф (табл. 3.14) компьютер обнару­ жит, что строфа с ПЭС под кодом S40 может следовать за строфой с ПЭС под кодом S29.

Выполняя далее действия, предусмотренные блоком R, компьютер определит, что во фрейме STROPH для S40 име­ 224 Основы искусственного интеллекта для лингвистов ется одно главное опорное слово С4. Это же слово есть в задании на порождение стихотворного текста. Следователь­ но, строфа под кодом S40 для заданной темы подходит.

В блоке S по датчику случайных чисел среди трех SESFOS, которыми реализуется ПЭС под кодом S40, будет найдена, например, такая:

A SlP19*N 061**C 4/2 + R1/2V 0111C01 + A ELN 071**C4/3 + R1/2V015!

C01 + A H 1 A 0 1 0 * X + A P 5 G 0 4 * N 0 0 3 + R 2 /1 V 0 1 1 + AH1X*045** AELN067**C4/1*A004*N044**27 + R 1/1V 034, C01 + R 2/1V 015 + A04G20*P06 + AS1N097**27*N044!

Во фрейме ТЕ для ПЭС под кодом S40 указано, что вы­ бранной SESFOS соответствуют микротемы М024 («маски») и М027 («жизнь», «сказка»). Компьютер обнаружит, что они совпадают с аналогичными микротемами исходного зада­ ния. Следовательно, к заданной теме подходит и вторая формула SESFOS. Она запоминается (блок U) вслед за пер­ вой и вместе с ней образует семантико-синтаксическую формулу порождаемого стихотворного текста, состоящего по исходному заданию из двух строф.

3.6.4.3. Ритмические особенности исследуемых текстов и их формальное представление К ак уже отмечалось, стихотворный текст отличается от прозаического тем, что в нем между словами предложения важны два типа связей - семантические и ритмические. О семантических связях слов в тексте, способах их выявления и установления уже было сказано достаточно много. Оста­ новимся на ритмических связях слов.

Прежде всего, необходимо отметить, что стихотворный текст разделен на ритмические сегменты - строки и строфы.

Строка или стих - это основная повторяющаяся ритмиче­ Глава 3. Системы обработки связных текстов ская единица текста [367, с. 8;

265, с. 167;

185]. Повторяю­ щимся ритм ическим элем ентом строки является стопа.

Каждая стопа состоит из одного ударного и одного или двух безударных слогов. Если в стопе один ударный и один безу­ дарный слог, такая стопа называется двухсложной. Если при одном ударном слоге в стопе присутствуют два безударных, она называется трехсложной. В двухсложной стопе ударе­ ние может падать на 1-й или 2-й слог. В трехсложной - на любой из трех ее слогов. Равномерное однообразное чере­ дование в строке стоп с одним и тем же типом ударения на­ зывают метром строки и, тем самым, метром всего стихот­ ворного текста [366, с. 29;

76, с. 155-158;

185;

367, с. 22-25].

В русской поэзии чаще всего используются строки длиной 4 -6 стоп (8-12 слогов). Именно такой размер строки соот­ ветствует оптимальным условиям ее восприятия слушаю­ щим, вызывая у него определенные эмоции и чувства [153, с. 30;

212, с. 168].

В русском стихосложении наиболее известны следующие стихотворные метры:

Хорей - последовательность таких двухсложных стоп, в каждой из которых ударение падает на нечетный слог. Если условно обозначить слоги такой строки цифрами 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, хореическая строка запишется так: 1, 3, 5, 7, 9, 11...Например, Сквозь т ум ан крем нйст ы й пут ь блестит 123 456 7 Ритмическая формула этой 5-стопной строки выглядит следующим образом: 1, 3, 5, 7, 9.

Ямб - последовательность двусложных стоп, в каждой из которых ударение падает на четный слог. Общая ритми­ ческая формула такой строки будет такой: 2, 4, 6, 8, 10, 12...

Например, К онечно, царь! С ильна т воя держ ава 123 4 5 6789 10 8 О сн о вы и с к у с с т в е н н о го и н теллекта для л и н гв и ст о в 226 Основы искусственного интеллекта для лингвистов Здесь также 5-стопная строка.

Дактиль - последовательность трехсложных стоп, в каж­ дой из которых ударение падает на первый из 3-х слогов. Фор­ мулу дактиля можно представить так: 1, 4, 7, 10... Например, дактилем написана следующая четырехстопная строка:

Т учки небесные, вечны е ст ранники 12 3 4 56 7 89 10 11 Амфибрахий - последовательность трехсложных стоп, в каждой из которых ударение падает на второй (средний) слог стопы: 2, 3, 8, 11... Например, П оследняя т уча рассеянной бури!

1 2 34 56 7 8 9 10 11 Здесь представлена четырехстопная строка.

Анапест —последовательность трехсложных стоп, в каж­ дой из которых ударение падает на последний слог: 3, 6, 9, 12... Например, анапестом написана следующая четырех­ стопная строка:

Вот парадны й подъезд. П о т орж ест венны м дням 1 23 4 56 78 9 10 11 Однако в реальных стихотворениях эти строгие законо­ мерности достаточно редко выполняются в полном объе­ ме [76, с. 156-159;

153, с. 31-51;

366, с. 22-48]. Некоторые ударные слоги в том или ином ударном метре могут быть пропущены, в стих одного метра может вклиниваться стих другого метра, в одной и той же строфе могут использо­ ваться строки с разным числом стоп и т.д. Поэтому реаль­ ное чередование ударных и безударных слогов в стихотвор­ ной строке стали называть ритмом строки и всего стихотво­ р ен и я. К ром е того, сущ ествует слож н ая связь м еж ду ритмом стиха и его воздействием на человека [48;

7, с. 7 6 83;

153].

Глава 3. Системы обработки связных текстов Естественно, в процессе создания системы порождения стихотворного текста с помощью компьютера в анализиру­ емых стихотворениях [130] необходимо выявить типы рит­ мических строк и их размеры. Результаты проведенного ана­ лиза приведены в табл. 3.16.

Таблица 3. Ритмические типы строк анализируемых текстов' NN Р и тм и р азм ер Р и тм и р азм ер Ч асто т а NN Ч а с то т а с тр о к F п/п строк F п/п 1 Я м б 4-стопный 19 7 А напест 3/4-стопный 2 Я м б 5-стопный 16 8 Я м б 3/4-стопный А напест 3-стопный 3 15 9 Хорей 5/6-стопный 4 А мфибрахий 3- 7 10 Я м б 4/5/6-стопный стопный 5 11 Хорей 4-стопный Ямб 5/6-стопный 6 7 12 О стальные по Хорей 5-стопный 5 стих.

* П од F имеется в виду количество стихотворений.

При характеристике стихотворного текста было отме­ чено, что еще одним ритмическим сегментом стихотворе­ ния является строфа. Строфа - это ритмическая единица высшего порядка, включающая две и более строк (стихов), имеющих, как правило, один и тот же ритм и размер и объе­ диненных особой рифмовкой [367, с. 103;

265, с. 99]. Под клас­ сической рифмовкой понимается употребление в последних позициях строк строфы слов с созвучными окончаниями (та­ кие созвучья называются рифмой). В принципе могут риф ­ моваться начальные, срединные и начальные слова строк [265, с. 97-100]. Еще одной особенностью строфы по срав­ нению с приведенным выше определением является то, что она может включать строки разного размера [367, с. 107].

В русских стихотворениях употребляются строфы, состо­ ящие из 2-х, 4-х, 6-ти, 8-ми и 14-ти строк [367, с. 103-133].

Наиболее частыми по употреблению являются четверости­ ш ия, включающие четыре строки. Их рифмующиеся стро­ ки могут сочетаться между собой с помощью [367, с. 102;

265, с. 99]:

228 Основы искусственного интеллекта для лингвистов • парной рифмовки (аавв24);

• перекрестной рифмовки (авав);

• кольцевой (охватной) рифмовки (авва).

О типах рифм известно очень много [265, с. 97-100;

367, с. 74-99;

153, с. 14-30]. Не останавливаясь подробно на ана­ лизе этого материала, выделим то главное, на что будет ориентироваться компьютер при подборе рифмующихся слов. Назовем точной рифмой полное совпадение рифмую­ щихся окончаний от ударного гласного до конца слов: «ве­ сенний» - «осенний», «цвести» - «расцвести», «дожди» «подожди», «совесть» - «повесть», «поля» - «земля» и т.п.

П оиск компьютером таких слов не вызывает особых затруд­ нений. Неточными или приблизительными рифмами будем называть окончания рифмующихся слов, которые отлича­ ются одной, двумя или большим числом букв. Варианты та­ ких отличий весьма различны и подробно рассмотрены в ра­ боте [367, с. 89-99].Такие рифмы, например, отмечены в следующих парах слов: «чувства» - «искусства», «ласку» «сказку», «этой» - «одетой», «почему» - «пойму», «звонко» «сестренка», «многогранный» - «равный» и т.п.

По месту ударения в окончаниях рифмующихся слов раз­ личают рифмы мужские и женские. В первом типе рифмы последний слог является ударным («беда» - «куда»), во вто­ рых - ударение в окончании падает на предпоследний слог (правил - заставил). Если в окончаниях рифмующихся слов два последних слога безударные, такая рифма называется дактилической («лесенка» - «песенка»).

В исследуемых стихотворных текстах были выделены точ­ ные и приблизительные рифмы всех рифмующихся слов.

Фрагмент результатов приведен в табл. 3.17:

В полном объеме данные таблицы были использованы для построения алгоритма подбора рифмующихся слов в строфу.

2 Через «а» и «в» обозначены разные конечные буквосочетания (риф­ мы), соответственно, 1-й, 2-й, 3-й и 4-й строк строфы.

ГлаваД.. Системы обработки связных текстов Таблица 3. Фрагмент рифм исследуемых текстов Длина Рифма ри ф м ую щ егося Точная П р и б л и зи те л ь н а я о к о н ч ан и я 6-7-буквенны е против ~1 -оснулся~1 -б ч ется! -увства"!

-против_/ -о сн у л ся /- -бситсяJ -усства_/ 5-6-буквенны е -ёчноспЛ -рячим и!

-ё ч н о с т ь / -р я ч и м и / -дож ди! -ризен~1 -ёдний! -аться"! -вёрьтё~| -ё н н и й /” -яться/" -верьте/" -д ож д и / -ризенJ -одной! -арили!

4 - 5 -буквенные -цвёте) -умит~[ -ёрцем !

-о д н о й / -а р и л и / -свёге/" -ум ы т) -ёрдцем) -ры та! -сто й ! -я с н о ! бью тТ -несли!

-неми J -а с н а |" пьют_/ -ры та) -стой /" -аскй 3-4-буквенны е -ённьП -одой" -ё л ь ю ! -роки!

-ёзки ' -ёвныJ однбй -ёльюJ -р о к и / -ёле~1 -рёя~| -ёнь! -ным -ьёг~| -во н !

-нны -ёле_| - рая\J -ёнь_| -аётj -гонj -йму 2 - 3 - 4 -буквенные -бва! - д н а ! - ё ч е ! -бнК"! -ещ у ! ерт~1 -6ше~ - б в а / - днаJ -ёче ]" -ёнк- j и щ у ! -epbTj -б ш и / -и р Т -а с !-а л !-л я ~ Г -ри~1 - а с ! "иц ! ~°ж !

-H pj - a c j -a n j -ля_/ р в и /" a c c j -и ть сГ - б ж ь г 1-2-буквенные -о й ! -ё е ! - д ё ! - ё т ! - ё к Л - ё е ! -ён~1 -у ж ! - я !

-ёя J " -ёю -j - о н / - y u i j ь я /" - 6 й / ёе J -дё_Г-ёт J 3.6.4.4. Заполнение семантико-синтаксической формулы стихотворного текста словами Анализируя высказывания поэтов и литературоведов о принципах отбора включаемых в стихотворения слов, мож­ но отметить большое разнообразие точек зрения. Одни уде­ ляют большое вним ание ритм ическим признакам слова, рифме и ритму [32, с. 125;

366, с. 104-148], другие считают, что главное при подборе слов - их семантические признаки, вхождение слов в общий замысел, в отдельные изотопичес­ кие смысловые цепочки [211, с. 11;

238, с. 72-73;

32, с. 126].

230 Основы искусственного интеллекта для лингвистов Детально процедуру подбора слов в строку и строфу описал В. М аяковский [228]. Выше (с. 185-188) были приведены его рассуждения по данному вопросу. Как свидетельствуют эти высказывания, создавая стихотворение, поэт учитывает как смысловые особенности слов, так и их ритмические ха­ рактеристики.

Анализ многочисленных исследований, изучающих про­ цедуру подбора слов в строку и строфу [172, с. 9-79;

238;

366, с. 22-49;

27, с. 113-129;

201], позволяет предложить следующий алгоритм подбора слов в строку русской четы­ рехстрочной строфы (рис.31). Для демонстрации работы этого алгоритма допустим, что необходимо построить сти­ хотворный текст в соответствии со следующим заданием:

1) число строк в строфе - 4;

2) число строф в тексте - 2;

3) ритм - 4-, 5- или 6-стопный ямб;

4) рифма - авав;

5) эмоциональный настрой - «радостный»;

6) тема текста задается табл. 3.18 основного содержания.

Таблица 3. Основное содержание порождаемого текста Т и п сл о в К о д ы сл ов С лова Главные опорные слова мы С1/ С2/1 родная С2/2 милая С4/1 день С4/2 миг полночь С4/ М 024 карнавал, веселье, песни, маски Изотопические цепочки М 026 снег, метель М 027 ж изнь, сказка Пусть, в соответствии с алгоритмом (см. рис. 3.17) по за­ данной теме была построена следующая формула будущего стихотворения25:

2 Напомним, что все входящие в формулу коды взяты из табл. 3.10 3. Глава 3. Системы обработки связных текстов AAG N036**C2/1, AAG N036**C2/2 !AEL P19*N067**C4/ 1 + R l/2 V034 !

R 4 / l T 21*V 042 + A E L P 0 5 + A P 2 P 0 2 + A M D T25*N096**26, A M D T25 *N096**26 !

C05 + R l /2 V034 + AS2 P11*A006*N045**24, C01 + R3/1 CV002 + A01 N061 + AB2 T25*N088**24, AB T25*N045**24 !

AS1 P19*N061**C4/2 + R l/2 V011 ! C01 + A EL N 071**C4/ + R l/1 V015 !

C01 + A H 1 A 0 1 0 * X + A P 5 G 0 4 * N 0 0 3 + R 2 /1 V 0 1 1 + A H 1X*N045**24.

A E L N 067**C 4/1/ A004*N044**27 + R l/1 V034, C01 + R2/1 V020 + A04 K20*P06 + AS1 N097**27/N044- !

В соответствии с блоком 1 алгоритма для наполнения кон­ кретными словами будет взята 1-я строка 1-й строфы:

AAG N036**C2/1, AAG N 036**C2/2 ! A E L P19*N067**C4/ 1 + R l/2 V034 !

Используя блоки 2— компьютер внесет в формулу стро­ 3, ки вместо кода Р19 указательное местоимение «тот»:

AAG N036**C2/1, AAG N 036**C2/2 ! A EL,mom*N067**C4/ 1 + R l/2 V 034 !

Далее, после проведенной в блоке 4 проверки, в анали­ зируемую формулу строки в блоке 5 вместо кодов главных опорных слов С 2/1, С2/2 и С4/1 будут подставлены соот­ ветствую щ ие им слова из заданной тем ы (AAG и AEL предполагают наличие существительных в именительном падеже):

Родная, милая! Тот день + R l /2 V034 !

В блоке 6 компьютер проверяет, удовлетворяют ли эти слова заданному ритму: 2, 4, 6, 8, 10, 12... Если пронумеро 232 Основы искусственного интеллекта для лингвистов четы рехстрочной строф ы (начало) Глава 3. Системы обработки связных текстов Внесенное слово удовлетворяет заданному ритму и эмоциональному настрою?

9\ нет 9А Взято последнее слово строки?

10 \ нет Обрабатывается 1-я строка SESFOS?

Рис. 3.17. Алгоритм подбора слов в строку русской четырехстрочной строфы (продолжение) Рис. 3.17. Алгоритм подбора слов в строку русской четырехстрочной строфы (продолжение) Глава 3. Системы обработки связных текстов Рис. 3.17. Алгоритм подбора слов в строку русской четырехстрочной строфы (продолжение) Рис. 3.17. Алгоритм подбора слов в строку русской четырехстрочной строфы (продолжение) Глава 3. Системы обработки связных текстов v нет Слова подобраны?

ЗЗА Обращение за помощью к пользователю с просьбой ввести 0- правильный тип рифмы 07 Внести в формулу строки слово из изотопической цепочки i соответствующей грамматической форме Рис. 3.17. Алгоритм подбора слов в строку русской четырехстрочной строфы (продолжение) 238 Основы искусственного интеллекта для лингвистов Обращение за помощью к пользователю в подборе соответствующих ритму слов Рис. 3.17. Алгоритм подбора слов в строку русской четырехстрочной строфы (продолжение) Глава 3. Системы обработки связных текстов 44 Сделать переадресацию для заполнения словами 0 * следующ ей SESFOS •о Все SESFOS заполнены словами?

Рис. 3.17. Алгоритм подбора слов в строку русской четырехстрочной строфы (окончание) вать имеющиеся в строке слоги знаменательных слов26, то получим следующее:

Род —на —я, ми —ла —я! Тот день...

1 2 34 56 7 Слова строки имеют ритм 2, 4, 8, что удовлетворяет ус­ ловию.

В генерируемой строке остался нерасшифрованным лишь код V034, занимающий место глагола. В словаре системы сре­ ди слов, имеющих такой код, есть следующие слова: «начи­ нать», «начаться», «настать». Пусть по датчику случайных чисел выбрано слово «начаться», которое в прошедшем вре­ 2 Во всех подобных случаях предполагается, что служебные слова не несут значимого ударения, даже если в словаре ударение у них отмечено.

240 Основы искусственного интеллекта для лингвистов мени (цифра 2 в коде R1/2 свидетельствует о том, что гла­ гол надо поставить в прошедшее время), мужском роде, единственном числе (эта информация определяется по слову «день») представлено словоформой «начался». В блоке 8 ком­ пьютер проверяет, подходит ли она в строку по ритму:

Род — на - я, м и — л а — я ! Тот день на — чал — ся!

1 234 567 89 10 Словоформа «начался» нарушает ритм, так как последо­ вательность ударений в строке будет 2, 4, 8, 11, что не соот­ ветствует ямбу. Если далее по датчику случайных чисел будет выбрано слово «начинать», и оно также будет поставлено в соответствующую грамматическую форму «начал», компью­ тер определит, что и оно не соответствует ямбу. В итоге ком­ пьютер выберет слово «настал» (от глагола «настать»):

Род — на — я, м и — ла — я ! Тот день на — ст ал!

1 234 567 89 Оно удовлетворяет и длине строки - получился пятистоп­ ный ямб. В блоках 9—10 фиксируется, что слово «настал»

является последним словом 1-й строки. Компьютер запоми­ нает его в блоке 11 и от блока 12 вновь переходит к блоку 1.

Теперь он анализирует формулу 2-й строки:

R4/1 T21*V042 + A E L P05 + А Р2 Р02 + A M D T25*N **26, A M D T25 *N096**26 !

Аналогично описанному выше после выполнения бло­ ков 2— эта строка будет выглядеть так:

R 4 /1 «e*V 042 + он + н а с + A M D hh*N 096**26, AM Dh«*N096**26!

В соответствии с блоками 6А, 36 и 37 вместо первого кода N096 в строку будет вставлено слово из изотопической це­ Глава 3. Системы обработки связных текстов почки М026 с указанным кодом семантического подкласса (N096). Среди слов словаря, входящих в изотопическую це­ почку М026 с кодом N096, можно найти следующие: «снег», «метель», «мороз», «стужа», «пороша», «снежинка», «ветер».



Pages:     | 1 |   ...   | 3 | 4 || 6 | 7 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.