авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 |   ...   | 4 | 5 || 7 |

«Каменистые тропы науки - это горы литературы, уступы книг, которые нужно прочесть, усвоить. Но книги - это путеводитель, по которому можно ориентироваться на дорогах науки. ...»

-- [ Страница 6 ] --

Однако, в задании на порождение стихотворения указано, что из изотопической цепочки М026 необходимо взять лишь слова «снег» и «метель». Пусть по датчику случайных чисел выбрано слово «метель», которое в соответствии со значе­ нием функции A M D должно употребляться в творительном падеже. Остается неясным, в каком числе должно стоять это слово в строке. И з самого предложения (строки) такую ин­ формацию извлечь невозможно. Тогда подключается дат­ чик случайных чисел, согласно которому нужно употребить слово в единственном числе - «метелью». В итоге вторая строка будет выглядеть так:

R4/1 не*У042 + он + нас + ни метелью, A M D kk*N096**26!

В блоке 37 компьютер проверяет, удовлетворяет ли это слово заданному ритму 2, 4, 6, 8, 10, 12. Однако здесь нет начала строки, поэтому компьютер не может прийти к окон­ чательному выводу.

В соответствии с блоками 38, 36 и 37 вместо второго кода N096**26 будет выбрано слово «снегом» (напомним, что все­ го таких слов в изотопической цепочке два - «снег» и «ме­ тель», и второе компьютер уже выбрал ранее):

R4/1 He*V042 + он + нас + ни метелью, ни снегом!

И в этом случае из-за отсутствия начала строки компью­ тер не может проверить, удовлетворяет ли слово «снегом»

заданному ритму. Выполняя блок 40, он запоминает это сло­ во как последнее слово строки.

От блока 41 компьютер переходит на выполнение дей­ ствий, предусмотренных блоком 7. Необходимо найти гла­ гол семантического подкласса V042 «глаголы психофизи че-ского действия, свойственные человеку». В словаре к 242 Основы искусственного интеллекта для лингвистов этой группе слов относятся следующие словоформы: «ба­ ловать», «вспыхнуть», «дрожать», «зажигаться», «молить», «молиться», «наслаждаться», «переругиваться», «смеяться».

Пусть случайным образом из них выбран глагол «зажигать­ ся». Код R4/1 показывает, что этот глагол должен употреб­ ляться в настоящем времени, а стоящее за глаголом слово «он» указывает на то, что глагол должен иметь 3-е лицо, единственное число. Это - словоформа «зажигаться». Пос­ ле выполнения блоков 7 и 8 компьютер проверяет, подхо­ дит ли выбранное слово к заданному ритму 2, 4, 6, 8, 10,12.

Имеем:

Н е за — ж и — га — ет — ся он нас ни м е — тель — ю, ни сне — гом!

12 3 4 5 67 8 9 10 11 12 13 14 Ритм строки таков: 4, 8, 11, 14, т.е. требованиям задан­ ного ритма она не удовлетворяет из-за слова «метелью». Не соответствует она и заданной длине - получилась семистоп­ ная строка (по условию она должна быть не длиннее 6 стоп).

Значит, словоформа «зажигаться» выбрана неправильно.

Компьютер вновь выполняет блок 7 и, допустим, выбирает слово «баловать», которое в соответствии с описанны м и выше грамматическими требованиями будет подставлено в строку в виде «балует»:

Н е ба — л у —ет он нас ни м е — т ель — ю, ни сне — гом!

12 3 45 6 78 9 10 11 12 Ритм начала полученной строки (2, 6) и ее длина удов­ летворяю т требованиям 6-стопного ямба. Однако слово «метелью» нарушает дальнейший ритм строки (получается 2, 6, 9, 12). Так как в заданной изотопической цепочке с ко­ дом М026 имеется всего два слова, то компьютер меняет их в строке местами:

Н е ба — л у — он нас ни сне ет гом, ни м е тель — ю!

— — 12 3 45 6 78 9 10 11 12 Глава 3. Системы обработки связных текстов Теперь строка полностью удовлетворяет требованиям шестистопного ямба: 2, 6, 8, 12. Глагол «баловать» удовлет­ воряет и заданному эмоциональному настрою - в словаре оно имеет признак «радостное».

Выполнив далее блоки 10, 13, 14, 15 и 12, компьютер перейдет к блоку 1 и возьмет для заполнения словами фор­ мулу третьей строки:

С05 + R l /2 V034 + AS2 P11*A006*N045**24.

Аналогично описанному выше эта формула будет запол­ няться так:

Но + R l /2 V034 + AS2 Haw*A006*N045**24.

В этой формуле есть слово из изотопической цепочки М024. Тема текста ограничивает круг рассматриваемых слов:

«карнавал», «веселье», «песни», «маски». Из них надо вы­ брать слово, относящееся к семантическому подклассу N045.

Сюда относятся лишь слова «карнавал» и «веселье». Пусть по датчику случайных чисел выбрано слово «карнавал» (бло­ ки 6А, 36). Блок 37 не позволяет проверить, подходит ли это слово по ритму, так как нет начала строки. Итак, 3-я строка имеет следующий вид (AS2 свидетельствует, что слово «кар­ навал» должно стоять в им. падеже, а слово «наш» указыва­ ет на единственное число):

Но + R l / 2 V034 + AS2 наш*А006*карнавал.

В соответствии с блоками 39— компьютер запомнит словоформу «карнавал» как последнее слово 3-й строки и перейдет к блоку 7. Компьютер должен найти один из гла­ голов семантического подкласса V034 «фазисные глаголы начала действий». Как отмечалось, таких глаголов в слова­ ре три: «начинать», «начаться», «настать». Пусть по датчику случайных чисел выбран глагол «начаться». «Забрав» у сло­ ва «карнавал» мужской род и единственное число и «взяв» у 244 Основы искусственного интеллекта для лингвистов кода R1/2 прошедшее время, компьютер подставит этот гла­ гол в строку в следующем виде - «начался»:

Н о на — чал — ся наш *А006* кар — на — вал.

12 3 Видно, что это слово подходит по ритму (ударение в нем падает на 4-й слог в общем перечне слогов строки).

В блоке 9А компьютер определит, что в строке остался еще один нерасшифрованный код - прилагательное с се­ мантическим кодом А006 («прилагательные, обозначающие качественные признаки, свойственные некоторому множе­ ству людей»). Таких прилагательных в словаре системы не­ сколько: «веселый», «скучный», «яркий». Пусть по датчику случайных чисел выбрано прилагательное «скучный». «Заб­ рав» от слова «карнавал» необходимые грамматические при­ знаки (ед. число, муж. род, им. падеж), слово «скучный»

попадает в строку:

Н о на — чал — ся наш скуч — ны й кар — на — вал.

12 3 4 5 6 78 9 Видно, что строка удовлетворяет требованиям пятистоп­ ного ямба27: 4, 5, 6, 10. Однако проверка этого слова на со­ ответствие заданному эмоциональному настрою показыва­ ет, что этот признак у данного слова имеет значение «тоск­ ливый» и не совпадает с заданием («радостный»). Тогда, выполняя блок 7, компьютер выберет среди трех указанных прилагательных по датчику случайных чисел еще одно при­ лагательное. Пусть это будет слово «яркий». Проверка на соответствие ритму и эмоциональному настрою показыва­ ет, что оно удовлетворяет этим требованиям:

3 Напомним, что наличие «лишних» ударений в служебных словах не влияет на тип ритма. В данном случае ударение на слоге 5 (служебное сло­ во) не нарушает общего закона ямба: 2, 4, 6, 8, 10, 12.

Глава 3. Системы обработки связных текстов Н о на — чал — ся наш яр — ки й кар — на — вал.

12 3 456 78 9 От блоков 10, 13,18, 22 компьютер переходит к блоку 23, который осуществляет подбор рифмующихся слов 1-й и 3-й строк. Первая строка заканчивалась словом «настал», а тре­ тья - «карнавал». Сравнивая их, компьютер убеждается, что эти слова рифмуются: согласно табл. 3.17 (с. 229) они име­ ют общее окончание «-ал» с совпадающими конечными уда­ рениями.

Наконец, после блока 24 через блок 12 компьютер пере­ ходит к заполнению словами формулы последней 4-й стро­ ки первой строфы:

С01 + R3/1V 002 + A 01N061 + AB2T25*N088**24, АВ2Т *N045**24!

В соответствии с описанным выше в строку первоначаль­ но заносятся служебные слова:

И + R 3 /1 V 0 0 2 + A 0 1 N 0 6 1 + A B 2 h k * N 0 8 8 * * 2 4, А В «m*N045**24!

Так как в этой формуле нет кодов главных опорных слов, то выполняя блоки 6А и 36, компьютер находит среди слов изотопической цепочки М024 («карнавал», «веселье», «пес­ ни», «маски») слово семантического подкласса N088. Оно единственное - «песни». Поставив это слово в дательный падеж (это требует функция АВ2 (см. [133, с. 30]), множе­ ственное число (по результатам работы датчика случайных чисел), компьютер получает форму «песням», которую и подставляет в формулу строки для проверки ритма:

jf+R 3/lV 002+A 02N 061+A B H H песням, А В 2ни *N045**24!

246 Основы искусственного интеллекта для лингвистов В связи с тем, что ритм начала строки не определен, ком ­ пьютер не может проверить, удовлетворяет ли выбранное слово заданному ритму.

Выполняя далее блоки 38 и 36, компьютер находит в этой строке еще один незаполненный вид изотопической цепоч­ ки - N045**24. Из приведенных в теме текста четырех слов этой цепочки лишь два имеют код семантического подкласса N045. Это - слова «карнавал» и «веселье». Слово «карна­ вал» уже было использовано в 3-й строке, поэтому компью­ тер берет слово «веселье», ставит его в дательный падеж, по датчику случайных чисел выбирает единственное число и получает форму «веселью». Она и подставляется в 4-ю стро­ ку для проверки заданного ритма строки:

И + R3/1V002 + A02N061+hm песням, ни веселью!

И вновь, ввиду отсутствия слов начала строки, проверка введенного слова на ритм невозможна.

Далее, выполняя блоки 40, 41 и 7, компьютер осуществ­ ляет подстановку вместо оставшихся кодов слов из словаря.

Первым таким кодом в строке является код глагола V002.

Это - код слова «нет»:

И нет + A02N 06l + ни песням, ни веселью!

По ритму слово «нет» подходит - ударение в нем падает на общий второй слог строки. В соответствии с блоками 9, 9А и 7 компьютер находит в строке один незаполненный код код существительного N061 («название конечных фаз не­ которых процессов, явлений или мероприятий»). Среди множества слов, относящихся к этому семантическому под­ классу2 («заключение», «довершение», «завершение», «ис­ ход», «конец», «развязка», «окончание», «финал», «эпилог»), в словаре системы обнаружено лишь слово «конец». Пусть 2 В словарных статьях всех этих слов, а также многих других терминов и философских понятий, признак «эмоциональный настрой» не заполняется.

Глава 3. Системы обработки связных текстов по датчику случайных чисел для этого слова выбран грам­ матический признак множественного числа. Получив эту информацию и проанализировав семантическую функцию А02 (требует винительного падежа), компьютер образует форму «концов» (блок 7) и проверит ее в блоке 8 на соответ­ ствие ритму:

И нет концов ни песням, ни веселью!

12 3456 7 8 9 10 Видно, что как слово «концов», так и слова «песням» и «веселью» удовлетворяют требованиям 5-стопного ямба (2, 4, 6, 10).

Далее, в блоках 9А, 10, 13, 18, 25 компьютер обнаружит, что порождена 4-я строка строфы, а блоки 26, 27, 30 пока­ жут, что последнее слово этой строки «веселью» должно рифмоваться с последним словом 2-й строки «метелью».

Анализ этих слов на наличие одинаковых рифм дает поло­ жительный результат: слова «веселью» и «метелью» рифму­ ются. В итоге 1-я строфа стихотворения имеет следующий вид:

Родная, милая! Тот день настал!

Не балует он нас ни снегом, ни метелью!

Но начался наш яркий карнавал, И нет концов ни песням, ни веселью\ А налогичным образом заполняется словами и вторая строфа порождаемого стихотворного текста.

3.6.5. Этапы реализации и тестирования Порождение стихотворного текста по описанному выше алгоритму может осуществляться в трех режимах:

248 Основы искусственного интеллекта для лингвистов • по одной из тем, полученных в результате анализа сти­ хотворений [130]. Фрагмент списка тем приведен в табл. 3.8;

• по теме, задаваемой непосредственно пользователем;

• по теме, которую генерирует компьютер на основе дат­ чика случайных чисел.

Для всех трех режимов порождения неизменными оста­ ются данные о числе строф в стихотворении, числе строк в строфе, рифме, ритме и длине строки в стопах, а также эмо­ циональном настрое стихотворения.

В первом режиме порождения на экране дисплея для пользователя высвечиваются выбранные по датчику случай­ ных чисел четыре типа готовых тем. Пользователь отмечает для компьютера одну из тем и начинается процесс автома­ тического порождения стихотворного текста.

Второй режим предполагает заполненение таблицы ос­ новного статического содержания текста (темы текста) са­ мим пользователем. Он вносит в нее конкретные главные опорные слова (против кодов C l/1, C l/2, С2/1, С2/2 и т.д.), коды изотопических цепочек (из 77 возможных) в виде М014, М070, М023 и т.д. и входящие в них слова. Последние выбираются из списков, выдаваемых компьютером для каж­ дого кода выбранной изотопической цепочки, и записыва­ ются за соответствующими кодами цепочек. Количество каждого типа главных опорных слов не должно превышать 8, а число изотопических цепочек - 6. Число слов, входя­ щих в каждую изотопическую цепочку, не долж но быть больше 8. Если в процессе порождения стихотворения в кон­ кретной семантико-синтаксической формуле будет исполь­ зовано меньшее число главных опорных слов, меньше изо­ топических цепочек и входящих в них слов, то оставшиеся без употребления элементы темы игнорируются.

В третьем режиме по датчику случайных чисел сначала вы­ бирается число типов главных опорных слов (из четырех воз­ можных C l, С2, СЗ, С4) и число кодов изотопических цепо­ чек (6 из 77). Далее для каждого типа опорных слов случай­ ным образом выбираются главные опорные слова (не более из числа главных опорных слов исследованных текстов) и Глава 3. Системы обработки связных текстов конкретные слова для выбранных изотопических цепочек (не более 8 из соответствующих списков слов цепочек).

В процессе порождения стихотворного текста компьютер может обратиться за помощью к пользователю, если в словаре системы не будет обнаружено слово, удовлетворяющее рит­ му, рифме или стоящему в семантико-синтаксической фор­ муле коду семантического подкласса. В этом случае пользова­ тель должен ввести в компьютер необходимое слово по фор­ ме, представленной на рис. 3.15. Таких обращений за помощью в процессе порождения текста может быть несколько.

В процессе тестирования экспериментальной версии си­ стемы порождения были сделаны некоторые уточнения ал­ горитма (см. рис. 3.17) и программы подбора слов в строку, изменены семантические коды отдельных слов словаря сис­ темы. По результатам тестирования были внесены измене­ ния и в язык СЕМ С И Н Т, на которм создаются семантико­ синтаксические формулы строф (SESFOS). К ак видно из примера подстановки слов в SESFOS (см. с. 239-247), в про­ цессе выполнения соответствующих процедур для определе­ ния числа существительного использовался датчик случай­ ных чисел. Часто это приводило к созданию грамматически неточных строк (ср., например, 4-ю строку строфы, приве­ денную на с. 247). Поэтому в процессе записи строк на языке С ЕМ С И Н Т при коде семантического подкласса каждого су­ ществительного через наклонную черту указывалось число этого существительного (1 - единственное, 2 - множествен­ ное). Например, формула 4-й строки синтезируемой строфы в новых обозначениях может быть представлена так:

С01 + R 3 /1 V 002 + A 0 1 N 0 6 1 /1 + A B 2 T 25* N 0 8 8 /2 * * 2 4, AB2T25*N045/1**24!

В результате заполнения этой формулы словами полу­ чится следующая строка:

И нет конца ни песням, ни веселью.

Глава Система машинного перевода текста как система искусственного интеллекта 4.1. Автоматический перевод текстов.

Обшие понятия Существует множество определений понятия перевод текстов [22]. В качестве рабочего определения примем сле­ дующее: «Перевод есть вид человеческой языковой деятель­ ности, в результате которой некоторый текст на одном язы ­ ке ставится в соответствие тексту на другом языке, при этом обеспечивается их смысловая эквивалентность» [227, с. 30].

Слово перевод понимают двояко: как сам процесс перехода от текста на одном языке к этому же тексту на другом язы ­ ке, так и результат этого перехода, т.е. тот текст, который получается в результате перевода.

Теории перевода текстов начали создаваться в 50-60-е годы XX в. Не останавливаясь подробно на этом вопросе [377;

198;

175;

215;

249], отметим их одну общую особен­ ность: данные теории опираются в основном на метод мо­ делирования процесса перевода текстов человеком.

На сегодняшний день существует несколько теорий пе­ ревода текстов. Это объясняется тем, что, во-первых, объект моделирования - умственные действия человека в процес­ се перевода - сложен и недоступен прямому наблюдению.

Глава 4. Система машинного перевода текста Во-вторых, теории перевода решают разные задачи, связан­ ные с языками, психологией человека, культурой и тради­ циями страны исходного языка (И Я ) и переводного языка (ПЯ). Все эти теории (модели) - гипотетичны. Степень их пригодности для той или иной пары языков проверяется практикой.

Изучая процессы перевода текста человеком, исследова­ тели выделяют в них следующие три этапа [202, с. 59-88]:

1. Постижение текста на ИЯ.

2. Интерпретация текста на ИЯ.

3. Перевыражение текста ИЯ и создание текста на ПЯ.

Суть постижения исходного текста заключается в пони­ мании того, о чем говорится в исходном тексте. При этом выделяют три формы понимания:

• филологическое или дословное понимание текста. При этом предполагается, что человек, читающий текст, пони­ мает значение всех слов этого текста, смысл всех предложе­ ний и содержание всего текста;

• стилистическое понимание - это понимание настрое­ ния героев, их иронии, трагических и комических эффек­ тов и т.д.;

• понимание идейного замысла автора. Оно выражается в осознании того, для чего автор писал свое произведение, что он хотел сказать читателю, какие цели преследовал ав­ тор при создании текста.

Переходя к характеристике второго этапа процесса пе­ ревода, необходимо отметить следующее. Какие бы пары языков ни использовались в качестве исходного и перевод­ ного, в таких языках нет полного семантического тождества:

слову И Я, как правило, соответствует несколько слов ПЯ, один тип предложения ИЯ может быть передан нескольки­ ми синтаксическими структурами ПЯ, любая связная по­ следовательность предложений ИЯ передается нескольки­ ми допустимыми последовательностями ПЯ. Поэтому линг­ вистически точный перевод текстов невозможен в принципе.

Возможна лиш ь правильная интерпретация текста на исход­ ном языке средствами переводного языка. П ри этом пере­ 252 Основы искусственного интеллекта для лингвистов водчик должен уметь передать объективный смысл всего произведения, сводя к минимуму свое субъективное отно­ шение к описываемому в тексте.

Процесс перевыражения текста ИЯ в текст ПЯ носит творческий характер. Переводчику надо не только заменить слова и предложения И Я словами и предложениями П Я, но и сделать это стилистически верно, художественно. Текст перевода должен сохранить и предметное содержание ис­ ходного текста и его идейный замысел. Результатом процесса перевыражения должен стать такой текст ПЯ, который счи­ тается явлением своей литературы, переводного языка и в то же время сохраняет оттенок чужого [215, с. 7].

Опыт работы переводчиков и анализ высказываний за­ нятых этой проблемой ученых позволяют констатировать, что для того чтобы перевести текст с одного языка на дру­ гой, необходимо знать:

1) лексику и грамматику языка, с которого осуществля­ ется перевод;

.

2) лексику и грамматику языка, на который переводится текст;

3) предметное содержание переводимого текста (реалии места и времени, область специальных знаний, индивиду­ альные особенности переводимого автора и т.п.);

4) правила, по которым слова и предложения исходного языка переводятся на другой язык.

Использование этой информации в процессе перевода текста проводится в ходе выполнения следующей последо­ вательности действий:

• морфологического анализа каждого слова предложе­ ния ИЯ;

• синтаксического анализа каждого предложения текста ИЯ;

• синтаксического синтеза каждого предложения ПЯ;

• морфологического синтеза каждого слова предложе­ ния ПЯ.

Человек выполняет эти действия, опираясь на знания языка или словари. Очевидно, компьютер, осуществляющий Глава 4. Система машинного перевода текста перевод текстов, тоже должен уметь выполнять те же самые действия.

В процессе морфологического анализа слов предложе­ ния ИЯ каждое слово получает наборы лексико-граммати­ ческих признаков (часть речи, род, число, падеж, время, лицо, управление и т.д.). Компьютер может сформировать такие наборы либо по формальным признакам слов (суф­ фиксам, окончаниям, приставкам), либо с опорой на специ­ альный автоматический словарь. В нем каждой словоформе уже даны соответствующие лексико-грамматические при­ знаки, и в процессе морфологического анализа слова тек­ ста компьютер берет их из словаря в готовом виде.

Синтаксический анализ предложения ПЯ сводится к по­ иску основных членов предложения (группы подлежащего, группы сказуемого и т.п.).

Синтаксический синтез предложения ПЯ заключается в создании предложения ПЯ определенной синтаксической структуры, определяемой правилами ПЯ и синтаксической структурой предложения ИЯ. Чтобы компьютер мог выпол­ нить это задание, он должен иметь в памяти сведения о син­ таксических структурах И Я, ПЯ и их соответствиях друг дру­ гу. Вторая функция этапа синтаксического синтеза - заме­ на слов ИЯ их переводными эквивалентами из словаря ПЯ.

М орфологический синтез каждого слова предложения ПЯ сводится к постановке слов ПЯ в нужном числе, роде, падеже, времени и т.д. Д ля этого компьютер должен вла­ деть знаниями о лексико-грамматических признаках каж­ дого слова ПЯ, которые берутся из специального автомати­ ческого словаря.

Итак, назовем машинным или автоматическим переводом (соответственно, М П или АП;

англ.: machine translation, automatic translation) выполняемое компьютером действие по преобразованию текста на одном естественном языке в текст на другом естественном языке при сохранении эквивалент­ ности содержания, а также результат такого действия.

Человек, как правило, в той или иной мере участвует в подготовке машинного перевода или в его доведении до удо­ 254 Основы искусственного интеллекта для лингвистов бочитаемого вида. Чаще всего до ввода в компьютер пере­ водимый текст специальным образом готовится человеком предредактором. Он упрощает структуру предложений, вы­ деляет терминологические обороты, указывает класс слов для омографичных форм и т.д. Выданный компьютером пе­ ревод для удобства чтения подвергается стилистической правке человеком-постредактором.

Сказанное выше позволяет следующим образом предста­ вить структуру системы М П (рис. 4.1):

Рис. 4.1. Общая структура системы машинного перевода Проблемами машинного перевода сейчас активно зани­ маются в США, Ф ранции, Японии, Германии, Китае и т.д.

Ежегодно по машинному переводу проводится несколько крупных международных конференций, издаются журналы и книги по этой проблеме [120]. Первый эксперимент по машинному переводу был проведен в СШ А в Джорджтаун­ ском университете 7 января 1954 г. ЭВМ перевела с русско­ го языка на английский несколько достаточно простых пред­ ложений по физике [326]. В России первый машинный анг­ ло-русский перевод был выполнен в 1955 г.

Глава 4. Система машинного перевода текста 4.2. Создание системы перевода английского текста на русский язык 4.2.1. Этап идентификации Известный специалист по машинному переводу Ю.Н. Мар­ чук вслед за академиком Ю.В. Рождественским относит ма­ шинный перевод к центральным проблемам искусственного интеллекта [226, с. 191]. Поэтому создание системы машин­ ного перевода, как и всякой другой системы обработки связ­ ных текстов, осуществляется путем выполнения следующих основных этапов: этапа идентификации, этапа концептуали­ зации, этапа формализации знаний, этапа реализации систе­ мы в виде компьютерной программы и этапа тестирования си­ стемы.

Этап идентификации связан, как отмечалось выше, с не­ формальным (словесным) описанием решаемой задачи. Для этого в ней необходимо выделить подзадачи и их связь в рам­ ках общей задачи, а также основные понятия (ключевые объек­ ты и отношения между ними). В ходе такого анализа выявля­ ются те знания, которые необходимы для решения задачи.

Основные подзадачи создаваемой системы англо-русско­ го перевода и необходимые для этого знания представлены на рис. 4.1. Назначение четырех основных подсистем опи­ сано на с. 253-254. Рассмотрим подробнее две другие со­ ставляющие - двуязычный (англо-русский) автоматический словарь и систему синтаксических соответствий.

Автоматический словарь (АС) системы М П во многом определяет ее успех и эффективность. При построении та­ ких словарей решаются следующие задачи.

А. Определение способов представления лексических единиц словаря ИЯ (входной словарь) и словаря ПЯ (вы­ ходной словарь).

Б. Выработка принципов отбора лексики для входного словаря.

256 Основы искусственного интеллекта для лингвистов В. Выработка принципов подбора переводных эквива­ лентов для выходного словаря.

Г. Разработка способов кодирования лексико-морфоло­ гической, синтаксической, стилистической и семантиче­ ской информации.

Рассмотрим эти задачи более подробно.

А. Для представления лексических единиц входного и выходного словарей чаще всего используются:

• лексическая единица в виде словоформы;

• лексическая единица в виде основы слова (квазиос­ новы).

Если единицами словаря являются словоформы, в него включаются все формы слов (все возможные формы имен существительных, глаголов, имен прилагательных и т.д.).

П ри этом такие формы подаются гнездами, относящимися к одному лексическому значению [50, с. 355-384]. Напри­ мер, фрагмент русского словаря, построенного по этому принципу, выглядел бы так:

БЛОК ВКЛЮ ЧАЕШ Ь ЧА С ТО БЛ О К А В К Л Ю ЧА ЕТ ЧАЩ Е БЛОКУ В К Л Ю ЧА ЕМ ВК Л Ю Ч А ЕТ Е БЛОК БЛОКОМ В К Л Ю ЧА Ю Т ВКЛЮ ЧИЛ БЛОКЕ ВКЛЮ ЧИЛА БЛОКИ БЛ О К О В БЛ О К А М КРАСИВЫ Й К РА С И В О ГО БЛОКИ БЛОКАМ И К РА С И В О М У БЛОКАХ КРАСИВЫ Й КРА СИ ВЫ М ВК ЛЮ ЧА ТЬ КРАСИВОМ ВК ЛЮ ЧА Ю Английский словарь, построенный по такому же прин­ ципу, будет организован следующим образом:

Глава 4. Система машинного перевода текста B U IL D S D E V IC E BE D E V IC E S B U IL T AM B U IL D IN G EARLY IS CA LL E A R L IE R A RE WAS CALLS W ERE CA L L ED B E IN G C A L L IN G CO M PU TER BEEN COM PUTERS B U IL D Е сли лексические единицы словаря представлены основа­ ми, то в таком словаре группа форм, относящихся к одному лексическому значению, представляется в виде общей осно­ вы этих слов. Чаще всего такая основа не совпадает с осно­ вой слова, выделяемой в традиционной (школьной) грамма­ тике. Поэтому ее называют квазиосновой. Приведенные ниже фрагменты словарей в виде основ будут представлены так:

001 БЛОК#...‘ BE# ВКЛ Ю Ч #... 002 B U IL # 001 CALL# КРАСИВ#...

ЧА # 003 COM PUTER# D E V IC E # EARL# Числа, стоящие после знака «#», условно обозначают те наборы суффиксов и окончаний, которые необходимо при­ соединить к основе, чтобы получить соответствующие грам­ матические формы слов. Эти числа называют типами фор­ мообразования, а сами суффиксы и окончания - машинны­ ми окончаниями.

Каждая часть речи обладает своим набором машинных окончаний. Это зависит от числа грамматических катего тжй языка, которые характеризуют слово той или иной час­ 1Вместо многоточия (...) в дальнейшем ставится морфологическая, син­ таксическая, лексическая и семантическая информация об основе.

\еновы и с к у с с т в е н н о го интеллекта ТИНГВИСТОВ _• ч :

258 Основы искусственного интеллекта для лингвистов ти речи. Так, русское имя существительное определенного рода будет характеризоваться числом (2 числа) и падежом (6 падежей). Всего оно будет иметь 12 грамматических форм.

Русское имя прилагательное получает свои грамматические характеристики от имени существительного. Следовательно, у имени прилагательного определенного рода также будет 12 форм. Более сложный набор грамматических характери­ стик имеет русский глагол. Для него характерны следующие категории: лицо, время, число, род, вид, залог, наклонение.

Естественно, что и число грамматических форм у глагола будет значительно большим. Не останавливаясь на этом до­ статочно сложном вопросе, приведем в качестве примера фрагменты таблиц формообразования для имени существи­ тельного и личного местоимения (табл. 4.1), краткого име­ ни прилагательного (табл. 4.2), имени прилагательного, при­ частия, относительного, притяжательного и указательного местоимений (табл. 4.3), а также глагола2 (табл. 4.4). Более детально способы организации таких таблиц формообразо­ вания для слов различных языков представлены в целом ряде исследований [50;

232, с. 97-115;

69].

Выбор типа лексических единиц (словоформы или ос­ новы), включаемых во входную и выходную части АС, за­ висит, главным образом, от типа языка, объема проектиру­ емого словаря и назначения системы МП.

Флективные и агглютинативные языки (русский, бело­ русский, немецкий, польский, казахский и т.д.) имеют боль­ шое число форм слов. В памяти компьютера они займут очень много места. Поэтому для таких языков машинный словарь лучше строить по основам. Для языков аналитиче­ ского типа (английский, французский, испанский и т.д.) можно в качестве лексических единиц выбрать словофор­ мы, так как число форм слов в них невелико.

2 В табл. 4.4 - девять типов формообразования глагола, так как буду­ щее время может быть образовано путем подсоединения приставки и ма­ шинного окончания за/ую или же аналитически с помощью глагола быть (буду содержать).

Глава 4. Система машинного перевода текста Таблица 4. Фрагмент таблицы типов формообразования имен существительных и личных местоимений № Е д и н ствен н о е чи сло ти п о в п редл.

д ат. пад. тв о р. пад.

ви н. пад.

им. пад. род. пад.

пад.

— е ом а 001 У лом ле ла лу ел 002 ел ей и и 003 я и ю ой е 004 е а ы У ке ке кой ки ку 005 ка ас ам ами ас ас 018 ы П р и м ер М н ож ествен ное ч и сл о № типов ви н. предл.

д ат. тв о р.

им. род.

пад. пад. пад.

пад. пад. пад.

ах блок ам и ами 001 и ов узел лы лами лах 002 лы лов ла конструкция ях ям и ями 003 и й _ ах схема 004 ам ы ами ы обработка ках кам ки ками 005 ки ок ам вы ас ами ас 018 ы ас Таблица 4.

Фрагмент таблицы типов формообразования кратких имен прилагательных П р и м ер М н ож ествен н ое № Е д и н ствен н ое чи сло чи сло типов средний мужской женский род род род удобен на но ны 001 ен краток ко ки 002 ок ка Е сли строится большой по объему автоматический сло­ варь, его лучше организовать по основам. При этом в ма­ шинную память можно поместить гораздо больше лексиче­ ских единиц. Если создаваемый машинный словарь неве­ лик, в качестве лексической единицы можно использовать 260 Основы искусственного интеллекта для лингвистов Таблица 4. Фрагмент таблицы типов формообразования имен прилагательных, причастий, притяжательных, указательных и относительных местоимений № М ужской род Ж енский род Средни» РОД ти­ предл. пад.

предл. пад.

твор. пад.

твор. пад.

род. пад.

вин. пад.

род. пад.

вин. пад.

род. пад.

дат. пад.

дат. пад.

дат. пад.

им. пад.

им. пад.

им. пад.

пов 001 ый ого ому ый ым ом ая ОЙ ОЙ ую ой ой ому ое ого ый 002 его ему ИЙ им ем ая ей ей ую ей ей ее его ему ИЙ 003 ИЙ ому им ом ая ой ОЙ ого ую ой ой ое ому ого 005 от ому от им ого ом а ОЙ ОЙ а ой ои ому 0 ого Ха Средний род М ножественное число П ример ти­ предл. пад.

предл. пад.

твор. пад.

твор. пад.

вин. пад.

род. пад.

вин. пад.

дат. пад.

им. пад.

пов 001 ое ым ом ые ых ым ые ыми ых важный 002 им ем их их ее ие им ие ими содержащий их 003 ое ом ом ие им ие ими их короткий 005 им ом и их о им и ими их этот Таблица 4. Фрагмент таблицы типов формообразования глаголов На стояи Ин- ее вв емя Пвоиie/iiuec впемя Ха фи- я мы ты вы он она оно они я мы ты вы он ти­ ни пов тив ует уют овал овапи овал 001 овать ую уем уешь уете ует ует овали овал ить аю аем аешь аете ает ает ают ИЛ 003 ает или ил или ил ать Y им ишь ите ит али 005 ИТ ит ат ал ал али ал Пвош едшее звемя Б удуш ее впе мя Ха П ри­ ти­ она ты мер оно они я мы вы он она оно они пов 001 овала овало овали за/ за/ за/ за/ за/ за/ за/ за/ бло­ ую уем уешь уете ует ует ует уют киро­ вать ило или ишь ите 003 ила им ит ит ит ат вклю­ У чать 005 али ала ало бу­ бу­ бу­ бу­ бу­ бу­ будет/ будут/ содер­ дем/ дешь/ дете/ дет/ дет/ ать ать жать ду/ ать ать ать ать ать ать Глава 4. Система машинного перевода текста словоформу. В таком случае упрощается и ускоряется про­ цедура морфологического анализа и синтеза слов.

Если строится система М П, которая должна давать и по­ словный перевод и перевод более высокого класса - семан­ тический или лексико-грамматический [279, с. 272-292], то целесообразнее строить автоматический словарь выходно­ го языка в виде словоформ. В этом случае пословный ма­ шинный перевод психологически легче читается. Если от системы М П не требуется выдачи пословного перевода, сло­ варь можно строить по основам.

Б. После принятия решения о том, из каких лексических единиц будет состоять входной словарь системы М П, воз­ никает вопрос, откуда брать эти лексические единицы. Со­ временные компьютеры используются только для перевода научно-технических текстов. Множество таких текстов, от­ носящихся к достаточно узкой предметной области (вычис­ лительная техника, оптика, виноделие, атомная энергетика и т.п.), называют подъязыком. Но и лексику, специфичную для одного подъязыка, нельзя полностью вложить в память компьютера по следующим причинам:

• невозможно обнаружить всю лексику, так как тексты любого подъязыка опубликованы в разных журналах и кни­ гах (порой и в разных странах);

• лексика любого подъязыка постоянно пополняется, по­ этому в любом машинном словаре будут отсутствовать но­ вейшие термины.

В таком случае поступают следующим образом: за осно­ ву берут опубликованный словарь соответствующего подъя­ зыка. Так как такие словари создаются и печатаются при­ мерно 8-10 лет, то их лексика в определенной степени ус­ таревает. Чтобы внести в м аш инны й словарь новейш ие термины, опубликованный словарь подъязыка дополняет­ ся лексикой, полученной путем статистического анализа текстов (журнальных статей, монографий и т.д.), изданных в последнее время. Статистический анализ заключается в построении по этим текстам частотно-алфавитного слова­ ря словоформ. Если по данному подъязыку нет опублико­ 262 Основы искусственного интеллекта для лингвистов ванного словаря, для его создания набирается достаточно большой объем текстов рассматриваемой предметной обла­ сти (порядка 500 О О словоупотреблений) и по этим текстам О строится частотно-алфавитный словарь. Он и будет являть­ ся основой автоматического словаря для данного подъязыка.

В. Следующая задача создания автоматического словаря связана с подбором переводных эквивалентов для выходного словаря системы МП. Если опубликован двуязычный сло­ варь по подъязыку (например, англо-русский словарь по вычислительной технике), переводные эквиваленты (для английских слов) извлекаются из такого двуязычного сло­ варя. Причем выбор из большого числа содержащихся в дан­ ном словаре переводных эквивалентов конкретных двух­ трех, включаемых в АС, проводится или с опорой на рус­ ский частотный словарь соответствующего подъязыка (для словаря отбираются переводные эквиваленты, которые в русском частотном словаре имеют наибольшую частоту), или путем консультаций со специалистами. При отсутствии опубликованного двуязы чного словаря по конкретном у подъязыку отбор необходимых единиц в выходной словарь ПЯ проводится с помощью специалистов, знакомых с те­ матикой и знающих ИЯ и ПЯ.

Г. Наконец, рассмотрим, каким образом в автоматический словарь передаются разные сведения о словах ИЯ и ПЯ.

Лексическая единица автоматического словаря (слово­ форма или основа) вместе с набором значений ее всевоз­ можных признаков называется машинной словарной стать­ ей. Для размещения набора значений признаков лексиче­ ской единицы в словарной статье выделяют обычно 4 зоны сведений: морфологических, семантических, синтаксиче­ ских и лексических [373].

В зоне морфологических сведений в самом простейшем виде располагаются признак части речи, к которой относится лек­ сическая единица, и морфологические признаки лексиче­ ской единицы.

Зона семантических сведений должна, как минимум, вклю­ чать:

Глава 4. Система машинного перевода текста • семантический признак лексической единицы (ее при­ надлежность к определенному семантическому подклассу:

«одушевленный», «физическое движение» и т.п.);

• переводные эквиваленты иностранного слова.

К числу синтаксических признаков, включаемых в зону синтаксических сведений лексической единицы, относится, например, управление этой единицы (глагола, предлога).

В зоне лексических сведений минимально сообщается о:

• стилистическом использовании лексической единицы (является она общеязыковой или принадлежит к определен­ ному подъязыку);

• использовании этой единицы как части фразеологиз­ ма или устойчивого словосочетания.

Рассмотрим подробнее, как выделяются и кодируются в словарной статье указанные признаки.

Зона морфологических сведений. Если строится, например, система англо-русского М П, то части речи английского и русского языков могут быть представлены в виде [50, с. 341;

373, с. 26-28;

69, с. 217] табл. 4.5.

Для кодирования морфологических признаков лексиче­ ских единиц, принадлежащих к одному из 15 классов, пред­ ставленных в табл. 4.5 (учитывая английскую и русскую грамматики), используем специфичные наборы граммати­ ческих признаков (табл. 4.6).

Для различных значений соответствующих категорий ис­ пользуем данные табл. 4.7-4.18.

Зона семантических сведений. Следующая задача связа­ на с выбором и кодированием признаков, которые могут войти в зону семантических сведений. В первую очередь это признаки семантических подклассов знаменательных слов (имени существительного, имени прилагательного и глагола), а также семантические группы местоимений, пред­ логов. Вопрос об отнесении знаменательного слова к тому или иному семантическому подклассу достаточно сложен.

В самом общем виде он сводится к выделению в слове оп­ ределенного семантического признака (или признаков), который является ведущим на каком-то этапе анализа. Су 264 Основы искусственного интеллекта для лингвистов Таблица 4. Части речи, используемые в системе англо-русского перевода № ч а сти реч и Н а и м ен о в ан и е ч а сти реч и К од ч а сти реч и 1 Имя сущ ествительное N 2 Имя прилагательное А 3 Краткое им я прилагательное Е 4 Глагол V 5 П ричастие (русское), причастие II R П ричастие I 6 X 7 Д еепричастие К Н аречие 8 D 9 Имя числительное В 10 М естоимение Р 11 Предлог G 12 Сою з С Ч астица Т 14 М еждометие М 15 Артикль L Таблица 4. Наборы морфологических признаков, специфичных для слов разных частей речи Ч а с т ь реч и С п е ц и ф и ч н ы е н аборы гр а м м а т и ч е с к и х п р и зн а к о в Имя сущ ествительное, порядковое имя род, число, падеж числительное, имя прилагательное, краткое им я прилагательное Глагол время, лицо, число, род, вид, залог, наклонение, переходность Причастие (русское), причастие I, время, число, род, вид, залог, падеж, форма причастие II Деепричастие вид, переходность Наречие степень сравнения род, число, падеж, лицо М естоимение тип Артикль Глава 4. Система машинного перевода текста Таблица 4.7 Таблица 4. Род Число К од К од З н ач ен и е к а тего р и и З н ач ен и е к атего р и и единственное мужской множественное женскии двойственное средний смеш анный Таблица 4. Таблица 4.9 Наклонение Код З н ач ен и е к атего р и и З н ач ен и е к атего р и и К од изъявительное первое повелительное второе сослагательное третье условное Таблица 4.11 Таблица 4. Падеж Время З н ач ен и е к атего н и и Код З н а ч е н и е к атего р и и К од 1 именительны й настоящ ее 2 прош едш ее (пер­ родительны й ф ект, имперфект) дательны й винительным 4 будущ ее творительны й 5 инфинитив поеллож ныи будущ ее в про­ ш едш ем Таблица 4.13 поелпоош еяш ее Тип Таблица 4. Вид Код З н а ч е н и е к атего р и и определенный З н ач ен и е к а тего р и и К од неопределенный соверш енный несоверш енный Таблица 4. Переходность Таблица 4. Форма К од З н ач ен и е к атего р и и переходный З н ач ен и е к атего р и и К од непереходный полная переходный / краткая непереходный 266 Основы искусственного интеллекта для лингвистов Таблица 4.17 Таблица 4. Залог Степень сравнения З н ач ен и е к атего р и и К од З н ач ен и е катего р и и Код активный 1 положительная пассивный 2 сравнительная возвратный 3 превосходная возвратный/пассивный ществуют разные подходы к выделению таких признаков [232, с. 117-134;

60, с. 64;

390, с. 16-18, с. 50-52]. Не останавлива­ ясь подробно на этом вопросе, допустим для конкретности, что строится автоматический англо-русский словарь для пе­ ревода текстов по вычислительной технике. Тогда, например, для имен существительных этого подъязыка можно выделить следующие семантические подклассы (табл. 4.19):

Таблица 4. Семантические подклассы имен существительных подъязыка «вычислительная техника»

№ С ем ан ти ч еск и й п одкласс Код П р и м ер п/п 1 Деталь электронных приборов 1 лампа, переклю чатель 2 Блок или небольшая 2 принтер, дисплей конструкция 3 Процесс создания электронного 3 конструирование,создание прибора или устройства 4 О перации, выполняемые 4 инструкция, оператор электронным устройством 5 Крупное электронное 5 компью тер, микроЭВМ устройство 6 Слож ная электронная деталь 6 интегральная схема, микропроцессор 7 И нформационные понятия 7 байт, бит, данные Подобные семантические подклассы выделяются для гла­ голов, имен прилагательных, предлогов и некоторых дру­ гих классов слов. Сюда, в частности, относятся и известные типы местоимений (табл. 4.20).

К зоне семантических сведений относятся и переводные эквиваленты английских слов. Возможны два способа их за­ дания в словарной статье:

Глава 4. Система машинного перевода текста • русские эквиваленты указываются в машинной словар­ ной статье сразу за английской лексической единицей3:

BLOCKS...# БЛО К*...001;

Б Л О К И Р *... C E N T R A L...# Ц Е Н Т Р А Л Е Н *...001;

• русские переводные эквиваленты задаются в виде чис­ лового адреса, под которым они хранятся в памяти компью­ тера:

А нглийская часть словаря Русская часть словаря BLO CK S...#006;

007 006 БЛО К*... C E N T R A L...#015 007 Б Л О К И Р *... 015 ЦЕНТРАЛЬН*... 001.

Таблица 4. Семантические подклассы местоимений № п/п С е м ан ти ч еск и й п о д кл асс Код П р и м ер ы 1 Личные я, мы Указательные 2 этот, тот Притяжательные 3 мой, твой 4 Возвратные 4 себя 5 весь, другой 5 Определительные 6 Вопросительные кто, что 7 кто, который 7 Относительные 8 Отрицательные никто, ничто кто-либо, некто 9 Н еопределенные Зона синтаксических сведений. Синтаксические сведения о лексической единице включают, как минимум, управле­ ние глагола и предлога. Для этого можно воспользоваться, например, таблицей типов управления (табл. 4.21):

3 В п р и в о д и м о й з а п и с и м н о го то ч и е (...) зам ещ ает м о р ф о л о ги ч еск у ю, с е ­ м а н ти ч еск у ю, с и н т а к с и ч е с к у ю и л е к си ч е ск у ю и н ф о р м а ц и ю о л е к с и ч е с к о й е д и н и ц е. З н а к «*» в р у с с к о й о с н о в е п о к а з ы в а е т, в к а к о м м есте к о с н о в е необходим о п одсоед ин ить оп ределен н ы е суф ф и ксы и о к о н ч ан и я, которы е х р а н я т с я п о д н о м е р а м и ( т и п а м и ф о р м о о б р а з о в а н и я ), п р и в о д и м ы м и за м н о го т о ч и е м. С о о т в етств у ю щ ее о к о н ч а н и е см. в таб л. 4.1 - 4.4.

26В Основы искусственного интеллекта для лингвистов Таблица 4. Типы управления глагола и предлога № Т и п у п р авл ен и я К од п/п 1 Т ребует родительного падеж а 2 Требует дательного падежа 3 Требует винительного падежа 4 Т ребует творительного падежа 5 Т ребует предложного падежа 6 Требует винительного или родительного падеж а 7 Требует винительного или творительного падеж а 8 Требует дательного или родительного падеж а 9 Требует дательного или творительного падеж а 10 Требует дательного или винительного падеж а 11 Требует родительного или творительного падеж а 12 Требует дательного, винительного или родительного падежа 13 Требует дательного, винительного или творительного падеж а 14 Требует дательного, винительного, родительного или творительного падеж а Зона лексических сведений. Лексические сведения, как уже отмечалось, включают некоторые стилистические призна­ ки и указание на употребление лексической единицы во фра­ зеологическом или устойчивом словосочетании. При пере­ воде, например, английских текстов по вычислительной тех­ нике на русский язы к можно воспользоваться таблицей стилистических признаков (табл. 4.22).

Таблица 4. Стилистические признаки слов подъязыка «вычислительная техника»

С т и л и ст и ч еск и й п р и зн а к Код № п/п 1 Общ еупотребительное слово Слово, специфичное для подъязыка «вычислительная техника»

Употребление лексической единицы во фразеологизме можно фиксировать:

Глава 4. Система машинного перевода текста • указанием в зоне лексических сведений машинной сло­ варной статьи части фразеологизма, в котором употребля­ ется лексическая единица. Например, для слова «бить» мож­ но указать слово «баклуши» и т.д.;

• внесением всего фразеологизма в специальный словарь фразеологизмов, который ф ункционирует в системе М П наравне с автоматическим словарем отдельных лексических единиц.

Для размещения всей указанной выше информации раз­ рабатывается структура машинной словарной статьи. Про­ демонстрируем это на примере структуры словарной статьи для имени существительного.

Как видно из табл. 4.6 (стр. 264), для русского имени су­ ществительного специфичны следующие морфологические признаки: часть речи, род, число, падеж. Так как для их ко­ дирования используется одна буква (для кода части речи) и по одной цифре (табл. 4.5, табл. 4.7-4.19), то всего для мор­ фологической зоны необходимо 4 байта4. Условимся также, что если лексическая единица задается в виде основы (на­ пример, для русского словаря), то при такой основе будет использован трехцифровой код, обозначающий ее тип фор­ мообразования (см. с. 257-260). Для его записи в структуре машинной словарной статьи отведем 3 байта. Для записи семантического подкласса лексической единицы использу­ ем 1 байт, так как таких подклассов для имени существи­ тельного было выделено 7 (см. табл. 4.19). Условимся так­ же, что адрес русского переводного эквивалента будем запи­ сывать с помощью трехзначного числа, т.е. ему в памяти компьютера отведем 3 байта. Синтаксических признаков в простейшем случае имя существительное иметь не будет.

Наконец, стилистический признак, включаемый в лексиче­ скую зону словаря, будем кодировать, используя один байт (цифра 1 или 2, табл. 4.22), а для записи части фразеологиз­ ма отведем в словарной статье 10 байтов. Тогда машинная 4 Н а п о м н и м, ч т о 1 б а й т «вм ещ ает» о д н у б у кву, о р ф о г р а ф и ч е с к и й з н а к, циф ру.

270 Основы искусственного интеллекта для лингвистов словарная статья для английского имени существительного будет иметь вид, показанный на (рис. 4.2).

Например, машинная словарная статья для английско­ го слова Chips (микросхемы) будет выглядеть так5 (ср.: табл.

4.5,4.7,4.8,4.1 1,4.1 9,4.2 2 ):

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 6 1 7 18 19 C H IP S /N 2 2 _ 6 # 0 1 Соответствующую машинную словарную статью для рус­ ского имени существительного можно представить в виде рис. 4.3.

Тогда русский переводной эквивалент английского сло­ ва chips имеет в машинной памяти следующий вид:

1 2 3 4 5 6 15 16 17 18 0 1 6 M H K P O C X E M * N _ 2 _ 2 _ 6 0 0 Здесь первые три знака (016) - адрес переводного экви­ валента, а последние три знака (004) - тип формообразова­ ния имени существительного микросхемы (ср.: табл. 4.1).

Для английского и русского глагола машинные словар­ ные статьи будут представлены так, как показано на рис.

4.4 и рис. 4.5.

Аналогичным образом строятся маш инные словарные статьи и для слов других частей речи, указанных в табл. 4.2.

Они приведены на рис. 4.6-4.11.

Однако, большое число слов в любом языке по своей ф ор­ ме могут относиться к разным частям речи. Например, рус­ ское слово печь может быть и именем существительным и глаголом, английское слово blocks может быть существитель 5 З н а к «/» в т а к о й за п и с и сл у ж и т д л я о тд е л е н и я с а м о й л е к с и ч е с к о й е д и ­ н и ц ы о т и н ф о р м а ц и и к э т о й е д и н и ц е. З н а к «_» п р ед ст ав л яет н е з а п о л н е н ­ н ы е б ай ты, п р е д н а з н а ч е н н ы е д л я з а п и с и ч а сти ф р азе о л о г и зм а и о тсу тству ­ ю щ и х п р и зн а к о в р о д а и п адеж а. Е сл и п ер ев о д н ы х эк в и в а л е н т о в н е с к о л ь к о (сл о во м н о го зн а ч н о ), в т а к о й за п и с и у к азы в аю т ся все и х адреса.

16 1 17 1 18 1 1 I2 I3 I4 5 16 17 18 1 9 110 1 11 1 12 1 13 1 14 1 Часть фразеологизма Стилистический Семантический Адрес Лексическая Часть речи подкласс единица признак перевод­ Падеж Ч исло ного экви­ О Глава 4. Система машинного перевода текста CL валента морфологическая информация лексическая информация семантическая информация Рис. 4.2. Структура машинной словарной статьи для имени существительного, имени прилагательного, порядкового имени числительного ИЯ (английского языка) 16 17 18 10 11 12 13 14 Часть фразеологизма Тип формооб­ § разования О * н я Я я о хс S и морфологическая информация лексическая информация семантическая информация Рис. 4.3. Структура машинной словарной статьи для имени существительного, имени прилагательного, порядкового имени числительного ПЯ (русского языка) 10 1 11 23 9 12 1 25 1 2 3 4 5 6 7 | Семантический Стилистческий Переходность Лексическая Наклонение Управление речи единица Основы искусственного интеллекта для лингвистов признак признак Время Ч ис л о Залог Лицо Вид Род Адрес Часть Часть переводного фразеоло­ гизма эквивалента Рис. 4.4. Структура машинной словарной статьи для глагола ИЯ (английского языка) 10 1 I2 I3 I4 I 5 I6 I 7 18 |Т ~ 11 23 I 24 25 Часть И ф р азео ­ а Тип логизма I s С О о. формообразования Ш о Рис. 4.5. Структура машинной словарной статьи для глагола ПЯ (русского языка) 1 5 9 1 10 11 1 22 | 4 24 1 2 3 6 7 Стилистичес­ Лексическая 6 g!


кий признак зеологизма Часть фра­ Часть речи А дрес единица Ф орма П адеж Время Число Залог i в ne;

эевод н ого я § о Управление С и 1 « ’ Э 1 вал ен та S & Кзи со 4 S' o Рис. 4.6. Структура машинной словарной статьи для причастия I, причастия II ИЯ I 5 | 9 7 1 8 5 2 3....

« Семантический 1| S « Лексическая ж S S Часть речи sr А дрес X признак единица о Падеж я Ч ис л о Лицо к Адрес перевс 1ё о е Род п ер ев о д н о го g Глава 4. Система машинного перевода текста * f* SL 3 XC эквивалег о.

а5 эк в и в а л е н та ев g« с 1с sr.....

4) и Рис. 4.8. Структура машинной словарной Рис. 4.7. Структура машинной словарной статьи д ля статьи для предлога ИЯ местоимения ИД 2 4 5 1 Степень сравнения Стилистический Семантический Лексическая Лексическая Часть речи Адрес Часть речи единица А дрес признак единица признак п ерево д н о г о эк ви п ;

реводн с г о в ал ен та Э1свивален т а Рис. 4.10. Структура машинной Рис. 4.9. Структура машинной словарной статьи для словарной статьи для союза, наречия ИЯ частицы, междометия ИЯ 274 Основы искусственного интеллекта для лингвистов ным во множественном числе и глаголом в 3-м лице един­ ственного числа настоящего времени и т.п. В таких случаях в словарной статье соответствующего слова ИЯ (например, английского) указывается информация, относящаяся к двум частям речи. Общая схема словарной статьи тогда будет представлена следующим образом (рис. 4.12).

1 2 3 14 А д р ес п ер е в о д н о г о Ч асть речи Л ексическая единица Тип э к в и в ал ен та Рис. 4.11. Структура м аш и н н о й словарной статьи дл я артикля И Я Адреса А дреса перевод­ перевод­ К од 2-й И нформа­ И нф орма­ Л ексичес­ К од 1-й ных ных кая части ция 1-й части ция 2-й эквива­ эквива­ единица речи части речи части речи речи лентов 1-й лентов 2-й части речи части речи Рис. 4.12. О бщ ая схема словарной статьи И Я систем ы М П Следовательно, в соответствии с рис. 4.2, рис. 4.4, а так­ же табл. 4.6-4.22 и рис. 4.12 английское слово blocks будет закодировано так:

B L O C K S /N V 2 2_2111 _ 2#006;

007, где цепочки цифр: 2 _ 2 _ 2 и _ _2 представляют, соответственно, инфор­ мацию имени существительного (рис. 4.2) и глагола (рис. 4.4), число 006 - адрес переводного эквивалента для blocks в фун­ кции имени существительного, а 007 - адрес переводного эквивалента того же слова в функции глагола.

Структура машинных словарных статей для слов ПЯ (на­ пример, русского) остается без изменения (см. с. 270-273):

Пользуясь структурными схемами словарных статей для слов разных частей речи и таблицами кодов морфологиче­ Глава 4. Система машинного перевода текста ских, семантических, синтаксических и лексических при­ знаков соответствующих лексических единиц, можно соста­ вить автоматический двуязычный (например, англо-рус­ ский) словарь.

Наконец, последний блок общей системы машинного пе­ ревода связан с созданием системы синтаксических соответ­ ствий И Я и ПЯ. Любые пары языков (И Я и ПЯ) полностью и однозначно не эквивалентны как на уровне отдельных слов, так и на уровне предложений. Выбор для предложе­ ния ИЯ определенной синтаксической структуры в ПЯ до­ статочно сложная задача [226, с. 38-46;

279, с. 290-292]. При этом должны быть выполнены следующие условия:

• предложение ПЯ должно быть правильным с точки зре­ ния грамматики ПЯ;

• предложение ПЯ должно быть построено так, чтобы оно теряло минимум информации, которую содержало пред­ ложение ИЯ;

• выбранная структура предложения ПЯ должна употреб­ ляться в ПЯ (или в отдельном его подъязыке) чаще, чем дру­ гие допустимые структуры, передающие смысл предложе­ ния ИЯ;

• предложение ПЯ должно быть по возможности ближе к структуре предложения И Я, чтобы передать стилистиче­ ские особенности автора текста ИЯ.

Соответствие между синтаксическими структурами ИЯ и ПЯ при машинном переводе можно установить следую­ щ ими способами.

1. В процессе перевода в качестве синтаксической струк­ туры для всех предложений ПЯ берется соответствующая синтаксическая структура предложения ИЯ.

2. Для выяснения синтаксических соответствий структур предложений ИЯ и ПЯ в рамках отдельного подъязыка ис­ следуются параллельные тексты6 ИЯ и ПЯ. При таком ана­ лизе выясняется, что некоторой структуре С1 ИЯ будет со­ 6 П а р а л л е л ь н ы м и н а зы в а ю т с я н е к о т о р ы й т е к с т и его п е р е в о д н а о д и н и л и н е с к о л ь к о д р у ги х я зы к о в.

276 Основы искусственного интеллекта для лингвистов ответствовать структура Т1 ПЯ (или несколько допустимых структур), структуре С2 ИЯ - структура Т2 ПЯ и т.д. Эти соответствия и закладываются в машинную память для даль­ нейшей работы системы М П (см. табл. 4.23).

3. Синтаксические структуры для предложений ПЯ мо­ гут быть получены и путем трансформаций синтаксических структур предложений ИЯ.

Таблица 4. Синтаксические соответствия структур И Я и П Я С и н такси ческая С и н такси ческая В ероятность П рим ечани е стр у кту р а И Я употребления структура вП Я ПЯ т, 0,5 Для газеты С, (например, (например, S + Р + АР + 0 ) S + Р + 0 + АР) 0,22 Для газеты Тз (АР + S + Р + 0 ) 0,14 Для научного Тз текста (О + Pc+Snac + АР) с2 0, Т т5 0, т« 0, С т, 0, 0, Т Так, если необходимо найти все русские синтаксические структуры, соответствующие английской синтаксической структуре S + Р + О + АР7(The workers build a nice house on the glade), то, переставляя буквы, обозначающие члены пред­ ложения, можно получить возможные структуры:

1.S + P + AP + 0 4.0 + AP + P + S 2. AP + S + P + 0 5. 0 + AP + S + P 3. 0 + S + P + AP 6. 0 + Рея + Snac + АР и т.д.

7 З д е сь S - п о д л еж ащ ее;

Р - с к азу ем о е;

О - д о п о л н е н и е ;

А Р - о б с т о я ­ тел ь ств о м еста.

Глава 4. Система машинного перевода текста Подставляя вместо букв русские слова, соответствующие переводимым членам приведенного выше английского пред­ ложения, получим русские предложения:

1. Рабочие строят на поляне хороший дом.

2. На поляне рабочие строят хороший дом.

3. Хороший дом рабочие строят на поляне.

4. Хороший дом на поляне строят рабочие.

5. Хороший дом на поляне рабочие строят.

6. Хороший дом строится рабочими на поляне.

Анализируя эти предложения с точки зрения 4-х приве­ денных выше условий, можно отметить, что структура № несколько необычна для русского языка. Структуры № 3 и № 4 типичны для устной разговорной речи или художествен­ ной литературы. Структуры № 1 и № 2 более нейтральны и вполне возможны в публицистике (газете, журнале). Струк­ тура № 6 типична для научного письменного текста. Такой анализ позволяет выбрать из возможных русских структур ту единственную, которая соответствует типу переводимо­ го английского текста (газета, журнал, повесть, научный текст и т.п.).

В итоге, если отбор синтаксических структур проводил­ ся способами 2 и 3, то в машинную память системы М П вво­ дится таблица синтаксических соответствий ИЯ и ПЯ, по­ добная табл. 4.23.

Пользуясь этой таблицей в процессе перевода, компью­ тер выбирает для каждого предложения ИЯ одну из возмож­ ных структур ПЯ в зависимости от вероятности употребле­ ния структуры в ПЯ или типа переводимого текста.

Таким образом, проведенный детальный анализ процесса перевода текста с одного языка на другой позволяет сформу­ лировать словесное описание задачи перевода: «На устройстве внешней памяти компьютера (дискете, CD или винчестере) находится следующий английский научно-технический текст по вычислительной технике:

278 Основы искусственного интеллекта для лингвистов INTEGRATED CIRCUITS, ALSO CALLED CHIPS, ARE NOW MANUFACTURED SEPARATELY FROM COMPUTERS. THEY PROVIDE BUILDING BLOCKS TO BUILD A COMPUTER. THE MOST IMPORTANT OF THESE COMPUTER COMPONENTS IS THE CENTRAL PROCESSING UNIT (CPU FOR SHORT) OR MICROPROCESSOR. IT IS THE PART OF THE COMPUTER THAT OBEYS TH E INSTRUCTIONS OF A PROGRAM. A MICROPROCESSOR IS A SMALL UNIT CONTAINED ON THE SEMICONDUCTOR CHIP. MICROPROCESSORS ARE USED IN MINICOMPUTERS AND EACH OF THESE INTEGRATED CIRCUITS IS CAPABLE OF PROCESSING 8-BIT OR 16-BIT DATA.

Создать учебную (упрощенную) систему перевода этого текста на русский язык при следующих условиях:

1. Лексической единицей английского словаря является словоформа.

2. Лексической единицей русского словаря является ква­ зиоснова.

3. Каждой английской лексической единице, относящей­ ся к определенной части речи, в автоматическом словаре соответствует 1-2 русских переводных эквивалента8.

4. В машинной словарной статье лексической единицы указываются ее морфологические, синтаксические и частич­ но семантические признаки.

5. Структура предложения русского языка на уровне чле­ нов предложения соответствует структуре аналогичного ан­ глийского предложения (т.е. в системе М П отсутствует под­ система синтаксических соответствий английского и русско­ го языков).

8 В качестве таких эквивалентов, как правило, берут первые перевод­ ные эквиваленты английского слова, зафиксированные в словарях.


Глава 4. Система машинного перевода текста 4.2.2. Этап концептуализации. Выделение основной информации На этом этапе необходимо выделить конкретные опре­ деления, таблицы, перечни данных, которые нужны для ре­ шения задачи перевода текста с английского языка на рус­ ский.

Анализ рассмотренных выше пяти конкретизирующих условий создания системы М П позволил определить, что для ее создания необходимо иметь:

• англо-русский словарь по вычислительной технике, при этом единицей английской части словаря должна быть словоформа, а единицей русской части - квазиоснова;

• каждое английское слово в англо-русском словаре долж­ но иметь не более двух русских переводных эквивалентов, взя­ тых из числа первых переводных эквивалентов опубликован­ ного англо-русского словаря по вычислительной технике;

• перечень морфологических и синтаксических призна­ ков, специфичных для русских слов следующих граммати­ ческих классов: существительных, глаголов, прилагатель­ ных, причастий, притяжательных, указательных и относи­ тельных местоимений;

• перечень морфологически признаков, специфичных для соответствующих слов английского языка;

• перечень семантических признаков, присущих англий­ ским и русским словам англо-русского словаря;

• коды для представления грамматической и семанти­ ческой информации в словарной статье;

• общую структуру словарной статьи;

• таблицы типов формообразования русских существи­ тельных, глаголов, прилагательных, причастий, притяжа­ тельных, указательных и относительных местоимений;

• типы синтаксических отношений между предложени­ ями английского и русского языков.

Рассмотрим, как представлены эти данные для разраба­ тываемой системы.

280 Основы искусственного интеллекта для лингвистов В процессе создания англо-русского автоматического сло­ варя (АС) выполняются четыре конкретные задачи (А, Б, В, Г). Способ представления лексических единиц английско­ го и русского словарей (задача А на стр. 255) отражен в са­ мой формулировке задачи построения системы (условия и 2, с. 278). Разработка принципов подбора русских эквивален­ тов для английских слов (задача В на стр. 255) определена в условии 3 формулировки задачи машинного перевода. Так как создаваемая система перевода текста является учебной, то в качестве английской лексики для АС взяты все слово­ формы, вошедшие в переводимый текст (с. 278). Таким об­ разом решена сформулированная в задаче Б (с. 255) про­ блема отбора английской лексики для АС. Для каждой анг­ лийской словоформы выбирается не более двух переводных эквивалентов из опубликованных англо-русских словарей по вычислительной технике [409].

Остановимся подробнее на задаче (с. 256) разработки спо­ собов кодирования информации к единицам английской и рус­ ской частей автоматического англо-русского словаря. Как отмечено в формулировке задачи создания системы М П, в проектируемом словаре используется м орф ологическая, синтаксическая и частично семантическая информация об английских и русских лексических единицах. В качестве мор­ фологических признаков учитываются данные, приведенные в табл. 4.6 (с. 264). Однако в целях упрощения программы перевода уточним число таких признаков для слов некото­ рых частей речи.

1. Для русского и английского глагола отметим лиш ь че­ тыре основных морфологических признака9: часть речи, чис­ 9 В отличие от описанной выше схемы кодирования управления глаго­ ла и предлога в учебной программе МП «управление» указывается не в виде одного двузначного кода, взятого из табл. 4.21, а в виде двух однозначных кодов 2,3,4,5,6, взятых из той же таблицы. То есть, если глагол требует пос­ ле себя слова в дательном или творительном падеже, то байты машинной словарной статьи для «управления» содержат не цифры 10, как в табл. 4.21, а 35, где 3 - управление дательным падежом, а 5 - управление творительным падежом (см. табл. 4.21).

Глава 4. Система машинного перевода текста ло, лицо, время. Дополнительно для русских глаголов вве­ дем синтаксический признак «управление глагола».

2. Для русского причастия - часть речи, число, род, па­ деж, вид.

3. Для деепричастия и наречия - часть речи.

4. Для слов остальных частей речи английского и русского языков морфологическая информация остается без изменения.

При кодировании английских и русских слов воспользу­ емся структурами машинных словарных статей (см. с. 271 274). При этом части словарных статей, не содержащие мор­ фологические, семантические и лексические признаки, про­ сто отсекаются, и словарная статья становится короче на величину отсутствующих признаков.

С учетом кодов морфологических и синтаксических при­ знаков, приведенных на с. 264-266, все слова использованно­ го для перевода английского текста были закодированы в со­ ответствии с упрощенными машинными словарными статья­ ми. Начало такого словаря выглядит следующим образом1 '’:' Английская часть Русская часть A/L2_ #001 001_/_О О О ALSO/C_ #002 002 ТАКЖЕ/С AND/С #003 003 И /С ARE/V 2 1 #004, 004_/_ BLOKCS/NV2 111 #006, 005 ЯВЛЯ*СЯ/У 5 006 БЛОК*Ы1 007 БЛОКИР*У 4 1 Напомним, что информация для английских словоформ, относящихся по форме к двум частям речи, дается в соответствии со схемой, приведен­ ной на рис. 4.12. Так, для слова BLOCKS вслед за кодами NV сначала ука­ зываются морфологические признаки для существительного N (первые знаков), а затем - для глагола V (следующие в этом ряду 5 знаков). Если английское слово принадлежит к одной части речи (ALSO, AND, ARE и т.д.), позиции другой отсутствующей части речи заполняются пробелами «_». Адреса переводных эквивалентов, разделенные знаком «;

», относятся к разным частям речи, а разделенные знаком «,» - к одной и той же части речи (например, для слова ARE).

282 Основы искусственного интеллекта для лингвистов В учебной системе М П используются описанные ранее типы формообразования имен существительных, местоиме­ ний, имен прилагательных, причастий, кратких имен при­ лагательных и глаголов.

Рассматривая типы синтаксических отношений между предложениями английского и русского языков, отметим, что в основу системы правил перевода текста с английского языка на русский положено условие, что каждое русское предложение строится точно по той же схеме, что и соот­ ветствующее ему английское предложение. Такая схема м о­ жет быть задана на уровне конкретных лексических единиц, членов предложения, частей речи или отдельных групп слов (формальных групп), задаваемых частями речи (табл. 4.24).

Таблица 4. Возможные типы синтаксических соответствий предложений английского и русского языков Р усски й я з ы к А н гл и й ск и й я з ы к У р о вен ь со о тветстви я The workers build a nice house Рабочие строят Л ексический хорош ий дом на on the glade.

поляне S+P+O+AP S+P+O+AP Членов предложения N+V+A +N +G +N L+N +V +L+A+N+G+L+N Частей речи Ф ормальных групп N 1G + VG + N2G + PG N iG + VG + № G + PG fL+N H (V )+(L+A +N )+(G +L+N ) (N)+(VHA+N)+(G +N) Индексы частей речи взяты из табл. 4.5 (с. 264). Ф ормаль­ ные группы обозначают: N G - именная группа, VG - гла­ гольная группа, PG - предложно-именная группа. Через S, Р, О, АР обозначены, соответственно, подлежащее, сказуе­ мое, прямое дополнение и обстоятельство места.

С точки зрения простоты определения русских синтакси­ ческих соответствий и последующего морфологического оформления русских слов более приемлем уровень формаль­ ных групп. Это в определенной степени соответствует и тем мыслительным операциям, которые выполняет человек в процессе чтения текста. Как правило, он читает предложе­ Глава 4. Система машинного перевода текста ние не целиком, а по частям. Такими частями являются не­ которые завершенные цепочки слов: несколько стоящих под­ ряд имен существительных («управление механизмами сор­ тировки зерна»), имя прилагательное и имя существитель­ ное, предлог, имя прилагательное и имя существительное и т.д. Эти группы разные исследователи называют по-разно­ му: синтагмами, группами, фрагментами, формальными группами. Выделение таких групп человек проводит с опо­ рой на специальные граничные сигналы, в роли которых вы­ ступают предлоги, артикли, частицы, вспомогательные гла­ голы и т.д. [106;

222;

232]. В итоге, например, в английском языке выделяют: именные группы (N G );

предложно-имен­ ные группы (PG );

глагольные группы (VG);

наречные груп­ пы (DG);

OF группы (FG).

О писанный принцип использован в разрабатываемой учебной системе М П. П ри этом отпадает необходимость проведения синтаксического анализа английского предло­ жения, а синтаксический синтез сводится к замене англий­ ских слов их переводными эквивалентами и подстановками последних в соответствующие русские формальные группы.

4.2.3. Этап формализации.

Создание базы знаний Этап формализации сводится к объединению некоторым формальным способом выделенных на предыдущем шаге понятий, отношений, таблиц, перечней и представления их в виде базы знаний.

Из трех описанных выше способов формального пред­ ставления знаний выберем в качестве основного метод ло­ гических правил вывода. Принципы построения базы зна­ ний в таком виде детально рассмотрены выше. Все множе­ ство таких правил представим в виде четырех следующих друг за другом групп (рис. 4.13).

Правила морфологического анализа слов английского пред­ ложения сводятся к тому, что каждое слово предложения 284 Основы искусственного интеллекта для лингвистов сравнивается с английскими словами англо-русского сло­ варя. При совпадении слово предложения заменяется сло­ вом словаря вместе с относящейся к нему информацией. Тем самым слову предложения приписываются определенные морфологические признаки. Такие же правила применяются и к другим словам введенного английского предложения.

П равила морфологического анализа слов английского предложения_ в П равила синтаксического анализа английского предложения /сегментации поелложения на (Ьопмальные гоуппы!

с П равила синтаксического синтеза русского предложения (поиска русских переводных эквивалентов английских слов и их подстановки в оусское поедпожение') D П равила морфологического синтеза слов русского поелложения Рис. 4.13. Последовательные группы правил для создания учебной системы машинного перевода предложений с английского языка на русский В свою очередь, синтаксический анализ английского пред­ ложения будет проводиться методом деления всего предло­ ж ения на формальные группы. При такой сегментации ком ­ пьютер опирается на два списка служебных слов-раздели­ телей1 и признаки принадлежности слов предложения к определенным частям речи. К словам-разделителям отно­ сятся ALSO, SEPARATELY, OR, THAT, A N D, THEY, IT, IS, ARE, FROM, TO, A, TH E, FOR, ON, IN. В результате выделяются все формальные группы очередного предложе­ ния английского текста. П ри этом указываются и начала этих групп (номера слов предложения). Так, для первого предложения переводного текста нулевая формальная груп­ 1 Так как создаваемая программа МП является учебной, то списки раз­ делителей невелики. В больших системах машинного перевода такие списки могут включать сотни единиц.

Глава 4. Система машинного перевода текста па предложения начинается с нулевого слова предложения, 1-я группа - с 3-го слова и т.д. В итоге это предложение оказалось разделенным на следующие формальные группы:

Номер английской Английская формальная группа формальной группы 0 INTEGRATED CIRCUITS, 1 ALSO 2 CALLED 3 CHIPS, 4 ARE NOW MANUFACTURED 5 SEPARATELY 6 FROM COMPUTERS.

В процессе синтеза русского предложения (группа правил С) компьютер выделяет из информации для каждого слова английского предложения три последних или предпослед­ них знака, содержащих адрес, по которому переводные эк­ виваленты располагаются в русской части АС. Последние «выстраиваются» друг за другом в некоторой области памя­ ти в соответствии с порядком располож ения английских формальных групп:

Английские Русские формальные группы формальные группы INTEGRATED ИНТЕГРАЛЬН*СХЕМ* А_ 0 0 1N_2 CIRCUITS ALSO ТАКЖЕ/С CALLED HA3bIBAEM*R CHIPS MHKPOCXEM*N_2 ARE NOW ТЕПЕРЬ/ИЗГОТАВЛИВА*СЯ/ D _ 000V_ MANUFACTURED SEPARATELY О ТДЕЛЬН О /D _ FROM COMPUTERS O T/KOM nbK)TEP*G2 0 0 0 N J _ В процессе выбора переводных эквивалентов компьютер анализирует, к какой части речи в конкретном предложе­ нии относится каждое слово, и в зависимости от этого бе­ рет тот или иной русский переводной эквивалент. Для от­ дельных английских слов, относящихся к одной части речи, 286 Основы искусственного интеллекта для лингвистов но имеющих несколько переводных эквивалентов, компью­ тер также по контексту определяет, какой переводной эк­ вивалент из двух, имеющихся в словаре, надо взять (напри­ мер, для предлога FROM ).

Правша морфологического синтеза слов русского предло­ жения сводятся к морфологическому оформлению маш ин­ ными окончаниями основ русских слов, входящих в каж­ дую русскую формальную группу. Для этого в общем случае необходимо знать, каким членом предложения является каждая ф ормальная группа. Для уже приведенного 1-го предложения текста компьютер делает вывод, что, учиты­ вая достаточно строгий порядок слов в английском предло­ жении, выражение INTEG RA TED CIRCUITS может быть подлежащим. Значит, его переводной эквивалент будет под­ лежащим и в русском предложении.

Чтобы оформить морфологически слова, входящие в со­ четание И Н Т Е Г Р А Л Ь Н * А 001 СХ ЕМ * N _ 2 _ необходимо знать, в каком числе слово СХЕМ* употребле­ но в предложении. Компьютер обращается к английскому слову CIRCUITS и по относящейся к нему информации оп­ ределяет, что в предложении оно употреблено во множе­ ственном числе. Этот признак добавляется к информации квазиосновы СХЕМ*: CXEM *N22 004. Ранее было ре­ ш ено, что группа И Н ТЕГРА ЛЬН * СХЕМ* - это подлежа­ щее. Значит, квазиоснова СХЕМ* должна получить им е­ нительный падеж: СХЕМ * N221_ 004. В таблице типов _ формообразования имен существительных в строке 004 ком­ пьютер находит машинное окончание множественного чис­ ла именительного падежа Ы (табл. 4.1). Оно и подсоединя­ ется к основе СХЕМ.

Чтобы найти машинное окончание для квазиосновы име­ ни прилагательного ИНТЕГРАЛЬН*, компьютер отбирает у квазиосновы имени существительного СХЕМ* признаки рода, числа, падежа и добавляет их к информации для име­ Глава 4. Система машинного перевода текста ни прилагательного: ИНТЕГРАЛЬН*А221 001. После это­ го по таблице типов формообразования имен прилагатель­ ных (см. табл. 4.3) в строке 001 компьютер найдет нужное окончание множественного числа именительного падежа ЫЕ. Его он и подсоединит к основе ИНТЕГРАЛЬН. В ито­ ге первая русская формальная группа выглядит следующим образом: ИН ТЕГРА Л ЬН Ы Е СХЕМЫ.

По аналогичным правилам осуществляется морфологи­ ческий синтез слов всех остальных формальных групп рус­ ского предложения.

4.2.4. Этап реализации системы машинного перевода Данный этап заключается в преобразовании формализо­ ванных логических правил вывода в работающую компью­ терную программу. Такая программа была написана на ал­ горитмическом языке QBASIC [137, с. 101-108]. Используя приведенные выше правила, компьютер получил следующий перевод исходного текста:

И Н Т Е Г Р А Л Ь Н Ы Е С Х Е М Ы, Т А К Ж Е Н А ЗЫ В А Е М Ы Е М И К Р О ­ С Х Е М А М И, Т Е П Е Р Ь И ЗГ О Т А В Л И В А Ю Т С Я О Т Д Е Л Ь Н О О Т КО М П ЬЮ ТЕРОВ. О Н И ОБЕСП ЕЧИ ВА Ю Т С ТРО И ТЕЛ ЬН Ы ­ М И Б Л О К А М И П Р О Ц Е С С С О ЗД А Н И Я К О М П Ь Ю Т Е Р А. Н А И ­ БОЛЕЕ ВАЖ НОЕ И З ЭТИХ К О М П ЬЮ ТЕРН Ы Х К О М П О Н ЕН ­ Т О В - Ц Е Н Т Р А Л Ь Н О Е О Б Р А Б А Т Ы В А Ю Щ Е Е У С Т РО Й С Т В О (Ц П Д Л Я К Р А Т К О С Т И ) И Л И М И К Р О П Р О Ц Е С С О Р. Э Т О ЧАСТЬ КОМ ПЬЮ ТЕРА, ЧТО ВЫ ПО ЛН ЯЕТ КОМ АНДЫ П РО ­ ГРАМ М Ы. М И К РО П РО Ц Е С С О Р - М А Л ЕН ЬК О Е У С ТРО Й ­ СТ В О, С О Д Е Р Ж А Щ Е Е С Я Н А П О Л У П Р О В О Д Н И К О В О Й М И К ­ РО С Х Е М Е. М И К Р О П Р О Ц Е С С О Р Ы И С П О Л Ь ЗУ Ю Т С Я В М И ­ Н И К О М П Ь Ю Т Е Р А Х, И КА Ж ДА Я И З Э Т И Х И Н Т Е Г Р А Л Ь Н Ы Х С Х Е М С П О С О Б Н А К О Б Р А Б О Т К Е 8-Б И Т О В Ы Х И Л И 16-Б И ­ ТОВЫ Х ДАННЫ Х.

288 Основы искусственного интеллекта для лингвистов 4.3. Способы применения компьютеров для перевода текстов Для полностью автоматического перевода текстов с од­ ного языка на другой создана серия программ. Наиболее из­ вестны: STYLUS, SOCRAT, RETRANS, ERTRANS, PARS, M U L T IS, S IL O D, А С П Е Р А, PRO M T, M A G IC TRANSLATOR, TRANSLATE NOW! [40;

36;

369;

26;

28;

29].

Однако результаты применения программ полностью ав­ томатического перевода требуют определенной, иногда боль­ шой работы постредакторов [224;

369;

416;

26;

29;

34]. Вари­ антом полностью автоматического перевода текстов являет­ ся онлайновый перевод (перевод в глобальной сети Интернет).

Онлайновый перевод осуществляется путем вызова програм­ мы перевода непосредственно из сети Интернет, т.е. такую программу не нужно устанавливать на компьютере пользова­ теля. Пример таких программ - программа Instant Messenger Translator. Созданы онлайновые версии программ перевода SOCRAT, PROMT, SYSTRAN, RETRANS, ERTRANS и др.

[25]. Существует целый ряд современных идей по созданию принципиально новых систем машинного перевода текстов [152;

25;

169;

14].

ЗАКЛЮЧЕНИЕ Предлагаемое учебное пособие написано с целью озна­ комления студентов-лингвистов с принципами использова­ ния естественного языка при построении сложных компью­ терных систем: экспертных систем, систем порождения про­ заических (сказок) и стихотворных текстов, систем машин­ ного перевода. Авторы предприняли попытку показать роль языка в создании систем искусственного интеллекта, моде­ лирующих отдельные функции человека и помогающих ему в решении многих жизненно необходимых задач.

В то же время результаты работы описанных в пособии естественно-языковых систем показывают, что они еще до­ статочно далеки от процедур реального общения людей меж­ ду собой и от реальных текстов, создаваемых человеком.

Объяснение этому содержится в большом числе серьезных исследований по искусственному интеллекту [1;

9;

13;

39;

46;

51;

56;

78;

88;

119;

177;

181;

183;

188;

197;

278;

288;

292;

332;

378;

406;

430;

431;

435;

453].

Если говорить о задачах, которые стоят перед лингвиста­ ми в деле совершенствования работы систем искусственно­ го интеллекта, хотелось бы отметить следующее. Знания че­ ловека складываются не из конкретных фактов и правил их использования, а из его опыта, интуиции и умения эффек­ тивно пользоваться всем этим в зависимости от своих це­ лей. Все эти знания по сути невербальны. Значит, одна из задач лингвистов заключается в поиске способов представ­ ления опыта и интуиции языковыми средствами. Знания человека не есть простое множество фактов и правил их ис­ пользования. В памяти человека смысловое содержание лю 10 О сно вы и с к у с с т в е н н о го интеллекта для л и н гв и сто в 290 Основы искусственного интеллекта для лингвистов бого понятия может быть выражено только через все осталь­ ные, входящие в его знания понятия. Поэтому должны быть найдены более сильные способы представления знаний, чем фреймы и семантические сети.

Поскольку полное понимание вопроса, предложения, фразы, текста вне достаточно широкого контекста невозмож­ но даже человеком, «компьютерное понимание» должно рас­ сматриваться как понимание, ограниченное некоторой це­ лью («понять, чтобы ответить на вопрос»;

«понять, чтобы провести синтаксический анализ предложения»;



Pages:     | 1 |   ...   | 4 | 5 || 7 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.