авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:   || 2 | 3 | 4 |
-- [ Страница 1 ] --

Речевые

технологии

1/2009

Главный редактор Александр

Харламов

Состав редколлегии:

Потапова Р.К., доктор филологических наук, профессор,

заместитель главного редактора

Аграновский А.В., доктор технических наук, профессор

Женило В.Р., доктор технических наук

Жигулёвцев Ю.Н., кандидат технических наук

Кривнова О.Ф., доктор филологических наук Кушнир А.М., кандидат психологических наук Лобанов Б.М., доктор технических наук (Беларусь) Максимов Е.М., доктор технических наук Малеев О.Г., кандидат технических наук Михайлов В.Г., доктор филологических наук Нариньяни А.С., кандидат физико математических наук Петровский А.А., доктор технических наук (Беларусь) Хитров М.В., кандидат технических наук Чучупал В.Я., кандидат физико математических наук Шелепов В.Ю., доктор физико математических наук (Украина) Кушнир Д.А., ответственный секретарь, кандидат технических наук Содержание КОМПЬЮТЕРНЫЕ РЕЧЕВЫЕ ТЕХНОЛОГИИ В.Н.Сорокин, А.С.Леонов, И.С.Макаров Устойчивость оценок формантных частот.................................. Просодия С.Б. Жемерова, Санкт-Петербургский государственный университет Темпоральные характеристики интонации речи дикторов телевидения......... КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ В ОБУЧЕНИИ Г.Е. Кедрова, В.В. Потапов, А.М. Егоров, Е.Б. Омельянова, М.В. Волкова 3. Компьютерные сетевые технологии в обучении лингвистическим дисциплинам (инновационные учебно-научные Интернет-порталы по русской фонетике)..... В.В. Люблинская, Е.А. Огородникова, И.В. Королёва, С.П. Пак, М.В. Рыбаков Опыт использования компьютера при исследовании и тренировке слухо-речевого восприятия у пациентов после кохлеарной имплантации..................... Содержание ИНФОРМАЦИОННЫЕ РЕСУРСЫ Ю.А. Загорулько, Е.Г. Соколова, И.С. Кононенко, Г.Б. Загорулько, О.И.Боровикова Обеспечение содержательного доступа к информационным ресурсам по компьютерной лингвистике......................................... Обзор Е.В. Шаульский Вопросы речевых технологий на ХVІ Международном конгрессе фонетических наук (2007 г.)........................................... Опрос О.Ф. Кривнова Анкета на тему: нужна ли специализация «Речевые технологии»

в российском вузе?................................................... КОНФЕРЕНЦИЯ КОМПЬЮТЕРНЫЕ РЕЧЕВЫЕ ТЕХНОЛОГИИ В.В. Пилипенко Распознавание ключевых слов в потоке речи при помощи фонетического стенографа......................................................... И. А. Архипов, В. Б. Гитлин, Д. А. Лузин Адаптивный алгоритм принятия решения «ТОН-НЕ ТОН», синхронный с основным тоном......................................... М.О. Пономарь О допустимых пределах искажений электроакустических речевых сигналов при скрытом встраивании данных....................................... А.Л. Воскресенский, Г.К. Хахалин От звучащей речи — к жестовой........................................ Редакция:

Редактор — Артём Ганькин Корректор — Татьяна Денисьева Дизайн — Анна Ладанюк Вёрстка — Сергей Бурукин Адрес редакции: 109341, Москва, ул. Люблинская, д. 157, корп. 2.

Тел.: 8 (495) 979 54 Подписано в печать 24.09.2009. Формат 60 9018. Бумага офсетная. Печать офсетная.

Печ. л. 6. Заказ № 1002. Издательский дом «Народное образование».

Отпечатано в типографии НИИ школьных технологий. 143500, г. Истра 2, ул. Заводская, д. 2А.

Тел.: 8 (901) 513 97 64, (495) 792 59 62.

2 © «Народное образование»

РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ Устойчивость оценок формантных частот В.Н. Сорокин доктор физико-математических наук А.С. Леонов, доктор физико-математических наук И.С. Макаров Выполнен сравнительный анализ точности и устойчивости мгновенных оценок формантных частот в речевом сегменте методом нулей сигнала и различными модификациями метода линейного предсказания для синтезированных звуков и сигналов, параллельно записанных с микрофонов разного типа. Все использованные методы линейного предсказания показали существенно больший разброс оценок, чем метод нулей сигнала.

Установлено, что стабилизация мгновенных оценок формантных частот достигается путём использования информации о характерных акустических характеристиках гласноподобных звуков в конкретном языке. Устойчивость определения формантных треков обеспечивается путём их аппроксимации кусочно-линейными функциями.

Введение Для решения обратной задачи нахождения формы речевого тракта по сегменту речи нужно оценить резонансные частоты тракта, используя речевой сигнал. Он, одна ко, определяется не только резонансами речевого тракта, но и резонансами под связочной области — трахеи, бронхов и лёгких. Кроме того, в нём присутствуют резонансы носовой полости, причём не только для назальных согласных, но и для назализованных гласных. Поэтому выбор резонансных частот, принадлежащих только речевому тракту выше голосовой щели, представляет собой трудную зада чу. Более того, оценка формантных частот тракта по сигналу есть некорректно поставленная задача, что может выражаться в неоднозначности решения (при наличии близких резонансов) и его неустойчивости по отношению к погрешностям измерений. Последние связаны с искажениями сигнала каналом регистрации, реверберацией помещения, нестабильностью частоты основного тона и другими факторами. Амплитудные и частотные модуляции формант усугубляют неодно значность оценок их частоты.

РЕЧЕВЫЕ ТЕХНОЛОГИИ/SPEECH TECHNOLOGY 1/ В.Н.Сорокин, И.С.Макаров, А.С.Леонов Устойчивость оценок формантных частот Оценки формантных частот выполняют как в частотной, так и во временной области. Один из самых распространённых подходов основан на методах линейного предсказания, которые предназначены для описания сигнала во временной области. В целом, эти методы могут давать удовлетвори тельные оценки формант. Однако многолетние исследования такого под хода показали, что любые модификации методов линейного предсказания неустойчивы относительно аддитивных шумов, особенно при оценке низко частотных формант. Даже при относительно хороших условиях измерений погрешность оценки формант методами линейного предсказания, как пра вило, не ниже 10% и к тому же зависит от частоты основного тона [1].

Метод нулей сигнала для оценки формантных частот [5, 6] основан на анализе распределения длительностей интервалов между нулями сигнала. Идеи, лежащие в основе метода, использованы ещё в первых работах по иссле дованию проблемы автоматического распознавания речи. В своих первых реализациях (на аналоговых устройствах) метод обычно применялся к так называемому клиппированному сигналу. Последний получался путём использования очень большого коэффициента усиления с последующим ограничением амплитуды. В результате преобразованный речевой сигнал представлялся в виде последовательности прямоугольных импульсов с фиксированной амплитудой [2]. Это было удобно для обработки сигнала аналоговой аппаратурой. Но оказалось, что клиппированный сигнал имеет низкую помехоустойчивость, и в результате метод оценки формант с помо щью выделения нулей сигнала был на какое-то время забыт.

Развитие цифровой техники привело к возрождению интереса к методу нулей сигнала. В своём новом варианте [5,6] метод оказался более помехоустойчи вым, чем методы линейного предсказания и спектрального анализа. Кроме того, метод нулей позволяет обнаружить тонкую структуру динамики фор мант [5,6]. В работах [3,4] показано, что один из вариантов метода нулей, рассмотренный там под названием «zero-crossing», превосходит известные методы линейного предсказания для низких формант вплоть до SNR=0 dB.

1. Алгоритм метода нулей сигнала Особенность метода нулей заключается в игнорировании формы колебаний. При этом, конечно, теряется часть информации. Поэтому при низком уровне шумов такие методы, как автокорреляционный или линейное предсказание, могут иметь преимущество. Однако форма колебаний искажается по мере роста уровня шумов, и это преимущество превращается в недостаток.

В большинстве методов оценки формант применяется предварительная обра ботка сигнала с помощью набора пересекающихся полосовых фильтров.

Тип фильтров, их полоса и степень перекрытия влияют на качество после дующего анализа и итоговых оценок резонансных частот. Использование фильтров в полосах, примерно соответствующих диапазонам положения формант, способствует повышению точности и устойчивости оценок. После подобной предварительной обработки иногда применяется адаптивный фильтр для уточнения положения формант формантных частот [7]. Анализ нулей сигнала предполагает, что в данной частотной полосе присутствуют 4 колебания только одной форманты. Это связано с известным свойством, РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ В.Н.Сорокин, И.С.Макаров, А.С.Леонов Устойчивость оценок формантных частот согласно которому при наличии нескольких частот средняя частота переходов опреде ляется как средневзвешенная по амплитудам каждой частоты. Именно поэтому в мето де нулей сигнала особенно важен выбор полос частот для анализа.

В данной работе рассматриваются три метода предварительной фильтрации сигнала в частотных диапазонах, где ожидается присутствие только одной форманты.

В первом методе частотные полосы фильтров устанавливаются следующим образом. Первая форманта любого звука анализируется в двух фильтрах с полосами 130 Гц — 400 Гц (фильтр Ф11) и 300 Гц — 800 Гц (фильтр Ф12). Второй форманте соответствуют три филь тра: 700 Гц — 1600 Гц (фильтр Ф21), 1000 Гц — 2000 Гц (фильтр Ф22) и 1400 Гц — 2400 Гц (фильтр Ф23). Наконец, третья форманта ожидается в одном из двух фильтров с поло сами 1700 Гц — 2500 Гц (фильтр Ф31) и 2300 Гц — 3500 Гц (фильтр Ф32). Эти фильтры перекрываются, в результате чего в один фильтр могут попасть колебания, отвечающие двум формантам.

Второй метод использует распределения формант для каждого гласного русского языка в предположении, что тип гласного и пол диктора известны. Диапазоны формантных частот для некоторых русских гласных даны в таблицах 1, 2.

Таблица Диапазоны формантных частот гласных русского языка для мужских голосов F1 F2 F Гласный Гц Гц Гц А 450–850 950–1500 1900– Э 320–530 1450–2250 2000– О 300–750 600–1400 1800– И 200–550 1650–2750 2250– Ы 210–500 1650–2600 2150– Е* 250–570 1450–2550 2150– Я* 330–750 1350–2200 2000– * В позиции между мягкими согласными.

Таблица Диапазоны формантных частот гласных русского языка для женских голосов F1 F2 F Гласный Гц Гц Гц А 550–1000 1100–1650 1950– Э 350–600 1800–2600 2350– О 320–850 600–1550 1800– И 220–620 1850–3100 2550– Ы 250–580 1900–2950 2300– Е* 300–650 2000–2950 2650– Я* 400–900 1800–2650 2300– * В позиции между мягкими согласными.

РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ В.Н.Сорокин, И.С.Макаров, А.С.Леонов Устойчивость оценок формантных частот Третий метод использует параллельный анализ сигнала в полосах, характерных для всех гласных русского языка, в случае когда тип гласного неизвестен или наблюдается переход от одного гласного к другому. Окончательный выбор оценок формантных частот выполняется по критерию, включающему вероят ность попадания в трёхмерный вектор формантных частот и суммарную энер гию сигнала на этих частотах. Если неизвестен и пол диктора, то сигнал ана лизируется в частотных полосах, установленных и для мужчин, и для женщин.

При этом может использоваться информация, найденная из анализа формы голосового источника. Как показано в [8], вероятность правильного опреде ления пола диктора составляет около 90%. С теоретической точки зрения, частоты резонансов речевого тракта могут изменяться на периоде основно го тона вследствие изменения граничных условий при переходе от открытой голосовой щели к закрытой. Кроме того, частоты формант в речевом сигна ле подвержены влиянию голосового источника. Поэтому оценку формантных частот целесообразно выполнять на интервале закрытой голосовой щели.

В данной работе этот интервал определяется как область, примерно рав ная 30% от периода основного тона, смещённая на 1 мс относительно пиков огибающей по Гильберту в каждой частотной полосе. Эти пики соответству ют всплеску энергии колебаний резонанса после смыкания голосовой щели.

Во всех методах после фильтрации исходного сигнала с помощью каждого из используемых фильтров определяется среднее значение разности времени между нулями отфильтрованного сигнала на интервале закрытой голосо вой щели. Это значение принимается как оценка полупериода формантно го колебания из рассматриваемого частотного диапазона. Если оказыва ется, что нулей меньше двух, то оценка не производится. Затем находится среднее значение формантной частоты для нескольких периодов основного тона, формируется узкополосный фильтр с центральной частотой, равной этой средней частоте, и после новой фильтрации исходного сигнала уточ няются оценки частот колебаний на данном интервале времени.

На этом же интервале времени вычисляется среднее значение энергии колеба ний, и в качестве предварительной оценки частоты форманты выбирается оценка из того фильтра, где энергия наибольшая. При этом отсеиваются оценки, выходящие за пределы диапазона, а среди конкурирующих оценок выбирается та, которая ближе к среднему значению диапазона.

2. Сравнительное тестирование методов формантного анализа Ниже приводятся результаты сравнения оценок формант методами типа линей ного предсказания и методом нулей сигнала. Изучалась точность и устой чивость методов по отношению к аддитивным помехам, типу микрофона и реверберации помещения, а также устойчивость оценки формантных частот в естественной речи.

2.1. Устойчивость относительно аддитивного белого шума Погрешность определения формантных частот обычно оценивается в экспери 6 ментах с синтезированными звуками, поскольку нет другого способа полу РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ В.Н.Сорокин, И.С.Макаров, А.С.Леонов Устойчивость оценок формантных частот чить сигнал с известными параметрами. Однако этому методу присущи недостатки, которые не позволяют безоговорочно опираться на результаты такого тестирования.

Синтетический сигнал — это суперпозиция колебаний нескольких осцилляторов с соб ственными частотами, близкими к реальным формантным частотам, под воздействием источника возбуждения, который по своим характеристикам близок к реальному голо совому источнику. Возбуждаемые этим источником парциальные колебания отличают ся от собственных колебаний осцилляторов даже на временных участках, соответству ющих закрытой голосовой щели. Это отличие вносит ошибку в оценки собственных частот.

Сигнал, синтезированный с помощью суммирования экспоненциально затухающих колеба ний, должен был бы наилучшим образом соответствовать анализу методом линейного предсказания, где используется модель, состоящая из набора полюсов. Поэтому этот метод имеет преимущество перед методами, не опирающимися на такую модель. Тем не менее, в присутствии помех даже для синтезированных сигналов метод линейного предсказания не всегда оказывается наилучшим.

Эксперименты по сравнительной оценке точности и устойчивости методов анали за частотного состава синтетических гласных /А, И, У/ проводились при нали чии помех типа белого шума разного уровня с гауссовым распределением. Для каждого уровня шумов проводилось по 100 испытаний. Использовались разные варианты линейного предсказания: автокорреляционный, ковариационный, метод усечённого сингулярного разложения матриц, метод регуляризации по Тихонову и метод DAP, разработанный в [9] специально для повышения точности анализа женских голосов.

Оценки формантных частот, полученные с помощью линейного предсказания в кратко временном окне анализа, подвергались сортировке. Из множества исходных оценок удалялись действительные полюсы, а также комплексно-сопряжённые полюсы, частота которых ниже некоторого порога (например, 200 Гц). Кроме того, удалялись полюсы, ширина которых превышает некоторый порог (например, 500 Гц).

Результаты анализа этими методами и разработанным нами методом нулей сигнала показа ны в таблицах 3, 4 и 5.

Таблица Относительные ошибки (в %) вычисления формантных частот при отношении сигнал/шум SNR = 20 dB Autocorrelation LPC Covariance LPC DAP Метод нулей dF1 dF2 dF3 dF1 dF2 dF3 dF1 dF2 dF3 dF1 dF2 dF A -0.8 -0.2 -0.6 -0.3 -0.3 -0.4 -0.1 -0.1 -0.7 -3.6 -1.2 2. I 5.8 -1.1 0.3 4.3 -1.8 0.3 2.5 -1.1 0.1 -5.7 -2.8 -0. U 11.5 7.2 -5.9 11.1 6.7 -6.0 6.4 5.6 -6.0 -11.1 2.7 2. РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ В.Н.Сорокин, И.С.Макаров, А.С.Леонов Устойчивость оценок формантных частот Таблица Относительные ошибки (в %) вычисления формантных частот при отношении сигнал/шум SNR = 15 dB Autocorrelation LPC Covariance LPC DAP Метод нулей dF1 dF2 dF3 dF1 dF2 dF3 dF1 dF2 dF3 dF1 dF2 dF A -1.7 -0.5 -0.5 -0.9 -0.6 -0.6 -0.2 -0.4 -0.4 -3.7 -2.2 3. I 7.5 0.7 0.6 6.2 0.9 0.6 3.7 0.4 0.4 -5.8 -7.4 -0. U 26.9 17.7 -5.9 26.8 17.6 -5.8 18.5 13.0 -6.1 -10.9 6.0 2. Таблица Относительные ошибки (в %) вычисления формантных частот при отношении сигнал/шум SN = 10 dB Autocorrelation LPC Covariance LPC DAP Метод нулей dF1 dF2 dF3 dF1 dF2 dF3 dF1 dF2 dF3 dF1 dF2 dF A -1.6 -0.0 -1.6 -0.6 -0.0 -0.6 -2.0 -0.2 -0.1 -3.9 -1.7 4. I 11.2 0.9 0.8 10.2 1.0 0.8 6.2 0.7 0.7 -5.6 -13.3 3. U 36.2 35.0 -3.0 36.0 35.0 -3.1 31.1 28.3 -3.0 -11.1 15.8 4. Таблицы подтверждают установленное другими исследователями свойство неу стойчивости к шумам оценок формант методами линейного предсказания, особенно заметное при оценке низких частот. Оценка методом нулей сиг нала несколько уступает по точности методам линейного предсказания при низком уровне шума, но оказывается значительно устойчивее при высоком уровне шума. Этот же вывод действителен и для других испытанных нами методов линейного предсказания, не показанных в таблицах 3–5.

2.2. Устойчивость относительно типа микрофона Сравнение точности и устойчивости методов определения формантных частот с использованием только синтетических звуков не гарантирует полной объ ективности. Именно поэтому мы провели сравнение результатов оценки формант одного и того же речевого сигнала, записанного одновременно разными приемниками звука. Разница в вычисленных формантах харак теризует устойчивость метода относительно искажений амплитудно частотной характеристики канала связи.

Эксперименты по сравнению устойчивости методов относительно типа микро фона выполнялись на речевых сигналах, отобранных из базы данных для русских числительных. В первой группе дикторов речевые сигналы записы вались параллельно через телефонную трубку в стандартном положении и в направленный микрофон, укреплённый вертикально на груди диктора. Во второй группе дикторов использовалась телефонная трубка другого типа 8 и кардиоидный микрофон на груди диктора. В третьей группе дикторов РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ В.Н.Сорокин, И.С.Макаров, А.С.Леонов Устойчивость оценок формантных частот речевой сигнал записывался через микрофон на головной гарнитуре и кардиоидный микрофон, установленный на мониторе компьютера на расстоянии примерно 50–70 см от диктора. Для экспериментов были случайно отобраны по одному мужчине и одной женщине из каждой группы. Из речевых сегментов каждого числительного были выре заны стационарные участки ударных гласных, которые и подвергались анализу.

Результаты сравнения для метода нулей сигнала и метода DAP приведены в таблицах 6–9.

Таблица Расхождение оценок формантных частот (%). Метод нулей сигнала. Мужчины Первая группа Вторая группа Третья группа Гласный dF1 dF2 dF3 dF1 dF2 dF3 dF1 dF2 dF 0. нОль 0.0760 0.0578 0.0972 0.0324 0.0216 0.0975 0.0449 0. 0. одИн 0.0468 0.0221 0.0918 0.0069 0.0081 0.0783 0.0283 0. 0.1015 0. двА 0.0096 0.0037 0.0246 0.0295 0.0321 0.0062 0. 0.1312 0. трИ 0.0644 0.0488 0.0479 0.0548 0.0632 0.0003 0. 0.2160 0.1071 0. четЫре 0.0571 0.0386 0.0595 0.0723 0.0645 0. 0. пЯть 0.0091 0.0228 0.0912 0.0272 0.0136 0.0083 0.0011 0. 0.1058 0. шЭсть 0.0015 0.0120 0.0568 0.0665 0.0430 0.0150 0. 0. сЕмь 0.0060 0.0062 0.0826 0.0661 0.0158 0.0136 0.0174 0. 0.1325 0.2224 0. вОсемь 0.0182 0.0029 0.0888 0.0739 0.0372 0. 0.2536 0.1017 0.1060 0. дЕвять 0.0085 0.0043 0.0295 0.0435 0. 0. Среднее 0.0297 0.0447 0.0646 0.1099 0.0368 0.0809 0.0166 0. Среднее — 6.4% Средняя ошибка оценки формант по методу нулей сигнала для всех гласных у мужчин составляет: в первой группе — 4.6%, во второй группе — 7.6%, а в третьей группе — 6.6%. Количество рассогласований оценок с уровнем от 10% до 20% равно 14, а с уровнем от 20% до 30% равно 5.

Таблица Расхождение оценок формантных частот (%).

Метод линейного предсказания DAP с предыскажением. Мужчины Первая группа Вторая группа Третья группа Гласный dF1 dF2 dF3 dF1 dF2 dF3 dF1 dF2 dF 0. нОль 0.0603 0.0380 0.0116 0.0649 0.0011 0.0246 0.0718 0. 0.1633 0. одИн 0.0323 0.0608 0.0640 0.0206 0.0403 0.0170 0. 0. двА 0.0009 0.0641 0.0053 0.0166 0.0137 0.0482 0.0024 0. 0.1020 0.2095 0. трИ 0.0779 0.0085 0.0895 0.2298 0.0385 0. РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ В.Н.Сорокин, И.С.Макаров, А.С.Леонов Устойчивость оценок формантных частот 0. четЫре 0.0046 0.0302 0.0507 0.0646 0.0170 0.1122 0.0678 0. пЯть 0.0174 0.0224 0.0142 0.0395 0.0120 0.0131 0.0217 0.0080 0. 0.1184 0. шЭсть 0.0012 0.0014 0.0030 0.0175 0.0880 NaN 0. 0.1494 0.2221 0. сЕмь 0.0797 0.0023 0.0270 0.0308 0.0040 0. 0. вОсемь 0.0561 NaN 0.0003 0.0750 0.0269 0.0006 0.0703 0. 0.1598 0.1986 0.1032 0. дЕвять 0.0126 0.0051 0.0079 0.0166 0. 0.1246 0. Среднее 0.0514 0.0344 0.0542 0.0517 0.0275 0.0472 0. Среднее — 6.4% Средняя ошибка оценки формант методом линейного предсказания по всем гласным у мужчин составляет: в первой группе — 4.7%, во второй груп пе — 7.6%, а в третьей группе — 6.6%. Так же, как и в методе нулей сигна ла, количество рассогласований оценок с уровнем от 10% до 20% равно 14, а с уровнем от 20% до 30% равно 5. Без учёта грубых ошибок метода DAP средняя ошибка по всем измерениям в обоих методах одинакова. Однако имеются две грубые ошибки, когда оценка форманты по методу DAP выхо дит за ожидаемый диапазон значений формант.

Таблица Расхождение оценок формантных частот (%).

Метод нулей сигнала. Женщины Первая группа Вторая группа Третья группа Гласный dF1 dF2 dF3 dF1 dF2 dF3 dF1 dF2 dF 0.1785 0.1349 0. нОль 0.0148 0.0223 0.0654 0.0230 0.0236 0. 0. одИн 0.0061 0.0741 0.0691 0.0842 0.0719 0.0170 0.0196 0. 0.1023 0.1048 0.1003 0. двА 0.0224 0.0139 0.0112 0.0185 0. 0.1805 0. трИ 0.0865 0.0559 0.0440 0.0276 0.0026 0.0379 0. 0.1445 0. четЫре 0.0400 0.0222 0.0111 0.0057 0.1069 0.0089 0. 0. пЯть 0.0062 0.0033 0.0565 0.0304 0.0254 0.0253 0.0256 0. шЭсть 0.0712 0.0033 0.0152 0.0719 0.0058 0.0174 0.0246 0.0316 0. 0.1065 0. сЕмь 0.0592 0.0365 0.0849 0.0348 0.0238 0.0214 0. 0.1221 0.2079 0.1359 0. вОсемь 0.0298 0.0636 0.0662 0.0107 0. дЕвять 0.0128 0.0591 0.0389 0.0394 0.0217 0.0096 0.0446 0.0792 0. Среднее 0.0546 0.0494 0.0541 0.0648 0.0490 0.0639 0.0835 0.0503 0. Среднее — 5.7% У женщин средняя ошибка оценки формант по методу нулей сигнала (для всех гласных) составляет: в первой группе — 5.3%, во второй группе — 5.9%, а в третьей группе — 6.0%. Количество рассогласований оценок с уровнем 10 от 10% до 20% равно 18, а с уровнем от 20% до 30% равно 1.

РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ В.Н.Сорокин, И.С.Макаров, А.С.Леонов Устойчивость оценок формантных частот Таблица Расхождение оценок формантных частот (%).

Метод линейного предсказания DAP с предыскажением. Женщины Первая группа Вторая группа Третья группа Гласный dF1 dF2 dF3 dF1 dF2 dF3 dF1 dF2 dF 0.1704 0.2306 0.1547 0.2103 0.4365 0. нОль 0.0143 0.0304 0. 0.3084 0.1468 0. одИн 0.0066 0.0371 0.0940 0.0265 0.0548 0. 0. двА 0.0029 0.0219 0.0389 0.0090 0.0740 0.0089 0.0011 0. 0.4084 0.1343 0. трИ 0.0151 0.0032 0.0932 0.0134 0.0182 0. 0.2006 0. четЫре 0.0963 0.0277 0.0537 0.0959 0.0334 0.0629 0. 0.1451 0. пЯть 0.0251 0.0101 0.0232 0.0401 0.0978 0.0235 0. 0.1237 0. шЭсть 0.0096 0.0321 0.0326 0.2413 0.0155 0.0191 0. 0.1056 0. сЕмь 0.0253 0.0291 0.0094 0.0954 0.0784 0.0072 0. 0.1141 NaN NaN NaN 0.1155 0. вОсемь 0.0664 0.0622 0. 0.2611 0. дЕвять 0.0223 0.0752 0.0461 0.0160 0.0204 0.0766 0. 0.1859 0.1150 0.1192 0. Среднее 0.0404 0.0344 0.0663 0.0672 0. Среднее — 8.9% Средняя ошибка оценки формант методом линейного предсказания по всем гласным у жен щин составляет: в первой группе — 4.7%, во второй группе — 12.3%, а в третьей груп пе — 9.8%. Количество рассогласований оценок с уровнем от 10% до 20% равно 15, с уровнем от 20% до 30% равно 7. Имеется одна ошибка с уровнем от 30% до 40%, и две ошибки превышают 40%. Кроме того, имеются три грубые ошибки.

Анализ выполнялся первым методом, т.е. в усреднённых диапазонах частот для каждой форманты. Однако в силу того что тип гласного известен, окончательный отбор оценок формант производился с учётом характерного диапазона формантных частот и степе ни близости к характерному среднему значению каждой форманты гласного.

В таблицах использован термин среды МАТЛАБ–NAN (Not a Number). Он означает, что для одного из микрофонов не найдена оценка форманты в заданном диапазоне. В силу ограниченности тестового материала, разницу в долях процентов можно считать мало значимой, тогда как разница в процентах указывает на определённую тенденцию.

При сравнении данных из таблиц 8 и 9 видно, что число грубых ошибок метода DAP, вклю чая выход за диапазон частот и превышение ошибки в 30% равно 6. Средняя ошибка в методе DAP, специально разработанном для улучшения качества анализа женских голосов, в полтора раза больше, чем в методе нулей сигнала.

Первая и вторая группы отличаются, главным образом, вторым микрофоном, поскольку разницу между двумя типами телефонных трубок можно считать малой по сравнению с разницей между направленным и кардиоидным микрофонами. Разница в оценках формантных частот у мужчин составляет около 3% для обоих методов. Даже при огра ниченном речевом материале эта разница представляется значимой. У женщин эта РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ В.Н.Сорокин, И.С.Макаров, А.С.Леонов Устойчивость оценок формантных частот разница в методе нулей сигнала составляет всего 0.6%, тогда как в методе линейного предсказания она достигает почти 8%.

Итак, оба метода чувствительны к типу микрофона, причём у женщин разница между оценками формант по сигналам от направленного и ненаправленно го микрофонов особенно велика в методе линейного предсказания.

2.3. Устойчивость относительно реверберации Акустические характеристики помещения, в котором происходит запись речево го сигнала, влияют на амплитудно-частотные характеристики сигнала. Это было наглядно продемонстрировано в [10].

Данные таблиц 6–9 позволяют качественно оценить влияние реверберации поме щения на погрешность методов анализа. Первая и вторая группы тестов выполнялись на относительно близко расположенных микрофонах, тогда как в третьей группе тестов использовались и близко расположенный ко рту микрофон, и микрофон, удалённый на расстояние в несколько десятков сантиметров. При этом во второй и третьей группах тестов один из микро фонов был один и тот же — микрофон кардиоидного типа, расположенный либо на груди диктора, либо на мониторе.

Средние значения ошибок в методе нулей сигнала для близко расположенных микрофонов и удалённого микрофона оказались довольно близки: 6.1% и 6.6% — у мужчин, и 5.6% и 6.0% — у женщин, так что ошибки отлича ются на величину около 0.5%. Для метода линейного предсказания эта разница оказалась больше: 5.7% и 7.5% — у мужчин, и 8.5% и 9.8% — у женщин. В этом случае различие оценок для близких и удалённых микро фонов составила 1.8% и 1.3%. Из этого можно заключить, что ревербера ция помещения больше сказывается на анализе методом линейного пред сказания, чем на анализе методом нулей сигнала.

2.4. Устойчивость анализа натуральных звуков Число полюсов в амплитудно-частотной характеристике речевого сигнала, оце ниваемое методом линейного предсказания, связано с частотой дискрети зации сигнала. Поэтому в диапазоне частот, характерных для какого-либо звука речи, может оказаться либо избыточное, либо недостаточное количе ство полюсов. Это вполне закономерно, поскольку метод линейного пред сказания изначально предназначен для аппроксимации сигнала, а не для анализа резонансных частот речевого тракта. Поскольку коэффициенты линейного предсказания вычисляются в процедуре, которая минимизирует ошибку аппроксимации спектра, то количество найденных полюсов и их расположение, вообще говоря, произвольны. И хотя в большинстве случа ев вычисленные полюса достаточно близки к резонансам речевого тракта, имеется достаточно много ситуаций, в которых появляются грубые ошибки в оценке формантных частот.

Устойчивость оценок формантных частот методом нулей сигнала зависит от 12 параметров полосовых фильтров и от точности определения интервала РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ В.Н.Сорокин, И.С.Макаров, А.С.Леонов Устойчивость оценок формантных частот сомкнутых голосовых складок. Как следствие, метод нулей сигнала может нена дёжно определять формантные частоты при сближении формант или на переходных процессах.

Если заранее известно, какой тип гласного соответствует рассматриваемому сегменту речи, как это может иметь место при верификации диктора, то целесообразно использовать фильтры, настроенные на конкретный гласный уже на первом этапе анализа. В этом случае метод нулей сигнала демонстрирует наиболее устойчивые оценки формантных частот. Так, в описанных выше экспериментах по сравнению устойчивости оценок для сигналов, записанных параллельно с микрофонов разных типов, средняя ошибка в методе нулей сигнала для мужчин составила около 4%, а для женщин — около 3%, т.е.

в 1.5–2 раза меньше, чем при анализе с помощью фильтров, настроенных на усред нённые диапазоны формант. Это сопоставимо с погрешностью оценок, возникающей из-за дискретизации сигнала по времени.

Если дополнительная информация об ожидаемом типе гласного или переходном процессе отсутствует, то ни один из известных методов анализа формантных частот, включая и разработанный нами метод нулей сигнала, не застрахован от грубых ошибок. Поэтому кажется естественным применить параллельный формантный анализ разными метода ми. Если бы удалось совместить сильные стороны каждого метода и избежать их недо статков путём формирования критерия выбора оценок, то можно было бы надеяться на получение более точных и устойчивых оценок формантных частот.

Один из вариантов подобного параллельного анализа состоит в использовании метода линейного предсказания для предварительной оценки формантных частот в относи тельно широких диапазонах возможного положения каждой форманты. Эти оценки используются затем для формирования адаптивных фильтров, выходные сигналы кото рых анализируются методом нулей сигнала. Недостаток такого подхода состоит в риске грубых ошибок линейного предсказания.

Поиск критерия выбора правильного решения при параллельном использовании разных методов формантного анализа требует специального исследования. В качестве альтер нативы такому подходу в данной работе применялся только метод пересечений через нуль, но параллельная оценка выполнялась для всего множества фильтров, соответ ствующих диапазонам формантных частот каждого гласного.

3. Динамика формантных частот Известно, что мгновенные оценки формантных частот любым методом ненадёжны.

Графически это выглядит как разброс точек на формантных треках (см., например, рис. 4). При этом иногда (например, в случае близких формант) трудно определить, какому треку принадлежит какая точка. Поэтому, получив формантные треки на интер валах времени определённой длительности, обычно выполняют коррекцию ошибок кратковременного анализа путём интерполяции треков.

Многие алгоритмы коррекции формантных треков используют предположение об их непре рывности или гладкости, основанное на непрерывности артикуляторных движений.

Например, в классическом алгоритме [11] сначала находятся квазистационарные согла сованные сегменты речевого сигнала (так называемые опорные точки), на которых оценки формантных частот наиболее надёжны. Затем алгоритм последовательно про РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ В.Н.Сорокин, И.С.Макаров, А.С.Леонов Устойчивость оценок формантных частот должает формантные треки между соседними опорными точками, выбирая при переходе от предыдущего к последующему формантному вектору из множества кандидатов тот, который наиболее близок (в евклидовой метри ке) к уже оценённому на предыдущем сегменте. В работе [12] построение формантных треков по оценкам линейного предсказания осуществляется с помощью дискретных марковских моделей. В работах [13, 14] искомые векторы формантных частот выбираются из множества кандидатов с помо щью процедуры динамического программирования. При этом используется некоторый составной критерий отбора, который включает в себя невяз ку соседних по времени векторов формантных частот, условие миниму ма формантных ширин и близость формант к формантным частотам ней трального гласного.

Однако на участках переходных процессов в речевом сигнале нередко наблю дается нарушение непрерывности формантных треков. Это явление характерно для женских голосов, хотя у мужских голосов оно также ино гда наблюдается. В качестве примера рассмотрим рис. 1 и 2, где показа ны сонограммы слогов /УА/ и /АУ/ для женского голоса. Эти сонограммы демонстрируют не только разрывы треков первой и второй форманты, но и разрывы направления движения формант. Отметим, что эти разрывы не Рис. 1. Звукосочетание /УА/, женский голос.

Вверху – осциллограмма сигнала, в середине – контур основного тона, внизу – сонограмма со шкалой мел по оси частот РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ В.Н.Сорокин, И.С.Макаров, А.С.Леонов Устойчивость оценок формантных частот Рис. 2. Звукосочетание /АУ/, женский голос. Вверху – осциллограмма сигнала, в середине – контур основного тона, внизу – сонограмма со шкалой мел по оси частот регистрируются методами линейного предсказания, и лишь анализ интервалов между нулями сигнала при закрытой голосовой щели обнаруживает эти явления. На обоих рисунках видно, что разрывы в формантных треках сопровождаются амплитудными модуляциями осциллограмм, и даже на квазистационарном участке трека второй фор манты наблюдаются довольно длительные спады энергии. Это затрудняет использова ние информации об амплитуде формант при отслеживании треков оценок формантных частот во времени.

В работе [15] было показано, что разрывы формантных треков в динамическом спектре речевого сигнала могут наблюдаться в тех случаях, когда резонансные частоты рече вого тракта и подсвязочной области близки. Близость ротовых и подсвязочных резо нансов не является единственной причиной разрывов. Другие факторы и, в частности, соотношение частоты основного тона и частоты форманты, также влияют на форму динамического спектра звуков речи. В особенности это относится к женским голосам с высоким основным тоном. Некоторые математические аспекты этого явления рас смотрены в Приложении.

Из сказанного ясно, что коррекцию формантных треков необходимо выполнять, исходя из возможной их разрывности. Соответственно, при интерполяции треков нет оснований для использования непрерывных функций и, в частности, многочленов высоких поряд РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ В.Н.Сорокин, И.С.Макаров, А.С.Леонов Устойчивость оценок формантных частот ков. Наиболее целесообразным представляется использование кусочно линейной аппроксимации треков.

Приведём пример такой коррекции треков формант. На рис. 3 показаны мгно венные оценки формантных треков в слоге /ИА/ по методу нулей сигнала и их кусочно-линейная аппроксимация.

На интервале времени вокруг отсчёта 0.25 с наблюдаются скачки всех трёх фор мант. Особенно велик скачок частоты второй форманты (около 500 Гц). На сонограмме этого слога действительно видны разрывы траекторий фор мантных частот при переходном процессе от звука /И/ к звуку /А/. Однако эти скачки заглажены в силу использования весовой функции при вычис лении спектра. Лишь мгновенные оценки формантных частот по методу нулей сигнала чётко выявили разрывы формант на переходных участках в звукосочетаниях.

В этом примере исходным материалом для метода нулей являлись отфиль трованные сигналы с фильтрами в характерных диапазонах формантных частот для гласных русского языка. В каждый момент времени параллель но выполнялись оценки по фильтрам, соответствующим формантам глас ных /И/ и /А/. Выбирались оценки того набора фильтров, в котором сумма пиков огибающей по всем трём формантам была наибольшей. Без такого отбора разброс оценок формантных частот слишком велик, и никакое сгла живание не улучшает поведения формантных треков. В частности, если исходить из обычного предположения, что следующее значение частоты некоторой форманты должно находиться как можно ближе к предыдущему, то в области переходного процесса произойдёт перескок оценок второй форманты на третью форманту.

Рис. 3. Мгновенные оценки формантных частот в слоге /ИА/ (···) и кусочно линейная аппроксимация треков (——) РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ В.Н.Сорокин, И.С.Макаров, А.С.Леонов Устойчивость оценок формантных частот Успех этого численного эксперимента позволяет сформулировать ещё один способ стаби лизации оценок формантных частот, отличный от использования метода линейного предсказания в качестве предварительной оценки. Для каждого языка можно найти небольшое число характерных векторов формантных частот, примерно соответствую щих гласным этого языка в том смысле, как их определяют фонетисты. Методика поис ка этих характерных векторов путём кластеризации множества измерений формантных частот была описана в [16]. Распределение вероятностей каждого из этих характерных векторов может быть использовано для построения согласованных фильтров. Сигналы на выходе каждого набора фильтров подвергаются анализу согласно некоторому кри терию, и оценки формантных частот выбираются для того набора фильтров, где значе ние этого критерия наилучшее. В частности, этот критерий может состоять в суммар ной энергии — так, как это было применено в описанном выше примере.

Очевидно, что такой метод будет лучше всего работать на квазистационарных участках речевого сигнала, тогда как переходные процессы могут оцениваться с большей погрешностью. Однако можно сформировать алгоритм коррекции оценок на переход ных процессах, используя устойчивые оценки формантных частот на краях переходно го процесса.

Преимущество этого подхода заключается в том, что его можно применять для произволь ного контекста, не заботясь о предварительной оценке положения во времени гласно подобных сегментов. При этом полностью используется информация о формантных образах гласных звуков в конкретном языке. Как было показано в данной работе и в предыдущих исследованиях на эту тему [5, 6], без учёта этой информации невозможно сколько-нибудь устойчивое определение формантных частот в речевом сигнале. Ещё одно преимущество заключается в подавлении колебаний, проникающих из подсвя зочной области в речевой тракт. Это особенно важно при решении обратной задачи с целью определения формы речевого тракта, для чего нужно быть уверенным в том, что измеренные частоты действительно соответствуют резонансным частотам речевого тракта.

Заметим, что при таком подходе формантный анализ речевого сигнала становится зависи мым от конкретного языка, его артикуляторного строя и формантных образов основ ных гласных. Интуитивно это представляется вполне оправданным. Это также объяс няет неудачу многочисленных попыток построить универсальный устойчивый алгоритм определения формантных частот в речевом сигнале независимо от языка. Отсюда можно предположить, что и автоматический анализ взрывных согласных, назальных и фрикативных звуков также должен производиться с использованием специфиче ских акустических свойств конкретного языка. Ясно, что основная трудность при этом заключается в создании достоверной базы акустических характеристик каждого языка на основе более или менее абстрактных методов анализа и ручной обработке получен ных данных.

Заключение Метод нулей сигнала характеризуется значительно меньшим разбросом оценок формантных частот в зависимости от типа регистрирующего микрофона и устойчив к шумам, осо бенно в низкочастотной области. Мгновенные оценки формантных частот этим мето дом на периоде основного тона могут быть уточнены (скорректированы) путём исполь зования информации о типе гласного. Предположение о непрерывности формантных РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ В.Н.Сорокин, И.С.Макаров, А.С.Леонов Устойчивость оценок формантных частот треков при коррекции не оправдано. Поэтому коррекцию оценок формант следует выполнять путём кусочно-линейной аппроксимации с возможными разрывами треков.

ПРИЛОЖЕНИЕ Экспериментально было установлено, что на оценку формантных частот влияет частота основного тона, причём это влияние особенно заметно сказыва ется при определении низкочастотных формант. Механизм этого явления был не вполне ясен. Ниже приводятся две простые математические моде ли, позволяющие изучить воздействие источника возбуждения на спектр сигнала и качественно описать соответствующие эффекты, которые про являются при формантном анализе.

Представим речевой тракт как совокупность не связанных осцилляторов с собственными частотами F, определяющими форманты. Будем сначала считать, что эти осцилляторы колеблются без затухания под действием гармонического источника возбуждения с частотой основного тона F0.

Математически запишем это в виде задачи Коши для колебания y(t):

y ''+ w 2 y = A sin t, y (0) = y '(0) = 0.

= 2p F0.

Здесь w = 2p F — собственная (круговая) частота осциллятора, а Нетрудно видеть, что A y (t ) = sin wt sin t.

w w решение, вводя величину j (t ) [0, 2p ) Преобразуем найденное — решение системы уравнений cos j (t ) = sin(w + )t, sin j (t ) = 1 + cos(w + )t, w w а также числа 2 A D= 2 1+ m = 2 1 +,.

w w w w В итоге оказывается, что y (t ) = D [1 + mcos(w + )t ] cos [t + j (t ) ].

1/ Это решение легко интерпретируется при m 1, то есть для формантных частот, много больших частоты основного тона. В этом случае p A j (t ), D 2 и w Am A y (t ) 2 sin t + cos(w + )t sin t, (1) w 2w так что движения осцилляторов представляют собой колебания основного тона, на которые наложены колебания со сдвинутой формантной частотой, 18 промодулированные колебаниями с частотой основного тона. Таким обра РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ В.Н.Сорокин, И.С.Макаров, А.С.Леонов Устойчивость оценок формантных частот зом, рассмотренная простейшая модель качественно предсказывает не только модуля цию амплитуд формант из-за воздействия голосового источника возбуждения, но и их сдвиг в сторону увеличения частоты.

Влияние гармоник основного тона на спектр колебаний в речевом тракте можно качественно изучить и для источника более общего вида с учётом затухания собственных колебаний.

Полагая, что голосовой источник f(t) — это кусочно-гладкая периодическая функция, раз ложим её в ряд Фурье на периоде колебаний (например, в ряд Фурье по синусам, если f(0) = 0). Тогда задачу определения вынужденных колебаний осциллятора можно записать в виде y "+ 2gw y '+ w 2 y = f (t ) = bn sin n t (0 g 1), (2) n = y (0) = y(0) = 0.

y (t ) = yn (t ), где слагаемые находятся из задачи Коши:

Её решение представимо как n = yn "+ 2gw yn '+ w 2 yn = bn sin nt, yn (0) = 0, yn '(0) = 0.

yn (t ) = yn (t ) + yn (t ), где (0) (1) Можно вычислить, что (w 2 n 2 2 ) sin nt 2g nw cos nt yn (t ) = bn (1).

(w 2 n 2 2 ) 2 + 4g 2w 2 n 2 y (t ) = yn (t ) = yn (t ) + yn (t ) y (0) (t ) + y (1) (t ) (0) (1) Решение задачи (2) n =1 n =1 n = интерпретируется так: в голосовом тракте существуют не только затухающие собствен (0) (1) ные колебания y (t ), но и колебания y (t ), которые определяются частотой основ ного тона. Это верно даже на интервале закрытой голосовой щели, т.е. для временных интервалов, где f (t ) = 0. Поэтому при формантном анализе на интервале закрытой голосовой щели на получаемый результат влияет член сигнала (w 2 n 2 2 ) sin nt 2g nw cos nt y (1) (t ) = bn = (w 2 n 2 2 ) 2 + 4g 2w 2 n 2 n = (1 n 2 b 2 ) sin nt 2g n b cos nt b = = w2 (1 n 2 b 2 ) 2 + 4g 2 n 2 b n n = b = sin(nt + j n ), (3) w n n = j где есть главное решение системы уравнений n РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ В.Н.Сорокин, И.С.Макаров, А.С.Леонов Устойчивость оценок формантных частот (1 n 2 b 2 ) 2g n b cos j =, sin j =, b=.

(1 n 2 b 2 ) 2 + 4g 2 n 2 b 2 (1 n b ) + 4g n b w n n 2 22 22 Слагаемое (3) искажает спектр собственных частот сигнала, в котором в итоге появляются колебания с частотами n. При небольших n частоты n могут быть сравнимы с формантными. Амплитуды Фурье-гармоник функ ции (3) суть изменённые в 1/w раз амплитуды гармоник источника f (t ).

Поэтому искажения оценок формантного анализа наиболее существенны для низких частот, когда отношение 1/w велико. Ещё раз подчеркнём, что сделанные выводы справедливы для любой кусочно-гладкой формы источника возбуждения.

Проведённый анализ объясняет причины экспериментально установленной зависимости оценок формантных частот от частоты основного тона источ ника голосового возбуждения, которая наблюдается для любых методов формантного анализа.

Литература 1. G.K. Vallabha, B.Tuller (2002). Systematic errors in formant analysis of steady-state vowels. Speech Communication, v.38, pp.141–160.

2. Цемель Г.И. Опознавание речевых сигналов. М.: Наука, 1971.

3. R.J. Niederjohn, M.Lahat (1985). A zero-crossing consistency method for formant tracking of voiced speech in high noise levels. IEEE on Acoustics, Speech and Signal Processing, ASSP–33, N2, 349–355.

4. Th.Sreenivas, R.J. Niederjohn (1992). Zero-crossing based spectral analysis and SVD spectral analysis for formant frequency estimation in noise, IEEE transactions on Signal Processing, v.40, N2, 282–293.

5. Сорокин В.Н., Трифоненков И.П. Об автокорреляционном анализе речевых сиг налов. 1996. Акуст. ж., Т. 42. №3. С. 368–374.

6. Леонов А.С., Сорокин В.Н. К анализу резонансных частот речевого тракта.

Информационные процессы, Т. 7. 2007. №4, 386–400. www.jip.ru.

7. K.Mystafa, I.C. Bruce (2006). Robust formant tracking for continuous speech with speaker variability. IEEE transactions on Audio, Speech, and Language Processing, v.14, N2, 435–444.

8. Сорокин В.Н., Макаров И.С. Распознавание пола диктора по голосу. Акусти ческий ж. 2008. Т. 54, №4, С. 1–9.

9. A.El-Jaroudi, J.Makhoul (1991). Discrete All-Pole Modeling. IEEE Trans. Signal Process., vol.39, No.2, pp.411–423.

10. Сорокин В.Н., Макаров И.С. Обратная задача для голосового источника.

Информационные процессы. 2006. Т. 6, №4, 375–395. www.jip.ru.

11. S.McCandless. An Algorithm for Automatic Formant Extraction Using Linear Prediction Spectra. // IEEE Trans. Acoust., Speech, Signal Process., vol.ASSP–22, 1974, pp.135– 141.

12. G.Kopec. Formant Tracking Using Hidden Markov Models and Vector Quantization. // 20 IEEE Trans. Acoust., Speech, Signal Process., vol.ASSP–34, 1986, pp.709–729.

РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ В.Н.Сорокин, И.С.Макаров, А.С.Леонов Устойчивость оценок формантных частот 13. D.Talkin. Speech Formant Trajectory Estimation Using Dynamic Programming with Modulated Transition Costs. // J.Acoust. Soc. Amer. S1, 1987, p.S55.

14. K.Xia, C.Espy-Wilson. A New Strategy of Formant Tracking Based on Dynamic Programming. // Proc. Int. Conf. Spoken Lang. Process., 2000, pp.55–58.

15. X.Chi, M.Sonderegger (2007). Subglottal coupling and its influence on vowel formants. Journal.

Acoust. Soc. Am., v.122, N3, 1735–1745.

16. Сорокин В.Н., Цыплихин А.И. Сегментация и распознавание гласных. Информационные про цессы, 2004. Т. 4. №2, С. 202–220.www.jip.ru.

В.Н. Сорокин, доктор физико-математических наук, ведущий научный сотрудник Института проблем передачи информации РАН.

Е-mail: vns@iitp.ru.

А.С. Леонов, доктор физико-математических наук, профессор кафедры математики Московского инженерно-физического института (Федеральный исследовательский ядерный университет).

Специалист в области решения обратных и некорректно поставленных задач науки и техники (обратные задачи теплопроводности и диффузии, задачи обработки изображений, задачи оптимального синтеза технических систем, обратные задачи речевых технологий и др.).

Автор монографий по решению нелинейных некорректных задач.

И.С. Макаров, Институт проблем передачи информации, Российская академия наук, Москва, Россия.

РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ Темпоральные характеристики интонации речи дикторов телевидения С.Б. Жемерова Санкт-Петербургский государственный университет В данной работе рассматриваются темпоральные характеристики интонации: темп речи, паузы, а также длительность интонационных единиц в речи дикторов в новостных телепередачах. Новизна исследования определяется тем, что число описаний интонации в речи дикторов телевидения сравнительно невелико. Кроме того, приводимые исследователями данные достаточно противоречивы. Полученные результаты можно использовать для усовершенствования существующих систем синтеза и распознавания речи.

Введение Речь дикторов телевидения — интересный предмет исследования благодаря её особой роли в языковом сообществе. С одной стороны, носители языка ожидают, что она должна быть нормативной, потому что её источник — средство массовой информации. С другой стороны, дикторы оказывают на норму значительное влияние именно по той причине, что их речь воспри нимается как безоговорочно нормативная и её регулярно слышит большая часть языкового сообщества. Механизмы влияния радио и телевидения на формирование и распространение языковой нормы описаны многими исследователями [1:52, 2:44].


В качестве предмета настоящего исследования была выбрана именно речь про фессиональных дикторов телевидения в новостных телепередачах.

В статье рассматриваются темпоральные характеристики интонации дикторов телевидения: темп речи, паузы, а также длительность интонационных еди ниц. Целью работы являлось создание индивидуальных речевых портретов дикторов телевидения, их сопоставление между собой и выявление суще ствующих закономерностей.

Материалом для исследования послужили записи выпусков новостей. Для иссле дования были выбраны два крупнейших российских телеканала: «Первый 22 канал» и канал «Россия».

РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ С.Б. Жемерова. Темпоральные характеристики интонации речи дикторов телевидения На каждом из каналов было выбрано по два диктора — один мужчина и одна женщина, в исполнении которых на момент сбора материала было доступно большее количество записей:

— диктор Д. — «Первый канал», мужчина, 23 года, дикторского образования не имеет;

— диктор К. — «Первый канал», женщина, 47 лет, имеет профессиональное диктор ское образование (курсы для работников радио и телевидения);

— диктор Л. — канал «Россия», женщина, 30 лет, дикторского образования не имеет;

— диктор М. — канал «Россия», мужчина, 36 лет, имеет высшее журналистское обра зование.

Для исследования было отобрано по две минуты записей каждого диктора. Общее время звучания дикторской речи составило 7 минут 367 миллисекунд.

Для каждого диктора подсчитывались:

средний темп речи;

средняя длина синтагмы в слогах и в миллисекундах;

процент синтагм, содержащих паузы, средняя длина внутрисинтагменной паузы;

процент границ синтагм, оформленных паузами, средняя длина межсинтагменной паузы;

количество пауз на минуту речи;

длительность пауз на секунду речи (отдельно отмечались случаи, когда последнее слово или словосочетание синтагмы было отделено паузой);

количество слогов в первой и во второй половинах синтагмы.

Для определения статистической значимости разницы в количестве слогов использовался коэффициент корреляции Пирсона. Для проверки гипотезы о зависимости темпа речи от длины синтагмы также использовался коэффициент корреляции Пирсона.

Темп речи Таблица Средний темп речи у разных дикторов (по всему материалу) Темп (слогов в секунду) минимум максимум среднее разброс Диктор Д. 7,02 7,49 7,23 0, Диктор К. 6,87 7,56 7,18 0, Диктор Л. 6,79 7,45 7,00 0, Диктор М. 6,24 7,51 7,84 1, Здесь и далее в таблицах в графе «минимум» представлено минимальное среднее значение из встретившихся, в графе «максимум» — максимальное среднее значение, в графе «среднее» — общее среднее значение по всем текстам, в графе «разброс» — величина разброса значений (приводится в виде разницы между максимальным и минимальным значениями, так как данных для подсчёта стандартного отклонения недостаточно).

РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ С.Б. Жемерова. Темпоральные характеристики интонации речи дикторов телевидения В таблице 1 представлены средние значения темпа речи для разных текстов.

Как видно из таблицы, темп речи у разных дикторов различается незначи тельно. У дикторов-женщин средний темп несколько ниже, чем у мужчин.

Максимальный темп речи несколько выше у дикторов К. и М. Это может быть связано с рядом причин: эти дикторы старше, чем дикторы Д. и Л., и у них несколько больший опыт работы в данной сфере. Кроме того, как уже было упомянуто, у диктора К. есть профессиональное дикторское образование, а у диктора М. — высшее журналистское, в ходе которого он мог получать дикторскую подготовку (к сожалению, доподлинно выяс нить, так это или нет, не удалось). С каким именно из этих факторов связано различие в темпе речи, на имеющемся материале определить невозможно.

Максимальный разброс в значениях среднего темпа речи наблюдается у диктора М. Это связано, по всей видимости, с тем, что у данного диктора записано больше текстов, чем у других дикторов, и эти тексты достаточно разноо бразны по тематике. Можно также предположить, что вариативность темпа речи, как и максимальное его значение, связаны с уровнем профессио нальной подготовки диктора, однако данных, для того чтобы говорить об этом с уверенностью, недостаточно.

По данным О.Ф. Кривновой, средняя длина слога для среднего темпа речи в русском языка составляет 150–210 мс, что соответствует темпу речи 4,76–6,67 слогов в секунду [3: 40]. Таким образом, имеющиеся данные позволяют охарактеризовать темп речи дикторов в большинстве записей, скорее, как высокий по сравнению со средним для языка. Это соответ ствует данным разных исследователей [4;

5: 53], которые характеризуют темп речи дикторов телевидения как ускоренный по сравнению с ней тральной речью.

Надо заметить, что во многих других языках дикторам телевидения несвойстве нен быстрый темп речи. Так, в финском языке средний темп речи дикторов телевидения составляет 6,5 слога в секунду, в немецком — 5,9, в англий ском — 5,4 слога в секунду [6: 383]. Этот темп речи не является ускорен ным по сравнению с нормативным. К примеру, для английского языка В.Левельт приводит среднее значение темпа речи 5–6 слогов в секунду [7: 306], а Дж. Лэйвер — 5–5,5 слогов в секунду [8: 541].

Если говорить о связи темпа речи с функциями языка, то Т.М. Надеина отмеча ет: быстрый темп речи приводит к тому, что информация воспринимается как менее понятная, актуальная и интересная, но содержание оценивается как более динамичное [9: 157]. Таким образом, можно сделать вывод, что, говоря в темпе, быстром по сравнению со среднеязыковым, дикторы стре мятся сделать свою речь более динамичной и тем самым усилить функцию воздействия.

РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ С.Б. Жемерова. Темпоральные характеристики интонации речи дикторов телевидения Длина синтагмы Таблица Средняя длина синтагмы в слогах у разных дикторов (по всему материалу) Слогов в синтагме минимум максимум среднее разброс Диктор Д. 6,56 7,87 8,5 1, Диктор К. 7,65 9 10,56 2, Диктор Л. 7,13 8,53 10 2, Диктор М. 7,25 9,19 10,22 2, Таблица Средняя длина синтагмы в миллисекундах у разных дикторов (по всему материалу) Длина синтагмы (мс) минимум максимум среднее разброс Диктор Д. 933 1093 1181 Диктор К. 1112 1273 1540 Диктор Л. 1063 1219 1353 Диктор М. 1070 1297 1575 Средняя длина синтагмы как в слогах, так и в миллисекундах, наибольшая у дикторов К.

и М. Вызвано это, вероятно, теми же причинами, что и наибольший максимальный темп в их речи.

У этих же дикторов наблюдается наибольший разброс значений длины синтагм.

О.А. Прохватилова отмечает, что синтагматическому членению в информационных текстах принадлежит особая роль, «поскольку именно делимитация речевого потока позволяет максимально актуализировать содержательные компоненты высказываний, обозначить смысловые центры» [5: 51]. Таким образом, возможно, что большой диа пазон длины синтагм в речи данных дикторов свидетельствует о большем умении или стремлении пользоваться синтагматическим членением как выразительным средством.

Это вполне соотносится с тем фактом, что у этих двух дикторов имеется специальное журналистское или дикторское образование, а также наибольший опыт работы в дан ной сфере.

О.Ф. Кривнова отмечает, что при среднем темпе произнесения в русском языке длина син тагм составляет около 1100–1500 мс [3: 29]. По данным Н.Б. Вольской, длина синтаг мы в спонтанной речи колеблется от 1 до 1,7 секунды [10: 133], а в чтении — от 0, до 1,2 секунды [11: 169]. Схожие результаты приводят Л.В. Бондарко, Н.Б. Вольская, С.О. Тананайко и Л.А. Васильева. По их данным, средняя длина синтагмы в спонтанной РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ С.Б. Жемерова. Темпоральные характеристики интонации речи дикторов телевидения речи составляет 1,14 секунды, а в чтении — 1,12 секунды [12]. Таким обра зом, можно говорить о том, что для русского языка средняя длина синтагм в речи дикторов не отличается от нормативной.

Что касается длины синтагмы в слогах, то Н.Б. Вольская приводит данные, согласно которым средняя длина синтагмы при чтении в русском языке составляет 7,2–8,1 слога [13]. Данные значения несколько ниже, чем полу ченные в настоящей работе. Связано это, очевидно, с темпом речи.

У всех дикторов наблюдается статистически значимая корреляция между дли ной синтагмы в слогах и темпом речи: чем длиннее синтагма, тем выше темп. Что касается темпа речи внутри синтагмы, то у всех дикторов наблю дается статистически значимое замедление темпа речи от начала синтаг мы к концу. Как уже было упомянуто выше, это является следствием т. н.

предпаузального удлинения и не является чертой, характерной только для дикторов телевидения.

Паузы Таблица Средний процент границ синтагм, оформленных паузами, у разных дикторов (по всему материалу) Границ синтагм оформлено паузами минимум максимум среднее разброс Диктор Д. 17,65% 27,27% 22,22% 9,62% Диктор К. 21,05% 52,63% 48,10% 31,58% Диктор Л. 45,83% 72,73% 53,93% 26,90% Диктор М. 9,09% 23,81% 16,90% 14,72% Как видно из таблицы, у дикторов-женщин паузы между синтагмами встречают ся значительно чаще, чем у мужчин.

Надо заметить, что значения, встретившиеся у дикторов-женщин, близки к нормативным для русского языка. Так, Л.В. Бондарко, Н.Б. Вольская, С.О. Тананайко и Л.А. Васильева приводят данные, согласно которым в русском языке в спонтанной речи паузами оформлено в среднем 53,8% синтагм, а в чтении — 65,6% [12]. По данным Н.Б. Вольской, в русском языке в спонтанной речи паузами оформлены 57% синтагм, а в чтении — 53% [10: 169].


Отметим, что, по данным Т.М. Надеиной, при большем количестве пауз между синтагмами содержание текста оценивается как более яркое, разноо бразное, интересное, украшенное, но менее полезное и понятное [9: 157].

Таким образом, можно предположить, что дикторы-женщины стремятся сделать свою речь более выразительной, а мужчины — более информа 26 тивной.

РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ С.Б. Жемерова. Темпоральные характеристики интонации речи дикторов телевидения Таблица Средняя длина паузы между синтагмами у разных дикторов (по всему материалу) Средняя длина межсинтагменной паузы (мс) минимум максимум среднее разброс Диктор Д. 266 421 348 Диктор К. 251 356 289 Диктор Л. 241 301 267 Диктор М. 297 398 337 Как видно из таблицы, средняя длина пауз между синтагмами больше у дикторов-мужчин.

Для сравнения: по данным Л.В. Бондарко, Н.Б. Вольской, С.О. Тананайко и Л.А. Васильевой, средняя длина пауз в русском языке в спонтанной речи составляет 496 мс, а в чте нии — 514 мс [12]. Таким образом, можно говорить о том, что для речи дикторов теле видения — как спонтанной, так и при чтении — свойственны более короткие паузы, чем для обычной речи. Несмотря на то, что речь дикторов телевидения не является спонтанной, значения длительности пауз в ней ближе к значениям, свойственным спон танной речи, чем к значениям, характерным для чтения.

Таблица Процент синтагм, содержащих паузы, у разных дикторов (по всему материалу) Синтагм, содержащих паузы минимум максимум среднее разброс Диктор Д. 0% 5,56% 1,05% 5,56% Диктор К. 0% 33,33% 11,90% 33,33% Диктор Л. 0% 12,00% 6,67% 12,00% Диктор М. 0% 8,33% 1,30% 8,33% Внутрисинтагменные паузы являются важным выразительным средством в художествен ной и публицистической речи. Так, Н.В. Черемисина-Ениколопова отмечает, что «такая психологическая, или выразительная, аффективная пауза предшествует важ ному слову и как бы готовит читателя (и слушателя) к восприятию этого слова: воз никает напряжение, увеличивающее смысловой вес постпаузного слова» [14: 161].

Таким образом, можно сделать вывод о том, что, используя в своей речи вну трисинтагменные паузы, дикторы стремятся усилить воздействующую функцию языка.

Как видно из таблицы, паузы внутри синтагм встречаются у женщин значительно чаще, чем у мужчин. Таким образом, здесь также прослеживается уже упомянутая тен денция к тому, что женщины активнее стремятся сделать свою речь вырази тельнее.

РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ С.Б. Жемерова. Темпоральные характеристики интонации речи дикторов телевидения Таблица Средняя длина паузы внутри синтагмы у разных дикторов (по всему материалу) Средняя длина внутрисинтагменной паузы (мс) минимум максимум среднее разброс Диктор Д. 267 267 267 Диктор К. 146 205 168 Диктор Л. 138 192 175 Диктор М. 108 108 108 Делать какие-либо выводы о средней длине пауз внутри синтагмы невозможно ввиду недостаточного количества материала: у дикторов-мужчин встрети лось по одной паузе внутри синтагмы на весь материал.

Таблица Среднее количество пауз на минуту речи у разных дикторов (по всему материалу) Пауз на минуту речи минимум максимум среднее разброс Диктор Д. 10,32 13,88 12,17 3, Диктор К. 16,74 36,12 27,37 19, Диктор Л. 25,89 33,65 29,85 7, Диктор М. 4,43 10,27 7,82 5, Как видно из таблицы, женщины делают паузы в речи чаще, чем мужчины. Это очевидно из того факта, что женщины делают больше пауз как внутри син тагм, так и между ними.

Как известно, при чтении текста дыхательный ритм является одним из самых существенных физиологических факторов, которые потенци ально могут оказывать влияние на паузацию. О.В. Кривнова приво дит данные, согласно которым средняя частота дыхательных пауз в речи составляет 16–20 в минуту [15]. Таким образом, можно говорить о том, что количество пауз в речи дикторов-женщин находится в рамках нормы, в то время как у дикторов-мужчин количество пауз в речи ниже нормативного.

Надо заметить, что крайне низкие значения для диктора М. могут быть обуслов лены тем, что в его исполнении были доступны самые короткие записи, длина которых не позволяет собрать статистику, достаточную для подсчёта среднего.

РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ С.Б. Жемерова. Темпоральные характеристики интонации речи дикторов телевидения Выводы Итак, проведённое исследование позволяет сделать определённые выводы о темпоральных характеристиках интонации в речи дикторов телевидения.

Средний темп речи дикторов телевидения колеблется от 7 до 7,8 слога в секунду. Такой темп можно охарактеризовать как быстрый. У разных дикторов темп речи различа ется незначительно, но можно отметить, что средний темп речи у дикторов-мужчин несколько выше, чем у дикторов-женщин. Также можно предположить, что макси мальный темп речи выше у дикторов с более высоким уровнем профессиональной подготовки.

Средняя длина синтагмы в дикторской речи составляет от 1093 до 1297 мс. Данные значения практически совпадают со значениями этого параметра, приводимыми для русского языка разными исследователями. Таким образом, можно говорить о том, что средняя длина синтагмы в речи дикторов телевидения не отличается от среднеязыковой.

Средняя длина синтагмы в слогах в материале настоящего исследования несколько выше среднеязыковых значений. Это, очевидно, связано с темпом речи.

Наибольшая средняя длина синтагмы — как в слогах, так и в миллисекундах — наблюдает ся у дикторов с более высоким уровнем профессиональной подготовки.

У всех дикторов прослеживается статистически значимая корреляция между длиной син тагмы в слогах и темпом речи: чем длиннее синтагма, тем выше темп. Кроме того, у всех дикторов наблюдается статистически значимое замедление темпа речи от начала синтагмы к концу, однако это является следствием т. н. предпаузального удлинения и не является чертой, характерной только для дикторов телевидения.

В речи разных дикторов паузами оформлены в среднем от 17 до 54% синтагм. В речи дикторов-женщин паузы между синтагмами встречаются значительно чаще, чем в речи дикторов-мужчин. Надо заметить, что значения данного параметра, полученные в настоящем исследовании для дикторов-женщин, близки к среднеязыковым, в то время как в речи дикторов-мужчин наблюдаются значения более чем в два раза ниже сред неязыковых.

Средняя длина пауз между синтагмами в речи разных дикторов составила от 267 до 348 мс.

Данные значения ниже значений, приводимых другими исследователями как для спон танной речи, так и для чтения.

Паузы внутри синтагм у женщин встречаются значительно чаще, чем у мужчин. Средняя длина внутрисинтагменной паузы у разных дикторов составляет от 108 до 267 мс.

Количество пауз в речи разных дикторов колеблется от 9 до 30 в минуту. Средняя частота встречаемости пауз в речи дикторов-женщин находится в рамках нормы, обусловлен ной естественным дыхательным ритмом, в то время как у дикторов мужчин количество пауз в речи значительно ниже нормативного.

Хотя объём материала, использованного в данной работе, безусловно, не позволяет делать окончательных выводов о наличии тех или иных просодических особенностей в речи дикторов телевидения, однако и на имеющемся материале стабильно прослеживается множество закономерностей.

РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ С.Б. Жемерова. Темпоральные характеристики интонации речи дикторов телевидения В целом, темпоральные характеристики интонации в речи дикторов телевидения незначительно отличаются от таковых в обычной устной разговорной речи.

Так, полученные значения средней длины синтагмы и количества пауз в речи дикторов телевидения практически совпадают со значениями данных параме тров, приводимыми разными исследователями для спонтанной речи и чтения.

К интонационным особенностям речи дикторов телевидения относятся, в пер вую очередь, темп речи, более высокий по сравнению с нормативным, а также меньшая средняя длина пауз между синтагмами.

Темпоральные особенности интонации в речи дикторов телевидения зависят от ряда факторов. В первую очередь, это пол диктора. У дикторов-женщин средний темп речи ниже по сравнению с дикторами-мужчинами. В речи дикторов-мужчин меньше пауз как внутри синтагм, так и между ними, а средняя длительность межсинтагменных пауз выше, чем у дикторов женщин. Кроме того, полученные данные о количестве пауз внутри синтагм и между ними позволяют предположить, что для женщин более важным является сделать свою речь более выразительной, в то время как мужчины стремятся к большей информативности речи.

На темпоральные особенности интонации оказывает влияние уровень профес сиональной подготовки диктора. Так, для дикторов с профессиональным дикторским образованием и большим опытом работы характерна боль шая вариативность темпа речи и длины синтагм, а также их максималь ные значения.

Кроме того, можно предполагать, что на интонационные характеристики в речи диктора оказывает влияние тематика читаемого текста. Так, для текстов о культуре и спорте характерен более низкий темп речи и большая длина пауз между синтагмами. Кроме того, в них чаще встречается явление отде ления паузой последнего слова в тексте.

Необходимо также отметить, что интонационные средства, используемые дик торами телевидения, позволяют предполагать, что первичной в их речи является воздействующая функция языка.

Литература 1. Frazer T.C. «Heartland» English: Variation and Transition in the American Midwest. — Tuscaloosa, London: The University of Alabama Press, 1993.

2. Беликов В.И., Крысин Л.П. Социолингвистика. М.: Рос. гос. гуманит. ун-т, 2001.

3. Кривнова О.Ф. Ритмизация и интонационное членение текста в «процессе речи мысли» (опыт теоретико-экспериментального исследования), Автореф. дисс. д.

филол. наук. М.: МГУ, 2007.

4. Гришина О.А. Просодические особенности речи красноярских дикторов.

Красноярск, 2001.

5. Прохватилова О.А. Фоностилистика: стилистический анализ звучащей речи:

учеб.-мет. пособие. Волгоград: Изд-во Волгоградского гос. ун-та, 1996.

РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ С.Б. Жемерова. Темпоральные характеристики интонации речи дикторов телевидения 6. IIvonen A. [et al.] Comparison of Prosodic Characteristics in English, Finnish and German Radio and TV Newscasts. // Proceedings of The XIIIth International Congress of Phonetic Sciences, v.2. — Stockholm: Arne Strmbergs Grafiska, 1995. p.382–385.

7. Levelt W.J.M. Speaking: From Intention to Articulation. Cambridge: The MIT Press, 1995.

8. Laver J. Principles of Phonetics. Cambridge: Cambridge University Press, 1994.

9. Надеина Т.М. Функционирование просодических средств как факторов речевого воздействия // Фонетические чтения в честь 100-летия со дня рождения Л.Р. Зиндера. СПб.: Филологический факультет СПбГУ, 2004.–С.155–159.

10. Вольская Н.Б. О паузе и не только о ней // Фонетические чтения в честь 100-летия со дня рождения Л.Р. Зиндера. СПб.: Филологический факультет СПбГУ, 2004. С.129–136.

11. Вольская Н.Б. О паузах виртуальных и реальных // Проблемы и методы экспериментально фонетических исследований. К 70-летию профессора кафедры фонетики и методики препода вания иностранных языков Л.В. Бондарко / Отв. ред. Н.Б. Вольская, Н.Д. Светозарова. СПб.:

Филологический факультет СПбГУ, 2002. С.165–170.

12. Bondarko L.V. [et al.]. Phonetic Properties of Russian Spontaneous Speech // Proceedings of The XVth International Congress of Phonetic Sciences. Barcelona, 2003.

13. Volskaya N.B. Virtual and Real Pauses at Clause and Sentence Boundaries // Proceedings of The XVth International Congress of Phonetic Sciences. Barcelona, 2003.

14. Черемисина-Ениколопова Н.В. Законы и правила русской интонации: учеб. пособие. М.:

Флинта: Наука, 1999.

15. Кривнова О.Ф. Паузирование при автоматическом синтезе речи / О.Ф. Кривнова, И.С. Чардин.

М.: МГУ, 1999.

С.Б. Жемерова, Санкт-Петербургский государственный университет РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ Компьютерные сетевые технологии в обучении лингвистическим дисциплинам (инновационные учебно научные Интернет-порталы по русской фонетике) Г.Е. Кедрова, кандидат филологических наук В.В. Потапов, доктор филологических наук А.М. Егоров Е.Б. Омельянова М.В. Волкова Анализируется опыт создания Интенет-порталов «Русская фонетика» (URL: http://fonetica.philol.msu.ru/) и «Фонетика русских диалектов» (URL: http://dialect.philol.msu.ru), на основе которого рассматриваются базовые принципы конструирования мультимедийной интерактивной и адаптивной компьютерной обучающей среды по лингвистике.

Компьютеры и, особенно, глобальная компьютерная связь уверенно занима ют доминирующие позиции среди мировых коммуникационных систем.

Наиболее впечатляющие успехи достигнуты сегодня в области компью терной поддержки обучения и образования — естественно, в первую оче редь, в дистанционной их форме. Дистанционное обучение особенно акту ально для России с её географической протяжённостью, специфической, уже достаточно давно сложившейся региональной системой образования.

В немалой степени его актуальность обусловлена и новыми аспектами национальной образовательной доктрины, которая предполагает не только 32 общедоступность качественного образования для населения страны, но и РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ Г.Е. Кедрова, В.В. Потапов, А.М. Егоров, Е.Б. Омельянова, М.В. Волкова Компьютерные сетевые технологии в обучении лингвистическим дисциплинам создание условий для обучения и переобучения на протяжении всей активной жизни человека, т.н. life-long learning.

Считается, что существенную помощь в решении проблемы информационной поддержки образования и обучения могли бы оказать целенаправленно формируемые специали стами профессиональные научно-образовательные ресурсы и сервисы (так называе мая сеть «Web-2.0 / Веб-2.0»). Такая сеть должна будет стать базой для эффективной подготовки специалистов вне школ, университетов и институтов, и именно она может служить полноценной основой для «продолжающегося», дополнительного, образова ния и обучения, программ повышения квалификации и переподготовки специалистов, столь востребованных во всех областях жизни современного общества.

В настоящий момент сфера Веб-2.0 активно разрабатывается и в России: в МГУ им. М.В. Ломоносова, других образовательных учреждениях, в институтах РАО и РАН, разнообразных коммерческих и некоммерческих образовательных учреждениях. Уже сейчас в этих организациях накоплен огромный информационный ресурс, специально подготовленный для образовательных целей, который включает электронные библио теки (в том числе аудио- и видеолекции);

активно формируются специализированные образовательные порталы, электронные справочные системы, онлайновые словари, учебно-справочные интегрированные гипермедийные комплексы;

создаются электрон ные учебники, компьютерные тренажёры и симуляторы, а также системы администри рования и технологической поддержки учебного процесса в дистанционной форме [1].

Основные теоретические и методологические предпосылки формирования сети Web-2. послужили основой в конструировании элементов компьютерной обучающей среды, предназначенной для преподавания филологических дисциплин, на Веб-сайте Центра новых информационных технологий в гуманитарном образовании (ЦНИТ ГО) филологи ческого факультета МГУ. Пилотные проекты, выполненные на сайте в русле инноваци онной концепции дистанционного обучения, базовым компонентом которого выступает распределённая компьютерная обучающая среда, — это Веб-порталы «Русская фоне тика в Интернете» (URL: http://fonetica.philol.msu.ru/) и «Фонетика русских диалектов»

(URL: http://dialect.philol.msu.ru).

Выбор этих учебных курсов продиктован изначально присущей этой области лингвистиче ского знания гипермедийностью и междисциплинарным характером изучаемой инфор мации. Хорошо известно, что эти курсы усваиваются студентами и учащимися с боль шим трудом, во многом, именно в силу разноплановости и многоформатности своего информационного наполнения. Поэтому структура и формат представления электрон ных учебных материалов в наших Интернет-порталах — объектно-ориентированные, т.е. предъявляемые пользователю Интернет-страницы формируются динамически при каждом запросе пользователя из сформированных a priori информационных элементов разной модальности и размерности, которые хранятся в базе данных и в дальней шем, будучи определены в соответствии со стандартным метаязыком описания учеб ных информационных компонентов, могут быть неоднократно использованы в составе самых разных учебных курсов и информационно-справочных материалов энциклопеди ческого характера [2].

Необходимо подчеркнуть, что этот подход предъявляет особые требования к технологиям конструирования учебного Интернет-пространства. В первую очередь, он заставляет максимально чётко и формализованно определять исходные принципы отбора и описа ния языкового материала, который будет положен в основу базового иллюстративного массива примеров и выстраивания на его основе структурированного описания всей РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ Г.Е. Кедрова, В.В. Потапов, А.М. Егоров, Е.Б. Омельянова, М.В. Волкова Компьютерные сетевые технологии в обучении лингвистическим дисциплинам информационной области. Мы считаем, что успешное решение этой слож ной задачи возможно, если в основу построения электронного учебника и сопутствующей системы электронных упражнений как базового компонен та всякой обучающей среды положена индексированная и исчерпывающим образом откомментированная база языковых данных, иллюстрирующая все значимые противопоставления на каждом уровне языковой системы.

Рассмотрим подробнее принципы формирования такого типа базы данных, кото рая легла в основание Интернет-портала по русской фонетике (рис.1).

Использованная в основе обучающего гипертекстового пространства информа ционного портала по русской фонетике база данных была сформирована из единиц всех уровней русской звучащей речи (звук, слог, фонетическое слово, ритмическая группа, ритмомелодические единства). Все её эле менты были проаннотированы не только в отношении заключённой в них информации, но и в соответствии с глобальными и контекстными задачами обучения (реализуемые через рекомендуемые схемы навигации по узлам надстраиваемого гипертекстового пространства) и задачей формирования полезных навыков (реализуемой через систему обучающих упражнений).

Исходно все эти единицы были сгруппированы нами по принципу мини мальных пар в кластеры. В информационном пространстве фонетическо го знания такие минимальные пары позволяют наглядно представить все функционально значимые в языке бинарные и многомерные оппозиции.

При этом бинарные многомерные оппозиции поставляют основной матери ал для построения систем, поддерживающих процесс исследования гипер текстовой среды обучающих и контролирующих упражнений, а многомер ные оппозиции вместе с пропорциональными позволяют выстроить основ Рис. 1. Титульная страница Интернет-портала по русской фонетике РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1/ Г.Е. Кедрова, В.В. Потапов, А.М. Егоров, Е.Б. Омельянова, М.В. Волкова Компьютерные сетевые технологии в обучении лингвистическим дисциплинам ные оси гипертекстового пространства, отражающие структурное взаиморасположение понятий, описывающих фонетическую систему языка. Необходимо также подчеркнуть, что благодаря введённому Н.С. Трубецким понятию нейтрализации структурное опи сание фонетического уровня языка естественным образом объединяется с представ лениями об особенностях функционирования этой системы в речи, реальном речевом потоке.



Pages:   || 2 | 3 | 4 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.