авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:   || 2 |
-- [ Страница 1 ] --

Содержание

XXV сессия Российского акустического общества, Сессия Научного совета по акустике РАН

Акустика речи

УДК 612.85:534.78

Н.Г. Андреева, В.Ю.Иванова, Т.А.Смирнова, Г.А. Куликов

ЗАВИСИМОСТЬ АМПЛИТУДНЫХ ОТНОШЕНИЙ СПЕКТРАЛЬНЫХ КОМПОНЕНТОВ

ГЛАСНЫХ ОТ ЧАСТОТЫ ОСНОВНОГО ТОНА

Санкт-Петербургский государственный университет Россия, 199034 С.-Петербург, Университетская наб., д. 7/9 Тел.: (812) 328-9706;

Факс: (812) 328-2454;

E-mail: andreevang@mail.ru Проведен анализ спектральных характеристик естественных гласных, произнесенных детьми (3-5-летнего возраста) и взрослыми – при разных частотах основного тона (F0). Выявлено, что по показателям относительной амплитуды спектральных компонентов звуки [а], [о], [у] различаются, занимая в соответствующем пространстве координат раздельные области. Определены граничные значения относительной амплитуды спектральных составляющих звуков, характерные для естественной речи. Для каждой из фонетических категорий гласных выявлена зависимость относительной амплитуды от частоты основного тона и показано ее сходство для звуков речи детей и взрослых.Исходя из полученных результатов, осуществлен синтез модельных стимулов с относительной амплитудой гармонических составляющих, соответствующей медианным значениям естественных гласных [а], [о], [у] в конкретном диапазоне частот. В пилотной серии экспериментов исследовали возможность формирования негативности рассогласования (НР) у испытуемых при прослушивании синтезированных гласных с частотой основного тона 382 Гц, отличающихся по относительной амплитуде двух первых гармоник. Полученные результаты свидетельствуют о специфичности отражения различий использованных гласных звуков в правом и левом полушарии.

Акустические признаки, лежащие в основе идентификации гласных фонем, несмотря на длительную историю исследований, до сих пор неясны [1]. В силу приоритета формантного подхода [2] фонемные области, определенные для разных гласных на материале многих языков, были выявлены именно в пространстве формантных частот. Значительно меньше уделено внимания роли амплитудных характеристик гласных. В появившихся в последнее время работах указывается на значимость амплитудных отношений между формантами для распознавания гласных речевого диапазона [3–5]. Тем не менее, хорошо известно, что роль формантного признака все более ограничивается при анализе звуков с высокой частотой основного тона [6]. Таким образом, к настоящему времени становится все более очевидной невозможность сведения распознавания гласных лишь к частотным значениям их первых формант. Проведенные нами ранее исследования [7–9] позволили заключить, что существенную роль при идентификации гласных [а], [о], [у] играет «амплитудный» признак, а именно, относительная амплитуда спектральных компонентов звука, зависящая от частоты основного тона (F0). Однако характеристики этой зависимости требуют дальнейших исследований.

C этой целью проводился анализ спектральных характеристик естественных гласных [a], [о], [у], произнесенных детьми (3-5-летнего возраста) и взрослыми – при разных частотах основного тона. В исследовании приняли участие 65 детей (45 девочек, 20 мальчиков) 3-5-летнего возраста. Каждый ребенок повторял гласные (изолированные или в составе слога) вслед за экспериментатором. В качестве взрослых дикторов выступали 158 женщин – студенток. Каждой из них было предложено произнести один и тот же гласный несколько раз – в удобном (привычном) диапазоне, а также, меняя высотность звучания – от минимальной до максимально возможной для индивидуального диапазона.

Регистрация звуков осуществлялась на магнитофон MarantzPMD 222 c микрофоном SennheiserE855. Для анализа отбирали звуки, произнесенные при нормальном режиме фонации с соотношением сигнал-шум не менее 20 дБ. Приведены результаты, касающиеся гласных, однозначно отнесенных аудиторами к одной и той же фонетической категории. Оценивали частоту основного тона (F0), частоту и амплитуду двух первых спектральных максимумов и, в случае выраженности, – формант, а также амплитуды первых четырех гармонических составляющих (А1, А2, А3, А4) и попарно – их отношения. С целью проверки необходимости и достаточности первых четырех гармоник для сохранения фонетической категории гласного в ряде случаев (при относительно низких значениях F0) проводился дополнительный аудиторский анализ звука с подавлением амплитуды его верхних спектральных составляющих.

Анализ расположения детских гласных (n=1153) на двухформантной плоскости показывает значительное перекрытие областей представительства, соответствующих звукам разных категорий, а не их упорядоченное смещение в высокочастотные области, как это наблюдается у детей старшего возраста по сравнению со взрослыми [10–11]. Это свидетельствует о том, что в исследованном возрасте не только абсолютные частотные значения формант(или спектральных максимумов), но и их отношения не отражают фонетической принадлежности гласных звуков.

Учитывая выявленную ранее роль «амплитудного» признака в идентификации гласных женской речи и показанное при этом смещение областей представительства гласных одной и той же категории в координатах относительной амплитуды [12] при изменении F0, проведен сравнительный анализ гласных, Содержание XXV сессия Российского акустического общества, Сессия Научного совета по акустике РАН Акустика речи произнесенных детьми и взрослыми при сходной частоте основного тона. В итоге сопоставление проведено для 1063 и 691 гласной, произнесенных детьми и взрослыми соответственно в диапазоне частот основного тона 220–368 Гц. Отметим, что предельные значения F0 ограничены материалом, полученным на детях. Количество детских звуков с более высокими значениями F0 невелико, что, вероятно, связано с условиями регистрации.

Выявлено, что по значениям относительной амплитуды спектральных компонентов звуки [а], [о], [у] как детей, так и взрослых различаются, занимая в пространстве с координатами относительной амплитуды раздельные области (рис. 1, А, Б).В обеих группах медианные значения относительной амплитуды областей, занимаемых разными гласными, достоверно отличаются (p0.05, критерий Манна Уитни) по всем попарным сравнениям. Вместе с тем, и относительное взаимное расположение, и позиция одноименных гласных у детей и взрослых оказываются сходными.

А Б В Г Рис. 1. Области расположения гласных [а], [о], [у] в координатах относительных амплитуд гармонических компонентов у детей (А, В) и взрослых (Б, Г).

По оси абсцисс – относительная амплитуда первой-третьей (А1/А3), по оси ординат – второй-четвертой (А2/А4), по аппликате – первой-второй (А1/А2) гармоник (дБ) соответственно. Символами,, обозначено положение медиан областей представительства гласных [а], [о], [у] соответственно. Размеры символов (В, Г) соответствуют возрастанию частот основного тона в четырех диапазонах – 240–280, 280–320, 320–368 Гц.

Представлены значения медиан, их проекции на плоскость А1/А3–А2/А4, а также (мелкие значки) границы 10-го и 90-го процентилей (А, Б) и верхних и нижних квартилей (В, Г).

Для выяснения зависимости относительной амплитуды от частоты основного тона, звуки были раздельно проанализированы в трех диапазонах F0 (240–280, 280–320, 320–368 Гц), в каждом из которых определялись медианные значения относительных амплитуд областей представительства разных гласных.

Оказалось, что в обеих группах с возрастанием ЧОТ происходит смещение представительства гласных.

Однако, в каждом из исследованных диапазонов фонетически разные гласные по-прежнему занимают раздельные области, достоверно отличающиеся по значениям медиан (p0.05, критерий Манна-Уитни).

Существенно, что у одноименных гласных детей и взрослых изменения носят однонаправленный характер (рис. 1, В, Г). Наиболее выраженные смещения наблюдаются по оси А1/А2, для звуков [у] и по оси А2/А4, для [о].По результатам данной части исследования осуществлен синтез модельных сигналов – гласных [а], Содержание XXV сессия Российского акустического общества, Сессия Научного совета по акустике РАН Акустика речи [о], [у]. Их частоты основного тона соответствовали средним значениям каждого из исследованных диапазонов, а относительная амплитуда спектральных составляющих – медианным значениям, полученным в результате анализа. Проведенный аудиторский анализ (n= 10) показал, их однозначную идентификацию.

В целом, выявление сходства в характере зависимости относительной амплитуды спектральных компонентов сигнала от значений F0,позволяет считать правомерной постановку вопроса о существовании перцептивных границ гласных не только в частотных, но и в амплитудных координатах.

Это в первую очередь касается звуков, превышающих «привычный» (то есть соответствующий обычной речи) частотный диапазон, а также гласных с невыраженной формантной структурой.

С целью установления мозговой специализации в определении амплитудных признаков при распознавании гласных (по анализу негативности рассогласования) проведено исследование по идентификации модельных стимулов, отличающихся по относительной амплитуде. Для этого на основе синтезированного звука [о] (F0=382 Гц) созданы две серии тестовых стимулов с последовательным изменением относительной амплитуды первой-второй и второй-третьей гармонических составляющих при константности остальных параметров (изменения в тестовых сигналах осуществлялись в программе CoolEditPro). В результате предварительного прослушивания, проведенного тремя аудиторами, имеющими опыт работы со звуковыми сигналами, оказалось, что в каждой из серий изменение относительной амплитуды спектральных компонентов у исходного сигнала приводит к изменению его звучания, и при определенном уровне этих изменений гласная оценивается как принадлежащая другой фонетической категории. Смена фонетической оценки звука происходит через ряд промежуточных.

Некоторыезвукисерии воспринимались аудиторами либо как неопределенные («[у] c призвуком [o]», «[a] c призвуком [o]»), либо как промежуточные («среднее между [a] и [o]», или «между [у] и [о] »).

С учетом данных предварительного прослушивания, в основной серии экспериментов использовалась схема «трехальтернативного» вынужденного выбора – аудитору предлагалось оценить звук как соответствующий гласной [а], [о] или [у]. Предъявление звуков проводилось в случайном порядке в программе Praat. Осуществлялась регистрация времени реакции и (в ряде экспериментов) оценка степени подобия тестового стимула естественному гласному. В экспериментах приняли участие человека. Для оценки того, насколько уровень идентификации превышает теоретическую частоту, соответствующую вероятности случайного угадывания, использовался биномиальный критерий m. В проведенных экспериментах по идентификации установлены области смены фонетической категории воспринимаемого звука (Рис. 2).

[u] [o] -14 -9 -4 1 6 A1/A2 (dB) Рис. 2. Зависимость идентификации стимулов от соотношения амплитуд первых двух гармоник.

По оси абсцисс – относительная амплитуда (дБ), по оси ординат – средний процент ответов по группе (N=21).

Два стимула из исследованного континуума были выбраны в качестве стандартного и девиантного в пилотной серии экспериментов, где изучали возможность формирования негативности рассогласования (НР) у испытуемых при прослушивании синтезированных гласных, отличающихся по относительной амплитуде двух первых гармоник.Полученные результаты свидетельствуют о специфичности отражения различий использованных гласных звуков в правом и левом полушарии.

Исследование выполняется при финансовой поддержке РФФИ (проект№ 11-06-00125-а) ЛИТЕРАТУРА Miller J.D. Auditory-perceptual interpretation of the vowel. // J. Acoust. Soc. Am. 1989. V. 85. № 5. P. 2114–2134.

1.

2. Peterson G.E., Barney H.L. Control methods used in a study of the vowels // J. Acoust. Soc. Am. 1952. V.24. P. 175–184.

3. Ito M., Tsuchida J., Yano M. On the effectiveness of whole spectral shape for vowel perception // J. Acoust. Soc. Am. 2001. V.

110. № 2. P. 1141– Jacewicz E. Listener sensitivity to variations in the relative amplitude of vowel formants // ARLO. 2005. V 6. № 3. P. 119– 4.

Содержание XXV сессия Российского акустического общества, Сессия Научного совета по акустике РАН Акустика речи 5. Kiefte M., Enright T., Marshall L. The role of formant amplitude in the perception of /i/ and /u/ // J. Acoust. Soc. Am. 2010. V.

127. № 4. P. 2611–2621.

6. Maurer D., D’Heureuse Ch., Landis T. Formant pattern ambiguity of vowel sounds // Int. J. Neurosci., 2000. V. 100. № 1-4. P.

39–76.

7. Андреева Н.Г., Куликов Г.А. Характеристика певческих гласных при разной частоте основного тона // Сенсорные системы. 2004. Т. 18. № 2. С.172– 8. Андреева Н.Г., Куликов Г.А., Самокищук А.П. Общность амплитудно-частотных характеристик гласных разных форм речи // Акустический журнал. 2002. Т. 48. № 5. С. 711–713.

9. Андреева Н.Г., Куликов Г.А.Перцептивная значимость частотных и амплитудных характеристик гласных звуков при разной частоте основного тона. // Доклады Академии Наук. 2009. Т. 429. № 1. С. 132–134.

10. Zahorian S.A., Jagharghi A.J. Spectral-shape features versus formants as acoustic correlates for vowels // J. Acoust. Soc. Am.

1993. V. 94. №4. P. 1966– 11. Lee S., Potamianos A., Narayanan Sh.Acoustics of children’s speech: Developmental changes of temporal and spectral parameters // J. Acoust. Soc. Am. 1999. V. 105. № 3. P. 1455– 12. Куликов Г.А., Андреева Н.Г. Перцептивно-значимые признаки гласных при разных формах их генерации. // Сенсорные системы. 2009. Т. 23. № 3. С. 229–237.

УДК 616. Л.Н. Балацкая, Р.В. Мещеряков, Р.Ф. Нигматуллин ЗАВИСИМОСТЬ МОДЕЛИ РЕЧЕОБРАЗОВАНИЯ ОТ ЗАБОЛЕВАНИЯ ОРГАНОВ АРТИКУЛЯЦИИ Томский государственный университет систем управления и радиоэлектроники»

634050 Томск, пр. Ленина, д. Тел.: (3822) 510- E-mail: office@keva.tusur.ru Речеобразующий аппарат человека можно представить в виде генератора звуковых колебаний с системой резонаторов и множеством фильтров, которые реализуются артикуляционным аппаратом. При болевых ощущениях звукообразующих органов появляется, дополнительная обратная связь (болевая), которая срабатывает по достижению определенного уровня болевого порога, и не дает полностью использовать функциональные возможности больного органа. В результате действия этой отрицательной обратной связи изменяется полоса пропускания частот, реализуемого этим органом, фильтра и/или интенсивность усиления определенных частот, реализуемого этим органом резонатора.

Оперативные вмешательства при раке органов полости рта и ротоглотки различны по объему и сопровождаются значительными повреждениями функций глотания, жевания, дыхания, органов артикуляции и, как следствие этого, нарушением звукопроизношения и голосообразования. В результате значительного объема операции отмечается выраженная деформация периферического речевого аппарата.

Наличие культи языка, дефекты небных дужек, отсутствие фрагмента нижней челюсти, изменение резонаторов полости рта приводят к развитию полиморфной дислалии и изменению акустики звучной речи. После оперативного вмешательства у больных наблюдается тяжелое речевое нарушение, при этом страдает не только звукопроизношение, но и темп, выразительность, плавность, модуляция, голос, дыхание. Отмечается нарушение непроизвольных движений в мускулатуре лица, языке, расстройство жевания, глотания, слюноотделения. [1] Речевые расстройства могут возникнуть вследствие патологических изменений губ, языка, неба.

Рубцовые изменения, возникающие после хирургического лечения данных органов по поводу злокачественного образования, вызывают необходимость речевой реабилитации с целью восстановления артикуляции. Значительная распространенность злокачественных опухолей области головы и шеи, сложность и стойкость нарушенных функций, сопровождающихся длительной и нередко стойкой утратой трудоспособности, ставят проблему реабилитации больных в ряд важнейших медико-социальных проблем. Возможность больного вернуться к прежней профессии – это оптимальный вариант реабилитации, которая рассматривается как система медицинского, психо-педагогического и социального воздействия, направленного не только на сохранение или восстановление здоровья, но и личностного и социального статуса пациента.

Раннее начало логопедических занятий обеспечивает лучший эффект реабилитации. Это объясняется тем, что нарушение анатомии языка произошло в период уже сложившейся речи, правильные речевые координационные установки имеются, и они должны использоваться для разработки оставшихся мышц. Занятия с больными проводятся, опираясь на фантомные ощущения оперированного языка, используя при этом неразрушенный стереотип звукообразования.

Исходя из этого, появляется необходимость в ранней количественной оценке качества речи. Для логопеда очень важно узнать, какие звуки произносятся с затруднением после операции и в какой степени.

Содержание XXV сессия Российского акустического общества, Сессия Научного совета по акустике РАН Акустика речи Таким образом, создание математической модели речеобразования пациентов с заболеваниями артикуляционного аппарата человека должно быть реализовано в виде программно-алгоритмического обеспечения. [2] Для формирования модели был проведен ряд экспериментов. 2 диктора: мужчина и женщина произносили слово [ТАБАК] в обычном режиме и с имитацией отсутствия кончика языка. При этом в передней части полости рта у дикторов находилась небольшая гибкая пластина, которая закрывала именно ту часть полости рта, что является пространством работы кончика языка. В дальнейшем записи обрабатывались программой PRAAT, выявлялся спектр речи, ее интенсивность и уровень формант.

Результаты эксперимента на четырех опытах представлены на Рис. 1 – 4.

Рис. 1. Здоровый мужской голос Рис. 2. Мужской голос с имитацией патологии Содержание XXV сессия Российского акустического общества, Сессия Научного совета по акустике РАН Акустика речи Рис. 3. Здоровый женский голос Рис. 4. Женский голос с имитацией патологии По проведенным экспериментам можно сделать вывод, что на интенсивность речи патология практически не повлияла, наибольшее влияние имитационная патология оказала на распределение формант, однако разборчивость оказалась весьма удовлетворительной в обоих вариантах произношения.

Разборчивость оценивалась в соответствии с ГОСТ Р 51061-97 [3].

На длительность пауз между звуками патология также не оказала значительного влияния. Данные рисунки ставят задачу детального исследования формантного распределения при различных патологиях полости рта.

ЛИТЕРАТУРА 1. Чойнзонов Е.Л., Балацкая Л.Н., Кицманюк З.Д., Мухамедов М.Р., Дубский С.В. Реабилитация больных опухолями головы и шеи. – Томск: Изд-во НТЛ, 2003. – 296 с.: ил.

2. Сорокин В.Н. Теория речеобразования. – М.: Радио и связь, 1985. – 312 с., ил.

3. Мещеряков Р.В., Бондаренко В.П., Конев А.А., Шелупанов А.А. Математическое и алгоритмическое обеспечение в задачах идентификации и распознавания речи // Вестник Сибирского государственного аэрокосмического университета им. М.Ф.Решетнева. 2006, с 11- Содержание XXV сессия Российского акустического общества, Сессия Научного совета по акустике РАН Акустика речи УДК 621.396: 534. В.И.Воробьев1, А.Г.Давыдов ИССЛЕДОВАНИЕ СВЯЗИ МЕЖДУ КВАЗИГАРМОНИЧЕСКИМИ СОСТАВЛЯЮЩИМИ РЕЧЕВЫХ СИГНАЛОВ НА КИТАЙСКОМ ЯЗЫКЕ Белорусский государственный университет информатики и радиоэлектроники 1_ Беларусь, 220013, Минск, ул. П.Бровки, 6. Тел.(017) 293-89-39;

293-89-66;

факс:

(017) 293-89-39;

292-96-28;

E-mail: nil53@bsuir.edu.by ООО «Речевые технологии», 220037, Беларусь, Минск, пер. Уральский, 15, офис 2_ 403. Тел.: +375 17 2669312;

факс: +375 17 2275913;

E-mail: agdavydov81@gmail.com При обработке речевых сигналов широко применяется их гармоническая модель в виде совокупности колебания на частоте основного тона и обертонов. Особенностью вокализованных звуков китайского языка является лексически нагруженное изменение основного тона. Характер изменения частоты основного тона при произнесении слогов с одинаковыми гласными звуками является отличительным семантическим признаком, который используется при их распознавании. В докладе применительно к таким звукам приведены результаты анализа фазовых соотношений между колебаниями основного тона и обертонов. Проведенные исследования свидетельствуют, что такой анализ может быть использован для повышения надежности сегментации вокализованных участков речи и детектирования малых изменений положения артикуляторов. Приведены данные компьютерной обработки фонограмм речевых сигналов носителей китайского языка.

Введение Возможности выявления и использования межкомпонентных связей в гармонической модели вокализованных звуков речи на русском языке для распознавания элементов речевых сигналов и дикторов рассматривались нами в ряде работ (см., например, [1, 2]). Исследования в этом направлении сохраняют актуальность и в настоящее время.

Ниже рассматриваются вопросы использования оценки таких связей применительно к звукам речи на китайском языке.

Алгоритм обработки На рисунке 1 приведена структурная схема алгоритма выделения колебания основного тона и обертонов вокализованных звуков речи и оценки их фазовых соотношений.

x(t) Оценка частоты основного тона (алгоритм RAPT) Связывание Определение Вычисление Поиск локальных максимумов признака тон/не нормированной максимумов в методом тон и оценка кросскорреляци- диапазоне динамического частоты основного онной функции [T0min, T0max] программирования тона x(t), F0(t) Оценка фаз гармоник ОТ Перестраи n(t) n(t) Формирование x(t) hn(t) zn(t) ваемый аналитичес- Arg[zn(t)] Unwrap [n(t)] полосовой кого сигнала фильтр F0(t)·n x(t), F0(t), hn(t), n(t) Вычисление функций фаз:

фазового инварианта Зверева, фазового квазиинварианта,...

pq,l(t) Рис. 1. Структурная схема алгоритма Как видно из рисунка 1, обработку сигнала можно разделить на несколько сравнительно независимых этапов:

Содержание XXV сессия Российского акустического общества, Сессия Научного совета по акустике РАН Акустика речи – вычисление кратковременных оценок частоты основного тона (ЧОТ);

– вычисление мгновенных значений фаз гармоник основного тона;

– вычисление интересующих функций фаз.

Для вычисления кратковременных оценок ЧОТ оказалось целесообразным использовать алгоритм RAPT [3], показавший хорошие результаты, как для чистой, так и для зашумленной речи. Эскизная схема алгоритма RAPT наглядно поясняется блоком оценки ЧОТ рисунка 1.

Вычисление мгновенных значений полных фаз n (t ) гармоник включает фильтрацию каждой n -ой гармоники hn (t ) основного тона из исходного сигнала x (t) при помощи перестраиваемого полосового фильтра на интервале квазистационарности речевого сигнала. Предварительными экспериментами было установлено, что интервал квазистационарности в исследованных сигналах составлял около 40 мс.

Формирование аналитического сигнала n -ой гармоники z n (t ) выполняется с использованием преобразования Гильберта. Аргумент аналитического сигнала n (t ) является главным значением полной фазы. Для исключения череспериодных скачков интересующих функций фаз (например, фазового квазиинварианта) необходимо оперировать полными фазами n (t ) гармоник основного тона. Полные фазы гармоник формируются добавлением к каждому их мгновенному главному значению кратного величине 2 неотрицательного числа. Необходимость такой добавки определяется следующими соображениями.

Для величин частоты дискретизации Fs, кратковременной оценки частоты основного тона F0 (t ), половины ширины полосы Fb пропускания фильтров, с помощью которых селектируются гармоники основного тона, конечная разность n (t ) мгновенного значения полной фазы n -ой гармоники основного тона должна находиться в пределах 2n n (t ) = n (t ) n (t 1) [F0 (t ) Fb, F0 (t ) + Fb ]. (1) Fs Ориентировочная оценка полной фазы n -ой гармоники определяется выражением t (t ) = n F0 (t )dt.

n В соответствии с изложенным сформирован следующий алгоритм отыскания мгновенных значений полной фазы.

1. Первоначально для каждой n -ой гармоники значения полной фазы принимаются равными главным значениям: n (t ) = n (t ).

2. Далее для каждой точки отсчета t = 0, T последовательно повторяются следующие действия.

– Если конечная разность n (t ) находится в определяемых соотношением (1) пределах, выполняется подстройка значений оценки полной фазы (t ) = (t ) (t ) + n (t ) для t = t, T.

n n n – В противном случае (t ) n (t ) n (t ) = n (t ) + 2, для t = t, T, n где означают округление до ближайшего целого.

Экспериментальное исследование свойств фазового квазиинварианта Предварительными экспериментами было установлено, что фазовый квазиинвариант позволяет достаточно точно отслеживать переходные процессы при малых изменениях артикуляции.

Первоначально, для определения возможности применения фазового анализа при сегментации речи, выполнен анализ фразы /i y e a o u/, произнесенной русскоязычным диктором мужчиной со средним значением ЧОТ 125 Гц. Результат анализа приведен на рисунке 2.1. Для исключения влияния неравномерности ФЧХ тракта записи на результаты анализа фраза произнесена с приблизительно постоянным значением ЧОТ. Последовательность фонем во фразе /i y e a o u/ выбрана для обеспечения минимальных изменений артикуляции при переходах от звука к звуку.

Дальнейшее исследование возможностей фазового анализа для сегментации речи выполнялось на записях речи на китайском языке.

Содержание XXV сессия Российского акустического общества, Сессия Научного совета по акустике РАН Акустика речи На рисунке 2.2 приведен пример анализа слов /dai4 ya4 ye1 ya4 yu2 yue4/, представляющих начальную часть предложения /dai4 ya4 ye1 ya4 yu2 yue4 pu1 jiu ye3 wei4 neng2 zu3 zhi3 zhe4 ge4 jin4 qiu2/, произнесенного женщиной с ЧОТ, изменявшейся в пределах от 150 до 360 Гц.

Рис. 2.1. Анализ фразы /i y e a o u/ Рис. 2.2. Анализа фразы /dai4 ya4 ye1 ya4 yu2 yue4/ На рисунках 2.1 и 2.2 использованы следующие обозначения:

а) осциллограмма сигнала;

б) узкополосная спектрограмма, полученная в результате преобразования Фурье кадров длительностью 40 мс с шагом 2.5 мс;

в) спектрограмма линейного предсказания, вычисленная как АЧХ фильтра предсказания 12-го порядка на кадрах длительностью 40 мс с шагом 2.5 мс;

г) фазовый квазиинвариант 12,3 (t ) = 1 (t ) + 3 (t ) 2 2 (t ) ;

д) усредненная по частоте с интервалом анализа = 0.040 мс производная по времени спектрограммы линейного предсказания P (, t ) (t ) = ln P(, t ) d, где = 2f Fs – нормирования частота f ;

P (, t ) – спектральная плотность мощности спектрограммы линейного предсказания. Эта характеристика сходна с известной оценкой [4] расстояния log spectral distance d (P, P ) ln P( ) ln P( ) d.

= p Различие состоит лишь в том, что функция log spectral distance является неотрицательной, а (t ) принимает как положительные (для участков увеличения мощности компонентов в сигнале), так и отрицательные (для участков ослабления компонентов в сигнале) значения.

Содержание XXV сессия Российского акустического общества, Сессия Научного совета по акустике РАН Акустика речи е) логарифм отношения расстояний Итакуры-Саито между кадрами спектральной плотности P (, t ) ( ) мощности: IS 2 (t ) = ln (G (, t ) ln G (, t ) 1)d G 1 (, t ) + ln G (, t ) 1 d, где G (, t ) =.

P (, t ) Функция IS 2 (t ) является вариантом COSH-функции, в которой сумма расстояний Итакуры-Саито заменена разностью для достижения её сходства с производной спектрограммы линейного предсказания.

Приведенные рисунки отражают одну из наиболее сложных проблем сегментации речи – разделение нескольких подряд расположенных вокализованных звуков.

Как видно из рисунка 2.1 сегментация непосредственно по осциллограмме, спектрограмме, производной спектрограммы линейного предсказания либо COSH-функции довольно затруднительна. В то же время в функции фазового квазиинварианта довольно четко отмечаются области квазистационарности и переходные участки. Аудитивный анализ подтвердил, следующие границы звуков:

звук /i/ – [0.1, 0.5] c., звук /y/ – [0.7, 1.0] c., звук /e/ – [1.2, 1.45] c., звук /a/ – [1.65, 2.0] c., звук /u/ – [2.6, 3.0] c. Границы звука /o/ точно определить не удалось ввиду значительной сглаженности перехода между звуками /a o u/.

Из примера анализа фразы /dai4 ya4 ye1 ya4 yu2 yue4/, приведенного на рисунке 2.2, видно, что предварительную сегментацию фразы на звуки можно успешно выполнять при помощи производной спектрограммы линейного предсказания и функции IS 2 (t ). Вместе с тем, краткие изменения в положении артикуляторов эффективнее детектировать при помощи анализа фазового квазиинварианта. Например, границы звука /j/ равные [1.1, 1.171] гораздо точнее определяются при помощи анализа фазового квазиинварианта, чем при помощи функций (t ) и IS 2 (t ).

Проведенные эксперименты показали, что различение тональных звуков слитной китайской речи только по контуру изменения основного тона, предложенное в патенте [5], является весьма затруднительным. Оно может быть эффективным только для изолированных вокализованных тональных звуков. В слитной китайской речи наблюдаются довольно значительное взаимное влияние смежных звуков друг на друга. В связи с этим, привлечение межкомпонентного фазового анализа гармонических составляющих речевого сигнала при сегментации соседних вокализованных звуков следует считать представляющим практический интерес.

Выводы Для изучения межкомпонентных соотношений между гармониками тональных речевых сигналов на китайском языке использован компьютерный анализ фазового квазиинварианта колебаний на основном тоне и двух ближайших к нему обертонов. Создано диалоговое программное средство, автоматизирующее такую обработку речевых сигналов. Разработанное средство анализа является хорошим дополнением к известным методам контекстно-независимой сегментации речи, позволяющим повысить эффективность отделения вокализованных участков речи и детектировать малые изменения артикуляции. К недостаткам средства следует отнести его чувствительность к шумам и большую вычислительную сложность по сравнению с процедурами, использующими производную спектра или COSH-функцию.

Необходимо отметить, что кроме рассмотренных функций фаз в виде фазового инварианта и фазового квазиинварианта интерес могут представить и другие межкомпонентные характеристики речевого сигнала. Обработка тональных речевых сигналов при применении следящих режимов оценки частоты основного тона нуждается в дополнительном изучении.

Разработанные и исследованные способы и средства межкомпонентной обработки сигналов применимы не только для речевых сигналов, но и, например, для акустических шумов вибраций механизмов и машин.

Л И Т Е Р А Т УР А Воробьев В.И., Давыдов Г.В., Шамгин Ю.В. Фазовые соотношения между основным тоном и обертонами гласных 1.

звуков //Доклады Белорусского государственного университета информатики и радиоэлектроники, № 2(14), 20 июня 2006 г. - С. 64-68.

Азаров И.С., Воробьев В.И., Давыдов А.Г., Петровский А.А. Исследование связи между квазигармоническими 2.

составляющими речевого сигнала //Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. Аэроакустика // Сборник трудов научной конференции «Сессия научного Совета РАН по акустике и XXIV сессия Российского акустического общества». Т.3.-М.: ГЕОС, 2011. - С. 16-20.

3. D. Talkin, “A robust algorithm for pitch tracking (RAPT),” in Speech coding and synthesis, Eds.: Elsevier Science, 1995, pp.

495-518.

4. L. Rabiner and B-H Juang, "Fundamentals of Speech Recognition", Prentice-Hall 1993, ISBN 0-13-015157- 5. US 6,553,342 B1, Apr. 22, 2003. Tone based speech recognition //Yaxin Zhang, Jianming Song, Anton Madievski.

Содержание XXV сессия Российского акустического общества, Сессия Научного совета по акустике РАН Акустика речи УДК591.582. К.О. Уплисова ОСОБЕННОСТИ СПЕКТРА ШЕПОТНЫХ ГЛАСНЫХ РУССКОГО ЯЗЫКА Санкт-Петербургский государственный университет Россия, 199034, Санкт-Петербург, Университетская наб., 7/ Тел.: (812) 328-97- E-mail: sehmet@fromru.com С целью выявления ключевых характеристик спектра гласных звуков, обуславливающих идентификацию фонетической категории независимо от условий генерации была проведена модификация пяти категорий шепотных гласных русского языка. Предшествующий анализ мощности спектральных компонентов звуков категорий «у», «о», «а» выявил наличие выраженных спектральных компонентов в полосе 600-800 Гц для звуков «у», 800-1100 Гц для звуков «о», 1100-1500 Гц для звуков «а». Звуки категории «и» и «э» имели две, выраженные по мощности области спектра, в диапазоне 100-500 и 3100-5200 Гц для «и» и 800-1100 Гц и 2000 3000 Гц для «э». В связи с этим у звуков категории «у» уменьшалась амплитуда спектральных компонентов а) с частотой ниже 400 Гц и б) выше 400 Гц. У звуков «о» понижалась амплитуда спектральных максимумов а) с частотой ниже 800 Гц, б) с частотой выше 800 Гц. У звуков «а» понижалась амплитуда спектральных максимумов а) с частотой ниже 1100 Гц, б) с частотой выше 1100 Гц (Рис. 2). У звуков «э» понижалась амплитуда спектральных максимумов а) в диапазоне 500-1000 Гц, б) в диапазоне 1700-2500 Гц, в) с частотой выше 2500 Гц. У звуков «и» понижалась амплитуда спектральных максимумов а) с частотой ниже 800 Гц, б) с частотой выше 2500 Гц. Наибольший эффект оказало подавление спектральных компонентов в диапазоне:

500-1000 Гц для категории «э» и выше 2500 Гц для категории «и».Определенный эффект также оказало подавление спектральных максимумов ниже 400 Гц для «у», выше 800 Гц для «о» и выше 1100 Гц для «а».

ВВЕДЕНИЕ Исследования шепотных звуков ведутся за рубежом с середины прошлого века [1, 2, 3, 4], но в отечественной литературе малоизвестны. Шепотная речь, то есть речь, произносимая без колебания голосовых складок, обладает значительно меньшей амплитудой, чем звучащая, лишена гармонической структуры и содержит значительное количество шума. Если для гласных звуков звучащей речи основным признаком, позволяющим различать фонетические категории, являются значения частот первых двух формант, то для шепотных гласных определение этих значений чаще всего затруднительно. В спектрах подобных звуков более или менее выраженные по амплитуде спектральные составляющие могут занимать области до нескольких сот герц шириной. В связи с этим определение значений «формант»

шепотных звуков является непростой задачей, которая каждым исследователем решается индивидуально.

Первое исследование шепотных гласных звуков было проведено еще Гельмгольцем [5]. С середины прошлого века был начат ряд исследований шепотной речи на различных языках. Уделялось внимание таким вопросам, как возможность определения пола говорящего [2, 6], характеристики «формант»

шепотных гласных [3, 7, 8, 9, 10], особенности восприятия шепотных согласных [11, 12], определение высоты голосав шепоте[3, 13, 14], диагностика состояния эмоциональной напряженности (стресса) по шепотной речи [15,16]. К данному моменту получены значения частот «формант» для различных категорий шепотных гласных английского [3, 10], сербского [7] японского [9] и чешского [8] языков. Во всех работах показано, что значения «формант» шепотных гласных не совпадают со значениями формант гласных звуковой речи, так как они смещены в высокочастотную область. С другой стороны есть данные о том [3, 5], что для восприятия шепотных гласных достаточно одной «форманты». По данным Гельмгольца [3], наибольшее значение имеет первая «форманта» для гласных заднего ряда и вторая - для гласных переднего ряда. По данным Томаса [3], слушателями воспринимается, в первую очередь, вторая «форманта» для всех категорий гласных. Значения первых двух «формант» для шепотных гласных различных языков в значительной степени отличаются (даже при сходном количестве фонетических категорий), что может быть обусловлено не только языковыми особенностями, но и методами определения значений частот формант. Таким образом, несмотря на проведенные исследования, нельзя сказать, что акустические особенности шепотных гласных исследованы достаточно, а в русскоязычной литературе таких работ вообще не было обнаружено. В связи с исследованиями ключевых спектральных характеристик гласных звуков, позволяющими идентифицировать фонетическую категорию независимо от способа генерации [17, 18] была проведена работа по анализу акустических характеристик шепотных гласных звуков русского языка[19,20], что для гласных звуков, произносимых шепотом, характерно наличие максимумов в частотных полосах: 630-770 Гц для «у», 770-915 Гц для «о», 915-1260 Гц для «а», 770-915 Гц и 1990-3125Гц для «э», 3125-3675 Гц для «и». Для большинства шепотных гласных также характерно наличие выраженных спектральных компонентов в низкочастотной (ниже 400 Гц) и высокочастотной (выше 3000 Гц) областях спектра. В данной работе исследовалось влияние модификации Содержание XXV сессия Российского акустического общества, Сессия Научного совета по акустике РАН Акустика речи спектральных компонентов шепотных гласных категорий «у», «о», «а», «э» и «и» на восприятие их фонетической категории.

МЕТОДИКА Для решения поставленной задачи была проведена запись шепотных гласных пяти категорий: «а», «о», «у», «и», «э». Предварительно были отобраны слова, в которых гласный звук после изоляции сохранял четкое фонемное звучание. Перед двумя дикторами-женщинами (возраст 25-30 лет) ставилась задача максимально четко произнести шепотом набор из этих 153 слов. Запись осуществлялась на компьютер с помощью звуковой карты AardvarkDirectMixUSB и микрофона SennheiserE855 с частотой дискретизации 44100 Гц. Выделялись гласные, находившиеся в ударном положении, однородные по звучанию на слух и по частотно-временным характеристикам спектра. Их длительность должна была быть не меньше 90 мс. Изолированные гласные идентифицировались в перцептивном эксперименте с помощью функции программы PraatExperimentMFC (множественный принудительный выбор). Звуки прослушивались пятью аудиторами, которые должны были, прослушав звук, отнести его к одной из шести категорий (а, о, у, и, э, ы) и оценить качество звука по шкале от 1 (плохой) до 3 (хороший). В результате эксперимента были отобраны звуки, которые всеми пятью аудиторами были отнесены к одной категории и оценены на 3 балла.

Ранее было показано [19, 20], что для шепотных звуков характерно наличие выраженных спектральных компонентов в низко- и высокочастотных зонах спектра. Выраженность этих компонентов зависит от диктора, но наиболее низкочастотные компоненты выражены у звуков категорий «у» и «и», а высокочастотные у категорий «и», «э», «а». Для выявления их значения для идентификации фонетической категории была проведена модификация спектров этих звуков, в результате которой были удалены (при их наличии) спектральные компоненты с частотой ниже 300 Гц и выше 4000 Гц (Рис. 1).

Рис. 1. Модификация спектра шепотного гласного «э», путем понижения амплитуды низко и высокочастотных областей спектра.

Слева – оригинальный звук, справа – модифицированный. Стрелками указаны участки изменения спектра. По горизонтальной оси – частота, Гц, по вертикальной – амплитуда, дБ.

Для выявления значения для восприятия фонемы оставшихся выраженных по амплитуде областей спектра каждый звук модифицировался следующим образом: у звуков категории «у» уменьшалась амплитуда спектральных компонентов а) с частотой ниже 400 Гц и б) выше 400 Гц. У звуков «о» понижалась амплитуда спектральных максимумов а) с частотой ниже 800 Гц, б) с частотой выше 800 Гц. У звуков «а»

понижалась амплитуда спектральных максимумов а) с частотой ниже 1100 Гц, б) с частотой выше 1100 Гц (Рис. 2). У звуков «э» понижалась амплитуда спектральных максимумова) в диапазоне 500-1000 Гц, б) в диапазоне 1700-2500 Гц, в) с частотой выше 2500 Гц. У звуков «и» понижалась амплитуда спектральных максимумов а) с частотой ниже 800 Гц, б) с частотой выше 2500 Гц. Данные диапазоны были выбраны в связи с тем, что анализ мощности спектральных компонентов звуков категорий «у», «о», «а» [20] выявил наличие выраженных спектральных компонентов в полосе 600-800 Гц для звуков «у», 800-1100 Гц для звуков «о», 1100-1500 Гц для звуков «а». Звуки категории «и» и «э» имели две, выраженные по мощности области спектра, в диапазоне 100-500 и 3100-5200 Гц для «и» и 800-1100 Гц и 2000-3000 Гц для «э».

Однако, вместе с тем, присутствовали значительные отличия спектров шепотных гласных, произнесенных разными дикторами.

Идентификация звуков осуществлялась с помощью функции программы Praat ExperimentMFC (множественный принудительный выбор). Модифицированные гласные идентифицировались в перцептивном эксперименте четырьмя аудиторами, постоянно участвующими в подобных экспериментах, Содержание XXV сессия Российского акустического общества, Сессия Научного совета по акустике РАН Акустика речи которые должны были, прослушав звук, отнести его к одной из шести категорий (а, о, у, и, э, не гласный) и оценить качество звука по шкале от 1 (плохой) до 3 (хороший). Звук считался изменившим категорию, если два из четырех аудиторов давали оценки, отличные от категории оригинального звука.

а б Рис. 2. Модификация спектра шепотного гласного «а»

а – спектр оригинального звука, б – спектр звука с в пониженным по амплитуде диапазоном 1100-2000 Гц, в - спектр звука с пониженным по амплитуде диапазоном 600-1100 Гц. Стрелками выделены области модификации.

По горизонтальной оси – частота, Гц. По вертикальной оси – амплитуда, дБ.

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ Всего был модифицирован37 звук «у»,33 звука «о», 31 звук «а», 35 звуков «э», 26 звуков «и». В результате первой модификации было определено влияние спектральных компонентов ниже 300 Гц и выше 4000 Гц на восприятие категории гласного. По сравнению с немодифицированными звуками изменилась идентификация 30% звуков категории «у». Они были идентифицированы как «о». Однако ни одна из последующих модификаций не ухудшила идентификации категории. В случае понижения амплитуды спектральных компонентов ниже 400 Гц те же 30% звуков идентифицировались как «о». После удаления спектральных компонентов выше 400 Гц, 100% звуков идентифицировались как «у», но с качеством 1 (плохой). При понижении амплитуды спектральных компонентов звука «о» ниже 800 Гц идентификация звука не изменилась тремя из четырех аудиторов.

Один же из аудиторов счел звук изменившим категорию с «о» на «а» для 45% звуков. При понижении амплитуды спектральных компонентов выше 800 Гц 40% звуков были идентифицированы по-другому.

Причем для одного из аудиторов категорию изменили 100% звуков «о», и он их идентифицировал как «у».

Понижение спектральных компонентов с частотой ниже 1100 Гц для звука «а» не повлияло на его идентификацию, а понижение амплитуды спектральных компонентов выше 1100 Гц привело к идентификации 30% модифицированных звуков «а» как «э».

Звук категории «э» модифицировался тремя разными способами в связи с тем, что в диапазоне 1700- Гц, в спектрах присутствовало два четких максимума. Однако понижение самого высокочастотного из них (диапазон 2500-4000 Гц) не повлияло на модификацию категории «э». При удалении максимума в области 1700-2500 Гц идентификация категории упала на 30%. При удалении первой выраженной по амплитуде зоны спектра (500-1000 Гц) идентификация категории упала на 70%. Стоит отметить, что для одного из четырех аудиторов более 90% звуков изменили категорию, а для другого лишь 20%.

Понижение амплитуды низкочастотной области спектра звуков категории «и» не повлияло на их перцептивную оценку, а в случае удаления высокочастотной области 100% звуков были идентифицированы как «у». Результаты идентификации гласных звуков представлены в таблице 1.

Представленные результаты являются предварительными и основаны на анализе восприятия категорий модифицированных шепотных звуков, произнесенных двумя дикторами. В дальнейшем количество Содержание XXV сессия Российского акустического общества, Сессия Научного совета по акустике РАН Акустика речи анализируемых звуков и аудиторов будет увеличено. Однако уже на данном этапе можно отметить, что помимо значительных отличий спектральных характеристик шепотных звуков, произнесенных разными дикторами [20], также присутствует специфичность в восприятии звуков с различными искажениями спектральных компонентов. Тем не менее, первые результаты идентификации модифицированных шепотных гласных подтверждают значимость для восприятия фонетической категории «и» только высокочастотного диапазона, а для звука «э» - двух максимумов. Для идентификации категории «а»

существенное значения имеют спектральные компоненты выше 1100 Гц, «о» - выше 800 Гц, «у» - ниже 400 Гц.

Табл. 1. Идентификация модифицированных шепотных гласных У О А Э И Модиф ниже 300 Гц и выше 4000 Гц 70% 100% 100% 100% 100% Модифа) 70% 100% 100% 30% 100% Модифб) 100% 60% 70% 70% 0% Модифв) 100% В таблице представлен процент сохранения восприятия соответствующей категории в результате трех (четырех для звука «э») способов модификации спектра.

ВЫВОДЫ На идентификацию шепотных гласных звуков не оказывает влияния подавление спектральных компонентов в диапазоне: ниже 1100 Гц для категории «а», ниже 800 Гц для категории «и», выше 2500 Гц для категории «э». На идентификацию шепотных гласных звуков оказывает существенное влияние подавление спектральных компонентов в диапазоне: 500-1000 Гц для категории «э» и выше 2500 Гц для категории «и».

Л И Т Е РА Т У Р А 1. Meyer-EpplerW.RealizationofProsodicFeaturesinWhisperesSpeech // Journal of the Acoustical Society of America. 1957. V.

29. № 1. P. 104-106.

2. Schwartz M.F., Rine H.E. Identification of Speaker Sex from Isolated, Whispered Vowels // Journal of the Acoustical Society of America. 1968. V. 44. № 6. P. 1736-1737.

Thomas I.B. Perceived Pitch of Whispered Vowels // Journal of the Acoustical Society of America. 1969. V. 46. № 2. P. 468 3.

470.

4. McGlone R.E., Manning W.H. Role of Second Formant in Pitch Perception of Whispered Vowels // Folia Phoniatrica. 1979.

V. 31. P. 9-14.

5. von Helmholtz H.L.F. On the Sensation of Tone. New York. Dover Publication, Inc. 1954. 108 p.

6. Lass N.J. et al. Speaker Sex Identification from Voiced, Whispered, and Filtered Isolated Vowels // Journal of the Acoustical Society of America. 1976. V. 59. № 3. P. 675-678.

7. Jovicic S.T. Formant Feauture Differences between Whisperes and Voices Sustained Vowels // Acta Acustica United whih Acustica. 1998. V. 84. P. 739-743.

8. Grepl M. et al. The F1-F2 Vowel Chart for Czech Whispered Vowels A, E, I, O, U // Biomedical Papers of the Medical Faculty of the University Palacky, Olomouc, Czech Repub. 2007. V. 151. № 2. P. 353-356.

9. Ito T. et al. Analysis and recognition of whispered speech // Speech Communication. 2005. V. 45. P. 139-152.

10. Sharifzadeh H.R. at al. A Comprehensive Vowel Space for Whispered Speech // Journal of Voice. 2011.

doi:10.1016/j.jvoice.2010.12.002.

Dunnenbring G.L.PerceptualDiscrimination of Whisperes Phoneme Pairs // Perceptual and Motor Skills. 1980. V. 51. № 979 11.

985.

Jovicic S.T., Saric Z. Acoustic Analysis of Consonants in Whispered Speech // Journal of Voice. 2008. V. 22. № 3. P. 263 12.

274.

13. Higashikawa M., Minifie F.D. Acoustical-perceptual correlates of 'whisper pitch' in synthetically generated vowels // Journal of Speech, Language, and Hearing Research. 1999. V. 42. № 3. P. 583-591.

Tartter V.C. What's in a whisper? // Journal of the Acoustical Society of America. 1989. V. 86. № 5. P. 1678-1683.

14.

15. Heeren W.F.L. Intonation in Whispered Dutch:correlates of production and perception. Phd Thesis. Leiden, the Netherlands.

Leiden University. 2001.

16. Vilkman E. at al. On Stress Production in Whispered Finnish // Journal of Phonetic. 1987. V. 15. P. 157-168.

Уплисова К.О. Акустический и аудиторский анализ гласноподобных звуковcерого (Psittacuserithacus) и волнистого 17.

(Melopsittacusundulatus) попугаев //Сенсорные системы. Т.20. №3. 2006. с. 229-237.

Уплисова К.О. Говорящие птицы: особенности модифицированных гласных звуков // XХсессияРоссийского 18.

акустического общества.Сборниктрудов. Т. 3. - М.: ГЕОС. 2008. с. 110-113.

Уплисова К.О.Акустическиепризнакигласныхзвуковснегармоническойструктурой // 19. XХIIсессияРоссийского акустического общества.Сборниктрудов. Т. 3. - М.: ГЕОС. 2010. с. 88-92.

Уплисова К.О. Акустические характеристики гласных звуков с негармонической структурой // Седьмой 20.

междисциплинарный конгресс "Нейронаука для медицины и психологии". 2011, тезисы доклада Содержание XXV сессия Российского акустического общества, Сессия Научного совета по акустике РАН Акустика речи УДК 004. Зулкарнеев М.Ю., Сальман С. Х., Шамраев Н.Г.

СТАТИСТИЧЕСКИЙ МЕТОД ПОСТРОЕНИЯ ФОНЕТИЧЕСКИХ ТРАНСКРИПЦИЙ СЛОВ, ИСПОЛЬЗУЮЩИЙ КОНЕЧНЫЕ АВТОМАТЫ С ВЕСАМИ ФГНУ "НИИ "Спецвузавтоматика" Россия, г. Ростов-на-Дону, пер. Газетный 51, тел. (863) 201-28-15, факс (863) 201-28-17, sva@rsu.ru При решении задачи распознавания речи часто возникает задача генерации фонетической транскрипции слов по их графемному представлению.


Для этого обычно используются правила чтения для данного языка. Однако, создание полного набора правил чтения является весьма трудоемкой задачей. В данной работе предлагается метод построения транскрипции, использующий статистический подход к построению фонетических транскрипций слов. В нем для моделирования статистических закономерностей произношения используется n-граммная модель. Она используется для моделирования последовательностей пар "графема-фонема", и фонетической транскрипцией слова считается наиболее вероятная последовательность фонем для данной последовательности графем. Для работы с n-граммной моделью языка используется подход, основанный на конечных автоматах с весами. Эксперименты, проведенные для английского и арабского языка показывают состоятельность предлагаемого метода для генерации фонетических транскрипций слов на основе их графемного представления.

ВВЕДЕНИЕ Необходимость построения фонетических транскрипций слов возникает при решении различных задач обработки естественного языка. Например, при решении задачи распознавания речи требуется построение фонетической транскрипции речевого сообщения при обучении акустических моделей. Также при синтезе речи по тексту требуется построение фонетической транскрипции текста.

Наиболее простой способ построения фонетических транскрипций - это использование словаря фонетических транскрипций. Однако этот подход имеет недостатки, связанные с ограниченностью словаря, а также с тем, что для его разработки требуется привлечение специалистов, что может быть неприемлемо из-за ограниченности временных, или финансовых ресурсов.

В связи с этим возникает задача автоматического построения фонетических транскрипций слов по их графемному виду. Для построения фонетической транскрипции могут быть использованы правила чтения [1], которые задают способ чтения букв в различных контекстах. Недостатком этого метода является то, что правила чтения создаются вручную и для этого требуется привлечение специалистов, способных записать полный набор правил чтения, который бы адекватно отражал фонетические явления в данном языке. Это также может быть связано с трудностями из-за ограниченности временных, или финансовых ресурсов.

Поэтому встает задача создания системы автоматического построения фонетических транскрипций слов, которую можно было бы обучить статистическими методами без привлечения людских ресурсов. В работе [2] предлагается статистический метод построения фонетической транскрипции слов по их графемному виду с использованием статистической модели пар последовательностей символов (joint-sequence model). Для обучения параметров модели используется обучающий словарь фонетических транскрипций. В этой работе на различных фонетических словарях продемонстрирована высокая точность метода.

В данной работе предлагается аналогичный метод статистического моделирования пар последовательностей символов, однако вместо применения новых математических моделей в ней предлагается использовать хорошо известную n-граммная модель языка. Результатом работы транскриптора является фонетическая транскрипция, которая является наиболее вероятной для данной последовательности графем (букв) в соответствии с данной n-граммной моделью. Для работы с n граммной моделью языка используется подход, основанный на конечных автоматах с весами.

Использование формализма конечных автоматов позволяет избежать необходимости создавать собственное программное средство для нахождения наиболее вероятной последовательности фонем. Для работы с конечными автоматами с весами в статье использована библиотека OpenFST с открытым исходным кодом [3]. Далее приводится более подробное описание метода, а также описание экспериментов и их результаты.

ОПИСАНИЕ МЕТОДА Построение фонетической транскрипции слова, представленного в виде последовательности букв, можно представить как преобразование входной последовательности символов в выходную последовательность символов, выполняемое при помощи конечного автомата. В работе предлагается метод, основанный на этой аналогии. Суть метода состоит в том, чтобы построить конечный автомат, который на вход получал бы последовательность букв, а на выходе выдавал соответствующую ей последовательность фонем. В качестве такого конечного автомата в работе предлагается использовать Содержание XXV сессия Российского акустического общества, Сессия Научного совета по акустике РАН Акустика речи конечный автомат с весами, представляющий n-граммную модель языка, обученную на последовательностях пар "Буква-фонема" (в качестве иллюстрации в таблице 1 приводится последовательность пар "Буква-фонема" для английского слова " сalifornia").

Таблица 1- Последовательность пар "Буква-фонема", соответствующая английскому слову " California" C A L I F O R N I A сalifornia k ae l ah F ao r n y ah Эти последовательности получаются в результате обработки имеющегося словаря фонетических транскрипций, который используется для обучения. Такой конечный автомат будет содержать в себе информацию о наиболее вероятных последовательностях пар "Буква-фонема", имеющихся в словаре, и чтобы найти при помощи этого конечного автомата фонетическую транскрипцию некоторого слова необходимо найти наиболее вероятную последовательность пар "Буква-фонема", соответствующую входной последовательности букв.

Практическая реализация алгоритма обучения конечного автомата была выполнена в виде итерационного алгоритма, в котором на каждом шаге создается все более точная n-граммная модель (и соответствующий ей конечный автомат) последовательностей пар "Буква-фонема".

Алгоритм состоит из 5 шагов:

Шаг 1. Создание начального автомата, который любой букве ставит в соответствие любую фонему (см. рис. 1).

Рис.1 - Конечный автомат, который любой последовательности букв ставит в соответствие любую последовательность фонем Шаг 2. Создание последовательностей пар "Буква-фонема" для каждого слова. Для этого для каждого слова ищется наиболее вероятная последовательность пар "Буква-фонема" (ищется оптимальный путь в конечном автомате).

Шаг 3. Обучение n-граммной модели языка на полученных на 2 шаге последовательностях пар "Буква-фонема".

Шаг 4. Создание конечного автомата, соответствующего полученной на шаге 3 n-граммной модели языка.

Шаг 5. Переход к шагу 2, если точность транскрибирования с использованием полученного на шаге 4 конечного автомата не достаточна, иначе завершение алгоритма.

РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТОВ Для проверки предлагаемого метода были проведены эксперименты с использованием свободно распространяемого словаря фонетических транскрипций для американского английского языка CMUdict [4]. Словарь был случайным образом разбит на две части: 69755 слов для обучения, 815 для тестирования.

было обучено 6 моделей с размером грамматик от 1 до 6 включительно. При обучении было проведено итераций. Для каждой итерации была выполнена оценка точности транскрибирования слов из тестирующей выборки. Для оценки точности использовалась -оценка [5]. Результаты экспериментов приведены в таблице 2.

Таблица 2 - Точность метода в зависимости от номера итерации для английского языка № итерации 0 1 2 3 4 5 6 7 n-граммность 1 1 2 3 3 4 5 6 Точность % 50,8 61,81 77,15 89,82 90,02 94,49 95,49 95,72 95, Содержание XXV сессия Российского акустического общества, Сессия Научного совета по акустике РАН Акустика речи Наилучшая точность транскрибирования на тестирующей выборке, которую показали эксперименты, составила 95,72 % для размера грамматик, равного 6. Такой высокий показатель означает, что n-граммная модель языка способна эффективно находить фонетические закономерности в языке с учетом окружающего контекста.

ЛИТЕРАТУРА 1. V. D. Ivanov, R. K. Potapova, M. Y. Zulkarneev, A heuristic method of grapheme-to-phoneme conversion, Proceedings of 10th International Conference on SPEECH and COMPUTER "Specom2005", v.I, pp.263-264.

2. M. Bisani, H. Ney, Joint-sequence models for grapheme-to-phoneme conversion, Speech Communication, v. 50, issue 5, May, 2008.

3. C. Allauzen, M. Riley, J. Schalkwyk, W. Skut, M. Mohr, OpenFst: A General and Efficient Weighted Finite-State Transducer Library, CIAA 2007: 11-23.

4. http://www.speech.cs.cmu.edu/cgi-bin/cmudict 5. J. Makhoul, F. Kubala, R. Schwartz, R. Weischedel, Performance measures for information extraction, in Proceedings of DARPA Broadcast News Workshop, Herndon, VA, February 1999.

УДК 004. М.Ю. Зулкарнеев, Н.Г. Шамраев МЕТОДЫ ПОСТРОЕНИЯ ПРАВИЛ ДЛЯ ВЕРОЯТНОСТНОЙ КОНТЕКСТНО СВОБОДНОЙ ГРАММАТИКИ ХОМСКОГО В ЗАДАЧЕ РАСПОЗНАВАНИЯ РЕЧИ ФГНУ "НИИ "Спецвузавтоматика" Россия, г. Ростов-на-Дону, пер. Газетный тел. (863) 201-28-15, факс (863) 201-28- sva@rsu.ru В настоящее время в распознавании речи при декодировании широко используются n-граммные языковые модели. Одним из наиболее перспективных методов улучшения их работы является использование результатов синтаксического анализа предложения. Важнейшим вопросом при проведении синтаксического анализа с помощью контекстно-свободных грамматик является построение правил такой грамматики.

В статье рассматриваются методы генерации правил синтаксической языковой модели для контекстно-свободной грамматики русского языка. Первый метод создания правил основан на статистической обработке множества подготовленных и синтаксически разобранных предложений. Второй метод позволяет поэтапно вводить отдельные синтаксические группы, используя теорию синтаксических структур естественного языка. В статье проводится сравнение обоих методов, а также обсуждаются другие аспекты, связанные с построением синтаксических правил для русского языка.

ВВЕДЕНИЕ Ранее в работах [1,2] описывалось применение синтаксического анализа с помощью вероятностных контекстно-зависимых грамматик Хомского (PCFG, [5]) для повышения точности распознавания речи. В частности, рассматривалось использование алгоритма Коке-Касами-Янгера (CKY) для поиска оптимальной гипотезы в решётке слов, получаемой в результате работы СММ декодера на основе алгоритмов Баум-Уолша и Витерби.


Важнейшую роль для правильного применения контекстно-зависимых грамматик играет выбор элементов (классов) грамматики и вероятностных правил, фактически определяющих возможные структуры синтаксического разбора предложения. В этой статье более подробно рассматриваются методы построения вероятностных правил для русского языка. Правила для английского языка разработаны и широко используются для синтаксического анализа уже с начала 1990-x годов.

ОПИСАНИЕ МЕТОДОВ Первый рассмотренный метод построения правил основан на обработке большого текстового корпуса, синтаксически размеченных предложений Национального корпуса русского языка [6,7].

Пример разобранного предложения приведен на Рис. 1:

В качестве элементов грамматики были выбраны все узлы дерева, входящие в предложения корпуса размеченных предложений. Например, в приведённом предложении используются элементы (в латинской транскрипции): A_ED_MWJ_IM, V_NESOV_IZYV_NEPROSH_3L, V_NESOV_INF, CONJ, ADV, PART, PR и S_ED_MWJ_ROD_NEOD. Такая индексация грамматических классов с помощью суффиксов удобна для понимания и для дальнейшей обработки получаемых правил.

Содержание XXV сессия Российского акустического общества, Сессия Научного совета по акустике РАН Акустика речи Правила естественным образом получаются как ветвления в каждом дереве разобранного предложения. Начальные вероятности для каждого правила задаются их частотой встречаемости в текстовом корпусе обучения. Для уточнения значений этих вероятностей используется алгоритм Бейкера (также известный как In-out algorithm, см. [4]). В процессе построения грамматика Хомского приводится вначале к нормальному виду [3], т.е. допустимыми являются только унарные и бинарные правила.

Рис. 1. Пример синтаксически разобранного предложения.

Преимущества метода: К преимуществам метода можно отнести наиболее полный учёт зависимостей между словами предложения, корректность правил, основанных на ручном разбиении лингвистами-экспертами. Получаемые на выходе разборы предложения в большинстве случае близки к оптимальным.

Недостатки метода: Основным недостатком метода является большое количество правил, а также большая глубина разбора (т.е. количество переходов от стартового слова к терминальным символам). В результате требования к памяти и быстродействию при вычислениях очень значительны.

Второй метод основан на использовании локальных синтаксических групп. Слова, принадлежащие различным частям речи, но склоняющиеся или спрягающиеся по одному типу (падежу, роду, лицу), будут образовывать синтаксическую группу, соответствующую типу спряжения (склонения). Идея использования таких типов групп пришла из правил для синтаксической группы NP (Noun phrase) в английском языке.

В качестве примера рассмотрим синтаксическую группу существительного. Она может состоять из самого существительного и зависимых слов: предлогов и прилагательных (определений).

Тогда в качестве базовых правил например, для группы существительного единственного числа, мужского рода и родительного падежа можно выбрать следующие:

GROUP_ED_MWJ_ROD -- S_ED_MWJ_ROD GROUP_ED_MWJ_ROD -- OPRED_ED_MWJ_ROD S_ED_MWJ_ROD GROUP_ED_MWJ_ROD -- PR_ROD S_ED_MWJ_ROD GROUP_ED_MWJ_ROD -- S_ED_MWJ_ROD I_S_ED_MWJ_ROD, здесь S_ED_MWJ_ROD – обозначает категорию существительного единственного числа мужского рода родительного падежа, OPRED_ED_MWJ_ROD – обозначает категорию определения (в частности прилагательное) для сущ. единственного числа мужского рода родительного падежа, PR_ROD – обозначает категорию предлогов, употребляемых с родительным падежом, I_S_ED_MWJ_ROD - обозначает категорию союз «и» вместе с существительным единственного числа мужского рода родительного падежа.

Для остальных возможных грамматических классов, оставляем единственное правило вида h c, где h - вспомогательный класс-заменитель, с - любой класс, не входящий в правила для группы существительного. При обработке решётки слов, все слова получают класс- заменитель с одинаково низкой вероятностью, и за счёт этого, вероятность выделения синтаксической группы становится очень большой.

При задании начальных значений вероятностей используется статистическая информация о встречаемости правил, затем для уточнения значений производится ряд итераций алгоритма Бэйкера.

Содержание XXV сессия Российского акустического общества, Сессия Научного совета по акустике РАН Акустика речи Остановка итераций производится при достаточно малом изменении их значений (ниже заданного порога).

Описание выбора оптимальной гипотезы в решётке слов подробно описан в статье [2].

Данный метод позволяет выбирать совпадающие по падежи, роду, числу слова, таким образом уточнять грамматические категории слов группы существительного (падеж, род, число), и повышать точность распознавания речи.

Преимущества: по результатам экспериментов, достигаемое улучшение точности распознавания речи не уступает первому методу. Глубина разбора (т.е. количество переходов от стартового слова к терминальным символам), сравнительно небольшая (3-4). Поэтому скорость обработки значительно повышается (приблизительно в 8 раз), требования к памяти также значительно снижаются.

Недостатки: метод учитывает синтаксическую зависимость между близкими словами (локально), не может учитывать зависимые, но отстоящие друг от друга слова. Синтаксические группы необходимо задавать в явном виде, с помощью правил. При этом возможно учитываются не все возможные допустимые классы.

Тем не менее, для применения на практике второй метод гораздо более удобен. Во-первых, можно управлять синтаксическими группами, то есть дополнять или убирать множество правил, выделяющее группу. Если точность распознавания речи не улучшается при дополнении правил синтаксической группы, можно удалить их. Для совершенствования метода необходим поиск статистически наиболее значимых последовательностей частей речи.

ОПИСАНИЕ ЭКСПЕРИМЕНТОВ Для проведения экспериментов использовалась микрофонная речевая база, с количеством дикторов – 131. Речь материал базы представляет собой чтение художественной литературы непрофессиональными дикторами, то есть база обладает богатым лексическим содержанием.

В качестве базовой системы использовалась система, основанная на трифонах и трехграммной модели языка с объемом словаря 2857 слов. При распознавании использовался декодер со свернутой сетью распознавания. После этапа декодирования и получения решёток слов производилось их дополнительное сжатие. Для тестирования использовались решётки слов размера до 300 кб.

В результате экспериментов для русского языка применение второго метода синтаксического разбора позволило повысить точность с 79.8% до 81.4%, что по величине относительной ошибки не хуже результатов, полученных на основе первого метода [2]. В основном повышение достигается за счёт использования синтаксической группы существительного.

ЛИТЕРАТУРА 1. Батальщиков А.А., Зулкарнеев М.Ю., Шамраев Н.Г., Оценка гипотез с использованием синтаксического анализа // Сборник трудов XXII сессии Российского акустического общества и Сессии Научного совета РАН по акустике. Т. 3. – М.: ГЕОС, 2010. – С. 22-25.

2. Зулкарнеев М.Ю., Шамраев Н.Г., Сальман С.Х., Использование синтаксической информации для повышения точности распознавания речи. SPECOM’2011.

3. S.C. Levenson, Mathematical models for speech technology. John Wiley & Sons Ltd, NJ, USA, 2005.

4. J. Baker, Trainable grammars for speech recognition. In J.J. Wolf and D.H. Klatt, editors, Speech communications papers presented at the 97th meeting of the Acoustical Society of America, pages 547-550, Cambridge, MA, June 1979.

MIT.

5. Н. Хомский, Дж. Миллер, Введение в формальный анализ естественных языков. Кибернетический сборник, Вып. 1, стр. 229-292, Мир, 1965.

6. Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. – СПб.: Нестор История, 2009. – 502 с 7. http://www.ruscorpora.ru/index.html.

Содержание XXV сессия Российского акустического общества, Сессия Научного совета по акустике РАН Акустика речи УДК 004. И.С. Кипяткова, В.О. Верходанова, А.Л. Ронжин АНАЛИЗ ПАРАЛИНГВИСТИЧЕСКИХ ФОНАЦИОННЫХ ЯВЛЕНИЙ В АУДИОЗАПИСЯХ НАУЧНЫХ ДОКЛАДОВ Санкт-Петербургский государственный университет Россия, 199034, Санкт-Петербург, Университетская наб., д. 11.

Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук Россия, 199178 Санкт-Петербург, 14 линия, д. Тел.: (812) 328-7081;

Факс: (812) 328- E-mail: kipyatkova@iias.spb.su, interiora@gmail.com, ronzhin@iias.spb.su В статье представлены результаты анализа паралингвистических фонационных явлений, которые были выявлены в ходе сегментации корпуса русской речи, содержащего выступления шести докладчиков (трех мужчин и трех женщин) на небольшом научном семинаре. Общий объем корпуса составляет 70 минут.

Сегментация артефактов и заполненных пауз позволила оценить частоту появления и длительность этих элементов в речи докладчиков, а также среднюю частоту основного тона для каждого типа внеязыкового элемента. Для внеязыковых элементов, которые встретились в корпусе более двух раз, были созданы акустические модели. В результате были построены модели для трех типов артефактов (вдох, прочищение горла/кашель и причмокивание) и восьми типов заполненных пауз. Были проведены эксперименты по распознаванию выявленных внеязыковых элементов. Точность распознавания внеязыковых элементов в собранном корпусе составила в среднем 87 %.

При распознавании речи на вход системы распознавания, кроме полезного речевого сигнала, может поступать фоновый шум, а также паралингвистические фонационные явления, что существенно снижает точность распознавания речи. Для отделения шумов от речевого сигнала была разработана система идентификации акустических событий, таких как шаги, шелест бумаги, звон ключей и т.п. [1].

Паралингвистические средства не входят в систему языка и не являются речевыми единицами, однако в той или иной степени представлены в каждой речевой единице, сопровождая речь. К фонационным паралигвистическим средствам относятся темп, тембр, громкость речи, заполнители пауз (к примеру, «э-э», «м-м»), мелодика речи, диалектные, социальные или идиолектные особенности артикуляции звуков [2]. Присутствие паралингвистических фонационных явлений в разговорной речи существенно усложняет ее автоматическое распознавание [3, 4].

Вокализованные (озвученные) паузы могут быть вызваны различными причинами: сомнения, размышления и др. Чтобы не допустить разрыва во фразе и диалоге с собеседником, образовавшаяся пауза заполняется разного рода звуками. Это могут быть как растянутые звуки, напоминающие фонемы («а-а», «э-э», «м-м»), так и звуки явно нефонемной природы (кряхтение, хриплые «а», «о», «м») или даже комбинации звуков («хм», «гм», «ма»). При диалоге между людьми озвученные паузы помимо того, что не позволяют разорвать разговор, давая собеседнику понять, что оратор не закончил свое высказывание, также могут служить неким сигналом о помощи, обращенным к собеседнику. Артефакты – это преимущественно короткие неречевые элементы, например, причмокивание, цоканье языком, звуки, связанные с громким дыханием. Для системы автоматического распознавания речи вокализованные паузы и артефакты не несут информативной нагрузки и поэтому должны быть устранены на ранних уровнях обработки сигнала [5]. Устранение таких неинформативных элементов речевого сигнала на начальных стадиях обработки позволит избежать многих ошибок при распознавании речи, передавая на последующие уровни обработки только полезную для диалоговой системы информацию.

Наиболее подробно типы речевых сбоев и способы их аннотирования в корпусах устной речи рассмотрены в работе [6]. Выделяются две основные категории речевых сбоев: хезитации и самоисправления. В свою очередь самоисправления разделяются на два основных режима – онлайн коррекцию и ретроспективную коррекцию, или редактирование. В первом случае при обнаружении проблемы говорящий останавливает поток речи, в половине случаев даже не заканчивая слов, и далее формирует грамматически приемлемый и ситуационно уместный, с его точки зрения, фрагмент речи. При ретроспективной коррекции говорящий завершает проблемный отрезок и затем уточняет или исправляет предыдущий фрагмент речи.

При распознавании разговорной речи необходимо отделить паралингвистические явления от ключевых слов. В работе [7] для учета таких типов речевых сбоев как озвученная пауза, повтор слов, модификация предложения с самого начала было предложено два варианта стратегий. Во-первых, каждый тип сбоя может быть явно учтен в статистической модели языка декодера речи, и в случае его Содержание XXV сессия Российского акустического общества, Сессия Научного совета по акустике РАН Акустика речи обнаружения во фразе срабатывает альтернативный вариант модели, исключающий озвученную паузу, повторяющееся слово или неудачное начало фразы. Вторая стратегия основана на использовании внешнего модуля, производящего независимую параметрическую обработку сигнала и распознавание заданного набора озвученных пауз. Сегменты звукового сигнала, содержащие такие паузы, исключаются из последующей обработки и не подаются на вход основного декодера речи. Совместное применение стратегий для указанных корпусов позволило снизить уровень ошибок распознавания слов с 45 % до 36 %.

В работе [8] описывается метод обнаружения озвученных пауз и удлиненных слов на основе малого изменения частоты основного тона и незначительного изменения формы огибающей спектра при условии, что диктор не меняет артикуляторных параметров в течение заполненной паузы. Точность распознавания заполненных пауз при применении этого метода составила 84,9 %.

Для того чтобы отделить паралингвистические явления от ключевых слов и исключить их из дальнейшей обработки, нужно создать акустические модели таких явлений. Для обучения акустических моделей внеязыковых элементов в данном исследовании был собран корпус русской речи, который содержит доклады на семинаре шести человек (трех мужчин и трех женщин). Общий объем корпуса составляет 70 мин. В ходе сегментации корпуса были выделены артефакты и заполненные паузы хезитации – черты, свойственные любой спонтанной речи. Для обучения и тестирования использовались внеязыковые элементы, которые встретились в корпусе более двух раз, они приведены в таблице 1.

Таблица 1. Обозначение моделируемых элементов спонтанной речи Класс внеязыковых элементов Обозначение Внеязыковой элемент Вздох ar.brth Артефакты Прочищение горла/кашель ar.clth Причмокивание ar.smck h.a /а/ h.au /ау/ h.e /э/ h.em /эм/ Заполненные паузы h.eu /эу/ h.m /м/ h.me /мэ/ h.mne /мнэ/ В результате были построены модели для трех типов артефактов (вдох, прочищение горла/кашель и причмокивание) и восьми типов заполненных пауз. Каждая модель внеязыкового элемента строилась на основе лево-правой скрытой марковской модели, содержащей три основных состояния. В таблице показано распределение частоты употребления различных внеязыковых элементов разными дикторами и их средняя длительность в собранном корпусе. Всего было просегментировано в корпусе внеязыковых элемента, их суммарная длительность составила 7 мин, что равняется примерно 10 % от длительности всех записей выступлений докладчиков на семинаре.

Таблица 2. Описание собранного корпуса внеязыковых элементов Длитель- Количество появлений внеязыковых элементов Диктор ность выступления, ar.brth ar.clth ar.smck h.a h.au h.e h.em h.eu h.m h.me h.mne Всего мин.

1 18 94 15 7 1 0 147 12 1 25 0 0 2 15 9 1 1 10 0 141 4 0 20 4 0 3 8 49 22 0 5 1 64 23 3 11 1 2 4 2 9 0 0 0 0 26 0 0 0 0 0 5 13 149 4 0 0 4 61 2 12 16 6 1 6 14 26 8 0 0 0 47 1 0 7 0 0 Общее количество 336 50 8 16 5 486 42 16 79 11 3 появлений элементов Относительное 31,94 4,75 0,76 1,52 0,48 46,20 3,99 1,52 7,51 1,05 0,29 100, количество, % Средняя длительность 392 345 194 454 833 423 679 834 504 465 892 – (мс) Содержание XXV сессия Российского акустического общества, Сессия Научного совета по акустике РАН Акустика речи Из таблицы видно, что большую часть внеязыковых элементов составляет заполненная пауза h.e (46,15 % общего числа внеязыковых элементов) и вздох (31,91 %), эти элементы присутствовали в речи всех шести дикторов. Также в речи большинства дикторов присутствовали элементы ar.clth, h.em, h.m.

С помощью программы PRAAT [9] была определена длительность вокализованных и невокализованных участков в каждом внеязыковом элементе, и проведено сравнение частоты основного тона выявленных внеязыковых элементов с частотой основного тона всей речи для каждого диктора. В таблице 3 показана средняя длительность вокализованных и невокализованных участков для всех внеязыковых элементов. У артефактов длительность невокализованных участков превышала длительность вокализованных. Доля невокализованного участка велика для озвученных пауз, состоящих из двух гласных звуков: /ау/ (h.au), /эу/ (h.eu). Длительность вокализованного участка превышала длительность невокализованного более чем в два раза у элементов h.a, h.em и h.me. Наибольшее отношение длительности вокализованного участка к общей длительности элемента оказалось у заполненной паузы h.mne (80 %), однако этот элемент встретился в корпусе только три раза, поэтому сложно утверждать, что данный элемент в большинстве случаев будет иметь длительный вокализованный участок.

Таблица 3. Длительность вокализованных и невокализованных участков для внеязыковых элементов Характеристика элемента Внеязыковые элементы речи ar.brth ar.clth ar.smck h.a h.au h.e h.em h.eu h.m h.me h.mne мс Средняя длительность 85 163 54 308 450 248 447 441 262 324 вокализованных участков % 22 47 28 68 54 62 69 53 56 70 Средняя длительность мс 307 182 140 145 383 151 199 393 205 141 невокализованных участков % 78 53 72 32 46 38 31 47 44 30 Результаты вычисления частоты основного тона по собранным в корпусе внеязыковым элементам представлены в таблице 4. Была определена минимальная, максимальная и средняя частота основного тона для каждого типа внеязыковых элементов, а также средняя частота основного тона речевых участков для каждого диктора. В таблице символ «-» обозначает, что в речи диктора данный элемент не встретился.

Таблица 4. Сравнение частоты основного тона Внеязыковые элементы речи Вся Диктор речь ar.brth ar.clth ar.smck h.a h.au h.e h.em h.eu h.m h.me h.mne мин. 75 83 90 211 - 82 100 160 91 - макс.

1 201 596 249 576 211 - 414 205 160 221 - средняя 125 152 228 211 - 168 162 160 155 - мин. 90 112 112 82 - 81 98 - 93 105 макс.

Средняя частота основного тона, Гц 2 136 239 112 112 112 - 483 111 - 175 122 средняя 123 112 112 102 - 116 103 - 117 112 Частота основного тона, Гц мин. 76 116 - 193 199 94 99 182 101 205 макс.

3 241 567 362 - 324 199 501 245 233 283 205 средняя 183 291 - 231 199 217 187 211 196 205 мин. 76 - - - - 80 - - - - макс.

4 139 289 - - - - 284 - - - - средняя 148 - - - - 122 - - - - мин. 75 85 - - 161 77 120 78 79 107 макс.

5 173 581 167 - - 277 576 166 539 254 254 средняя 146 122 - - 213 241 143 219 134 167 мин. 78 150 - - - 77 147 - 78 - макс.

6 206 595 259 - - - 569 147 - 225 - средняя 212 219 - - - 241 147 - 145 - мин.

183 75 83 90 82 161 77 98 78 78 105 Усредненные макс. 596 362 576 324 277 576 245 539 283 254 значения средняя 156 179 170 181 206 184 148 197 149 161 Возможно, что объем собранного корпуса еще недостаточно велик, чтобы выявить определенные закономерности по распределению частоты основного тона, тем не менее, несколько предварительных выводов уже можно сделать. Во-первых, среднее значение частоты основного тона для большинства внеязыковых элементов оказалось ниже средней частоты основного тона у соответствующего диктора.



Pages:   || 2 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.