Интеллектуальные робототехнические системы


Системы речевого общения - часть 3



где A - среднеквадратичное значение амплитуд спектральных составляющих, ak - нормированные амплитуды k-х гармоник, ?1 - частота первой гармоники,

k - фазовые сдвиги k-х гармоник, n - число гармоник.

Для разных компонент речевого сигнала (интонация, тембр, громкость, тон, темп) используются разные виды модуляции - амплитудная, частотная, фазовая.

Передаточные функции по амплитуде

Рис. 5.4.  Передаточные функции по амплитуде

Исходя из вышеизложенного, требования к анализатору СРО могут быть сформулированы следующим образом.

  1. При анализе заданного элемента информационной структуры осуществляется демодуляция (детектирование) речевого сигнала по каждому виду модуляции, посредством которой ведется его передача. Таким образом, на входе приемного устройства «речевой» системы связи должны быть: демодулятор длительности, амплитудный демодулятор, частотный демодулятор, демодулятор типа переносчика, демодулятор формы спектров.
  2. Результат детектирования по каждому виду модуляции должен быть инвариантен относительно остальных видов модуляции. Возможным методом достижения такого рода инвариантности является осуществление предварительной нормализации речевого сигнала.
  3. Если с помощью данного вида модуляции осуществляется передача других элементов информационной структуры, то полученный в результате демодуляции сигнал должен быть подвергнут дальнейшим операциям разделения с помощью соответствующих декодеров: декодер информации о фонемном составе, декодер информации об интонации речи, декодер информации об индивидуальности голоса, декодер информации о характеристиках среды, декодер информации о физическом и эмоциональном состоянии.

В настоящее время появляется много интересных разработок в области СРО. Одна из таких разработок - системы синтеза речи Sakrament text-to-speech engine компании «Сакрамент» (Mинск, Беларусь, http://www.sakrament.com), созданные с использованием собственных уникальных алгоритмов обработки звука, что позволило добиться высокого качества звучания синтезируемой речи и максимально приблизить компьютерную речь к человеческой.


Начало  Назад  Вперед



Книжный магазин