Главная Контакты Добавить в избранное Авторы Вопросы и ответы
,

УДК 534.442:534.78

ИСПОЛЬЗОВАНИЕ МЕТОДА КОМПЕНСАЦИИ ИНФОРМАЦИОННЫХ ПОТОКОВ ПРИ ПОСТРОЕНИИ СИСТЕМ УПРАВЛЕНИЯ С РЕЧЕВЫМ ИНТЕРФЕЙСОМ

Фанина Л.А., Бражник Д.А.

Введение.

Несмотря на почти полувековую историю исследований в области речевых технологий, задача распознавания речи до сих пор остается открытой. На сегодняшний день существует множество программных продуктов в той или иной мере реализующих системы распознавания речи, однако качество их достаточно сомнительное.

 

Анализ существующих проблем и перспективы их решения.

Почти все современные реализации систем распознавания речи имеют один очень важный недостаток зависимость от диктора.

Существенной проблемой является подавление стационарных  и нестационарных помех. В настоящее время системы диктовки текстов и голосового управления практически не применяют в своем функционировании алгоритмы шумоподавления. Это связано с тем, что компьютерные речевые системы разрабатываются для работы  в офисе или дома, где уровень внешних помех не очень высок. Однако в системах речевого управления реальными техническими устройствами, например в авиации, используют шумоподавление. Так как отсутствие шумоподавления в компьютерных речевых системах влияет на надежность распознавания (например, глубокий вдох пользователя система идентифицирует как одно из слов словаря), можно ожидать в ближайшем будущем внедрения алгоритмов и устройств шумоподавления в персональные компьютеры.

Проблема перехода к распознаванию непрерывной речи связана в основном с недостатком вычислительных мощностей персональных компьютеров, делающим системы непрерывной диктовки слишком дорогими и потому непопулярными. Ожидается повсеместный переход на распознавание непрерывной речи в ближайшее десятилетие, причем задача распознавания дискретной речи не потеряет своей актуальности.

На сегодняшний день проблема учета контекста (синтаксиса, семантики) при восстановлении последовательности произнесенных слов пользуются простыми, не зависящими от языка грамматиками, позволяющими в достаточной степени учитывать связь слов в предложении. В будущем ожидается усложнение грамматик, разработанных с учетом специфики языков, и разработки соответствующих процедур обучения.

Одной из существенных проблем является поиск новых звуковых параметров. В настоящее для распознавания речи в основном используют спектральные параметры речи – быстрое преобразование Фурье, спектр линейного предсказания, кепстральные коэффициенты и т.п. Эти параметры обладают как рядом преимуществ (соответствие восприятию звука человеком, возможность применения Евклидовой метрики или ее вероятностного аналога – расстояния Махаланобиса для сравнения окон), так и рядом недостатков (зависимость спектральных параметров от голоса диктора). Продолжаются исследования по поиску инвариантных относительно типа голоса и влияния шумов речевых параметров.

Проблемой поиска новых алгоритмов восстановления последовательности произнесенных звуков занимаются многие исследовательские лаборатории. На сегодняшний день для сравнения  последовательности акустических параметров с эталонами слов словаря используется практически три метода – самый распространенный метод скрытых марковских моделей, тесно связанный с ним метод динамической деформации времени (применяемый на словарях относительно малого размера) и стоящий несколько поодаль метод с использованием нейронных сетей. В связи с бурным развитием речевых технологий ожидается появление принципиально новых математических методов в области распознавания речи.

Проблема выделения слов в потоке слитной речи при распознавании речевых сигналов. Решение данной задачи предполагает ее анализ, результатом чего является определение характеристик речевого сигнала (на уровне фонем, слов), т.е. параметры модели линейного предсказания, динамика изменения этих параметров, частота основного тона, анализ частотных областей и т.д. При этом возникает проблема выделения фрагментов речи в потоке слитной речи.

Следовательно, к современным системам распознавания речи можно выдвинуть следующие требования:

·               высокое качество распознавания,

·               достаточно высокое быстродействие,

·               устойчивость к внешним шумам и вариации параметров диктора,

·               минимальные затраты времени на обучение и настройку системы распознавания.

 

Цель данной статьи – создание алгоритма обеспечивающего инвариантность системы по отношению к внешним возмущениям.

 

Теоретические исследования.

Для образа  и координаты рассмотрим меру близости , в качестве которой  используем нормированную взаимную корреляционную функцию между сигналом образа и эталона [1].

 

(1)

 

Исходя из метода допустимых преобразований [1], учтем управления эталоном

 

(2)

 

Учитывая, что метод допустимых преобразований предполагает соответствие эталона и объекта, введем ограничение , данное ограничение ведет к тривиальному равенству . С другой стороны, учитывая, что в случае выполнения ограничения, взаимная условная информация, получаемая системой равна нулю [2], можем перейти к ограничению вида

 

(3)

 

Что позволяет рассматривать задачу

 

(4)

 

Учитывая, что для близких образов, как функция цели, так и ограничения выпуклы, получаем задачу выпуклого программирования с функцией Лагранжа

 

(5)

Множитель Лагранжа в данной задаче определяет чувствительность корреляционной функции к выбору эталона

 

(6)

 

Поскольку в данной задаче множитель Лагранжа естественно связан с управлением, двойственной переменной является управление эталоном.

Таким образом, получаем прямую и двойственную задачи в виде:

 

(7)

 

Учитывая структуру функции Лагранжа в данной задаче можно записать

 

(8)

 

Прямая задача порождает корреляционные методы распознавания, но по своей структуре прямая задача наилучшим образом подходит к решению задачи позиционирования сигнала образа в окне контроля.

Естественный интерес представляет анализ возможности построения системы с использованием корреляционных методов, включая задачу выделения области единичного образа и задачу принятия решения о классификации сигнала.

Двойственная задача лежит в основе метода компенсации информационных потоков [3].

Принцип компенсации информационных потоков исходит из достаточно простых предположений:

·               во-первых, система компенсирует внешние возмущения,

·               во-вторых, если система может воспроизвести все то, что происходит во внешней среде, то возможно построение системы распознавания работающей без ошибок.

Критерием качества распознавания является то, что система точно отображает внешние воздействия, т.е. , причем при  .

При построении систем распознавания в качестве целевого функционала можно использовать вероятность правильного распознавания. Оценка вероятности ошибки связана с оценкой информационного потока соотношением [1]:

 

(9)

 

где  - энтропия по описанию при  классах и  описаниях, мера недостаточности описания  по отношению к идеальному описанию, безошибочно указывающему класс;  - энтропия по оптимальному решению, где оптимальное решение можно рассматривать как некоторое предельно упрощенное описание, указывающее к какому классу с наибольшей вероятностью принадлежит данный сигнал;  - максимальная энтропии я при .

В силу связи точной верхней и нижней границ энтропий [2] максимальная вероятность правильного распознавания достигается при .  Следовательно, рассматривая входной сигнал как систему X, а эталон как его описание Y, можно утверждать, что условная энтропия  обращается в ноль, если эталон совпадает с входным распознаваемым сигналом, т.е. отсутствует неопределенность эталона по отношению к сигналу. Таким образом, в рамках задачи распознавания, принятие решения по минимуму условной информации с учетом связности объекта и эталона, доставляет минимум вероятности ошибки.

Рассматривая систему с эталонной моделью  и конкретным образом речевого сигнала , выделим основные потоки информации в системе, движение которой происходит в пространстве состояния  под управлением . Информационный поток источника  и информационный поток эталонной модели порождаются физически различными источниками, но они связаны единством образов  и . Их условная информация, таким образом, связана и обладает экстремальными свойствами, т.е. существуют такие  и , которые доставляют минимум условной информации  Iw,w*.

Рассматривая потоки  и  как встречные с мерой отклонения , где  - условная информация . В данной постановке решение задачи оптимального управления для эталона :  связано с решением задачи распознавания в классе образов : .

Одним из существенных моментов в методе компенсации информационных потоков является оценка взаимной информации по затратам управления в задаче допустимых преобразований.

Количество информации является отражением одного объекта другим и мерой соответствия состояний этих объектов.

Рассмотрим множество допустимых управлений  и соотнесем этому множеству объем допустимых управлений .  В таком случае принятие решения  на i-том шаге уменьшает объем управлений до , следовательно, отношение  при геометрической интерпретации вероятности определяет вероятность принятия ошибочного решения .  Тогда вероятность принятия правильного решения определяется как

 

(10)

 

С другой стороны количество информации служащее основанием для принятия решения при заданном эталоне можно определяет как

 

(11)

 

Представим логарифм в виде ряда

 

(12)

 

Информация, получаемая за m шагов определится, как сумма информации полученной на каждом шаге

 

(13)

 

Что определяет полные приведенные затраты управления в задаче принятия решения об управлении эталоном. Подтверждение целесообразности данного подхода обосновано в работе [2].

Тогда двойственная задача может быть сформулирована в виде, где можно непосредственно оценивать взаимную информацию

 

(14)

 

                Для проверки теоретических предположений проведено моделирование как прямой, так и двойственной задачи.

 

Экспериментальная часть.

Для анализа возможности построения системы с использованием двойственности задачи рассмотрим ансамбль достаточно близких речевых сигналов, рисунок 1.

Рис. 1 Реализации тестовых сигналов

 

Для оценки корреляционных свойств ансамбля определим взаимные корреляции, на основе модели в среде MATLAB, рисунок 2.

Полученные оценки корреляции указывают на возможность использования данного метода, но одновременно подчеркивают типичность корреляционной функции речевого сигнала – колебательность, что определяет целесообразность использования фазовых методов привязки. Однако, даже для упрощенной модели необходимо центрировать сигналы и выполнять длинные операции умножения, что усложняет использование метода.

С другой стороны, двойственную задачу можно рассматривать как компенсацию информационных потоков на входе системы входного акустического сигнала (набор векторов его параметров) и эталона хранящегося в базе знаний системы распознавания речи (априорная информация).

 

Рис. 2 Схема для оценки корреляционных свойств ансамбля тестовых сигналов

 

Учитывая, что при минимуме взаимной информации затраты на управление эталоном минимальны, используем в качестве меры близости оценку затрат управления в задаче воспроизведения сигнала эталона при ограничении определяемом входным сигналом системы. Такая постановка позволяет использовать типовой дельта-модулятор как основной элемент системы. На рисунке 3 приведена схема моделирования работы элемента сравнения.

 

Рис. 3 Схема моделирования элемента сравнения

 

На рисунке 4 приведены результаты моделирования.

Приведенный на рис. 4а входной сигнал повторяется системой практически без искажений рис 4b, затраты на управление незначительны рис. 4с, так как выбран эталон близкий входному сигналу.

Рис. 4. Результаты моделирования элемента сравнения.

Однако при обработке сигналов далеких от эталона затраты управления резко возрастают. Для оценки возможностей метода проведено моделирование системы на ансамбле сигналов, использованном ранее для оценки корреляционного метода. Схема моделирования построена с выделенными элементами сравнения для каждого сигнала гипотезы, рисунок 5.

Рис. 5 Схема моделирования затрат по управлению

Как видно из результатов моделирования использование прямой задачи позволяет реализовать принцип компенсации информационных потоков с использованием простых средств. Полученные значения оценок гипотез по управлению разнесены гораздо больше, по сравнению с корреляционным методом.

Таблица 1

№ гипотезы

1

2

3

4

Значение корреляционной функции

0,8611

-0,6653

-0,07091

-0,4041

Затраты на управление

1,69

83,28

72,03

60,64

Результаты моделирования позволяют обосновать структуру системы распознавания речи как систему с компенсацией информационных потоков.

Учитывая, что в принципе компенсации необходима реализация встречного потока информации, в качестве генератора встречного потока используем систему синтеза речи. Тогда структурная схема системы принимает простой вид

Рис. 6 Обобщенная структурная схема системы на основе принципа компенсации

Естественным недостатком данного подхода является сложность формирования первых гипотез. Данный недостаток свойственен всем системам, построенным по отклонению, и вызывает значительные трудности, связанные с необходимостью учета времени переходных процессов системе. Таким образом, для обеспечения формирования первичных гипотез целесообразно ввести в систему дополнительный канал, построенный по принципу возмущения – любая достаточно работоспособная система распознавания речи. В этом случае структура принимает вид известный в теории управления как адаптивная инвариантная система.

Рис. 7 Обобщенная структурная схема системы на основе принципа компенсации с формированием первичной гипотезы

Окончательный ответ распознавания основывается на результате сравнения этих двух информационных потоков. На рис. 8 представлена концептуальная схема распознавания речи на основе принципа компенсации информационных потоков.

Блок логики формирования гипотез подает ансамбль наиболее вероятных гипотез (глубина гипотез ограниченна разрядной сеткой) на блок генерации сигналов, которые затем поступают через дельта-модулятор на схему компенсации. Отклонение  через отрицательную обратную связь также поступает на вход дельта-модулятора. В качестве критерия используются затраты на управление эталоном для компенсации внешнего сигнала.

При формировании и сравнении описаний речевых сигналов возникает необходимость их нормирования. Применяются методы нелинейного нормирования изложенные в [4]. Выделение границ слова основано на рассмотрении вводимых параметров в некоторое “окно” длиной в несколько отсчетов. Выделение начала и конца произнесения производится программно с использованием буфера, который позволяет исключить ложные срабатывания системы от коротких шумовых помех, а также потери части слова из-за смычек. С этой целью в алгоритм введены логические правила, позволяющие отбросить реализацию, если она содержит количество отсчетов меньше заданного, и закончить ввод, если длительность паузы после окончания реализации превышает заданную.

Рис. 8 Концептуальная схема распознавания речи на основе принципа компенсации информационных потоков

Следует подчеркнуть, что предложенная структура является общей концепцией для всех методов распознавания. Методы построения элементов системы не будут влиять на ее структурное решение.

Выводы:

1.        Построение системы распознавания речевых сигналов можно рассматривать как прямую задачу минимизации взаимной информации, либо как двойственную задачу максимизации взаимной корреляции.

2.        Оценить взаимную информацию между эталоном и входным сигналом возможно по затратам управления на решение задачи восстановления сигнала на основе ресурса эталона.

3.        Инвариантность системы распознавания возможно обеспечить при построении системы проверки гипотез с использованием метода компенсации информационных потоков для оценки противоречивости гипотез.

4.        Результаты моделирования позволяют считать, что даже на ансамблях с высокой взаимной корреляцией использование метода компенсации информационных потоков более предпочтительно.

5.        Рассматриваемая структура является системой построенной по отклонению, что позволяет компенсировать возмущения без анализа их природы.

 

Article is devoted to the decision a problem of speech recognition. The direct and dual problems are considered. The results of theoretical and experimental research are presented.

 

1.                   Методы оптимальных решений в распознавании изображений, В.А. Ковалевский. «Наука», -М., 1976

2.                   Рожков С.А. Исследование и разработка системы фильтрации сигналов дефектов ткани с выделением признаков их классификации: Диссертация на соискание ученой степени кандидата технических наук: 05.13.07.- Херсон. 1997. –223 с.

3.                   Храпливый А.П., Рожков С.А., Терновая Т.И., Бражник Д.А. Использование принципа компенсации информационных потоков при создании систем распознавания

4.                   Плотников В.П. Речевой диалог в системах управления. – М.: Машиностроение, 1988.

 





Ответы на вопросы [_Задать вопроос_]

Читайте также

 
Терновая Т.И. Автоматическая система разбраковки тканей с печатным рисунком методом компенсации информационных потоков

Рожков С.А., Бражник Д.А. Использование нейросетевых структур для построения систем распознавания образов

Поливода О.В., Бражник А.М. Метод компенсации ошибок идентификации при оптимальном управлении

Рожков С.А., Федотова О.Н. Алгоритм обучения системы распознавания автоматической системы разбраковки тканей

Бражник Д.А. Использование проективного преобразования для автоматизации обнаружения объектов.

Рудакова А.В., Кузик О.В. Использование метода динамического программирования Беллмана в задачах оптимизации быстродействия манипулятора

Марончук И.Е., Андронова Е.В., Баганов Е.А., Курак В.В. Использование метода импульсного охлаждения насыщенного раствора-расплава для формирования наноразмерных структур InSb в матрице GaSb.

Методы построения адаптивных систем управления

Бражник Д.А. Управление совмещением изображения объекта в сцене и эталонного изображения.

Бессараб В.И. Компьютеризированная система управления водоотливным хозяйством угольных шахт по критерию минимума энергозатрат

Ситников В.С., Брус А.А. Анализ коэффициентов перестраиваемого цифрового фильтра нижних частот второго порядка.

Биленко М.С., Рожков С.А., Единович М.Б. Идентификация деформаций пе-риодических структур с использованием систем технического зрения

Кухаренко С.В., Балтовский А.А. Решение задачи календарного планирования с использованием эвристических алгоритмов.

Митрахович М.М. Интеграция методов при синтезе сложных систем в условиях априорной неопределенности

Информационно-измерительные системы

Ковальов О.І. Вимірювання у процесно-орієнтованих стандартах

Полякова М.В., Ищенко А.В., Худайбердин Э.И. Порогово-пространственная сегментация цветных текстурированных изображений на основе метода JSEG

Дзюбаненко А. В. Организация компьютерных систем для анализа изображений

Гордеев Б.Н., Зивенко А.В., Наконечный А.Г. Формирование зондирующих импульсов для полиметрических измерительных систем

Богданов А.В., Бень А.П., Хойна С.И. Релаксация обратного тока диодов Шоттки после их магнитно-импульсной обработки (МИО)

Тверезовский В.С., Бараненко Р.В. Проектирование измерителя добротности варикапов

Тверезовский В.С., Бараненко Р.В. Оптимизированная модель измерителя доб-ротности варикапов

Руднєва М.С., Кочеткова О.В., Задорожній Р.О. Принципи побудови оптимальної структури інформаційно-вимірювальної системи геометричних розмірів об’єктів в діапазоні від 1 нм до 1000 нм

Биленко М.С., Рожков С.А., Единович М.Б. Идентификация деформаций пе-риодических структур с использованием систем технического зрения

Рашкевич Ю.М., Ковальчук А.М., Пелешко Д.Д. Афінні перетворення в модифікаціях алгоритму RSA шифрування зображень

Дидык А.А., Фефелов А.А, Литвиненко В.И., Шкурдода С.В., Синяков Ф. В. Классификация масс-спектров с помощью кооперативного иммунного алгоритма

Клименко А.K. Обратная модель для решения задач в системах с многосвязными динамическими объектами

Завгородній А.Б. Порівняльне дослідження твердотільних і рідиннофазних об'єктів методом газорозрядної візуалізації

Голощапов С.С., Петровский А.В., Рожко Ж.А., Боярчук А.И. Измерение доб-ротности колебательного контура на основе метода биения частот

Кириллов О.Л., Якимчук Г.С. Диагностирование критерия безопасности при заполнении замкнутых объемов СПЖ косвенным методом

Долина В.Г. Проблеми підвищення точності рефрактометра на основі прозорих порожнистих циліндрів.

Самков О.В., Захарченко Ю.А. Застосування алгоритму клонального відбору для побудови планів модернізації авіаційної техніки

Попов Д.В. Метод формування регламентів технічного обслуговування повітряних суден

Казак В.М., Чорний Г.П., Чорний Т.Г. Оцінювання готовності технічних об’єктів з урахуванням достовірності їх контролю

Тверезовский В.С., Бараненко Р.В. Технические аспекты проектирования цифрового измерителя добротности варикапов

Тверезовский В.С., Бараненко Р.В. Технические аспекты проектирования устройства для разбраковки варикапов по емкостным параметрaм и добротности

Сосюк А.В. Інтелектуальний автоматизований контроль знань в системах дистанційного навчання

Соколов А.Є. Деякі аспекти систезу комп’ютеризованої адаптивної системи навчання

Полякова М.В., Волкова Н.П., Іванова О.В. Сегментація зображень стохастичних текстур амплітудно-детекторним методом у просторі вейвлет-перетворення

Луцкий М.Г., Пономаренко А.В., Филоненко С.Ф. Обработка сигналов акустической эмиссии при определении положения сквозных дефектов

Литвиненко В.И., Дидык А.А., Захарченко Ю.А. Компьютерная система для решения задач классификации на основе модифицированных иммунных алгоритмов

Лубяный В.З., Голощапов С.С. Прямоотсчетные измерители расхождений емкостей

Беляев А.В. Построение навигации для иерархических структур в WEB-системах и системах управления WEB-сайтом

Терновая Т.И., Сумская О.П., Слободянюк И.И., Булка Т.И. Контроль качества тканей специального назначения с помощью автоматических систем.

Шеховцов А.В. Інформаційний аспект: розпізнавання образів індивідуума.

Полякова М.В. Определение границ сегмента упорядоченной текстуры на изображении с однородным фоном с помощью многоканального обнаружения пачки импульсов.

Литвиненко В.И. Прогнозирования нестационарных временных рядов с помощью синтезируемых нечетких нейронных сетей

Ковриго Ю.М., Мисак В.Ф., Мовчан А.П., Любицький С.В. Автоматизована система діагностики генераторів електростанцій

Браїловський В.В., Іванчук М.М., Ватаманюк П.П., Танасюк В.С. Керований детектор імпульсного ЯКР спектрометра

Забытовская О.И. Построение функции полезности по экспериментальным данным.

Шиманські З. Апаратні засоби сегментації мовного сигналу

Хобин В.А., Титлова О.А. К вопросу измерения парожидкостного фронта в дефлегматоре абсорбционно-диффузионной холодильной машины (АДХМ)

Фефелов А. А. Использование байесовских сетей для решения задачи поиска места и типа отказа сложной технической системы

Слань Ю. М., Трегуб В. Г. Оперативна нейромережна ідентифікація складних об’єктів керування

Ролик А.И. Модель управления перераспределением ресурсов информационно-телекоммуникационной системы при изменении значимости бизнес-процессов

Кириллов О.Л., Якимчук Г.С., Якимчук С.Г. Изучение электрического поля с помощью датчика измерителя электростатического потенциала на модели замкнутого металлического объема

Грицик В.В. Застосування штучних нейронних мереж при проектуванні комп’ютерного зору.

Гасанов А.С. Информационные технологии построения систем прогнозирования отказов

Шеховцов А.В., Везумский А.К., Середа Е.С. Алгоритм сжатия информации без потерь: модифицированный алгоритм LZ77

Ходаков В.Е., Жарикова М.В., Ляшенко Е.Н. Методы и алгоритмы визуализации пространственных данных на примере моделирования распространения лесных пожаров.

Полякова М.В., Крылов В.Н. Обобщённые масштабные функции с компактным носителем в задаче сегментации изображений упорядоченных текстур. – C. 75 – 84.

Полторак В.П., Дорогой Я.Ю. Система распознавания образов на базе нечеткого нейронного классификатора.

Литвиненко В.И. Синтез радиально-базисных сетей для решения задачи дистанционного определения концентрации хлорофилла.

Бражник Д.А. Управление совмещением изображения объекта в сцене и эталонного изображения.

Бабак В.П., Пономаренко А.В. Локализация места положения сквозных дефектов по сигналам акустической эмиссии.

Мороз В. В. R-D проблема и эффективность систем сжатия изображений.

Крылов В.Н., Полякова М.В., Волкова Н.П. Контурная сегментация в пространстве гиперболического вейвлет-преобразования с использованием математической морфологии.

Квасников В.П., Баранов А.Г. Анализ влияния дестабилизирующих факторов на работу биканальной координатно-измерительной машины.

Казак В.М., Гальченко С.М., Завгородній С.О. Аналіз можливості застосування імовірнісних методів розпізнавання для виявлення пошкоджень зовнішнього обводу літака.

Тищенко И.А., Лубяный В.З. Управление коммутационными процессами в интегрированных сетях связи.

Корниенко-Мифтахова И.К.,Филоненко С.Ф. Информационно-измерительная система для анализа характеристик динамического поведения конструкций.

Тверезовский В.С., Бараненко Р.В. Модель измерителя емкости с линейной шкалой измерений.

Полякова М.В., Крылов В.Н. Мультифрактальный метод автоматизированного распознавания помех на изображении.

Рожков С.О., Федотова О.М. Алгоритм розпізнавання дефектів тканин для автоматичної системи контролю якості.

Бражник Д.А. Использование проективного преобразования для автоматизации обнаружения объектов.