Главная Контакты Добавить в избранное Авторы Вопросы и ответы
,

УДК 534.442:534.78

АЛГОРИТМИ ВІДНОВЛЕННЯ ВИМОВЛЕНОЇ

ПОСЛІДОВНОСТІ В СИСТЕМАХ

РОЗПІЗНАВАННЯ МОВИ

Фаніна Л.О.

Вступ.

Сьогодні створення інтелектуальних систем управління не можливе без реалізації мовного інтерфейсу.

В останні роки інтерес до створення мовного інтерфейсу постійно зростає, число дослідників і розробників, зайнятих рішенням даної проблеми дедалі збільшується, однак важко стверджувати про істотні успіхи в цій області. Основним елементом мовного інтерфейсу є система розпізнавання мови (СРМ). Задачу розпізнавання мови вважають зосередженням усіх задач штучного інтелекту [1].

До сучасних систем розпізнавання мови висувається декілька основних вимог:

·              висока якість розпізнавання,

·              досить висока швидкодія,

·              стійкість до зовнішніх шумів і варіацій параметрів диктора,

·              мінімальні витрати часу на навчання і настроювання системи розпізнавання.

Для рішення цих проблем приходиться використовувати нові методи й алгоритми відновлення вимовленої звукової послідовності.

 

Постановка задачі.

Сучасна система розпізнавання (рис. 1) містить кілька рівнів: акустичний – взаємозв'язок звуків мови і фонем; фонетичний – правила побудови послідовностей фонем; синтаксичний – визначення структури слів і фраз.

 

Рис. 1 Концептуальна схема системи розпізнавання мови

На акустичному рівні відбувається зіставлення акустичної моделі сигналу з еталонами, що зберігаються в словнику системи. На цьому етапі акустичні ознаки відображаються у виразні фонетичні знаки. Найбільш адекватним математичним апаратом для прив'язки поточного стану параметрів мовного сигналу з одним з відомих кластерів є сховані марківські моделі (СММ) – статистичний метод опису спектральних характеристик мови випадковим параметричним процесом.

Схематично процес розпізнавання представлений на рис.2.

 

Рис. 2 Узагальнена схема процесу розпізнавання

У загальному випадку система розпізнавання мови повинна здійснювати перехід , тобто вирішувати задачу акустичного і лінгвістичного моделювання, що є класичною задачею ухвалення рішення в умовах невизначеності. Невизначеність породжується акустичними шумами, зміною властивостей вхідних каналів у часі, великою мінливістю як фонем (явище конкатенації, особливості коартикуляції), так і варіативністю характеристик диктора.

Таким чином, невідомому висловленню , заданому вектором ознак, буде поставлена у відповідність послідовність моделей . Знайдена послідовність повинна мати найбільшу апостеріорну імовірність. Відповідно можна використати формулу Байєса, що дозволяє представити апостеріорну імовірність  як:

 

.                                        (1)

 

Моделі, що використовуються в СРМ, не дозволяють безпосередньо обчислювати апостеріорну імовірність . Однак вони забезпечують обчислення імовірності , що являє собою апріорну імовірність формування послідовності  при проголошенні послідовності слів .

Безумовна імовірність послідовності слів обчислюється на основі лінгвістичної моделі, що дозволяє відбирати в ході пошуку найбільш ймовірні послідовності слів . У найпростішому випадку розпізнавання ізольованих слів обмеженого словника , де - кількість слів словника. Умовна імовірність  обчислюється на основі акустичної моделі, що забезпечує добір найбільш імовірних варіантів звукової реалізації послідовності слів , представленої номерами векторів еталонів .

Параметри акустичної і лінгвістичної моделі оцінюються по експериментальним даним з визначеною погрішністю. Тому що ця погрішність може бути різною для зазначених вище моделей, то внесок кожної з моделей у результат пошуку послідовності  регулюється за допомогою вагового коефіцієнта :

 

.                                           (2)

 

Вираження (2) може розглядатися як критерій ухвалення рішення.

Для обчислення ймовірностей, переоцінки параметрів, що максимізують , для навчання використовуються алгоритми Вітербі, Баума-Уелша, ЕМ-алгоритм [2].

На акустичному рівні дуже важливим є якісне й при цьому досить компактне представлення звукового сигналу в багатомірний простір ознак, що містять значиму для розпізнавання інформацію. Для побудови векторів ознак використовуються методи спектрального аналізу: перетворення Фур'є, лінійне передбачення мови, кепстральний аналіз.

 

Перетворення Фур'є.

Перетворення Фур'є (ПФ) має просте математичне представлення і практичне застосування. Однак має ряд обмежень в області розпізнавання мови: втрата інформації в часі існування частотних компонентів сигналу, ПФ вимагає знання сигналу не тільки в минулому, але й у майбутньому, що є неможливим для систем реального часу. У задачах розпізнавання мовних сигналів особливу роль грає локалізація і класифікація особливих характеристик сигналу (піки і розриви, різкі перепади рівня спектра), частотно-часовий аналіз. Тому що базисною функцією розкладання Фур'є є синусоїда, воно не дозволяє в точній мері відбити локальні особливості сигналів, що робить застосування методів перетворення Фур'є в аналізі мовних сигналів небажаним.

Частково компенсувати недоліки ПФ можливо за допомогою так називаного короткочасного або віконного перетворення Фур'є, що дозволяє поліпшити розуміння локальних властивостей сигналу. Сигнал аналізується лише усередині деякого вікна і виявляється локалізованим у часі. Але при короткочасному перетворенні Фур'є вікно має фіксований розмір, що не залежить від масштабу, який розглядається [3].

 

Лінійне передбачення мови.

На відміну від методів перетворення Фур'є, що базуються на лінійному спектральному аналізі, клас методів параметричного моделювання намагається оптимально моделювати спектр як авторегресивний процес. Стосовно до обробки мовних сигналів методи лінійного передбачення мають цілий ряд застосувань: ковариаційний, автокореляційний, максимальної подоби, скалярного добутку та ін.

Для даного сигналу , можна змоделювати сигнал як лінійну комбінацію попередніх відліків сигналу:

                                              (3)

 

де  - кількість коефіцієнтів моделі (порядок передбачення),  - коефіцієнти лінійного передбачення,  - функція помилки моделі (розходження між значенням, що було передбачене й реально обмірюваним).

Спектр лінійного передбачення, також як і спектр ПФ, в явному вигляді при обробці мови не використовується. Звичайно діапазон частот спектру лінійного передбачення розподіляється на канали. Для кожного каналу розраховується середня потужність. Ці значення потужності використовуються як коефіцієнти векторів ознак.

Коефіцієнти лінійного передбачення також використовуються для розрахунків кепстральних коефіцієнтів лінійного передбачення.

Достоїнство моделі – можна передбачити майбутні значення сигналу, ґрунтуючись на поточному ансамблі вимірів. Модель лінійного передбачення ефективно модулює спектр сигналу як згладжений спектр. До недоліків моделі лінійного передбачення можна віднести її неточність в областях сигналу з низькими енергіями, необхідність установлення порога динамічного діапазону.

Цифровий кепстральний аналіз при обробці звуку корисний, тому що припускає методологію відділення збуджуючого сигналу  від голосового тракту.

Необхідно відзначити, що поняття кепстра, що використовується в обробці мови, небагато відрізняється від класичного визначення комплексного кепстра, і формально представляється як:

 

                                                     (4)

 

де  - відповідно пряме і зворотне ПФ,  - вихідний сигнал.

Для підрахунку кепстра необхідно підрахувати логарифм спектральних величин (усереднених, якщо необхідно), а потім інверсне перетворення Фур'є логарифмічного спектра.

                           (5)

 

де c(k) – кепстр,  – тривалість вікна у відліках;  – усереднена спектральна величина, що обчислюється як зважена сума суміжних величин.

Рівняння (5) може розглядатися як інверсне дискретне перетворення Фур'є логарифмічного спектра. Тому що логарифмічна величина спектра – реальна симетрична функція, рівняння (5) можна записати як

 

                                       (6)

 

де  – у цьому рівнянні звичайно виключається на порядок набагато менший чим ,  – функція розподілу, що зіставляє ціле відповідному зразкові (для зручності  може бути підрахований, використовуючи перевантажений алгоритм БПФ).

Кепстральні коефіцієнти, підраховані за допомогою рівняння (6), маються на увазі як кепстральні коефіцієнти перетворення Фур'є, а значення кепстра можуть легко перетворюватися в кепстр  Mel-шкали.

Інший ефективний метод підрахунку кепстра – безпосереднє обчислення з коефіцієнтів лінійного пророкування

 

                                          (7)

 

де p – коефіцієнт лінійного провісника.

Коефіцієнт визначається як

 

                                                    (8)

 

де – коефіцієнт підсилення, якому можна обчислити в процесі застосування алгоритму Левинсона-Дарбіна.

Таким чином, у результаті проведених перетворень для кожного сегмента мовного сигналу виходить вектор ознак , що складає з 2р компонентів. Ці ознаки надалі будуть використані для побудови бази знань еталонних векторів, навчання схованих марківських моделей і безпосередньо в процесі розпізнавання.

У результаті попередньої обробки й одержання кепстрального представлення сигналів досить чітко проглядається розбивка часового інтервалу на групи зі схожими кепстральними коефіцієнтами. Найбільш яскраво вираженими є ділянки, що відповідають шиплячим, свистячим і ударним звукам.

Кепстри двох різних мовних сигналів показані на рис.3.

Рис.3 Кепстри мовних сигналів

 

На рис.3(a) і рис.3(c) показані фрагменти звуку без мови і з нею відповідно. На рис.3(b) і рис.3(d) показані відповідні кепстри. Малі відхилення кепстра відповідають короткостроковому співвідношенню в мовному сигналі (згладжування спектральної форми). Локальний максимум на великих відхиленнях на рис. 2.13(d) вказує на періодичність (збудлива інформація). Кепстр на рис. 2.13(b) не голосового сегмента не показує ніякої періодичності. У спектральному аналізі, що застосовується в розпізнаванні мови звичайно використовують невеликий порядок (n<20).

Тому що кепстр підраховується за допомогою нелінійного оператора (логарифмічної функції), звичайно мають на увазі чутливість до визначених типів шуму і перекручуванням сигналу.

 

Вейвлет-аналіз мовних сигналів.

Вказані вище методи мають ряд недоліків. У даній роботі для представлення мовних сигналів пропонується використання вейвлетного базису [4], що має ряд переваг:

·              локалізація в часовій і частотній області, що дозволяє робити ефективний частотно-часовий аналіз нестаціонарних сигналів, прикладом яких є мова;

·              можливість масштабного перетворення і зсувів (стиск-розтягання досліджуваного сигналу за допомогою хвильових функцій різної періодичності);

·              математичний апарат розроблений для локалізації і класифікації особливих точок сигналу;

·              відмінно відображають динаміку зміни сигналу уздовж „осі масштабів”, локалізацію різномасштабних деталей (спектр мови людини радикально змінюється в часі, а характер цих змін - дуже важлива інформація).

Мовний сигнал  відповідно вейвлет-перетворенню прийме вид:

,                                (9)

де  - деталізуючи функція з нульовим значенням інтеграла, визначає особливості сигналу і породжує коефіцієнти, що деталізують;  - масштабуюча функція, з одиничним значенням інтеграла, визначає грубе наближення сигналу і породжує коефіцієнти апроксимації. Функції  властиві лише ортогональним вейвлетам. Функція  задається базисною функцією , що як і  визначає тип вейвлета. Базисна функція  як і функція  повинна забезпечувати виконання двох операцій:

·                     зсув по часовій осі t - ;

·                     масштабування - .

Параметр задає ширину цього пакета, а – його положення на часовій осі. Таким чином для заданих  і функція і є вейвлет:

 

.                                                          (10)

 

Таким чином за допомогою дискретних масштабних перетворень  і зрушень  можна описати всі частоти і покрити усю вісь, маючи один базисний вейвлет  рис.4.

Вейвлет-перетворення може використовуватися як для представлення сигналів, так і для їхньої фільтрації. Для фільтрації і видалення шумів звичайно використовують загальновідомий прийом – видалення високочастотних складових зі спектра сигналу. Щодо вейвлет-перетворення фільтрацію й очищення від шумів можна здійснювати шляхом обмеження рівня коефіцієнтів, що деталізують. Тому що короткочасні особливості сигналу, до яких можна віднести шуми, створюють коефіцієнти, що деталізують, з високим змістом шумових складових, що мають великі випадкові викиди значення сигналу, рівень шумів можна зменшити, задавши деякий поріг, зрізавши коефіцієнти, що деталізують, по їх рівні.

На відміну від перетворення Фур'є, у якому координата  заміняється на одну частотну перемінну , у теорії вейвлет-перетворення заміняється на дві перемінні  і . У визначеному змісті  є аналогом координати , а параметр  - аналогом зворотної частоти , тобто  містить інформацію про просторові (або часові) і частотні властивості сигналу одночасно. Це і дозволяє вивчити сигнал більш детально, ніж за допомогою Фур'є-аналізу.

Рис.4 Представлення сигналові за допомогою масштабування і зсуву базисного вейвлета

Необхідно підкреслити, що рівень обмеження можна задавати для кожного коефіцієнта окремо, що дозволяє синтезувати адаптивні до змін сигналу системи очищення сигналів від шумів. Для видалення шумів може використовуватися штрафний поріг, що виходить із правила вибору коефіцієнтів вейвлетного розкладання з використанням “штрафного” методу Бірге-Массарта.

Основна ідея представлення нестаціонарних сигналів за допомогою вейвлетів полягає в розкладанні досліджуваних сигналів на дві складові – апроксимуючу й уточнюючу з наступним уточненням, таке представлення можливе як у частотній, так і в тимчасовій області.

У роботі розглядається можливість представлення мовних сигналів за допомогою вейвлетов, для якого будується відповідна схована марківська модель для наступного процесу розпізнавання.

На основі викладеного теоретичного матеріалу і практичних досліджень можна зробити висновок про доцільність представлення мовних сигналів за допомогою вейвлет-перетворення, як на етапі попередньої обробки, так і при формуванні векторів ознак для подальшого процесу розпізнавання.

 

The opportunity of application of wavelet-transformation for speech signal representation is considered. Basic idea of wavelet-transformation consists in decomposition of researched signals on two components - approximating and detail, and such representation is possible both in terms of frequency and time.

 

1.                  Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. – К.: Наукова думка, 1987.

2.                  Е.И. Бовбель, И.Э. Хейдеров. Статистические методы распознавания речи: скрытые марковские модели // Зарубежная радиоэлектроника. Успехи современной радиоэлектроники. 1998 №3, С.45-65.

3.                  Дремин И.М., Иванов О.В., Нечитайло В.А. Вейвлеты и их использование // Успехи физических наук. - Май 2001. – Том 171. - №5. – С.465-501

4.                  Н.М. Астафьева. Вейвлет-анализ: основы теории и примеры применения, УФН, 1996, №11, с. 1145-1170.

 





Ответы на вопросы [_Задать вопроос_]

Информационно-измерительные системы

Ковальов О.І. Вимірювання у процесно-орієнтованих стандартах

Полякова М.В., Ищенко А.В., Худайбердин Э.И. Порогово-пространственная сегментация цветных текстурированных изображений на основе метода JSEG

Дзюбаненко А. В. Организация компьютерных систем для анализа изображений

Гордеев Б.Н., Зивенко А.В., Наконечный А.Г. Формирование зондирующих импульсов для полиметрических измерительных систем

Богданов А.В., Бень А.П., Хойна С.И. Релаксация обратного тока диодов Шоттки после их магнитно-импульсной обработки (МИО)

Тверезовский В.С., Бараненко Р.В. Проектирование измерителя добротности варикапов

Тверезовский В.С., Бараненко Р.В. Оптимизированная модель измерителя доб-ротности варикапов

Руднєва М.С., Кочеткова О.В., Задорожній Р.О. Принципи побудови оптимальної структури інформаційно-вимірювальної системи геометричних розмірів об’єктів в діапазоні від 1 нм до 1000 нм

Биленко М.С., Рожков С.А., Единович М.Б. Идентификация деформаций пе-риодических структур с использованием систем технического зрения

Рашкевич Ю.М., Ковальчук А.М., Пелешко Д.Д. Афінні перетворення в модифікаціях алгоритму RSA шифрування зображень

Дидык А.А., Фефелов А.А, Литвиненко В.И., Шкурдода С.В., Синяков Ф. В. Классификация масс-спектров с помощью кооперативного иммунного алгоритма

Клименко А.K. Обратная модель для решения задач в системах с многосвязными динамическими объектами

Завгородній А.Б. Порівняльне дослідження твердотільних і рідиннофазних об'єктів методом газорозрядної візуалізації

Голощапов С.С., Петровский А.В., Рожко Ж.А., Боярчук А.И. Измерение доб-ротности колебательного контура на основе метода биения частот

Кириллов О.Л., Якимчук Г.С. Диагностирование критерия безопасности при заполнении замкнутых объемов СПЖ косвенным методом

Долина В.Г. Проблеми підвищення точності рефрактометра на основі прозорих порожнистих циліндрів.

Самков О.В., Захарченко Ю.А. Застосування алгоритму клонального відбору для побудови планів модернізації авіаційної техніки

Попов Д.В. Метод формування регламентів технічного обслуговування повітряних суден

Казак В.М., Чорний Г.П., Чорний Т.Г. Оцінювання готовності технічних об’єктів з урахуванням достовірності їх контролю

Тверезовский В.С., Бараненко Р.В. Технические аспекты проектирования цифрового измерителя добротности варикапов

Тверезовский В.С., Бараненко Р.В. Технические аспекты проектирования устройства для разбраковки варикапов по емкостным параметрaм и добротности

Сосюк А.В. Інтелектуальний автоматизований контроль знань в системах дистанційного навчання

Соколов А.Є. Деякі аспекти систезу комп’ютеризованої адаптивної системи навчання

Полякова М.В., Волкова Н.П., Іванова О.В. Сегментація зображень стохастичних текстур амплітудно-детекторним методом у просторі вейвлет-перетворення

Луцкий М.Г., Пономаренко А.В., Филоненко С.Ф. Обработка сигналов акустической эмиссии при определении положения сквозных дефектов

Литвиненко В.И., Дидык А.А., Захарченко Ю.А. Компьютерная система для решения задач классификации на основе модифицированных иммунных алгоритмов

Лубяный В.З., Голощапов С.С. Прямоотсчетные измерители расхождений емкостей

Беляев А.В. Построение навигации для иерархических структур в WEB-системах и системах управления WEB-сайтом

Терновая Т.И., Сумская О.П., Слободянюк И.И., Булка Т.И. Контроль качества тканей специального назначения с помощью автоматических систем.

Шеховцов А.В. Інформаційний аспект: розпізнавання образів індивідуума.

Полякова М.В. Определение границ сегмента упорядоченной текстуры на изображении с однородным фоном с помощью многоканального обнаружения пачки импульсов.

Литвиненко В.И. Прогнозирования нестационарных временных рядов с помощью синтезируемых нечетких нейронных сетей

Ковриго Ю.М., Мисак В.Ф., Мовчан А.П., Любицький С.В. Автоматизована система діагностики генераторів електростанцій

Браїловський В.В., Іванчук М.М., Ватаманюк П.П., Танасюк В.С. Керований детектор імпульсного ЯКР спектрометра

Забытовская О.И. Построение функции полезности по экспериментальным данным.

Шиманські З. Апаратні засоби сегментації мовного сигналу

Хобин В.А., Титлова О.А. К вопросу измерения парожидкостного фронта в дефлегматоре абсорбционно-диффузионной холодильной машины (АДХМ)

Фефелов А. А. Использование байесовских сетей для решения задачи поиска места и типа отказа сложной технической системы

Слань Ю. М., Трегуб В. Г. Оперативна нейромережна ідентифікація складних об’єктів керування

Ролик А.И. Модель управления перераспределением ресурсов информационно-телекоммуникационной системы при изменении значимости бизнес-процессов

Кириллов О.Л., Якимчук Г.С., Якимчук С.Г. Изучение электрического поля с помощью датчика измерителя электростатического потенциала на модели замкнутого металлического объема

Грицик В.В. Застосування штучних нейронних мереж при проектуванні комп’ютерного зору.

Гасанов А.С. Информационные технологии построения систем прогнозирования отказов

Шеховцов А.В., Везумский А.К., Середа Е.С. Алгоритм сжатия информации без потерь: модифицированный алгоритм LZ77

Ходаков В.Е., Жарикова М.В., Ляшенко Е.Н. Методы и алгоритмы визуализации пространственных данных на примере моделирования распространения лесных пожаров.

Полякова М.В., Крылов В.Н. Обобщённые масштабные функции с компактным носителем в задаче сегментации изображений упорядоченных текстур. – C. 75 – 84.

Полторак В.П., Дорогой Я.Ю. Система распознавания образов на базе нечеткого нейронного классификатора.

Литвиненко В.И. Синтез радиально-базисных сетей для решения задачи дистанционного определения концентрации хлорофилла.

Бражник Д.А. Управление совмещением изображения объекта в сцене и эталонного изображения.

Бабак В.П., Пономаренко А.В. Локализация места положения сквозных дефектов по сигналам акустической эмиссии.

Мороз В. В. R-D проблема и эффективность систем сжатия изображений.

Крылов В.Н., Полякова М.В., Волкова Н.П. Контурная сегментация в пространстве гиперболического вейвлет-преобразования с использованием математической морфологии.

Квасников В.П., Баранов А.Г. Анализ влияния дестабилизирующих факторов на работу биканальной координатно-измерительной машины.

Казак В.М., Гальченко С.М., Завгородній С.О. Аналіз можливості застосування імовірнісних методів розпізнавання для виявлення пошкоджень зовнішнього обводу літака.

Тищенко И.А., Лубяный В.З. Управление коммутационными процессами в интегрированных сетях связи.

Корниенко-Мифтахова И.К.,Филоненко С.Ф. Информационно-измерительная система для анализа характеристик динамического поведения конструкций.

Тверезовский В.С., Бараненко Р.В. Модель измерителя емкости с линейной шкалой измерений.

Полякова М.В., Крылов В.Н. Мультифрактальный метод автоматизированного распознавания помех на изображении.

Рожков С.О., Федотова О.М. Алгоритм розпізнавання дефектів тканин для автоматичної системи контролю якості.

Бражник Д.А. Использование проективного преобразования для автоматизации обнаружения объектов.