Главная Контакты Добавить в избранное Авторы Вопросы и ответы
,

УДК 681.84

АПАРАТНІ ЗАСОБИ СЕГМЕНТАЦІЇ МОВНОГО СИГНАЛУ

Шиманські З.

Постановка задачі.

Сучасний етап розвитку інформаційних технологій обробки мовних сигналів характеризується розширенням галузей застосування, в значні частині з яких вимагається опрацювання потоків даних у реальному часі на апаратних засобах, що задовольняють обмеженням щодо габаритів, енергоспоживання та вартості [1-4]. Створення таких апаратних засобів вимагає широкого використання сучасної елементної бази (напівзамовних і замовних надвеликих інтегральних схем (НВІС), однокристальних процесорів цифрової обробки сигналів), розробки апаратно-орієнтованих методів і алгоритмів. Однією із основних проблем в інформаційних технологіях обробки мовних сигналів є проблема перетворення мовних сигналів у часові області, яка використовується при розпізнаванні та синтезі мовних сигналів, верифікації та ідентифікації дикторів, в системах кодування та передавання каналами зв’язку. Перетворення мовних сигналів в часові області знаходить застосування в автоматизованих системах управління, коли необхідно змінювати темп подання мовної інформації оператору в залежності від його фізичного та емоційного стану [1,2].

При розв’язанні проблеми перетворення мовних сигналів в часові області однією із основних задач є задача автоматичного сегментування мовних сигналів, успішне розв’язання якої тісно зв’язано з наступними процедурами опрацювання мови. Аналіз процесу сегментації [2] показує, що він вимагає виконання таких етапів:

· виділення мовного сигналу на фоні шуму та пауз;

· сегментації на основі критерію правдоподібності;

· аналізу сегментів та виділення параметрів;

· класифікація сегментів.

Таким чином, актуальною задачею є розробка апаратних засобів для сегментації мовного сигналу у реальному часі з високою ефективністю використання обладнання.

Розв’язання задачі.

Алгоритми сегментації. Проаналізуємо алгоритми реалізації кожного із етапів сегментації мовного сигналу [2].

Виділення мовного сигналу на фоні шуму та пауз. Визначення точних моментів початку і завершення мовного сигналу на фоні шуму має суттєве значення для якості сегментації, наступної обробки та кількості арифметичних операцій. Для реалізації даного етапу використовуються алгоритми, які враховують тільки два параметри мовного сигналу x(n) – короткочасну енергію E(n) та короткочасне середнє число переходів через нуль S(n). Дані параметри визначаються так:

,

де                                     ,

а h(n) – прямокутна вагова функція тривалістю 10 мілісекунд.

Сегментація на основі критерію правдоподібності. Основною ідеєю даного методу є використання статичного критерію максимальної правдоподібності, за допомогою порівнюються декілька моделей сусідніх сегментів мовного сигналу та визначаються моменти різкої зміни параметрів моделей. Кожний однорідний сегмент мовного сигналу описується авторегресійною моделлю  порядку p з параметрами , де  - коефіцієнти лінійного передбачення, - дисперсія похибки передбачення.

Приймаються дві гіпотези-альтернативи:

H1: сигнал (у1,...,уп) описується моделлю ;

H2: у момент часу r відбувається стрибкоподібна зміна моделі, так що сигнал (у1,...,уr) описується моделлю , а сигнал (уr+1,...,уN) – моделлю .

Статичний критерій базується на узагальненому відношенні правдоподібності між цими двома гіпотезами:

.                                  (1)

Рішення про наявність різкої зміни моделі приймаються якщо:

  .

Біжуче значення r визначається як аргумент виразу (1). Оскільки така багатовимірна оптимізація вимагає значних обчислювальних затрат, то на практиці використовується дещо спрощена процедура.

Аналіз сегментів та виділення параметрів. Для аналізу використовуються такі параметри:

· Е –короткочасна енергія мовного сигналу, визначена на всьому діапазону частот;

· ЕНВ – відношення енергії в діапазоні низьких частот (250-600 Гц) до енергії мовного сигналу в діапазоні високих частот(650-3000 Гц).

В системах аналізу та розпізнавання мови використовують такі параметри: тривалість виділеного сегменту мовного сигналу; середнє число переходів через нуль; частота основного тону; набір коефіцієнтів лінійного передбачення; частота формант та інші.

Класифікація сегментів. Класифікація виділених у процесі сегментації звукових сегментів мовного сигналу проводиться на основі приведених вище параметрів. На першому кроці на основі значень першого коефіцієнту авторегресії А та короткочасної енергії Е всі сегменти поділяються на дві групи: вокалізовані та невокалізовані. Сегменти, для яких А1>-0,4 класифікуються як невокалізовані, а сегменти, для яких А1<-1,5 класифікуються як вокалізовані. Для решти сегментів обчислюється ознака ОВ на основі співвідношення:

ОВ=0,03Е-А.

Рішення про вокалізованість сегменту приймається у випадку коли ОВ>2,2.

Наступним кроком є розділення вокалізованих сегментів на вокалізовані голосні та вокалізовані приголосні. Основними факторами, які враховуються при цьому є:

· перевищення значення енергії Е порогової величини в моменти ПГ (приголосна-голосна);

· більша концентрація енергії в низькочастотній області у голосних звуків.

Розробка структури апаратних засобів сегментації мовного сигналу. Розробку апаратних засобів сегментації мовного сигналу пропонується здійснювати на основі інтегрованого підходу, який охоплює [4]:

·   сучасну елементну базу інформаційних технологій обробки мовних сигналів;

·   методи та алгоритми сегментації мовного сигналу;

·   методи та засоби автоматизованого проектування апаратного і програмного забезпечення;

· нові архітектурні та схемотехнічні рішення.

Апаратні засоби сегментацію мовного сигналу повинні забезпечувати високу ефективність використання обладнання та роботу в реальному часі. Проведений аналіз алгоритмів сегментації мовних сигналів показав, що дані алгоритми є складними з великою кількістю логічних операцій. Ефективно реалізувати такі алгоритми можна шляхом одночасного використання універсальних і спеціальних підходів, апаратних і програмних засобів. В основу структурної організації таких апаратних засобів пропонується покласти принципи, які дозволять підвищити ефективність використання обладнання, зменшити вартість і терміни розробки. Аналіз показує, що забезпечити такі вимоги можна при використанні наступних принципів: змінного складу обладнання, модульності, узгодженості та відкритості програмного забезпечення.

Елементна база. Основною елементною базою, яка використовується для реалізації апаратних засобів сегментації мовного сигналу є однокристальнi програмовані мікропроцесори i мiкро-ЕОМ, архітектура яких орієнтована на розв’язання задач цифрової обробки сигналів (ЦОС) та спеціалізовані НВІС [5,6].

В мікропроцесорах i мiкро-ЕОМ ЦОС за рахунок вдалих архітектурних i технологічних рішень вдалось поєднати високу швидкодію виконання базових операцій ЦОС з ефективною реалiзацiєю алгоритмів управління та прийняття рішень. Особливостями архітектури мiкропроцесорiв i мiкро-ЕОМ ЦОС є:

· розвинута багатошинна організація, яка дозволяє виконувати пересилання даних між різними функціональними вузлами;

· одночасне транспортування всіх операторів до операційного пристрою;

· використання апаратних засобів для одночасного виконання операції множення з підсумовуванням;

· виконання паралельно з основними операціями функцій адресації, переадресації, розгалуження програм;

· застосування апаратно вбудованих засобів організації циклічних обчислень, що переважають в алгоритмах ЦОС;

· використання модифікованої гарвардської архітектури;

· набір команд для виконання з підвищ енною точністю арифметичних операцій;

· коротший командний цикл і виконання більшості команд за один цикл;

· здатність підтримувати конвеєрну обробку;

· зменшення довжини арифметичного конвеєра за рахунок використання багатопортової пам’яті;

· використання для обміну швидкодіючих каналів прямого доступа до пам’яті і механізму підтримки багатопроцесорності.

Спеціалізовані НВІС за способом проектування і виготовленням, тобто налаштуванням на виконання конкретного алгоритму діляться на два класи: замовні і напівзамовні [5].

Замовні НВІС - це мікросхеми, розроблені на основі стандартних або спеціально створених елементах і вузлах за схемою замовника. Особливістю замовних НВІС є оптимізація елементів і зв'язків, що дозволяє досягнути граничних значень параметрів для кожного рівня технології.

Напівзамовні НВІС - це мікросхеми, що складаються з двох частин: наперед спроектованої постійної та змінної - замовної, структура якої визначається замовником. До напівзамовних НВІС відносяться мікросхеми на основі базових матричних кристалів (БМК) та програмовані користувачем логічні інтегральні схеми (ПЛІС). Проектування пристроїв на базі ПЛІС здійснюється методом завантаження необхідної конфігурації в елементи "тіньової" пам'яті. При використанні БМК спеціалізація НВІС здійснюється за рахунок нанесення відповідних шарів з'єднань. Основними елементами БМК є базові комірки, що складаються з набору незкомутованих елементів-транзисторів і резисторів. На базі таких елементів реалізуються функціонально завершені вузли, які виконують елементарні функції типу І-НЕ, АБО-НЕ та інші.

Структура апаратних засобів сегментації мовного сигналу. Структура апаратних засобів сегментації мовного сигналу наведена на рис.1, де АЦП – аналого-цифровий перетворювач, БП – багатопортова пам'ять, ПЦОС – процесор ЦОС, АР – апаратний розширювач.

Рис.1 Структура апаратних засобів сегментації мовного сигналу

 

Основним елементом апаратних засобів сегментації мовного сигналу є ПЦОС, основні характеристики якого визначаються особливостями архітектури і технічними характеристиками мікропроцесора ЦОС. До числа таких характеристик відносяться: довжина інформаційного слова, час реалізації основних команд, обсяг внутрішньокристальної пам'яті даних і програм. Порівняння характеристик мікропроцесорів ЦОС різних фірм показує, що відмінності між мікропроцесорами одного покоління є несуттєвими. Це пояснюється близькістю архітектури і використанням для їх реалізації приблизно однакових за рівнем технологій. Тому структури апаратних засобів сегментації мовного сигналу на основі мікропроцесорів ЦОС різних фірм одного покоління не будуть мати істотних відмінностей. За повнотою родини, за існуючими технологічними інструментальними засобами та за кількістю розробленого програмного забезпечення мікропроцесори ЦОС фірми Texas Instruments TMS 320 переважають МП інших фірм. Тому апаратні засоби сегментації мовного сигналу доцільно реалізовувати на мікропроцесорі ЦОС серії TMS 320С50. Самостійно мікропроцесор ЦОС не відповідає вимогам, які ставляться до ПЦОС за ємністю пам’яті, завадостійкістю та навантажувальною здатністю інтерфейсу. Задовольнити такі вимоги можна шляхом доповнення мікропроцесора ЦОС зовнішньою оперативною пам’яттю та розширювачем інтерфейсу. Особливістю структурної організації ПЦОС є відділення мікропроцесора від зовнішніх пристроїв, що дозволило підвищити завадостійкість і сумістити у часі роботу мікропроцесора та зовнішніх пристроїв.

У апаратних засобах сегментації мовного сигналу для взаємодії між ПЦОС і зовнішніми пристроями використовується БП, яка забезпечує зменшення часу обміну та розв’язує проблеми пов’язані з синхронізацією роботи всіх пристроїв, що до неї підключаються [7]. Для забезпечення режиму реального часу найскладніші алгоритми з великою кількістю обчислювальних операцій реалізуються апаратним шляхом за допомогою АР. Архітектура АР відображає структуру алгоритму розв’язання задачі та дозволяє повною мірою використовувати можливості НВІС-технології, враховувати вартість площі кристала, а також кількість вхідних і вихідних виводів. АР реалізується на ПЛІС з динамічним репрограмуванням, що забезпечує оперативне переналаштування на реалізацію конкретного алгоритму. Узгодження обчислювальної здатності апаратних засобів сегментації мовного сигналу з інтенсивність надходження даних забезпечує високу ефективність використання обладнання. Для оцінки ефективності використання обладнання E доцільно використовувати критерій, який зв'язує продуктивність системи з витратами обладнання та дає оцінку її елементам (вентилям) за продуктивністю [4]. Кількісна величина ефективності використання обладнання для такого компоненту визначається наступним чином:

де R – складність алгоритму розв’язання задачі у кількості елементарних операцій; Wс - витрати обладнання на  реалізацію системи обробки мовних сигналів в вентилях; Тр - час розв’язання задачі.

Висновки:

1.         Запропоновано розробку апаратних засобів сегментації мовного сигналу в реальному часі з високою ефективністю використання обладнання здійснювати на основі інтегрованого підходу, який охоплює сучасну елементну базу, методи та алгоритми сегментації мовних сигналів, нові, орієнтовані на НВІС-реалізації, алгоритмічні, архітектурні та схемотехнічні рішення.

2.         Показано, що для ефективної сегментації мовного сигналу в реальному часі необхідно використовувати універсальні та спеціальні підходи, апаратні і програмні засоби.

3.         Для вибору і оцінки апаратних засобів сегментації мовних сигналів у реальному часі запропоновано використовувати критерій ефективності використання обладнання, який зв'язує продуктивність з витратами обладнання та дає оцінку елементам системи за продуктивністю.

4.         При побудові апаратних засобів сегментації мовних сигналів універсалізація розглядається як засіб скорочення номенклатури та зменшення затрат, а спеціалізація – як засіб підвищення швидкодії.

 

Methods and algorithms for segmentation of speech signals are analyzed, proposed the structure of hardware for segmentation of speech signal in real time and analytical expression for estimation effectiveness of use equipment are developed.

 

1.                  Вінцюк Т.К. Інтелектуальні усно мовні інформаційні технології та системи// Праці третьої всеукраїнської конференції “Укробраз-96”.- К.: ІК АН України, 1996.- С117-120.

2.                  Рашкевич Ю.М. Перетворення часового масштабу мовних сигналів. Львів. Академічний Експрес, 1997. – 143с.

3.                  З. Шиманські, Р. Фігура, Р. Марцишин. Особливості перетворення часової структури дифтонгів польської мови. Вісник Національного університету “Львівська політехніка”. №468, 2002. – С.170-174.

4.                  Цмоць І.Г. Інформаційні технології та спеціалізовані засоби  обробки сигналів і зображень у реальному часі. – Львів: УАД, 2005.- 227с.

5.                  Грушицкий Р.И., Мурсаев А.Х., Угрюмов Е.П. Проектирование систем на микросхемах программируемой логики. – СПб.: БХВ-Петербург, 2002. – 608с.

6.                  Кунг С. Матричные процессоры на СБИС. – М.- Мир.- 1991.- 672с.

7.                  Пат. №23358А Україна, МПК G11 C11/00. Багатопортова пам'ять / Демида Б.А, Рашкевич Ю.М, Цмоць І.Г. Бюл. №4, 1998.

 

 





Ответы на вопросы [_Задать вопроос_]

Информационно-измерительные системы

Ковальов О.І. Вимірювання у процесно-орієнтованих стандартах

Полякова М.В., Ищенко А.В., Худайбердин Э.И. Порогово-пространственная сегментация цветных текстурированных изображений на основе метода JSEG

Дзюбаненко А. В. Организация компьютерных систем для анализа изображений

Гордеев Б.Н., Зивенко А.В., Наконечный А.Г. Формирование зондирующих импульсов для полиметрических измерительных систем

Богданов А.В., Бень А.П., Хойна С.И. Релаксация обратного тока диодов Шоттки после их магнитно-импульсной обработки (МИО)

Тверезовский В.С., Бараненко Р.В. Проектирование измерителя добротности варикапов

Тверезовский В.С., Бараненко Р.В. Оптимизированная модель измерителя доб-ротности варикапов

Руднєва М.С., Кочеткова О.В., Задорожній Р.О. Принципи побудови оптимальної структури інформаційно-вимірювальної системи геометричних розмірів об’єктів в діапазоні від 1 нм до 1000 нм

Биленко М.С., Рожков С.А., Единович М.Б. Идентификация деформаций пе-риодических структур с использованием систем технического зрения

Рашкевич Ю.М., Ковальчук А.М., Пелешко Д.Д. Афінні перетворення в модифікаціях алгоритму RSA шифрування зображень

Дидык А.А., Фефелов А.А, Литвиненко В.И., Шкурдода С.В., Синяков Ф. В. Классификация масс-спектров с помощью кооперативного иммунного алгоритма

Клименко А.K. Обратная модель для решения задач в системах с многосвязными динамическими объектами

Завгородній А.Б. Порівняльне дослідження твердотільних і рідиннофазних об'єктів методом газорозрядної візуалізації

Голощапов С.С., Петровский А.В., Рожко Ж.А., Боярчук А.И. Измерение доб-ротности колебательного контура на основе метода биения частот

Кириллов О.Л., Якимчук Г.С. Диагностирование критерия безопасности при заполнении замкнутых объемов СПЖ косвенным методом

Долина В.Г. Проблеми підвищення точності рефрактометра на основі прозорих порожнистих циліндрів.

Самков О.В., Захарченко Ю.А. Застосування алгоритму клонального відбору для побудови планів модернізації авіаційної техніки

Попов Д.В. Метод формування регламентів технічного обслуговування повітряних суден

Казак В.М., Чорний Г.П., Чорний Т.Г. Оцінювання готовності технічних об’єктів з урахуванням достовірності їх контролю

Тверезовский В.С., Бараненко Р.В. Технические аспекты проектирования цифрового измерителя добротности варикапов

Тверезовский В.С., Бараненко Р.В. Технические аспекты проектирования устройства для разбраковки варикапов по емкостным параметрaм и добротности

Сосюк А.В. Інтелектуальний автоматизований контроль знань в системах дистанційного навчання

Соколов А.Є. Деякі аспекти систезу комп’ютеризованої адаптивної системи навчання

Полякова М.В., Волкова Н.П., Іванова О.В. Сегментація зображень стохастичних текстур амплітудно-детекторним методом у просторі вейвлет-перетворення

Луцкий М.Г., Пономаренко А.В., Филоненко С.Ф. Обработка сигналов акустической эмиссии при определении положения сквозных дефектов

Литвиненко В.И., Дидык А.А., Захарченко Ю.А. Компьютерная система для решения задач классификации на основе модифицированных иммунных алгоритмов

Лубяный В.З., Голощапов С.С. Прямоотсчетные измерители расхождений емкостей

Беляев А.В. Построение навигации для иерархических структур в WEB-системах и системах управления WEB-сайтом

Терновая Т.И., Сумская О.П., Слободянюк И.И., Булка Т.И. Контроль качества тканей специального назначения с помощью автоматических систем.

Шеховцов А.В. Інформаційний аспект: розпізнавання образів індивідуума.

Полякова М.В. Определение границ сегмента упорядоченной текстуры на изображении с однородным фоном с помощью многоканального обнаружения пачки импульсов.

Литвиненко В.И. Прогнозирования нестационарных временных рядов с помощью синтезируемых нечетких нейронных сетей

Ковриго Ю.М., Мисак В.Ф., Мовчан А.П., Любицький С.В. Автоматизована система діагностики генераторів електростанцій

Браїловський В.В., Іванчук М.М., Ватаманюк П.П., Танасюк В.С. Керований детектор імпульсного ЯКР спектрометра

Забытовская О.И. Построение функции полезности по экспериментальным данным.

Хобин В.А., Титлова О.А. К вопросу измерения парожидкостного фронта в дефлегматоре абсорбционно-диффузионной холодильной машины (АДХМ)

Фефелов А. А. Использование байесовских сетей для решения задачи поиска места и типа отказа сложной технической системы

Слань Ю. М., Трегуб В. Г. Оперативна нейромережна ідентифікація складних об’єктів керування

Ролик А.И. Модель управления перераспределением ресурсов информационно-телекоммуникационной системы при изменении значимости бизнес-процессов

Кириллов О.Л., Якимчук Г.С., Якимчук С.Г. Изучение электрического поля с помощью датчика измерителя электростатического потенциала на модели замкнутого металлического объема

Грицик В.В. Застосування штучних нейронних мереж при проектуванні комп’ютерного зору.

Гасанов А.С. Информационные технологии построения систем прогнозирования отказов

Шеховцов А.В., Везумский А.К., Середа Е.С. Алгоритм сжатия информации без потерь: модифицированный алгоритм LZ77

Ходаков В.Е., Жарикова М.В., Ляшенко Е.Н. Методы и алгоритмы визуализации пространственных данных на примере моделирования распространения лесных пожаров.

Полякова М.В., Крылов В.Н. Обобщённые масштабные функции с компактным носителем в задаче сегментации изображений упорядоченных текстур. – C. 75 – 84.

Полторак В.П., Дорогой Я.Ю. Система распознавания образов на базе нечеткого нейронного классификатора.

Литвиненко В.И. Синтез радиально-базисных сетей для решения задачи дистанционного определения концентрации хлорофилла.

Бражник Д.А. Управление совмещением изображения объекта в сцене и эталонного изображения.

Бабак В.П., Пономаренко А.В. Локализация места положения сквозных дефектов по сигналам акустической эмиссии.

Мороз В. В. R-D проблема и эффективность систем сжатия изображений.

Крылов В.Н., Полякова М.В., Волкова Н.П. Контурная сегментация в пространстве гиперболического вейвлет-преобразования с использованием математической морфологии.

Квасников В.П., Баранов А.Г. Анализ влияния дестабилизирующих факторов на работу биканальной координатно-измерительной машины.

Казак В.М., Гальченко С.М., Завгородній С.О. Аналіз можливості застосування імовірнісних методів розпізнавання для виявлення пошкоджень зовнішнього обводу літака.

Тищенко И.А., Лубяный В.З. Управление коммутационными процессами в интегрированных сетях связи.

Корниенко-Мифтахова И.К.,Филоненко С.Ф. Информационно-измерительная система для анализа характеристик динамического поведения конструкций.

Тверезовский В.С., Бараненко Р.В. Модель измерителя емкости с линейной шкалой измерений.

Полякова М.В., Крылов В.Н. Мультифрактальный метод автоматизированного распознавания помех на изображении.

Рожков С.О., Федотова О.М. Алгоритм розпізнавання дефектів тканин для автоматичної системи контролю якості.

Бражник Д.А. Использование проективного преобразования для автоматизации обнаружения объектов.

Ходаков В.Є., Шеховцов А.В., Бараненко Р.В. Математичні аспекти створення автоматизованої системи „Реєстр виборців України”