СОВРЕМЕННОЕ СОСТОЯНИЕ И ТЕНДЕНЦИИ РАЗВИТИЯ РЕЧЕВЫХ ТЕХНОЛОГИЙ

А. А. Харламов; Чучупал В. Я.

Publications

?

СОВРЕМЕННОЕ СОСТОЯНИЕ И ТЕНДЕНЦИИ РАЗВИТИЯ РЕЧЕВЫХ ТЕХНОЛОГИЙ

С. 19–25.

Kharlamov A. A., Чучупал В. Я.

Language: Russian

Text on another site

Keywords: автоматическое распознавание речи архитектура глубоких нейросетей

In book

Труды 21-й Международной конференции «Цифровая обработка сигналов и ее применение – DSPA-2019»

Кн. 1. Вып. 21: Доклады 21-й Международной конференции. , Московское НТО радиотехники,электроники и связи им. А.С. Попова, 2019.

Распознавание речи в корпусе аудиозаписей торговых представителей: проблемы, решения и исследовательские перспективы

Колмогорова П. А., В кн.: Лингвистическая семантика в пространственном измерении: Словарь. Дискурс. Корпус.: Екатеринбург: Кабинетный ученый, 2024. Гл. 9.2 С. 411–422.

Added: November 29, 2024

Voice command recognition in intelligent systems using deep neural networks

Sokolov A., Savchenko A., , in: 17th World Symposium on Applied Machine Intelligence and Informatics (SAMI).: IEEE, 2019. Ch. 19 P. 113–116.

In this article, we focus on the isolated voice command recognition for autonomous man-machine and intelligent robotic systems. We propose to create a grammar model for a small testing command set with self-loops for each state to return blank symbols for noise and out-of-vocabulary words. In addition, we use single arc connected beginning and ending ...

Added: October 21, 2019

Нечеткое фонетическое кодирование речевых сигналов в системах обработки речевой информации

Savchenko A., Savchenko L., Радиотехника и электроника 2019 Т. 64 № 3 С. 274–280

Исследован фонетический подход для систем обработки голосовой информации. Разработан метод автоматического распознавания речевых сигналов, в котором каждому квазистационарному сегменту ставится в соответствие нечеткое множество фонем. Предложено использовать операцию вероятностной треугольной нормы для нечетких множеств, соответствующих входному фрейму и ближайшей к нему эталонной фонемы. Экспериментально показано, что разработанный метод позволяет на 1.5…5% снизить вероятность ошибочного распознавания ...

Added: March 18, 2019

Sequential Three-Way Decisions in Efficient Classification of Piecewise Stationary Speech Signals

Savchenko A., , in: International Joint Conference on Rough Sets, Springer, Cham.: Springer, 2017. P. 264–277.

In this paper it is proposed to improve performance of the automatic speech recognition by using sequential three-way decisions. At first, the largest piecewise quasi-stationary segments are detected in the speech signal. Every segment is classified using the maximum a-posteriori (MAP) method implemented with the Kullback-Leibler minimum information discrimination principle. The three-way decisions are taken ...

Added: October 26, 2018

Information Theoretic Analysis of Efficiency of the Phonetic Encoding–Decoding Method in Automatic Speech Recognition

Savchenko A., Savchenko V.V., Journal of Communications Technology and Electronics 2016 Vol. 61 No. 4 P. 430–435

A words phonetic decoding method in automatic speech recognition is considered. The properties of Kullback–Leibler divergence are used to synthesize the estimation of the distribution of divergence between minimum speech units (e.g., single phonemes) inside a single class. It is demonstrated that the min imum variance of the intraphonemic divergence is reached when the phonetic ...

Added: April 11, 2016

Теоретико-информационное обоснование и анализ эффективности метода фонетического кодирования-декодирования в задаче автоматического распознавания речи

Savchenko A., Савченко В. В., Радиотехника и электроника 2016 Т. 61 № 4 С. 373–379

Рассмотрен метод фонетического кодирования–декодирования слов в задаче автоматического распознавания речи. На основе свойств информационного рассогласования Кульбака–Лейблера синтезирована оценка распределения рассогласования между минимальными речевыми единицами типа отдельных фонем внутри одного класса. Показано, что наименьшая дисперсия внутрифонемного рассогласования достигается при настройке фонетической базы данных на голос конкретного (одного) диктора. Полученные оценки подтверждены результатам экспериментальных исследований в задаче ...

Added: October 8, 2015

Towards the creation of reliable voice control system based on a fuzzy approach

Savchenko A., Savchenko Lyudmila V., Pattern Recognition Letters 2015 Vol. 65 P. 145–151

The key purpose of this paper is to train a voice control system if a small amount of user speech data is available without need for general acoustic model if the latter does not fit to the user voice due to known variability sources (childhood, voice diseases, non-nativeness, etc.). We explore the possibility to increase ...

Added: September 10, 2015

Гибридный детектор речи.

Voznesenskaya T., Котов М. А., Леднов Д. А., Цифровая обработка сигналов 2014 № 4 С. 54–58

В данной статье описан детектор, работа которого основана, на таком устойчивом признаке речи, отличающем ее от всех прочих шумов, как наличие вокализованных интервалов. ...

Added: November 20, 2014

Краткий обзор приложения метода условных случайных полей в области распознавания речи

Voznesenskaya T., Леднов Д. А., Речевые технологии 2013 № 4 С. 127–134

Цель этой работы обзор математических основ модели условных случайных полей, а так же идеологическое сравнение этой модели с другими известными направлениями обработки речи. ...

Added: November 20, 2014

Semi-automated Speaker Adaptation: How to Control the Quality of Adaptation?

Savchenko A., Lecture Notes in Computer Science 2014 Vol. 8509 P. 638–646

Since the early 1990s, speaker adaptation have become one of the intensive areas in speech recognition. State-of-the-art batch-mode adaptation algorithms assume that speech of particular speaker contains enough information about the user's voice. In this article we propose to allow the user to manually verify if the adaptation is useful. Our procedure requires the speaker ...

Added: July 25, 2014

Оценка неопределенности словаря для метода фонетического декодирования в задаче распознавания изолированных слов

Savchenko A., Вестник компьютерных и информационных технологий 2014 № 3 С. 30–37

Рассмотрен подход к решению задачи распознавания изолированных слов русской речи для систем голосового управления на основе метода фонетического декодирования. В рамках теоретико-информационного подхода предложено нахождение неопределенности рабочего словаря как величины условной энтропии канала с шумами, на вход которого поступает некоторое слово из словаря, а на выходе появляется распознаваемый речевой сигнал. На основе свойств информационного рассогласования Кульбака–Лейблера представлена ...

Added: March 26, 2014

Сегментация речи на основе вероятностной нейронной сети с проверкой однородности

Savchenko A., Информационные системы и технологии 2014 № 2 С. 12–18

Предложен новый критерий сегментации речи, основанный на идее вероятностной нейронной сети с проверкой однородности. Экспериментально продемонстрировано, что предложенный подход позволяет на 2-7% повысить точность распознавания гласных звуков в слоге по сравнению с традиционным критерием, основанным на сопоставлении с фиксированным порогом расстояния между очередным фреймом и предыдущим однородным участком ...

Added: March 26, 2014

Сегментация речи в задачах автоматического обнаружения и распознавания голосовых команд

Savchenko A., Информационные технологии 2014 № 1 С. 53–57

Рассмотрена задача автоматического выделения голосовых команд из непрерывного речевого потока и их последующего распознавания. Для обнаружения в слогах границ гласных звуков используется основанный на идее вероятностной нейронной сети с проверкой однородности алгоритм фонемной сегментации речи. Предложено считать речевой сигнал частью голосовой команды, если доля длительности выделенного в нем однородного сегмента по отношению к длительности всего ...

Added: January 20, 2014

О применении Фишеровских ядер в задаче рас-познавания диктора

Ermilov A., Известия Юго-Западного государственного университета 2011 № 2 С. 15–20

In this article we consider application of Support Vector Machines with different types of kernels to the task of speaker identification. We use Fisher features for several types of channels (telephone, GSM, microphone). We analyze dependence of accuracy from length of input sentence. ...

Added: January 18, 2014

Алгоритм оценки параметров авторегрессионной модели элементарных речевых единиц

Gubochkin I., Моделирование и анализ информационных систем 2013 Т. 20 № 2 С. 23–33

The article considers the problem of estimating autoregressive model parameters of elementary speech units such as phonemes. It is suggested an iterative algorithm based on the Newton numerical minimization technique to search an autoregressive model of phonemes specified its multiple samples. For this purpose the analytical expressions of the gradient and the Hessian of Kullback–Leibler ...

Added: December 2, 2013

Кластеризация авторегрессионных моделей речевых сигналов по критерию минимума информационного рассогласования Кульбака – Лейблера

Gubochkin I., Karpov N., Информационно-управляющие системы 2013 № 5(66) С. 34–42

There has been solved the problem of clustering a set of speech signal autoregressive models in the framework of the information-theoretic approach. Therefore, an algorithm to find optimal parameters of the autoregressive model in terms of Kullback-Leibler information divergence minimum was developed. Based on it the well-known k-means clustering algorithm was modified. There have been ...

Added: December 2, 2013

Об одном подходе к разработке автоматизированной системы дистанционного обучения произношению слов на основе вероятностной нейронной сети с проверкой однородности

Savchenko A., В кн.: Нелинейная динамика в когнитивных исследованиях-2013. Труды III Всероссийской конференции.: Н. Новгород: Институт прикладной физики РАН, 2013. С. 144–147.

В работе рассмотрены основные алгоритмы и их программная реализация на платформе Silverlight 4, которые могут применяться для переноса в режим дистанционного обучения систем обучения языку программ "Профессор Хиггинс" компании "ИстраСофт". ...

Added: September 21, 2013

Fuzzy Phonetic Decoding Method in a Phoneme Recognition Problem

Savchenko A., Savchenko L. V., Lecture Notes in Artificial Intelligence 2013 Vol. 7911 P. 176–183

The definition of a phoneme as a fuzzy set of minimal speech units from the model database is proposed. On the basis of this definition and the Kullback-Leibler minimum information discrimination principle the novel phoneme recognition algorithm has been developed as an enhancement of the phonetic decoding method. The experimental results in the problems of ...

Added: June 16, 2013

Методика формирования фонетической базы данных диктора из непрерывного потока разговорной речи на основе адаптивного алгоритма сегментации фонем и когнитивной кластерной модели речевых единиц

Savchenko A., Акатьев Д. Ю., Информационные системы и технологии 2013 № 3 (77) С. 5–12

Рассмотрена проблема вариативности разговорной речи в задаче формирования фонетической базы данных. Для её решения предложено использование автоматической сегментации речи на последовательность фонем на основе когнитивной акустической модели типа фонетического кластера, определённого на множестве минимальных звуковых единиц. Разработан адаптивный алгоритм наполнения каждого кластера одноименными минимальными звуковыми единицами из непрерывного потока речи диктора. Представлены результаты экспериментального исследования ...

Added: May 7, 2013