?
Автоматический анализ качества устной речи
Karpov N.
Methods for speech quality analysis were considered and one of them was researched empirically. It based on criterion of maximum creation speed of information in speaker vocal track output. Synthesized and experimentally examine a new algorithm for speech quality automatic analysis with used cepstrum transformation for signal parameterization.
Savchenko A., Savchenko Lyudmila V., Pattern Recognition Letters 2015 Vol. 65 P. 145-151
The key purpose of this paper is to train a voice control system if a small amount of user speech data is available without need for general acoustic model if the latter does not fit to the user voice due to known variability sources (childhood, voice diseases, non-nativeness, etc.). We explore the possibility to increase ...
Added: September 10, 2015
Savchenko A., Lecture Notes in Artificial Intelligence 2017 Vol. 10314 P. 264-277
In this paper it is proposed to improve performance of the automatic speech recognition by using sequential three-way decisions. At first, the largest piecewise quasi-stationary segments are detected in the speech signal. Every segment is classified using the maximum a-posteriori (MAP) method implemented with the Kullback-Leibler minimum information discrimination principle. The three-way decisions are taken ...
Added: June 27, 2017
Savchenko A., Информационные технологии 2014 № 1 С. 53-57
Рассмотрена задача автоматического выделения голосовых команд из непрерывного речевого потока и их последующего распознавания. Для обнаружения в слогах границ гласных звуков используется основанный на идее вероятностной нейронной сети с проверкой однородности алгоритм фонемной сегментации речи. Предложено считать речевой сигнал частью голосовой команды, если доля длительности выделенного в нем однородного сегмента по отношению к длительности всего ...
Added: January 20, 2014
Gubochkin I., Моделирование и анализ информационных систем 2013 Т. 20 № 2 С. 23-33
The article considers the problem of estimating autoregressive model parameters of elementary speech units such as phonemes. It is suggested an iterative algorithm based on the Newton numerical minimization technique to search an autoregressive model of phonemes specified its multiple samples. For this purpose the analytical expressions of the gradient and the Hessian of Kullback–Leibler ...
Added: December 2, 2013
Savchenko A., Lecture Notes in Computer Science 2014 Vol. 8509 P. 638-646
Since the early 1990s, speaker adaptation have become one of the intensive areas in speech recognition. State-of-the-art batch-mode adaptation algorithms assume that speech of particular speaker contains enough information about the user's voice. In this article we propose to allow the user to manually verify if the adaptation is useful. Our procedure requires the speaker ...
Added: July 25, 2014
Savchenko A., Савченко В. В., Системы управления и информационные технологии 2012 Т. 48 № 2.2 С. 284-289
Рассмотрена проблема больших словарей в задаче распознавания речи. Показано, что, если фонетическая база данных содержит только устойчивые звуки, то методика формирования рабочего словаря сводится к автоматической транскрипции слов из тематического текстового файла. Представлен пример распознавания слов русской разговорной речи. ...
Added: September 14, 2012
Savchenko A., Информационные технологии 2013 № 4 С. 34-39
Ставится и решается задача автоматического распознавания речи для системы голосового управления. Предложен адаптивный алгоритм распознавания, на первом этапе которого для всех выделенных слогов распознаются гласные фонемы, а на втором происходит уточнение произнесенных слогов. Показано, что такой подход приводит к созданию высоконадежной обучаемой системы, в которой продолжительность настройки под диктора на порядок ниже аналогичного показателя для ...
Added: April 13, 2013
Savchenko A., Вестник компьютерных и информационных технологий 2012 № 8 С. 14-19
Ставится задача автоматического построения транскрипции слитной речи. Предложен новый критерий распознавания фонем на основе принципа минимума информационного рассогласования Кульбака-Лейблера и произвольных признаков - оценок спектральной плотности мощности речевого сигнала. Проведено сравнение предложенного критерия с традиционными мерами близости для популярных оценок спектра (периодограмма, авторегрессионная оценка, гребенка полосовых фильтров). Показано, что предложенный критерий характеризуется существенным повышением точности ...
Added: September 14, 2012
Voznesenskaya T., Котов М. А., Леднов Д. А., Цифровая обработка сигналов 2014 № 4 С. 54-58
В данной статье описан детектор, работа которого основана, на таком устойчивом признаке речи, отличающем ее от всех прочих шумов, как наличие вокализованных интервалов. ...
Added: November 20, 2014
Savchenko A., Савченко Л. В., Вестник компьютерных и информационных технологий 2013 № 3 С. 36-41
В рамках информационной теории восприятия речи предложено определение фонемы как нечеткого множества минимальных речевых единиц. На основе данного определения и принципа минимума информационного рассогласования в развитие известного метода фонетического декодирования слов синтезирован новый алгоритм распознавания фонем. Представлены результаты его экспериментального исследования для распознавания гласных звуков русского языка. ...
Added: April 27, 2013
Savchenko A., Информационные системы и технологии 2014 № 2 С. 12-18
Предложен новый критерий сегментации речи, основанный на идее вероятностной нейронной сети с проверкой однородности. Экспериментально продемонстрировано, что предложенный подход позволяет на 2-7% повысить точность распознавания гласных звуков в слоге по сравнению с традиционным критерием, основанным на сопоставлении с фиксированным порогом расстояния между очередным фреймом и предыдущим однородным участком ...
Added: March 26, 2014
Gubochkin I., Karpov N., Информационно-управляющие системы 2013 № 5(66) С. 34-42
There has been solved the problem of clustering a set of speech signal autoregressive models in the framework of the information-theoretic approach. Therefore, an algorithm to find optimal parameters of the autoregressive model in terms of Kullback-Leibler information divergence minimum was developed. Based on it the well-known k-means clustering algorithm was modified. There have been ...
Added: December 2, 2013
Savchenko A., Savchenko L., Радиотехника и электроника 2019 Т. 64 № 3 С. 274-280
Исследован фонетический подход для систем обработки голосовой информации. Разработан метод автоматического распознавания речевых сигналов, в котором каждому квазистационарному сегменту ставится в соответствие нечеткое множество фонем. Предложено использовать операцию вероятностной треугольной нормы для нечетких множеств, соответствующих входному фрейму и ближайшей к нему эталонной фонемы. Экспериментально показано, что разработанный метод позволяет на 1.5…5% снизить вероятность ошибочного распознавания ...
Added: March 18, 2019
Savchenko A., Акатьев Д. Ю., Информационные системы и технологии 2013 № 3 (77) С. 5-12
Рассмотрена проблема вариативности разговорной речи в задаче формирования фонетической базы данных. Для её решения предложено использование автоматической сегментации речи на последовательность фонем на основе когнитивной акустической модели типа фонетического кластера, определённого на множестве минимальных звуковых единиц. Разработан адаптивный алгоритм наполнения каждого кластера одноименными минимальными звуковыми единицами из непрерывного потока речи диктора. Представлены результаты экспериментального исследования ...
Added: May 7, 2013
Savchenko A., Савченко В. В., Радиотехника и электроника 2016 Т. 61 № 4 С. 373-379
Рассмотрен метод фонетического кодирования–декодирования слов в задаче автоматического распознавания речи. На основе свойств информационного рассогласования Кульбака–Лейблера синтезирована оценка распределения рассогласования между минимальными речевыми единицами типа отдельных фонем внутри одного класса. Показано, что наименьшая дисперсия внутрифонемного рассогласования достигается при настройке фонетической базы данных на голос конкретного (одного) диктора. Полученные оценки подтверждены результатам экспериментальных исследований в задаче ...
Added: October 8, 2015
Savchenko A., Savchenko L. V., Lecture Notes in Artificial Intelligence 2013 Vol. 7911 P. 176-183
The definition of a phoneme as a fuzzy set of minimal speech units from the model database is proposed. On the basis of this definition and the Kullback-Leibler minimum information discrimination principle the novel phoneme recognition algorithm has been developed as an enhancement of the phonetic decoding method. The experimental results in the problems of ...
Added: June 16, 2013
Demkin V. M., Sosnin A., Сусманова С. С., Онтология проектирования 2014 № 3(13) С. 63-76
Discussed in the paper are modern approaches to the design of complicated intellectual computer systems assessing foreign language proficiency, e.g. checking students’ academic progress in a higher educational establishment. The paper provides insight into the means to develop ontology-based situation models in the tasks requiring that a person’s command of English be assessed, which is ...
Added: October 24, 2012
Berlin, Heidelberg : Springer, 2012
Added: September 21, 2012
Savchenko A., Вестник компьютерных и информационных технологий 2014 № 3 С. 30-37
Рассмотрен подход к решению задачи распознавания изолированных слов русской речи для систем голосового управления
на основе метода фонетического декодирования. В рамках теоретико-информационного подхода предложено нахождение неопределенности рабочего словаря как величины условной энтропии канала с шумами, на вход которого поступает некоторое слово
из словаря, а на выходе появляется распознаваемый речевой сигнал. На основе свойств информационного рассогласования Кульбака–Лейблера представлена ...
Added: March 26, 2014
Гурбанов Т. П., Klyshinskiy E., Известия Национальной академии наук Азербайджана. Серия физико-технических и математических наук: Информатика и проблемы управления 2012 Т. 32 № 13 С. 47-58
В статье описывается решения задачи выделения групп слов из синтаксически связанных конструкций, которые в свою очередь выделяются из содержимого текстового файла с исходными данными. Решение задачи производится при помощи языка программирования Python с использованием библиотек NLTK и Pymorphy. ...
Added: November 1, 2012
Savchenko A., Savchenko V.V., Journal of Communications Technology and Electronics 2016 Vol. 61 No. 4 P. 430-435
A words phonetic decoding method in automatic speech recognition is considered. The properties of Kullback–Leibler divergence are used to synthesize the estimation of the distribution of divergence between minimum speech units (e.g., single phonemes) inside a single class. It is demonstrated that the min imum variance of the intraphonemic divergence is reached when the phonetic ...
Added: April 11, 2016
Ermilov A., Известия Юго-Западного государственного университета 2011 № 2 С. 15-20
In this article we consider application of Support Vector Machines with different types of kernels to the task of speaker identification. We use Fisher features for several types of channels (telephone, GSM, microphone). We analyze dependence of accuracy from length of input sentence. ...
Added: January 18, 2014
Karpov N., Системы управления и информационные технологии 2012 Т. 48 № 2.1 С. 145-149
In this article analyzed some methods of speech quality estimation based on State Standard and Informational Theory of Speech Perception. Experimentally examine effectiveness and boundaries of free methods for speech parameterization and using it with deferent metrics. ...
Added: September 11, 2012
Savchenko A., Савченко В. В., Информационно-управляющие системы 2013 № 2 С. 7-12
Предложена новая разновидность метода фонетического декодирования слов в расчете на ограниченное множество минимальных звуковых единиц типа отдельных фонем как альтернатива большинству известных методов распознавания речи, основанных на скрытых марковских моделях речевых сигналов. В ее основе используется идея многократного (на порядок и более) сжатия данных за счет того, что слова и фразы из словаря отображаются на ...
Added: April 23, 2013