?
Об обучении системы верификации диктора на неразмеченных данных
В статье исследуются способы получения автоматической разметки речевых данных по дикторам с помощью алгоритмов кластеризации с последующим получением смеси моделей, используемых для распознавания диктора. Такая задача возникает, например, в случае необходимости использования данных из новых каналов: например, данных, полученных с мобильных устройств. В таких каналах часто не удаётся получить большую размеченную базу по дикторам. В дальнейшем такая база может быть использована для построения системы верификации диктора. Далее в статье рассматривается задача верификации диктора и способы её решения на основе моделей GMM - UBM, дается обзор методов нормализации влияния канала, используемых для увеличения точности распознавания. Приводится обзор современных методов верификации диктора, такие как супервектора и PLDA. В статье исследуются качество разметки, полученной методом иерархической кластеризации с различными метриками, а также приводятся результаты численных экспериментов по верификации диктора на базе i-векторов из NIST i-vector Machine Learning Challenge 2014 с помощью модели, обученной на полученной разметке.