?
Метод коррекции ошибок классификации распознанных символов
Процесс распознавания текстовых документов неизбежно связан с возникновением ошибок распознавания, для выявления и исправления которых используют методы пост-обработки, как правило, опирающиеся на словарный поиск. Использование словарей позволяет достичь приемлемого качества распознавания для латиницы, кириллицы и других фонетических алфавитов, однако малопригодно для языков, в которых выделение отдельных слов в письме нехарактерно или необязательно (китайский, японский, корейский, вьетнамский и прочие языки). В статье рассмотрены существующие методы, направленные на решение данной проблемы, а так же описан новый подход к исправлению некоторых видов ошибок, основанный на применении ансамблей нейронных сетей (по нейронной сети на каждый возможный символ), позволяющий сократить количество ошибок в результате распознавания иероглифического письма, а для фонетических алфавитов — снизить зависимость от качества словарей.