• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Статья

Метод коррекции ошибок классификации распознанных символов

Брейман А. Д., Яковлев И. А.

Процесс распознавания текстовых документов неизбежно связан с возникновением ошибок распознавания, для выявления и исправления которых используют методы пост-обработки, как правило, опирающиеся на словарный поиск. Использование словарей позволяет достичь приемлемого качества распознавания для латиницы, кириллицы и других фонетических алфавитов, однако малопригодно для языков, в которых выделение отдельных слов в письме нехарактерно или необязательно (китайский, японский, корейский, вьетнамский и прочие языки). В статье рассмотрены существующие методы, направленные на решение данной проблемы, а так же описан новый подход к исправлению некоторых видов ошибок, основанный на применении ансамблей нейронных сетей (по нейронной сети на каждый возможный символ), позволяющий сократить количество ошибок в результате распознавания иероглифического письма, а для фонетических алфавитов — снизить зависимость от качества словарей.