?
Разработка инструментальных средств для исследования информационных характеристик естественного языка
В статье представлены результаты разработки программного обеспечения для исследования информационных характеристик естественных языков.
Вопросы исследования информационных характеристик естественных языков вызваны необходимостью разра- ботки методов оценки защищенных информационных систем. При исследовании криптографических алгоритмов возникает задача восстановления входного сообщения или некоторой его части по информации о возможных вари- антах его знаков. В этом случае существенную роль играет структура источника сообщений, например, количес- тво сообщений заданной длины, которые могут быть сгенерированы данным источником. Решение данной задачи включает построение теоретико-вероятностных моделей источников сообщений и исследование их информацион- ных характеристик. В частности, при изучении возможности восстановления фрагментов текстового сообще- ния особенно актуальным представляется составление словарей отрезков текста короткой длины, называемых n-граммами, и анализ значений информационной энтропии n-грамм. Исследование подобных свойств языка является статистическим и проводится на текстовых выборках достаточно большой длины.
В данной статье представлены результаты разработки инструментальных средств для оценки информацион- ных характеристик языка. Приведено описание алгоритма построения текстовых словарей n-грамм и его програм- мной реализации, сформулирована методология исследования их информационных характеристик и представлены экспериментальные результаты исследования отдельных отрезков текста на русском языке ограниченной длины.