?
Автоматизация использования таксономий для аннотирования текстовых документов.
Работа посвящена проблеме автоматического анно- тирования текстового документа ключевыми словами. Обычно, в качестве источника ключевых слов для аннотирования документа используют таксономии. Наш метод состоит из двух этапов, на- званных нами «отображением» и «аннотацией». Процедура ото- бражения соотносит таксономические единицы с рассматривае- мым текстом. Ее результатом является четкое или нечеткое мно- жество таксономических единиц, иначе множество запроса к так- сономии, которое характеризует содержание документа само по себе. На этапе аннотации требуется найти несколько таксономи- ческих единиц на высших уровнях таксономии, покрывающих все или почти все множество запроса. Эту задачу можно решить с помощью процедуры оптимального подъема. Найденные таксо- номические единицы следует считать искомой аннотацией тек- стового документа. Предлагаемый метод можно применять не только к одному текстовому документу, но и к коллекции тексто- вых документов. В таком случае, возникает необходимость в еще одном дополнительном этапе – кластеризации таксономических единиц.