Computationally refining a taxonomy by using annotated suffix trees over Wikipedia resources

E. Artemova; B. Mirkin

?

Computationally refining a taxonomy by using annotated suffix trees over Wikipedia resources

P. 177–185.

A two-step approach to devising a hierarchical taxonomy of a domain is outlined. As the first step, a coarse “high-rank” taxonomy frame is built manually using the materials of the government and other representative sites. As the second step, the frame is refined topic-by topic using the Russian Wikipedia category tree and articles filtered of “noise”. A topic-to-text similarity score, based on annotated suffix trees, is used throughout. The method consists of three main stages: 1) clearing Wikipedia data of noise, such as irrelevant articles and categories; 2) refining the taxonomy frame with the remaining relevant Wikipedia categories and articles; 3) extracting key words and phrases from Wikipedia articles. Also, a set of so-called descriptors is assigned to every leaf; these are phrases explaining aspects of the leaf topic. In contrast to many existing taxonomies, our resulting taxonomy is balanced so that all the branches are of similar depths and similar numbers of leaves. The method is illustrated by its application to a mathematics domain, “Probability theory and mathematical statistics”.

Язык: английский

Полный текст

Ключевые слова: text interpretation

ПУБЛИКАЦИЯ ПОДГОТОВЛЕНА ПО РЕЗУЛЬТАТАМ ПРОЕКТА:

Теоретическое и численное исследование современных математических моделей в социально-экономической, политической и финансовой сферах (2014)

В книге

Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 29 мая - 2 июня 2013 г.). В 2-х т.

Т. 2: Доклады специальных секций. Вып. 12(19). , М.: РГГУ, 2013.

Консервативные мотивы в трактатах Жан-Жака Руссо из цикла «Об искусстве и литературе»

Василенко Ю. В., Вестник Омского университета 2025 № 4(30) С. 29–41

Выявляются консервативные мотивы в философских трактатах Ж.-Ж. Руссо из цикла «Об искусстве и литературе». Рассматривая данные трактаты как протоидеологические, автор ставит проблему точного определения идеологической идентичности Ж.-Ж. Руссо. Опираясь на методологию «антропологического подхода» к консерватизму как социальной философии и политической идеологии (основоположник – английский философ М. Оукшот), автор утверждает, что консервативные мотивы в изобилии присутствуют ...

Добавлено: 22 декабря 2025 г.

Методологические проблемы публикации философских текстов. Материалы конференции – “круглого стола”. Участники: Б.И. Пружинин, Н.С. Автономова, Т.В. Артемьева, В.К. Кантор, И.А. Михайлов, Е.В. Пастернак, В.Н. Порус, И.С. Разумовский, Л.Т. Рыскельдиева, А.В. Смирнов, Т.Г. Щедрина, В.В. Янцен

Кантор В. К., Порус В. Н., Пружинин Б. И., Вопросы философии 2016 № 3 С. 5–50

За последние два десятилетия издано огромное количество философской литературы, в том числе литературы, прежде малодоступной отечественному читателю – публикации трудов русских философов, не издававшихся прежде для широкого читателя, переводы (также и с восточных языков), публикации архивных материалов и эпистолярного наследия философов. При этом в случае качественных изданий собственно издательская деятельность, как правило, сопровождалась серьезной подготовительной ...

Добавлено: 24 марта 2016 г.

Перевод романа У.Эко «Numero Zero» на русский язык: «Интерпретация и сверхинтерпретация»

Галатенко Ю. Н., В кн.: Перевод как средство взаимодействия культур.: М.: МАКС Пресс, 2015. Гл. 8 С. 73–84.

Данная статья посвящена анализу переводческой стратегии, основных приемов, используемых переводчиком при работе над текстом. В качестве примера выбран перевод романа современного итальянского писателя Умберто Эко «Нулевой номер» (U. Eco “Numero Zero”, 2015). ...

Добавлено: 11 января 2016 г.

К семантическим основаниям понимания

Бочкарев А. Е., В кн.: Человек. Язык. Время. Материалы XVII конференции школы-семинара имени Л. М. Скрелиной.: М.: МГПУ, Языки народов мира, ТЕЗАУРУС, 2015. С. 44–46.

В когнитивной обработке смысл анализируемой языковой последовательности выводится на основе предшествующих знаний путем подгонки к заведомо известным моделям понимания. Не меньший эвристический интерес вызывают вместе с тем и проблемные ситуации, когда для решения поставленной задачи не подходит ни одна их хранимых в памяти когнитивных моделей; и субъекту не остается ничего друго, как искать методом проб ...

Добавлено: 5 октября 2015 г.