Annotated suffix trees for text clustering

E. Artemova; D. Ilvovsky

?

Annotated suffix trees for text clustering

P. 25–31.

In this paper an extension of tf-idf weighting on annotated suffix tree (AST) structure is described. The new weighting scheme can be used for computing similarity between texts, which can further serve as in input to clustering algorithm. We present preliminary tests of us-ing AST for computing similarity of Russian texts and show slight im-provement in comparison to the baseline cosine similarity after applying spectral clustering algorithm.

Язык: английский

Полный текст

Текст на другом сайте

Ключевые слова: clustering similarity measures annotated suffix tree

ПУБЛИКАЦИЯ ПОДГОТОВЛЕНА ПО РЕЗУЛЬТАТАМ ПРОЕКТА:

Майнинг сложноструктурированных данных и семантические технологии (2016)

В книге

The 3d International Workshop on Concept Discovery in Unstructured Data (CDUD 2016). Proceedings of the Third Workshop on Concept Discovery in Unstructured Data co-located with the 13th International Conference on Concept Lattices and Their Applications (CLA 2016), Moscow, Russia, July 18, 2016. CEUR Workshop Proceedings

Vol. 1625. , Aachen: CEUR Workshop Proceedings, 2016.

Flexible Stock Market Algorithm

Рубчинский А. А., Чубарова Д. А., Technology and Investment 2025 Vol. 16 No. 4 P. 211–240

В статье рассматривается один из наиболее известных примеров социально-экономических систем, характеризующихся значительной неопределенностью, — фондовый рынок S&P-500, на котором торгуются акции 500 крупнейших компаний США. Разработан гибкий алгоритм ежедневной торговли. Он основан на известных фиксированных данных о стоимости акций в предыдущие дни, а также на некоторых ранее рассчитанных значениях. Каждый день выбирается один из двух алгоритмов для завтрашней торговли, ...

Добавлено: 19 декабря 2025 г.

Tunnel Clustering Method

F. T. Aleskerov, A. L. Myachin, V. I. Yakuba, Doklady Mathematics 2024 Vol. 110 No. 3 P. 474–479

Добавлено: 3 марта 2025 г.

Использование Z-чисел для описания набора данных

Гусейнов О., Дегтярев К. Ю., IRETC MTÜ PAHTEI - Proceedings of Azerbaijan High Technical Educational Institutions 2025 Т. 48 № 1 С. 360–370

Понятие Z-числа было предложено проф. Л. Заде для описания частичной надежности информации и представляет собой своего рода «смесь» нечеткости и вероятностной неопределенности. Суть этого понятия в том, что в ряде задач, в силу неопределенности информации необходимо рассматривать не одно распределение вероятностей, но набор, своего рода семейство распределений. Причиной может быть то, что истинное распределение точно ...

Добавлено: 20 февраля 2025 г.

Gradient descent clustering with regularization to recover communities in transformed attributed networks

Шалилех С., Social Network Analysis and Mining 2025 Vol. 15212 P. 137–148

Добавлено: 30 ноября 2024 г.

An empirical scrutinization of four crisp clustering methods with four distance metrics and one straightforward interpretation rule

T. A. Alvandyan, S. Shalileh, Doklady Mathematics 2024 Vol. 110 No. S1 P. S236–S250

Добавлено: 30 ноября 2024 г.

Моделирование оплаты труда учителей в условиях неоднородности социально-экономического состояния регионов

Богданова Т. К., Жукова Л. В., В кн.: XI-я международная конференция «Многомерный статистический анализ, эконометрика и моделирование реальных процессов» имени С.А. Айвазяна.: М.: ЦЭМИ РАН, 2024. С. 41–44.

Работа посвящена анализу и прогнозированию средней зарплаты учителей. Для 84-х регионов на основе их социо-демографических характеристик по данным Росстата с использованием метода Уорда получено двух кластерное решение, позволившее выявить достаточно сильные различия по уровню заработной платы, ВРП на душу населения, уровню потребления и удельному весу молодежи нетрудоспособного возраста. Результаты проведенного статистического анализа подтверждают, что в ...

Добавлено: 4 октября 2024 г.

Threshold Functions and Operations in the Theory of Evidence

Лепский А. Е., , in: Belief Functions: Theory and Applications: 8th International Conference, BELIEF 2024, Belfast, UK, September 2–4, 2024, ProceedingsVol. 14909: Lecture Notes in Computer Science.: Cham: Springer, 2024. Ch. 23 P. 216–224.

The article introduces and discusses threshold belief and plausibility functions. When forming such functions, only focal elements that are “significant” for a given set are taken into account. The significance of focal elements is determined using a similarity measure and a threshold. Threshold functionals of uncertainty, external and internal conflicts, threshold rules of combination are ...

Добавлено: 14 сентября 2024 г.

Aggregation and Ranking on an Ordinal Scale Using Threshold Evidential Combination Rules

Лепский А. Е., Procedia Computer Science 2024 Vol. 242 P. 444–451

A new method of aggregation and ranking on an ordinal scale is proposed based on the method of evidential ranking previously developed by the author, but using the tools of threshold aggregation of bodies of evidence. This method has better robustness and stability compared to the threshold-free method. The method allows you to take into ...

Добавлено: 14 сентября 2024 г.

Clustering with empty clusters

Пеникас Г. И., Феста Ю. Ю., Известия Дальневосточного федерального университета. Экономика и управление 2024 Vol. 2 P. 75–94

Кластерный анализ широко используется в различных научных и практических областях, связанных с анализом данных. Это важный инструмент для решения задач в таких областях, как машинное обучение, обработка изображений, распознавание текста и т.д. Отсутствие наблюдений не всегда означает отсутствие информации, поэтому предполагается, что наличие пробелов в данных, наличие“пустых” кластеров, также несёт в себе информацию об объекте исследования, как и реальные наблюдения. В этом исследовании предполагается, ...

Добавлено: 10 августа 2024 г.

Detecting linguistic variation with geographic sampling

Койле Л. Э., Мороз Г. А., Journal of Linguistic Geography 2024 Vol. 12 No. 1 P. 24–31

Добавлено: 6 мая 2024 г.

Spot the Bot: Distinguishing Human-Written and Bot-Generated Texts Using Clustering and Information Theory Techniques

Громов В. А., Данг К. Н., , in: 10th International Conference, PReMI 2023, Kolkata, India, December 12–15, 2023, Proceedings. Pattern Recognition and Machine Intelligence. LNCS, volume 14301.: Cham: Springer, 2023. Ch. 3 P. 20–27.

Добавлено: 29 ноября 2023 г.

Temperature-driven transition into vortex clusters in low-kappa intertype superconductors

Backs A., Al-Falou A., Вагов А. В. и др., Physical Review B: Condensed Matter and Materials Physics 2023 Vol. 107 No. 17 Article 174527

In the vicinity of the type-I/type-II crossover in conventional superconductors, vortices exhibit a nonmonotonic interaction, which leads to exotic vortex matter states. We perform molecular dynamics simulations on a model superconductor in the intertype regime. In a field cooled approach, we examine the transition of a homogeneous vortex lattice (VL) into a structure consisting of ...

Добавлено: 2 ноября 2023 г.

Company name matching using job market data enrichment

Andrei A. Ternikov, IT Professional 2024 Vol. 26 No. 2 P. 76–82

Добавлено: 26 октября 2023 г.

2023 Fifth International Conference Neurotechnologies and Neurointerfaces (CNN) 18-20 Sept. 2023

Альшанская Е. И., Мартынова О. В., IEEE, 2023.

Добавлено: 24 сентября 2023 г.

Новая программная платформа для моделирования транспортных потоков с участием беспилотных автомобилей

Бекларян А. Л., Вестник ЦЭМИ 2023 Т. 6 № 1 Статья 5

В статье представлена новая программная платформа для моделирования транспортных потоков с участием беспилотных автомобилей, использующая ряд передовых технологических решений, в частности, инструменты суперкомпьютерного агентного моделирования FLAME GPU, интеллектуальные программные модули на основе нечёткой и иерархической кластеризации, генетические оптимизационные алгоритмы, подсистему визуализации состояния агентов-транспортных средств (ТС) на основе OpenGL и др. В результате, обеспечивается возможность моделирования ...

Добавлено: 4 июня 2023 г.

Tracing Vortex Clustering in a Superconductor by the Magnetic Flux Distribution

A. Vagov, E. G. Nikonov, The Journal of Physical Chemistry Letters 2023 Vol. 14 No. 15 P. 3743–3748

By investigating spatial configurations of the intermediate mixed state in an intertype superconductor, it is shown that vortex clustering can be characterized by the sample averaged distribution of the penetrating magnetic field. The clustering is manifested in the two peak structure of the distribution. The second peak indicates a spot a material occupies in the ...

Добавлено: 2 июня 2023 г.

An empirical comparison of connectivity-based distances on a graph and their computational scalability

Miasnikof P., Shestopaloff A., Pitsoulis L. и др., Journal of Complex Networks 2022 Vol. 10 No. 1 Article cnac003

Добавлено: 21 ноября 2022 г.

Кластеризация шумов как способ оценки функции постоянного сосудистого доступа у больных на гемодиализе

Кравцов П. Ф., Николаев Е. Н., Мазайшвили К. В. и др., Вестник СурГУ. Медицина 2022 Т. 51 № 1 С. 25–30

Аннотация. Цель – разработать алгоритм оценки спектрографических признаков дисфункции артериовенозной фистулы для гемодиализа. Материалы и методы. В исследовании приняли участие 44 пациента с нативной радиоцефальной фистулой, сформированной в дистальной трети предплечья. Всем пациентам проводили запись шума артериовенозной фистулы с использованием электронного стетоскопа. Сформированная база из 653 спектрограмм подверглась анализу по методу оценки величин энтропии и сложности. Для ...

Добавлено: 14 ноября 2022 г.