Frequent Itemset Mining for Clustering Near Duplicate Web Documents

D. I. Ignatov; S. Kuznetsov

?

Frequent Itemset Mining for Clustering Near Duplicate Web Documents

Lecture Notes in Artificial Intelligence. 2009. Vol. 5662. P. 185–200.

A vast amount of documents in the Web have duplicates, which is a challenge for developing efficient methods that would compute clusters of similar documents. In this paper we use an approach based on computing (closed) sets of attributes having large support (large extent) as clusters of similar documents. The method is tested in a series of computer experiments on large public collections of web documents and compared to other established methods and software, such as biclustering, on same datasets. Practical efficiency of different algorithms for computing frequent closed sets of attributes is compared.

Научное направление: Компьютерные науки Математика

Приоритетные направления: бизнес-информатика математика

Язык: английский

Ключевые слова: базы данных кластеризация attributional style near-duplicate detection base of data clustering web document closed many signs algorithm of calculation веб-документ дубликат атрибуция атрибутирование замкнутые множества признаков алгоритм вычисления

Алгебра для студентов-математиков. Часть 2

Городенцев А. Л., М.: МЦНМО, 2025.

Книга представляет собой вторую часть интенсивного двухгодичного курса алгебры для студентов, профессионально изучающих математику и физику. Основу курса составляют лекции, читавшиеся на факультете математики Высшей школы экономики и в Независимом московском университете, а также материалы сопровождавших их семинарских занятий. В книге также приводится большое количество задач и упражнений. ...

Добавлено: 22 февраля 2026 г.

ГрафиКон 2025 : материалы 35-й Международной конференции по компьютерной графике и машинному зрению (Россия, Йошкар-Ола, 30 сентября – 2 октября 2025 г.)

Йошкар-Ола: Поволжский государственный технологический университет, 2025.

Представлены материалы 35-й Международной конференции «ГрафиКон 2025», проходившей на базе Поволжского государственного технологического университета. В сборник вошли доклады участников конференции, посвященные методам и технологиям компьютерного анализа изображений, визуальной и когнитивной аналитики, 3D-реконструкции, визуальной навигации и человеко-машинного взаимодействия, виртуальной и дополненной реальности, распознавания образов и др. Издание адресовано сотрудникам научно-исследовательских и образовательных организаций, специалистам предприятий ИТ-индустрии, аспирантам, студентам. ...

Добавлено: 21 февраля 2026 г.

BIG DATA и анализ высокого уровня = BIG DATA and Advanced Analytics: сб. науч. ст. XI Междунар. науч.-практ. конф. (Республика Беларусь, Минск, 23–24 апреля 2025 года)

Мн.: БГУИР, 2025.

BIG DATA и анализ высокого уровня = BIG DATA and Advanced Analytics : сб. науч. ст. XI Междунар. науч.-практ. конф. (Республика Беларусь, Минск, 23–24 апреля 2025 года) / редкол.: В. А. Богуш [и др.]. – Минск : БГУИР, 2025. – 498 с. ISBN 978-985-543-814-5. Опубликованы результаты научных исследований и разработок в области BIG DATA and Advanced Analytics для оптимизации ...

Добавлено: 21 февраля 2026 г.

Search for Correlations and Study of Selection Effects When Analyzing a Sample of Supernovae Associated with Gamma-Ray Bursts

Бэлкин, С., Белкин С. О., Позаненко А. С. и др., Astronomy Letters 2024 Vol. 50 No. 12 P. 701 – 731

Добавлено: 20 февраля 2026 г.

Modeling the Light Curves of Cosmic Gamma-Ray Bursts

Khabibullin А., Хабибуллин, А., Позанэнко, А. и др., Lobachevskii Journal of Mathematics 2025 Vol. 46 No. 4 P. 1459 – 1470

Добавлено: 20 февраля 2026 г.

Картирование медицинской науки: результаты интеллектуального анализа больших данных

Гребенюк А. Ю., Лобанова П. А., Саввин Н. В. и др., Медицинские технологии. Оценка и выбор 2026 Т. 1 № 48 С. 3–34

Цель исследования. Анализ актуальной глобальной повестки в медицинской науке. Материал и методы. В статье предлагается подход к построению медицинского исследовательского ландшафта на основе семантического анализа и картирования медицинских тематик с помощью системы интеллектуального анализа больших данных iFORA. Для этого была проведена векторизация 2252 тематик из англоязычных статей, опубликованных в 2024 г., относящихся к сфере медицины, эмбеддинги ...

Добавлено: 20 февраля 2026 г.

I. Yu. Lanskikh, A. S. Tikhomirov. Moduli of rank 3 semistable sheaves on the projective space P3 with singularities of mixed dimension

Tikhomirov A. S., Lanskikh I. Y., Siberian Mathematical Journal 2025 Vol. 66 No. 1 P. 64–77

Добавлено: 20 февраля 2026 г.

Designing an AI-Based Financial Advisor for Distressed Firms: A Decision Support Framework for Actionable and Accounting-Consistent Algorithmic Recourse

Lashkevich E., Зеленков Ю. А., IEEE Access 2026 Vol. 14 P. 20084–20099

Добавлено: 20 февраля 2026 г.

Incorporating Coulomb interactions with fixed charges in Moment Tensor Potentials and Equivariant Tensor Network Potentials

Korogod D., Chalykh O., Hodapp M. и др., Journal of Chemical Physics 2025 Vol. 164 No. 6

Добавлено: 19 февраля 2026 г.

Spikes in Poissonian quantum trajectories

Sherry A., Dhar A., Aritra K. и др., Physical Review A: Atomic, Molecular, and Optical physics 2025 Vol. 111 No. 4 P. 1–23

We consider the dynamics of a continuously monitored qubit in the limit of strong measurement rate where the quantum trajectory is described by a stochastic master equation with Poisson noise. Such limits are expected to give rise to quantum jumps between the pointer states associated with the non-demolition measurement. A surprising discovery in earlier work [Tilloy et al., ...

Добавлено: 19 февраля 2026 г.

Черновские аппроксимации решения линейного ОДУ с переменными коэффициентами

Ремизов И. Д., Владикавказский математический журнал 2025 Vol. 27 No. 4 P. 124–135

Добавлено: 19 февраля 2026 г.

Пределы групповых алгебр для растущих симметрических групп и сплетений

Ольшанский Г. И., Девяткова И. Е., Алгебра и анализ 2026 Т. 38 № 1 С. 139–197

Обозначим через S(\infty) бесконечную симметрическую группу, состоящую из финитных перестановок множества натуральных чисел; это счетная группа. Мы определяем ее виртуальную групповую алгебру, она является пополнением стандартной групповой алгебры С[S(\infty)]. Виртуальная групповая алгебра получается из конечномерных групповых алгебр C[S(n)] в результате предельного перехода при n\to\infty, причем предел берется в так называемых ручных представлениях группы S(\infty). (Заметим, ...

Добавлено: 18 февраля 2026 г.

Refining uniform approximation algorithm for low-rank Chebyshev embeddings

Morozov S., Zheltkov D., Osinsky A., Russian Journal on Numerical Analysis and Mathematical Modelling 2024 Vol. 39 No. 5 P. 311–328

Добавлено: 18 февраля 2026 г.

Загадки Пиковой Дамы. Фамильная галерея князей Голицыных в миниатюре в ГМИИ имени А. С. Пушкина. Интервью c куратором выставки, научным сотрудником отдела искусства старых мастеров Марией Лубниковой

Лубникова М. В., Окрошидзе Л. Г., Журнал об искусстве «Q» 2024 № 5 С. 69–80

Интервью c куратором выставки, научным сотрудником отдела искусства старых мастеров Марией Лубниковой ...

Добавлено: 17 февраля 2026 г.

Гражданско-правовое значение разметки данных

Калятин В. О., Интеллектуальная собственность. Авторское право и смежные права 2025 Т. 5 С. 51–57

Разметка данных – важный элемент базы данных, обеспечивающий как возможность эффективного поиска информации в базе данных, так и обучение искусственного интеллекта. Настоящая статья посвящена определению места разметки в рамках действующего гражданского законодательства и проблемам обеспечения ее правовой охраны. ...

Добавлено: 17 февраля 2026 г.

Новые исследования в контексте атрибуции миниатюрных портретов из коллекции князей Голицыных в собрании ГМИИ им. А.С.Пушкина в ходе работы над выставкой "Загадки Пиковой дамы"

Лубникова М. В., В кн.: Материалы научных конференций 2025 года Государственного историко-литературного музея-заповедника А.С.Пушкина. XXXI Голицынские чтения "Хозяева и гости усадьбы Вяземы и Захарово; XXVIII Пушкинской конференция "А.С.Пушкин в Подмосковье и Москве".: ООО "Рекламное агенство "РазДваТри" , 2025. С. 278–287.

Добавлено: 16 февраля 2026 г.

Homogeneous maximizers of the Blaschke-Santalo-type functionals

Колесников А. В., / Series arXiv "math". 2025.

Добавлено: 13 февраля 2026 г.

A Clustering Model for Stocks that Considers Hidden Dynamics and Price Trajectory

Morychev G., Сизых Д. С., Сизых Н. В., IEEE Access 2025 Vol. 13 P. 213194–213210

Одним из основных инструментов анализа больших объемов финансовых данных является использование методов и моделей кластеризации, позволяющих выявлять различные закономерности. В данном исследовании рассматривается проблема кластеризации временных рядов, отражающих поведение цен, доходности, мод, трендов и ряда связанных с ними показателей акций. Актуальность и новизна исследования заключаются в предложении оригинальных алгоритмов кластеризации акций, которые представляют собой сочетание ...

Добавлено: 3 февраля 2026 г.

Iterative Ricci-Foster Curvature Flow with GMM-Based Edge Pruning: A Novel Approach to Community Detection

Сорокин К. С., Бекетов М. Е., Онучин А. и др., / arxiv.org. Серия cs.SI "Social and Information Networks ". 2025.

Обнаружение сообществ в сложных сетях — фундаментальная проблема, открытая для новых подходов в различных научных областях. Мы представляем новый метод обнаружения сообществ, основанный на потоке Риччи на графах. Наша техника итеративно обновляет веса ребер (их метрические длины) в соответствии с их (комбинаторной) версией кривизны Риччи Фостера, вычисленной на основе эффективного расстояния сопротивления между узлами. Известно, ...

Добавлено: 15 января 2026 г.

On finding formal power-logarithmic expansions of solutions to q-difference equations

Гаянов Н. В., Парусникова А. В., / Cornell University. Серия math "arxiv.org". 2025.

Рассматривается алгебраическое q-разностное уравнение. Предлагается достаточное условие существования формального степенно- логарифмического разложения решения такого уравнения в окрест- ности нуля. Приводится пример применения этого достаточного условия для построения формального разложения решения неко- торого q-разностного аналога пятого уравнения Пенлеве при конкретных значениях параметров уравнения; рассматриваются два различных значения числа q, приводящие к качественно разным формальным асимптотическим разложениям ...

Добавлено: 25 декабря 2025 г.

Flexible Stock Market Algorithm

Рубчинский А. А., Чубарова Д. А., Technology and Investment 2025 Vol. 16 No. 4 P. 211–240

В статье рассматривается один из наиболее известных примеров социально-экономических систем, характеризующихся значительной неопределенностью, — фондовый рынок S&P-500, на котором торгуются акции 500 крупнейших компаний США. Разработан гибкий алгоритм ежедневной торговли. Он основан на известных фиксированных данных о стоимости акций в предыдущие дни, а также на некоторых ранее рассчитанных значениях. Каждый день выбирается один из двух алгоритмов для завтрашней торговли, ...

Добавлено: 19 декабря 2025 г.

Ideal of the variety of flexes of plane cubics

Попов В. Л., / Series arXiv "math". 2025. No. 2502.01539.

Добавлено: 16 декабря 2025 г.

Random walks on rank one symmetric spaces of noncompact type

Гнетов Ф. А., Конаков В. Д., / Series arXiv "math". 2025. No. 2512.04667.

Добавлено: 5 декабря 2025 г.

Cascades of Lorenz attractors in the Shimizu-Morioka model

Казаков А. О., Корякин В. А., Сафонов К. А. и др., / Series arXiv "math". 2025.

Добавлено: 4 декабря 2025 г.