Frequent Itemset Mining for Clustering Near Duplicate Web Documents

D. I. Ignatov; S. Kuznetsov

АБВ
АБВ
АБВ

Обычная версия сайта

Приоритетные направления

по году

Тематика

Новости

30 июля 2026 г.

Два года роста или падения: как выбрать инвестиционную стратегию

Экономисты из НИУ ВШЭ совместно с коллегами из зарубежных университетов изучили движение биржевых цен за почти 100 лет и предложили инвестиционную стратегию, доходность которой почти вдвое могла бы превысить рыночную. Ученые предлагают придерживаться стратегии моментум, когда рынок растет в течение двух лет, и переключаться на стоимостный подход, когда рынок падает. Статья опубликована в ведущем международном журнале Journal of Banking and Finance.

28 июля 2026 г.

Исследователи ВШЭ показали связь между вниманием и трудностями общения при аутизме

Исследователи НИУ ВШЭ изучили, как трудности в общении детей с аутизмом связаны с работой мозга. Данные показали, что важную роль играют не только языковые сети, но и сети внимания. Чем хуже работали связи, поддерживающие фокус и переключение внимания, тем более выраженными были нарушения в коммуникации. Исследование опубликовано в журнале European Child & Adolescent Psychiatry.

28 июля 2026 г.

Ученые выяснили, почему во время COVID-19 одни носили маски, а другие - нет

Почему одни люди добровольно следуют новым правилам, а другие их игнорируют? Ученые НИУ ВШЭ выяснили, что дело не столько в готовности действовать сообща, как считалось раньше, сколько в способности сопереживать другим людям. Именно эмпатия лучше всего объяснила, почему во время пандемии COVID-19 одни люди носили маски добровольно, а другие — нет. Результаты исследования опубликованы в журнале Frontiers.

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации

?

Frequent Itemset Mining for Clustering Near Duplicate Web Documents

P. 185–200.

Игнатов Д. И., Кузнецов С. О.

A vast amount of documents in the Web have duplicates, which is a challenge for developing efficient methods that would compute clusters of similar documents. In this paper we use an approach based on computing (closed) sets of attributes having large support (large extent) as clusters of similar documents. The method is tested in a series of computer experiments on large public collections of web documents and compared to other established methods and software, such as biclustering, on same datasets. Practical efficiency of different algorithms for computing frequent closed sets of attributes is compared.

Язык: английский

Полный текст

Ключевые слова: Clustering Near Duplicate Frequent Itemset Mining Web Documents

В книге

Conceptual Structures: Leveraging Semantic Technologies. 17th International Conference on Conceptual Structures, ICCS 2009, Moscow, Russia, July 26-31, 2009, Proceedings

Vol. 5662. , Berlin, Heidelberg: Springer, 2009.

Near-Duplicate Detection for Online-Shops Owners: An FCA-Based Approach

Игнатов Д. И., Chubis Y., Константинов А. В., Lecture Notes in Computer Science 2013 Vol. 7814 P. 722–725

We proposed a prototype of near-duplicate detection system for web-shop owners. It’s a typical situation for this online businesses to buy description of their goods from so-called copyrighters. Copyrighter can cheat from time to time and provide the owner with some almost identical descriptions for different items. In this paper we demonstrated how we can ...

Добавлено: 10 октября 2013 г.