• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Глава
  • Detection of Crawler Traps: Formalization and Implementation Defeating Protection on Internet and on the TOR Network
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
17 июня 2026 г.
Биоинформатики НИУ ВШЭ обнаружили 20 опасных мутаций в гене, связанном с легочной артериальной гипертензией
Ученые НИУ ВШЭ совместно с коллегами из российских университетов выяснили, какие мутации в гене ACVRL1 опасны для пациентов с легочной артериальной гипертензией. Они смоделировали, как изменения в гене влияют на связывание АТФ с белком — процесс, от которого зависит передача сигналов, необходимых для работы сосудов. Оказалось, что 20 из 32 вариантов могут нарушать передачу сигнала и провоцировать болезнь. Результаты опубликованы в Journal of Structural Biology.
17 июня 2026 г.
Интеллектуальная робототехника: кадровый голод и масса возможностей
Пока на рынке мало кадров, способных заниматься разработкой интеллектуальных робототехнических систем. Между тем именно к этому идет робототехника. Как учат ее проектированию и каково будущее отрасли, в интервью IQ Media рассказал заведующий Проектно-учебной лабораторией робототехники НИУ ВШЭ Вадим Моргачев.
17 июня 2026 г.
Каким должно быть образование, чтобы готовить кадры для экономики будущего
Эти вопросы обсудят на форуме HR EXPO PRO ЛЮДЕЙ, который состоится 18-19 июня в Москве. В его работе примет участие ректор НИУ ВШЭ Никита Анисимов, федеральные министры, HR-директора компаний, ректоры вузов, эксперты. На форуме будет представлен стенд, посвященный программам ДПО НИУ ВШЭ.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

Detection of Crawler Traps: Formalization and Implementation Defeating Protection on Internet and on the TOR Network

P. 775–783.
Delong M., David B., Филиол Э. А.

In the domain of web security, websites want to prevent themselves from data gathering performed by automatic programs called bots. In that way, crawler traps are an efficient brake against this kind of programs. By creating similar pages or random content dynamically, crawler traps give fake information to the bot and resulting by wasting time and resources. Nowadays, there is no available bots able to detect the presence of a crawler trap. Our aim was to find a generic solution to escape any type of crawler trap. Since the random generation is potentially endless, the only way to perform crawler trap detection is on the fly. Using machine learning, it is possible to compute the comparison between datasets of webpages extracted from regular websites from those generated by crawler traps. Since machine learning requires to use distances, we designed our system using information theory. We used wild used distances compared to a new one designed to take into account heterogeneous data. Indeed, two pages does not have necessary the same words and it is operationally impossible to know all possible words by advance. To solve our problematic, our new distance compares two webpages and the results showed that our distance is more accurate than other tested distances. By extension, we can say that our distance has a much larger potential range than just crawler traps detection. This opens many new possibilities in the scope of data classification and data mining. 

Язык: английский
DOI
Текст на другом сайте
Ключевые слова: Tor Networkcrawler trapInformation distanceBots

В книге

Proceedings of the 6th International Conference on Information Systems Security and Privacy, February 25-27, 2020, in Valletta, Malta
Proceedings of the 6th International Conference on Information Systems Security and Privacy, February 25-27, 2020, in Valletta, Malta
Vol. 1: ForSE. , Setúbal: Science and Technology Publications, Lda, 2020.
Похожие публикации
Тестирование Telegram-бота, предназначенного для оценки субъективного благополучия и качества жизни граждан, включенных в систему долговременного ухода
Оськин Д. Н., Ларина М. О., Строилова Н. В. и др., Личность в меняющемся мире: здоровье, адаптация, развитие 2024 Т. 12 № 3(46) С. 239–252
В этой статье предлагается основа для укрепления практики использования в социальной работе онлайн-опросников, определяющих уровень субъективного благополучия и качества жизни, через применение Telegram - бота – мини-программы внутри мессенджера Telegram. Важным аспектом использования Telegram-бота является возможность автоматизации сбора данных, что значительно экономит время как для участников, так и для исследователей. Бот может в любой момент отправлять напоминания ...
Добавлено: 17 октября 2024 г.
Боты, ведущие народ? Модель влияния ботов на политическую мобилизацию и демобилизацию в социальных медиа
Толокнев К. А., Вестник Пермского университета Политология 2021 Т. 15 № 4 С. 16–29
Исследования влияния ботов (автоматизированных аккаунтов) в социальных медиа привлекают все большее внимание исследователей. Автоматизированные аккаунты применяются как государственными, так и негосударственными акторами для манипулирования коммуникациями в социальных медиа. Тем не менее, пока эта проблематика, несмотря на очевидные достижения, остается относительно мало изученной. Весьма заметен недостаток результатов в сфере изучения эффективности ботов для мобилизации (поощрения) и демобилизации (подавления) ...
Добавлено: 27 мая 2022 г.
Promoting a Leader or a Cause? An Agent-Based Model of Social Media Bots
Стукал Д. К., Филиппов И. Б., Monitoring Obshchestvennogo Mneniya: Ekonomichekie i Sotsial'nye Peremeny 2022 No. 1 P. 22–38
В исследованиях политической активности в социальной сетях в последнее время все большее внимание уделяется автоматизированным аккаунтам, более известным как боты. Несмотря на обилие работ, посвященных этому явлению, воздействие ботов на социальную сеть и ее пользователей остается недостаточно исследованным. Данная статья направлена на заполнение этой лакуны и предлагает реалистичную вычислительную модель взаимодействий обычных пользователей, политических лидеров ...
Добавлено: 23 марта 2022 г.
Modeling Bot Activity in the Online Political Communication
Филиппов И. Б., Юрескул Е. А., Стукал Д. К. и др., , in: 2021 14th International Conference Management of large-scale system development (MLSD).: IEEE, 2021. P. 1–5.
Добавлено: 1 декабря 2021 г.
На что способны боты? Модель протестной и контрпротестной политической мобилизации
Ахременко А. С., Петров А. П., Стукал Д. К. и др., Полития: Анализ. Хроника. Прогноз 2021 № 3 С. 172–194
Несмотря на растущий интерес исследователей к влиянию автоматизированных аккаунтов социальных медиа (интернет-ботов) на процессы политической коммуникации и мобилизации в онлайн-среде, степень их эффективности и механизмы использования остаются слабо изученными. Одна из причин дефицита общего концептуального понимания и конкретных результатов состоит в стремлении исследователей решить проблему сугубо эмпирическим путем, без попыток соединить анализ данных с математическим ...
Добавлено: 30 сентября 2021 г.
Detection of crawler traps: formalization and implementation—defeating protection on internet and on the TOR network
David B., Delong M., Филиол Э. А., Journal of Computer Virology and Hacking Techniques 2021
In the domain of web security, websites strive to prevent themselves from data gathering performed by automatic programs called bots. In that way, crawler traps are an efficient brake against this kind of programs. By creating similar pages or random content dynamically, crawler traps give fake information to the bot and resulting by wasting time ...
Добавлено: 7 апреля 2021 г.
“Statistical and Combinatorial Analysis of the TOR Routing Protocol - Structural Weaknesses Identified in the Tor Network”
Филиол Э. А., Delong M., Job N., FORSe 2018 & 2019 Special Issue, Antonella Santone Guest editor, Journal of computer Virology and Hacking Techniques 2020 Vol. 16 No. 1 P. 3–18
Добавлено: 15 мая 2020 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору