• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Статьи
  • Автоматическое извлечение текстовых и числовых веб-данных для целей социальных наук
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
19 мая 2026 г.
Физики НИУ ВШЭ выяснили, что происходит внутри устойчивого вихря
В атмосфере и в океане часто наблюдаются крупные вихри с характерными спиральными рукавами. Физики из НИУ ВШЭ объяснили, как они формируются и почему сохраняют свою структуру. Оказалось, что скорости в точках, расположенных вдоль одной дуги вихря, остаются связанными даже на больших расстояниях. При этом в направлении от центра вихря эта связь быстро ослабевает. Такие различия помогают объяснить образование рукавов и могут улучшить модели атмосферных и океанических течений. Результаты опубликованы в Physical Review Fluids.
18 мая 2026 г.
В Вышке прошла XXX юбилейная научно-техническая конференция имени Е.В. Арменского
Организатором научного события выступает Московский институт электроники и математики им. А.Н. Тихонова ВШЭ. В этом году главный инженерный студенческий форум проходил 30-й раз и собрал рекордное число участников. Студенты, аспиранты и молодые специалисты из 50 вузов и организаций России представили научно-исследовательские доклады в ИТ-области. Отдельная секция была посвящена научно-исследовательским работам школьников.
15 мая 2026 г.
В НИУ ВШЭ разрабатывают нейросеть для сферы науки и инноваций
Исследователи НИУ ВШЭ учат большие языковые модели понимать русскоязычную научную терминологию, увеличивая при этом их энергоэффективность. Адаптированная модель работает в 2,7 раза быстрее и требует на 73% меньше памяти, чем исходная открытая модель, что позволяет запускать ее на более доступном оборудовании. Программа прошла государственную регистрацию.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

Автоматическое извлечение текстовых и числовых веб-данных для целей социальных наук

Социология: методология, методы, математическое моделирование. 2020. № 50-51. С. 141–183.
Жучкова С. В., Ротмистров А. Н.

Статья посвящена процедуре автоматического извлечения данных с веб-страниц, т.е. скрапингу веб-данных. Рассмотрены виды веб-данных (цифровые следы и прочие веб-данные числовой, текстовой и других модальностей), возможности их использования (скорость сбора данных и, как следствие, сплошной охват, оперативность и др.) и ограничения (ограниченная репрезентативность, трудности организации хранения большого объема данных, отклонения от традиционной последовательности постановки исследования и др.) по сравнению с традиционными методами сбора информации. Описаны пути извлечения веб-данных со статических и динамических веб-страниц посредством интерфейса API, пакета requests, фреймворка selenium. Разобраны минимально необходимые для извлечения веб-данных компетенции, в том числе в программировании на языке Python и ориентировании в коде веб-страниц. Также дана подробная иллюстрация на основе фрагмента сбора данных исследования конкурсов для фрилансеров.

Приоритетные направления: социология
Язык: русский
Полный текст
Текст на другом сайте
Ключевые слова: большие данныеAPIbig dataтекстовые данныеcomputational social scienceweb scrapingAPIrequeststext dataвычислительные социальные наукиautomatic data extractionweb dataавтоматическое извлечение данныхвеб-данныевеб-скрапингseleniumrequestsselenium
Похожие публикации
Determinants of Сonsent to Personal Data Surveillance: Experimental Evidence from Russia
Сизов А. А., Родионова М. М., Седашов Е. А. и др., / NRU Higher School of Economics. Series PS "Political Science". 2026. No. 1.
Rapid development of surveillance technologies is one of the most socially important consequences of the digital age. This paper investigates the factors determining consent to surveillance of various types of personal data and contributes to rapidly growing research on citizens perceptions of surveillance practices. Relying on a comprehensive survey experiment, we study the effects of ...
Добавлено: 15 мая 2026 г.
Оборот цифровых активов: вызовы, возможности и правовые рамки
Панарина М. М., Законодательство 2026 № 5 С. 16–23
Автор рассматривает актуальные проблемы регулирования оборота цифровых активов в Российской Федерации, обращает внимание на причины значительных ограничений в сфере судебной защиты прав владельцев цифровых активов, отмечает правовые коллизии и пробелы. По ее мнению, лишь дальнейшее развитие законодательства позволит более четко определить и регламентировать использование цифровых активов в соответствии с требованиями оборота, а также обеспечить защиту ...
Добавлено: 14 мая 2026 г.
Домашние питомцы и здоровье пожилых. Количественный анализ
Карцева М. А., Пересецкий А. А., / Высшая школа экономики. Серия WP2 "Количественный анализ в экономике". 2026. № WP2/2026/01.
В данной работе исследуется связь между здоровьем одиноко проживающих пожилых людей и владением домашним питомцем (кошка, собака). Для анализа используются результаты обследования «Использование суточного фонда времени населением», проведенного Росстатом (Federal State Statistics Service, Rosstat) в 2019 г., которые содержат данные о более чем 10 000 одиноких пожилых людей возрастом более 60 лет в России, включая информацию ...
Добавлено: 8 мая 2026 г.
Балканские войны 1912–1913 гг. в современных национальных СМИ Сербии как символ единения балканских народов
Мулина А. А., В кн.: Балканские войны 1912–1913 гг.: далекие предпосылки и долгое эхо.: М.: Институт славяноведения РАН, 2024. С. 287–297.
В данной статье рассматривается вопрос отражения событий 1912–1913 гг. в национальных СМИ Сербии в 2012–2013 и 2022–2023 гг. Опираясь на «большие данные», полученные из сервиса Google, а также на материалы качественной газеты «Политика», автор анализирует особенности освещения эпизодов Балканских войн, а также запросы пользователей интернета на территории Сербии по темам, связанным с событиями 1912–1913 гг. ...
Добавлено: 21 апреля 2026 г.
Президентские выборы в Турецкой Республике в информационном пространстве стран Балканского полуострова: медиагеографический анализ
Мулина А. А., Якова Т. С., Вестник Российского университета дружбы народов. Серия: Литературоведение, журналистика 2025 Т. 30 № 1 С. 161–171
В статье представлены результаты исследования информационного пространства Балканских государств, проведенного в период президентских выборов в Турции (2023 г.): авторы обратились к этому периоду как к одному из самых ярких политических событий страны за последнее пятилетие. Цель предлагаемой работы – выявить уровень интереса к внутриполитическим событиям Турции как со стороны жителей балканских стран, так и со ...
Добавлено: 21 апреля 2026 г.
Big Data как актив: задачи правового обеспечения оборота данных средствами публичного права
Лескина Э. И., Законодательство 2026 № 2 С. 22–29
Одним из признаков больших данных является ценность, что вытекает из сущности современного этапа развития общества, значения информации и данных. Однако без правового обеспечения экономической сущности данных становится невозможным реализация заложенного в данных потенциала. В настоящее время можно говорить о несовершенстве имеющихся правовых средств для использования такого актива в обороте. Исходя из комплексности феномена больших данных, ...
Добавлено: 13 апреля 2026 г.
РАЗВИТИЕ НАЛОГОВОГО АДМИНИСТРИРОВАНИЯ В РОССИИ В УСЛОВИЯХ ПРИМЕНЕНИЯ ТЕХНОЛОГИИ БОЛЬШИХ ДАННЫХ
Лютова О. И., Горбунова М. А., Вопросы государственного и муниципального управления 2026 № 1 С. 35–57
Использование больших данных в налоговом администрировании переходит от внедрения отдельных цифровых технологий к этапу качественной аналитики с использованием алгоритмов автоматического анализа значительных по объему массивов информации из различных источников, что порождает ряд системных вызовов. Задача исследования – выяснить и проанализировать состояние трансформации налогового администрирования, осуществляемой посредством внедрения и использования цифровых инструментов, главным образом – технологий ...
Добавлено: 7 апреля 2026 г.
Институт аналогии в информационном праве России
Лескина Э. И., Вестник Воронежского государственного университета. Серия: Право 2025 № 4(63) С. 157–165
Скорость развития и распространения цифровых технологий с каждым годом лишь увеличивается, как и расширяются сферы их применение. Системы искусственного интеллекта решают задачи творческого характера, предиктивная аналитика применяется в правоохранительных органах, не остаются без внимания такие области, как здравоохранение, транспорт, образование и многие другие сферы. Часть общественных отношений при этом нуждается в принятии необходимых правовых норм, ...
Добавлено: 1 апреля 2026 г.
Политические эффекты государственных цифровых платформ и сервисов в автократиях
Балаян А. А., Томин Л. В., Публичная политика 2023 Т. 7 № 1-2 С. 108–117
Статья посвящена исследованию отдельных аспектов цифровизации управления в автократиях – прежде всего государственным платформам и цифровым сервисам. Анализ политических эффектов государственных платформ и сервисов проводится в более широком контексте исследования новых кибернетических элементов управления, которые дополняют/трансформируют традиционные для автократий дисциплинарные институты и электоральное «меню манипуляций». ...
Добавлено: 31 марта 2026 г.
Историческая политика в межпартийной борьбе в современной Индии: трансформация образа Индиры Ганди в 2014-2019 гг.
Анташева Мария Сергеевна, Вестник Российского университета дружбы народов. Серия: Всеобщая история 2026 Т. 18 № 1 С. 44–58
Восприятие ключевых лидеров новейшей истории Индии и его трансфор-мация в современной политической среде является значимым элементом политической борьбы между двумя крупнейшими партиями страны — Индийским национальным конгрессом (ИНК) и Бхаратия джаната парти (БДП). С приходом к власти БДП после-довательно проводит стратегию исторического ревизионизма, направленную на пере-смотр устоявшихся нарративов о лидерах ИНК. С использованием цифровых методов ...
Добавлено: 19 марта 2026 г.
Цифровое общество: теоретическая модель и российская действительность
Смирнов А. В., Мониторинг общественного мнения: Экономические и социальные перемены 2021 № 1 С. 129–153
В  статье рассмотрена теоретическая модель цифрового общества, основанная на  четырех концептах: сверхсвязность, платформизация, датификация и алгоритмическое управление. С помощью модели описан механизм углубления цифровизации общества— от переноса в цифровую среду отдельных практик и социальных взаимодействий до  создания социального порядка на  основе больших данных. Анализ панельных данных лонгитюдного обследования РМЭЗ НИУ ВШЭ за 2003—2018 гг. и географически привязанных данных проекта «Виртуальное население России» показал, что, ...
Добавлено: 18 марта 2026 г.
Прогнозирование миграционных процессов методами цифровой демографии
Смирнов А. В., Экономика региона 2022 Т. 18 № 1 С. 133–145
Характер и интенсивность миграционных процессов постоянно изменяются. Демографическая статистика не всегда позволяет получать актуальную информацию, принимать своевременные решения в области демографической и социальной политики. В связи с этим возрастает актуальность цифровой демографии — области исследований населения с использованием новых методов и источников данных, возникших в результате распространения интернета и цифровизации общества. Цель исследования — выявить ...
Добавлено: 18 марта 2026 г.
Загадка внутренней мотивации
Ворчик А. Д., / Social Science Research Network. Серия SSRN Working Paper Series "SSRN Working Paper Series". 2026.
Эта статья посвящена феномену внутренней мотивации, для понимания которого предлагаются две модели. Исследуется, как положительная/отрицательная внутренняя мотивация к работе (испытываемая полезность) влияет на предложение труда работника (модель I) и количество прикладываемых им усилий (модель II). В модели I внутренняя мотивация позволяет объяснить положительный/отрицательный наклон и возможное загибание кривой индивидуального предложения труда (backward-bending labour supply curve). ...
Добавлено: 15 марта 2026 г.
Improving guest satisfaction by identifying hotel service micro-elements failures through Deep Learning of online reviews
Kazakov S., Cuesta-Valiño P., Бутковская В. П. и др., Cuadernos de Gestion 2025 Vol. 25 No. 1 P. 71–88
Добавлено: 28 февраля 2026 г.
Data Analytics for Predicting Situational Developments in Smart Cities: Assessing User Perceptions
Харламов А. А., Pilgun M., , in: Special Issue Sensing Technology for Smart Cities: Data, Analytics, and VisualizationsVol. 24. Issue 15.: [б.и.], 2024.
Добавлено: 22 февраля 2026 г.
Special Issue Sensing Technology for Smart Cities: Data, Analytics, and Visualizations
[б.и.], 2024.
Добавлено: 15 февраля 2026 г.
Microfoundations of the Cultural Modernization Theory
Мусаев А. У., Ворчик А. Д., / Series Social Science Research Network "Social Science Research Network". 2026.
This paper attempts to model the evolutionary theory of modernization and democratization. The model reflects the key provisions of R. Inglehart and C. Welzel's theory and provides a microfoundation for the adaptation of subjective values to the objective importances of the survival factors and the structure of the labour markets from the perspective of evolutionary ...
Добавлено: 10 февраля 2026 г.
ALGORITHMIZATION OF LAW ENFORCEMENT MANAGEMENT PROCESSES USING ARTIFICIAL INTELLIGENCE
Barchukov, V., Relacoes Internacionais no Mundo Atual 2024 Vol. 4 No. 46 P. 113–132
Добавлено: 20 января 2026 г.
Artificial Intelligence for Urban Planning and Building Smart Cities
Demekhina A., Milshina Y., , in: Artificial Intelligence Enabled Real Time Environmental Monitoring.: Springer, 2026. P. 253–281.
Добавлено: 13 января 2026 г.
Denomination, Religiosity and Anti-Immigrant Attitudes in Europe:Comparative Evidence from the European Social Survey
Dorkhanov I., Соколов Б. О., / Series OSF "SocArXiv". 2025.
This study investigates the relationship between individual religiosity and attitudes towards immigrants of different religious backgrounds in Europe. Using data from the 7th wave of the European Social Survey (2014-2015), we examine the influence of individual denomination and subjective religiosity level on hostility towards Muslim immigrants and the importance of immigrants’ Christian background. Our analysis, ...
Добавлено: 23 декабря 2025 г.
Classification Approach to Mapping Cultural Differences: An Illustration Using Survey Data from 60 Russian Regions
Настина Е. А., Соколов Б. О., / Series OSF "SocArXiv". 2025.
We argue that a classification-based approach to measuring cultural differences across countries or subnational regions is a promising complement, and sometimes an alternative, to the widely used dimensional method in cross-cultural research. The latter summarises cultural variation using continuous dimensions, for example, Hofstede’s famous individualism-collectivism dimension. However, this approach relies on strong parametric assumptions, which ...
Добавлено: 23 декабря 2025 г.
Cross-Nationally, Non-Probability Web Surveys Demonstrate Poorer DemographicCoverage and Yield More Liberal Estimates of Public Opinion than F2F Surveys
Корсунова В. И., Соколов Б. О., / Series OSF "SocArXiv". 2025.
Non-probability web surveys offer several advantages over face-to-face (F2F) interviews—they are cheaper, faster, more accessible, and reduce interviewer effects and desirability bias. As such, they are increasingly popular in both academic and commercial research. However, they often yield demographically biased samples, raising concerns about the accuracy of the resulting public opinion estimates. Most studies on ...
Добавлено: 23 декабря 2025 г.
Перспективы интеграции новых цифровых технологий в современное образование для повышения его эффективности
Бояров Е. Н., Социальная компетентность 2025 Т. 10 № 2 С. 42–51
В статье рассматривается проблема интеграции новых цифровых технологий в современное образование с целью повышения его эффективности и качества. Цель исследования – обобщение теоретических и практических подходов к использованию цифровых инструментов в образовательной среде, а также выявление основных направлений и барьеров цифровой трансформации образования. Методы исследования включают анализ научной литературы и публикаций, сравнительный анализ различных подходов, ...
Добавлено: 9 декабря 2025 г.
Правовое регулирование индустрии аннотации данных как способ обеспечения качества данных
Лескина Э. И., Вестник Воронежского государственного университета. Серия: Право 2025 № 3 С. 64–71
Национальный проект "Экономка данных", направленный на цифровую трансформацию различных сфер, является следующей ступенью для обеспечения научно-технологического суверенитета в Российской Федерации, при этом ключевым моментом для реализации многочисленных направлений, федеральных проектов, мероприятий в рамках национального проекта является повышение качества как данных, так и их наборов, обеспечение роста доступных для использования различными субъектами данных. Вопросы качества данных ...
Добавлено: 7 декабря 2025 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору