Автоматическое извлечение текстовых и числовых веб-данных для целей социальных наук

С. В. Жучкова; А. Н. Ротмистров

?

Автоматическое извлечение текстовых и числовых веб-данных для целей социальных наук

Социология: методология, методы, математическое моделирование. 2020. № 50-51. С. 141–183.

Статья посвящена процедуре автоматического извлечения данных с веб-страниц, т.е. скрапингу веб-данных. Рассмотрены виды веб-данных (цифровые следы и прочие веб-данные числовой, текстовой и других модальностей), возможности их использования (скорость сбора данных и, как следствие, сплошной охват, оперативность и др.) и ограничения (ограниченная репрезентативность, трудности организации хранения большого объема данных, отклонения от традиционной последовательности постановки исследования и др.) по сравнению с традиционными методами сбора информации. Описаны пути извлечения веб-данных со статических и динамических веб-страниц посредством интерфейса API, пакета requests, фреймворка selenium. Разобраны минимально необходимые для извлечения веб-данных компетенции, в том числе в программировании на языке Python и ориентировании в коде веб-страниц. Также дана подробная иллюстрация на основе фрагмента сбора данных исследования конкурсов для фрилансеров.

Приоритетные направления: социология

Язык: русский

Полный текст

Текст на другом сайте

Ключевые слова: большие данные API big data текстовые данные computational social science web scraping API requests text data вычислительные социальные науки automatic data extraction web data автоматическое извлечение данных веб-данные веб-скрапинг selenium requests selenium

How Universal is the Cool Water Effect? Evidence from the Unlikely Case of Russia

Кравцова М. В., Мусаев А. У., Вельцель К. П., / Series "SSRN Working Paper Series". 2026.

Добавлено: 3 июня 2026 г.

Почему растущие доходы не делают людей счастливее: эмоциональное объяснение парадокса Истерлина (Why Growing Incomes Do Not Make People Happier: an Emotional Explanation of the Easterlin Paradox)

Ворчик А. Д., / SSRN. Серия Social Science Research Network "Social Science Research Network". 2026.

Эта работа посвящена теоретическому объяснению парадокса Истерлина, согласно которому долгосрочный экономический рост не приводит к росту среднего уровня счастья людей. Под счастьем мы понимаем интенсивность эмоций, которые люди испытывают, когда сравнивают свой новый доход с ожидаемым либо целевой - с изначальным. В первом случае мы имеем дело с реактивным подходом к росту, тогда как во втором ...

Добавлено: 31 мая 2026 г.

Determinants of Сonsent to Personal Data Surveillance: Experimental Evidence from Russia

Сизов А. А., Родионова М. М., Седашов Е. А. и др., / NRU Higher School of Economics. Series PS "Political Science". 2026. No. 1.

Rapid development of surveillance technologies is one of the most socially important consequences of the digital age. This paper investigates the factors determining consent to surveillance of various types of personal data and contributes to rapidly growing research on citizens perceptions of surveillance practices. Relying on a comprehensive survey experiment, we study the effects of ...

Добавлено: 15 мая 2026 г.

Оборот цифровых активов: вызовы, возможности и правовые рамки

Панарина М. М., Законодательство 2026 № 5 С. 16–23

Автор рассматривает актуальные проблемы регулирования оборота цифровых активов в Российской Федерации, обращает внимание на причины значительных ограничений в сфере судебной защиты прав владельцев цифровых активов, отмечает правовые коллизии и пробелы. По ее мнению, лишь дальнейшее развитие законодательства позволит более четко определить и регламентировать использование цифровых активов в соответствии с требованиями оборота, а также обеспечить защиту ...

Добавлено: 14 мая 2026 г.

Домашние питомцы и здоровье пожилых. Количественный анализ

Карцева М. А., Пересецкий А. А., / Высшая школа экономики. Серия WP2 "Количественный анализ в экономике". 2026. № WP2/2026/01.

В данной работе исследуется связь между здоровьем одиноко проживающих пожилых людей и владением домашним питомцем (кошка, собака). Для анализа используются результаты обследования «Использование суточного фонда времени населением», проведенного Росстатом (Federal State Statistics Service, Rosstat) в 2019 г., которые содержат данные о более чем 10 000 одиноких пожилых людей возрастом более 60 лет в России, включая информацию ...

Добавлено: 8 мая 2026 г.

Балканские войны 1912–1913 гг. в современных национальных СМИ Сербии как символ единения балканских народов

Мулина А. А., В кн.: Балканские войны 1912–1913 гг.: далекие предпосылки и долгое эхо.: М.: Институт славяноведения РАН, 2024. С. 287–297.

В данной статье рассматривается вопрос отражения событий 1912–1913 гг. в национальных СМИ Сербии в 2012–2013 и 2022–2023 гг. Опираясь на «большие данные», полученные из сервиса Google, а также на материалы качественной газеты «Политика», автор анализирует особенности освещения эпизодов Балканских войн, а также запросы пользователей интернета на территории Сербии по темам, связанным с событиями 1912–1913 гг. ...

Добавлено: 21 апреля 2026 г.

Президентские выборы в Турецкой Республике в информационном пространстве стран Балканского полуострова: медиагеографический анализ

Мулина А. А., Якова Т. С., Вестник Российского университета дружбы народов. Серия: Литературоведение, журналистика 2025 Т. 30 № 1 С. 161–171

В статье представлены результаты исследования информационного пространства Балканских государств, проведенного в период президентских выборов в Турции (2023 г.): авторы обратились к этому периоду как к одному из самых ярких политических событий страны за последнее пятилетие. Цель предлагаемой работы – выявить уровень интереса к внутриполитическим событиям Турции как со стороны жителей балканских стран, так и со ...

Добавлено: 21 апреля 2026 г.

Big Data как актив: задачи правового обеспечения оборота данных средствами публичного права

Лескина Э. И., Законодательство 2026 № 2 С. 22–29

Одним из признаков больших данных является ценность, что вытекает из сущности современного этапа развития общества, значения информации и данных. Однако без правового обеспечения экономической сущности данных становится невозможным реализация заложенного в данных потенциала. В настоящее время можно говорить о несовершенстве имеющихся правовых средств для использования такого актива в обороте. Исходя из комплексности феномена больших данных, ...

Добавлено: 13 апреля 2026 г.

РАЗВИТИЕ НАЛОГОВОГО АДМИНИСТРИРОВАНИЯ В РОССИИ В УСЛОВИЯХ ПРИМЕНЕНИЯ ТЕХНОЛОГИИ БОЛЬШИХ ДАННЫХ

Лютова О. И., Горбунова М. А., Вопросы государственного и муниципального управления 2026 № 1 С. 35–57

Использование больших данных в налоговом администрировании переходит от внедрения отдельных цифровых технологий к этапу качественной аналитики с использованием алгоритмов автоматического анализа значительных по объему массивов информации из различных источников, что порождает ряд системных вызовов. Задача исследования – выяснить и проанализировать состояние трансформации налогового администрирования, осуществляемой посредством внедрения и использования цифровых инструментов, главным образом – технологий ...

Добавлено: 7 апреля 2026 г.

Институт аналогии в информационном праве России

Лескина Э. И., Вестник Воронежского государственного университета. Серия: Право 2025 № 4(63) С. 157–165

Скорость развития и распространения цифровых технологий с каждым годом лишь увеличивается, как и расширяются сферы их применение. Системы искусственного интеллекта решают задачи творческого характера, предиктивная аналитика применяется в правоохранительных органах, не остаются без внимания такие области, как здравоохранение, транспорт, образование и многие другие сферы. Часть общественных отношений при этом нуждается в принятии необходимых правовых норм, ...

Добавлено: 1 апреля 2026 г.

Политические эффекты государственных цифровых платформ и сервисов в автократиях

Балаян А. А., Томин Л. В., Публичная политика 2023 Т. 7 № 1-2 С. 108–117

Статья посвящена исследованию отдельных аспектов цифровизации управления в автократиях – прежде всего государственным платформам и цифровым сервисам. Анализ политических эффектов государственных платформ и сервисов проводится в более широком контексте исследования новых кибернетических элементов управления, которые дополняют/трансформируют традиционные для автократий дисциплинарные институты и электоральное «меню манипуляций». ...

Добавлено: 31 марта 2026 г.

Историческая политика в межпартийной борьбе в современной Индии: трансформация образа Индиры Ганди в 2014-2019 гг.

Анташева Мария Сергеевна, Вестник Российского университета дружбы народов. Серия: Всеобщая история 2026 Т. 18 № 1 С. 44–58

Восприятие ключевых лидеров новейшей истории Индии и его трансфор-мация в современной политической среде является значимым элементом политической борьбы между двумя крупнейшими партиями страны — Индийским национальным конгрессом (ИНК) и Бхаратия джаната парти (БДП). С приходом к власти БДП после-довательно проводит стратегию исторического ревизионизма, направленную на пере-смотр устоявшихся нарративов о лидерах ИНК. С использованием цифровых методов ...

Добавлено: 19 марта 2026 г.

Цифровое общество: теоретическая модель и российская действительность

Смирнов А. В., Мониторинг общественного мнения: Экономические и социальные перемены 2021 № 1 С. 129–153

В статье рассмотрена теоретическая модель цифрового общества, основанная на четырех концептах: сверхсвязность, платформизация, датификация и алгоритмическое управление. С помощью модели описан механизм углубления цифровизации общества— от переноса в цифровую среду отдельных практик и социальных взаимодействий до создания социального порядка на основе больших данных. Анализ панельных данных лонгитюдного обследования РМЭЗ НИУ ВШЭ за 2003—2018 гг. и географически привязанных данных проекта «Виртуальное население России» показал, что, ...

Добавлено: 18 марта 2026 г.

Прогнозирование миграционных процессов методами цифровой демографии

Смирнов А. В., Экономика региона 2022 Т. 18 № 1 С. 133–145

Характер и интенсивность миграционных процессов постоянно изменяются. Демографическая статистика не всегда позволяет получать актуальную информацию, принимать своевременные решения в области демографической и социальной политики. В связи с этим возрастает актуальность цифровой демографии — области исследований населения с использованием новых методов и источников данных, возникших в результате распространения интернета и цифровизации общества. Цель исследования — выявить ...

Добавлено: 18 марта 2026 г.

Загадка внутренней мотивации

Ворчик А. Д., / Social Science Research Network. Серия SSRN Working Paper Series "SSRN Working Paper Series". 2026.

Эта статья посвящена феномену внутренней мотивации, для понимания которого предлагаются две модели. Исследуется, как положительная/отрицательная внутренняя мотивация к работе (испытываемая полезность) влияет на предложение труда работника (модель I) и количество прикладываемых им усилий (модель II). В модели I внутренняя мотивация позволяет объяснить положительный/отрицательный наклон и возможное загибание кривой индивидуального предложения труда (backward-bending labour supply curve). ...

Добавлено: 15 марта 2026 г.

Improving guest satisfaction by identifying hotel service micro-elements failures through Deep Learning of online reviews

Kazakov S., Cuesta-Valiño P., Бутковская В. П. и др., Cuadernos de Gestion 2025 Vol. 25 No. 1 P. 71–88

Добавлено: 28 февраля 2026 г.

Data Analytics for Predicting Situational Developments in Smart Cities: Assessing User Perceptions

Харламов А. А., Pilgun M., , in: Special Issue Sensing Technology for Smart Cities: Data, Analytics, and VisualizationsVol. 24. Issue 15.: [б.и.], 2024.

Добавлено: 22 февраля 2026 г.

Special Issue Sensing Technology for Smart Cities: Data, Analytics, and Visualizations

[б.и.], 2024.

Добавлено: 15 февраля 2026 г.

Microfoundations of the Cultural Modernization Theory

Мусаев А. У., Ворчик А. Д., / Series Social Science Research Network "Social Science Research Network". 2026.

This paper attempts to model the evolutionary theory of modernization and democratization. The model reflects the key provisions of R. Inglehart and C. Welzel's theory and provides a microfoundation for the adaptation of subjective values to the objective importances of the survival factors and the structure of the labour markets from the perspective of evolutionary ...

Добавлено: 10 февраля 2026 г.

ALGORITHMIZATION OF LAW ENFORCEMENT MANAGEMENT PROCESSES USING ARTIFICIAL INTELLIGENCE

Barchukov, V., Relacoes Internacionais no Mundo Atual 2024 Vol. 4 No. 46 P. 113–132

Добавлено: 20 января 2026 г.

Artificial Intelligence for Urban Planning and Building Smart Cities

Demekhina A., Milshina Y., , in: Artificial Intelligence Enabled Real Time Environmental Monitoring.: Springer, 2026. P. 253–281.

Добавлено: 13 января 2026 г.

Denomination, Religiosity and Anti-Immigrant Attitudes in Europe:Comparative Evidence from the European Social Survey

Dorkhanov I., Соколов Б. О., / Series OSF "SocArXiv". 2025.

This study investigates the relationship between individual religiosity and attitudes towards immigrants of different religious backgrounds in Europe. Using data from the 7th wave of the European Social Survey (2014-2015), we examine the influence of individual denomination and subjective religiosity level on hostility towards Muslim immigrants and the importance of immigrants’ Christian background. Our analysis, ...

Добавлено: 23 декабря 2025 г.

Classification Approach to Mapping Cultural Differences: An Illustration Using Survey Data from 60 Russian Regions

Настина Е. А., Соколов Б. О., / Series OSF "SocArXiv". 2025.

We argue that a classification-based approach to measuring cultural differences across countries or subnational regions is a promising complement, and sometimes an alternative, to the widely used dimensional method in cross-cultural research. The latter summarises cultural variation using continuous dimensions, for example, Hofstede’s famous individualism-collectivism dimension. However, this approach relies on strong parametric assumptions, which ...

Добавлено: 23 декабря 2025 г.

Cross-Nationally, Non-Probability Web Surveys Demonstrate Poorer DemographicCoverage and Yield More Liberal Estimates of Public Opinion than F2F Surveys

Корсунова В. И., Соколов Б. О., / Series OSF "SocArXiv". 2025.

Non-probability web surveys offer several advantages over face-to-face (F2F) interviews—they are cheaper, faster, more accessible, and reduce interviewer effects and desirability bias. As such, they are increasingly popular in both academic and commercial research. However, they often yield demographically biased samples, raising concerns about the accuracy of the resulting public opinion estimates. Most studies on ...

Добавлено: 23 декабря 2025 г.