• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Статья

Автоматическое извлечение текстовых и числовых веб-данных для целей социальных наук

Статья посвящена процедуре автоматического извлечения данных с веб-страниц, т.е. скрапингу веб-данных. Рассмотрены виды веб-данных (цифровые следы и прочие веб-данные числовой, текстовой и других модальностей), возможности их использования (скорость сбора данных и, как следствие, сплошной охват, оперативность и др.) и ограничения (ограниченная репрезентативность, трудности организации хранения большого объема данных, отклонения от традиционной последовательности постановки исследования и др.) по сравнению с традиционными методами сбора информации. Описаны пути извлечения веб-данных со статических и динамических веб-страниц посредством интерфейса API, пакета requests, фреймворка selenium. Разобраны минимально необходимые для извлечения веб-данных компетенции, в том числе в программировании на языке Python и ориентировании в коде веб-страниц. Также дана подробная иллюстрация на основе фрагмента сбора данных исследования конкурсов для фрилансеров.