• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Как цифровые инструменты помогают гуманитариям

Как цифровые инструменты помогают гуманитариям

© iStock

Вышка Онлайн запустила курс «Введение в анализ данных на R для гуманитарных и социальных наук» на портале «Открытое образование». Доцент Школы лингвистики факультета гуманитарных наук НИУ ВШЭ Георгий Мороз рассказал, зачем гуманитариям анализировать данные, кому будет интересен этот курс и какие необычные задания предстоит выполнить слушателям.

— Расскажите, о чем ваш курс?

— Слушатели гуманитарных и социальных специальностей познакомятся с инструментами, которые позволяют сделать разведочный анализ самых разных типов данных: и обычных табличных данных, и времени, и текста, и геоданных.

Георгий Мороз

Что такое разведочный анализ данных? Это первый и иногда основной этап, когда исследователь пытается как-то обозреть данные, искоренить ошибки ввода данных, понять, чего больше, чего меньше, построить какой-нибудь график и попробовать его проинтерпретировать. Обычно R у всех ассоциируется со статистикой, но в этом курсе статистике уделяется лишь одна неделя из девяти.

— Для кого предназначен курс?

— Курс будет полезен представителям любых профессий. Я занимаюсь лингвистикой — здесь анализ данных в последнее время занял центральное место. Также общаюсь со специалистами и из других областей: с цифровыми гуманитарными исследователями, антропологами, исследователями в области биостатистики и многими другими. Я надеюсь, что благодаря этому курс получился не таким узконаправленным, как мой прошлый курс «R для лингвистов: программирование и анализ данных».

Гуманитарии ничего не смыслят в методах точных наук — так гласит расхожий стереотип. К сожалению, он распространен и снаружи, и внутри научного сообщества. Мы вынесли гуманитариев в название в том числе и для того, чтобы представители этого направления не боялись выбрать курс. Я надеюсь, что таким образом смогу преодолеть эту преграду.

— Какие знания и навыки получат слушатели курса?

— Я бы разделил результаты прохождения курса на минимум и максимум. Как максимум я мечтаю о том, чтобы слушатели курса могли легко перейти от таблички с любыми типами данных к первой визуализации, а от нее — к первым озарениям относительно данных.

При этом я настаиваю, что это должны быть ваши данные. Если мне выдать данные из какого-то произвольного исследования, я, скорее всего, ничего в них не пойму. Усилия, которые люди потратили, собирая информацию, делают их знатоками в предметной области, и только у таких людей будут озарения.

Отсюда легко перейти к программе-минимум: если после прохождения курса у слушателей не возникнет уверенности в том, как переходить от таблички к графику, я очень надеюсь, что они все равно сумеют увидеть диапазон инструментов и их возможностей. Это очень важно, потому что в таком случае можно объединиться с другим исследователем, который легко сделает те шаги, в которых слушатель сам не уверен.

После общения с музейщиками у меня есть такое ощущение, что в наших музеях очень-очень много специалистов, которые используют разные данные, и им только дай человека, который бы все обобщил, и они будут счастливы.

— Зачем гуманитариям уметь анализировать данные?

— Все чаще слышу этот вопрос. Анализ данных — это большой и богатый мир инструментов. В последнее время мы видели много успешных примеров применения этих инструментов в самых разных областях.

Знание о том, какие инструменты есть, и об их возможностях дает дорогу новым открытиям. Но важной мне кажется и другая сторона: нужно знать ограничения известных методов и понимать, что если применять эти методы в области икс, то здесь открытия не получишь.

Мой курс охватывает лишь введение. Методов очень много, и совершенно неважен код, при помощи которого делается та или иная операция, важно, чтобы слушатели чуть-чуть очертили границы возможного.

— Как это работает — что именно делает исследователь, чтобы получить данные?

— В каждой области знания это происходит по-своему. Где-то можно идти от старых, давно заданных вопросов, а где-то можно выбрать другой путь, от данных к обобщениям. Но в любом случае процесс создания датасета — чаще всего скучная и нудная работа, очень монотонная. Обычно это такой большой мешок, в котором нужно отделить зерна от плевел.

— Какие данные гуманитарии могут использовать для анализа? Какие задания ждут слушателей курса?

— Для онлайн-курса я подготовил достаточно большой пул заданий. Большинство из них предполагает анализ какого-то датасета, поэтому я предлагаю оценить разброс:

 роман Ф.М. Достоевского «Бесы»;

 эпистолярные романы;

 возможные продолжения дразнилки «Жадина-говядина»;

 данные кладов римских монет;

 время работы библиотек России;

 высота и ширина утерянных или похищенных из музеев России картин;

 многоязычие в Дагестане;

 количество человек со злокачественным новообразованием;

 описания и рецепты из онлайн-магазина китайского чая и другие датасеты.

Пока я собирал и подготавливал датасеты для онлайн-курса, случились и свои разочарования: например, я составил много заданий на основе датасета с библиотеками России, но основная идея, ради которой я взялся за этот датасет, не выстрелила. На основе этой идеи я сделал сайт-задачку (data-driven-задача!), но в сам курс это задание не попало. Приглашаю всех угадать топ-10 известных людей, в честь которых названы библиотеки России.