?
Унификация данных музейного Госкаталога РФ
В эпоху больших данных растет интерес в том числе и к большим данным в гуманитарных сферах (на-
пример, в рамках цифровой гуманитаристики). В России существует Государственный каталог Музейного
фонда Российской Федерации, где собирается информация об экспонатах из коллекций российских му-
зеев. В настоящее время описано более 16 млн экспонатов. Многие поля в базе заполнены на естествен-
ном языке, например, «XIX век» в качестве даты создания предмета, что делает практически невозможным
анализ данных. Инструменты автоматической обработки языка (например, извлечение именованных сущ-
ностей) позволяют унифицировать данные и привести их в удобный для анализа вид. В работе показано,
как можно обрабатывать информацию о дате создания, месте создания, авторах и техниках. В качестве
иллюстрации того, как можно использовать нормализованные данные, приводится некоторая аналитика по
странам и периодам в разных категориях экспонатов, что позволяет увидеть известные закономерности.