?
RuREBus-2020 Shared Task: Russian Relaton Extraction for Business
В статье представлены результаты соревнования по распознаванию именованных сущностей и извлечению отношений. Целью соревнования является сравнение методов извлечения сущностей и отношений на русском языке в постановке, приближенной к индустриальным задачам. В качестве исходной коллекции текстов использовался корпус Минэкономразвития РФ, содержащий программы стратегического развития. Корпус был размечен в соответствии с инструкцией, разработанной авторами статьи. В процессе разметки использовались различные методы активного обучения, что позволило за короткое время создать качественный набор данных. Всего
1
было размечено более двухсот документов. Соревнование проводилось по трем задачам (дорожкам): 1) распознавание именованных сущностей, 2) извлечение отношений и 3) совместное распознавание именованных сущностей и извлечение отношений. Вместе с коллекцией размеченных текстов участникам также были предоставлены неразмеченные тексты, которые могли быть использованы для улучшения решений. В статье дается обзор и сравниваются результаты участников соревнования. Детальное описание соревнования, текстовые коллекции, инструкция по разметке и скрипты для оценки качества доступны по ссылке: https://github.com/dialogue-evaluation/RuREBus