?
Building an Open Corpus and a Morphological Parser for Corpus Annotation for Standard Dargwa
Статья посвящена продолжающемуся проекту по созданию корпуса текстов на литературном даргинском языке (нахско-дагестанская группа языков). Пилотная версия корпуса была создана в 2022 г. В настоящей статье описывается опыт разработки полной версии корпуса. Во-первых, дан полный цикл разработки корпуса (необходимая последовательность этапов его разработки). Во-вторых, обсуждается процедура разработки и оптимизации морфологического парсера, обеспечивающего поморфемную аннотацию текстов в корпусе. Слои такой аннотации для каждой словоформы в корпусе включают: (а) слой поморфемной сегментации, (б) слой словарной формы, (в) слой грамматической поморфемной аннотации, (в) перевод лексемы на русский язык по двуязычному словарю. В‑третьих, анализируются проблемы, возникающие при применении выбранного инструмента для разработки системы морфологической аннотации (системы UniParser Т. Архангельского) к материалу даргинского языка, а также возможные пути их решения. Помимо этого, в статье описывается корпусной функционал.