?
The smaller the better? Heterogeneity of corpus, training size, and morphological tagging
Гетерогенность орфографии и грамматического строя текстов старорусской письменности создают существенные трудности для автоматической частеречной и морфологической разметки. Существующие подходы демонстрируют хорошие результаты, не прибегая к помощи нормализации, однако все они, тем не менее, чувствительны к любым изменениям пропорций элементов тренировочного датасета и жанровой неоднородности. В данной работе мы проанализировали влияние этих факторов на качество автоматической морфологической разметки. Наше исследование показало, что качество морфологической разметки моделей UDpipe повышается по мере снижения объёма тренировочных данных. Именно поэтому нами была предпринята попытка проанализировать дистрибуцию частей речи и слов, состоящих из малого количества символов (2-3), в тренировочных выборках.