?
Автоматическая лингвистическая разметка китайских текстов, содержащих заимствования: словоделение, транскрипция, PoS-тэггинг
В статье описываются проблемы лингвистической аннотации китайских текстов в Русско-китайском параллельном корпусе НКРЯ (далее – Корпус) и пути их решения. Особенное внимание уделяется проблеме обработки заимствований из русского языка. Представлено описание экспериментов в трех аспектах лингвистической разметки: словоделения, фонетической аннотации (G2P) и морфологической аннотации (PoS-тэггинг). Также описано создание датасетов, разработанных на основе данных Корпуса, которые могут быть использованы в дальнейших исследованиях нестандартных текстов на китайском языке. Полученные результаты исследования планируется применить для переразметки и дальнейшей обработки текстов в Корпусе.