• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Глава

Автоматическая лингвистическая разметка китайских текстов, содержащих заимствования: словоделение, транскрипция, PoS-тэггинг

С. 1081-1094.
Коновалова А. С., Вольф Е. А., Семенов К. И., Короткова Ю. О.

В статье описываются проблемы лингвистической аннотации китайских текстов в Русско-китайском параллельном корпусе НКРЯ (далее – Корпус) и пути их решения. Особенное внимание уделяется проблеме обработки заимствований из русского языка. Представлено описание экспериментов в трех аспектах лингвистической разметки: словоделения, фонетической аннотации (G2P) и морфологической аннотации (PoS-тэггинг). Также описано создание датасетов, разработанных на основе данных Корпуса, которые могут быть использованы в дальнейших исследованиях нестандартных текстов на китайском языке. Полученные результаты исследования планируется применить для переразметки и дальнейшей обработки текстов в Корпусе.

В книге

Под науч. редакцией: В. Селегей. Iss. 20. M.: 2021.