Lemmatization for ancient languages: Rules or neural networks?

O. Dereza

doi:10.1007/978-3-030-01204-5_4

АБВ
АБВ
АБВ

Обычная версия сайта

Приоритетные направления

по году

Тематика

Новости

9 июля 2026 г.

При взгляде на свое лицо мужчины забывают обо всем

В эксперименте с участием 15 здоровых мужчин ученые НИУ ВШЭ проанализировали, как фазы сердечного цикла влияют на возбудимость моторной коры, когда человек смотрит на собственную фотографию или лица незнакомых людей. Исследователи обнаружили, что в случае с собственным изображением мозг слабее считывает сигналы сердца — их влияние на кору снижается, хотя ожидалось, что внимание к себе, наоборот, усилит чувствительность к внутренним сигналам тела. Исследование опубликовано в журнале Frontiers in Signal Processing.

9 июля 2026 г.

Новый метод НИУ ВШЭ и Т-Технологий повышает качество работы ИИ

Ученые из лаборатории научных исследований «Т-Технологий» и Института искусственного интеллекта и цифровых наук факультета компьютерных наук НИУ ВШЭ разработали новый метод семплирования для моделей маскированной диффузии — G-Star+. Он помогает быстрее и качественнее исправлять ошибки во время генерации текста и кода за небольшое число шагов. Метод показал эффективность в задачах генерации текста и кода и может применяться там, где генеративным моделям нужно быстро и качественно создавать текст или код при ограниченных вычислительных ресурсах.

8 июля 2026 г.

Экономисты ВШЭ нашли способ эффективнее бороться с курением

Экономисты НИУ ВШЭ изучили, как курильщики реагируют на изменение цен на сигареты. При росте цен на табак потребление не всегда сокращается. Расходы могут даже вырасти: по оценкам экономистов НИУ ВШЭ, снижение доступности сигарет на 1% приводит к увеличению трат на табак на 0,28%. Поэтому, чтобы сокращать курение, цены на табачные изделия должны расти быстрее доходов населения. Результаты исследования опубликованы в журнале «Вопросы статистики».

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации

?

Lemmatization for ancient languages: Rules or neural networks?

P. 35–47.

Дереза О. В.

Lemmatisation, which is one of the most important stages of text preprocessing, consists in grouping the inflected forms of a word together so they can be analysed as a single item. This task is often considered solved for most modern languages irregardless of their morphological type, but the situation is dramatically different for ancient languages. Rich inflectional system and high level of orthographic variation common to these languages together with lack of resources make lemmatising historical data a challenging task. It becomes more and more important as manuscripts are being extensively digitized now, but still remains poorly covered in literature. In this work, I compare a rule-based and a neural network based approach to lemmatisation in case of Early Irish data.

Язык: английский

DOI

Ключевые слова: Neural Language Processing (NLP)Early Irish sequence-to-sequence models

В книге

Artificial Intelligence and Natural Language, 7th International Conference, AINL 2018, St. Petersburg, Russia, October 17–19, 2018, Proceedings

Issue 930. , Switzerland: Springer, 2018.

Proceedings of the Seventh Workshop on Teaching Natural Language Processing (TeachNLP 2026)

Association for Computational Linguistics, 2026.

Добавлено: 13 июня 2026 г.

A hybrid lemmatiser for Old Church Slavonic

Афанасьев И. А., / NRU HSE. Series WP BRP "Linguistics". 2021.

Добавлено: 28 декабря 2021 г.

Noisy Text Sequences Aggregation as a Summarization Subtask

Pletnev Sergey, , in: Crowd Science Workshop: Trust, Ethics, and Excellence in Crowdsourced Data Management at Scale (CSW 2021).: Copenhagen, Denmark: CEUR Workshop Proceedings, 2021. Ch. 1 P. 15–20.

Добавлено: 13 декабря 2021 г.

Reflections of syntactic structures in nonautoregressive language models

Плетенев С. А., В кн.: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог» (Москва, 16–19 июня 2021 г.)Issue 20.: Russian State University for the Humanitie, 2021.

Добавлено: 13 декабря 2021 г.

Double-Blind Peer-Reviewing and Inclusiveness in Russian NLP Conferences

Кутузов А. Б., Никишина И. А., , in: Analysis of Images, Social Networks and Texts. 8th International Conference, AIST 2019, Lecture Notes in Computer Science, Revised Selected PapersVol. 11832.: Cham: Springer, 2019. P. 3–8.

Добавлено: 20 января 2020 г.

Proceedings of Third Workshop "Computational linguistics and language science"

Wohlgenannt G., von Waldenfels R., Толдова С. Ю. и др., Manchester: EasyChair, 2019.

Добавлено: 9 сентября 2019 г.

Proceedings of the 7th Workshop on Balto-Slavic Natural Language Processing

Пономарева М. А., Дроганова К. А., Smurov I. и др., Florence: Association for Computational Linguistics, 2019.

Добавлено: 5 сентября 2019 г.

Lemmatisation for under-resourced languages with sequence-to-sequence learning: A case of Early Irish

Дереза О. В., , in: Proceedings of Third Workshop "Computational linguistics and language science"Issue 4.: Manchester: EasyChair, 2019. P. 113–124.

Добавлено: 12 декабря 2018 г.

Bayesian Compression for Natural Language Processing

Чиркова Н. А., Лобачева Е. М., Ветров Д. П., , in: Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing.: Association for Computational Linguistics, 2018. P. 2910–2915.

Добавлено: 5 сентября 2018 г.

Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing

Association for Computational Linguistics, 2018.

Добавлено: 5 сентября 2018 г.

23rd International Symposium on Methodologies for Intelligent Systems - Proceedings

Birkhauser/Springer, 2017.

Добавлено: 18 сентября 2017 г.