• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Глава
  • Some thoughts on using annotated suffix trees for Natural Language Processing
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
22 мая 2026 г.
Лаборатория живых смыслов: как проект НИУ ВШЭ и СахГУ переосмысляет труд
Проект «Зеркальные лаборатории» НИУ ВШЭ — Пермь и Сахалинского государственного университета (СахГУ) изучает, как культура, среда и технологии формируют и меняют трудовые смыслы. Исследование объединяет индивидуальный опыт, профессиональные нормы, городские проблемы, творческие практики и цифровые условия труда. Руководитель Лаборатории междисциплинарных исследований по антропологии труда НИУ ВШЭ в Перми Лилия Пантелеева рассказала о работе проекта.
21 мая 2026 г.
«Пик глупости» и «долина отчаяния»: экономисты НИУ ВШЭ предложили объяснение эффекта Даннинга - Крюгера
Эффект Даннинга — Крюгера, который описывает резкий всплеск уверенности в своих силах у новичков и такое же стремительное ее падение при наборе опыта, объясняется особенностями процесса обучения и набора новых знаний. К такому выводу пришли сотрудник факультета экономических наук НИУ ВШЭ Андрей Ворчик вместе с независимым исследователем Муратом Мамышевым. Они разработали математическую модель процесса обучения и показали, как формируется и изменяется субъективная уверенность по мере накопления знаний и как  преподаватель может уменьшить «долину отчаяния» для ученика.
20 мая 2026 г.
«Еж» против «родственника»: ученые измерили, как мозг реагирует на неожиданные слова в живой речи
Российские нейрофизиологи с участием исследователей из НИУ ВШЭ показали, что изучать восприятие живой речи можно с помощью вызванных потенциалов. Они доказали, что метод применим не только к отдельным словам, но и к непрерывной речи. Оказалось, что слова, сильно отличающиеся по смыслу от предыдущего контекста, мозг обрабатывает дольше, а служебные слова анализирует в два этапа: сначала определяет их грамматическую роль, а затем на этой основе предсказывает следующее слово. Исследование опубликовано в журнале Frontiers in Human Neuroscience.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

Some thoughts on using annotated suffix trees for Natural Language Processing

P. 5–18.
Артемова Е. Л.

The paper defines an annotated suffix tree (AST) - a data structure used to calculate and store the frequencies of all the fragments of the given string or a collection of strings. The AST is associated with a string to text scoring, which takes all fuzzy matches into account. We show how the AST and the AST scoring can be used for Natural Language Processing tasks. Copyright © by the paper's authors. Copying only for private and academic purposes.

Язык: английский
Полный текст
Ключевые слова: annotated suffix treeText categorizationText representationText summarization

В книге

2nd Workshop on Interactions Between Data Mining and Natural Language Processing, DMNLP 2015; Porto; Portugal; 7 September 2015
Issue 1410. , Aachen: CEUR-WS, 2015.
Похожие публикации
Noisy Text Sequences Aggregation as a Summarization Subtask
Pletnev Sergey, , in: Crowd Science Workshop: Trust, Ethics, and Excellence in Crowdsourced Data Management at Scale (CSW 2021).: Copenhagen, Denmark: CEUR Workshop Proceedings, 2021. Ch. 1 P. 15–20.
Добавлено: 13 декабря 2021 г.
Crowd Science Workshop: Trust, Ethics, and Excellence in Crowdsourced Data Management at Scale (CSW 2021)
Copenhagen, Denmark: CEUR Workshop Proceedings, 2021.
Добавлено: 13 декабря 2021 г.
A Hybrid Approach to the Analysis of a Collection of Research Papers
Миркин Б. Г., Фролов Д. С., Vlasov A. и др., , in: Intelligent Data Engineering and Automated Learning – IDEAL 2020/ 21st International Conference, Guimaraes, Portugal, November 4–6, 2020, Proceedings, Part IIVol. 12490: Lecture Notes in Computer Science.: Cham: Springer, 2020. P. 423–433.
Добавлено: 13 ноября 2020 г.
Scalable and language-independent embedding-based approach for plagiarism detection considering obfuscation type: no training phase
Gharavi E., Veisi H., Россо П., Neural Computing and Applications 2020 Vol. 32 No. 14 P. 10593–10607
Добавлено: 29 октября 2020 г.
A Hybrid Approach to Interpretable Analysis of Research Paper Collections
Миркин Б. Г., Фролов Д. С., Власов А. С. и др., , in: WIMS 2020: Proceedings of the 10th International Conference on Web Intelligence, Mining and Semantics.: Association for Computing Machinery (ACM), 2020. P. 184–189.
Добавлено: 28 августа 2020 г.
Computational Generalization in Taxonomies Applied to: (1) Analyze Tendencies of Research and (2) Extend User Audiences
Фролов Д. С., Миркин Б. Г., Nascimento S. и др., , in: Intelligent Data Engineering and Automated Learning – IDEAL 2019Vol. 2.: Springer, 2019. P. 3–11.
Добавлено: 7 декабря 2019 г.
Intelligent Data Engineering and Automated Learning – IDEAL 2019
Springer, 2019.
Добавлено: 7 декабря 2019 г.
Authorship Attribution in Russian with New High-Performing and Fully Interpretable Morpho-Syntactic Features
Pimonova E., Дурандин О. В., Малафеев А. Ю., , in: Analysis of Images, Social Networks and Texts. 8th International Conference, AIST 2019, Lecture Notes in Computer Science, Revised Selected PapersVol. 11832.: Cham: Springer, 2019. P. 193–204.
В данной работе рассматривается проблема моделирования авторского стиля на русском языке. В частности, мы решаем задачу атрибуции авторства, используя собранный набор данных из 30 авторов, 1506 текстов, написанных в период с 18 по 21 век. Мы применяем различные подходы к решению проблемы атрибуции: случайный лес, логистическая регрессия, метод опорных векторов. С точки зрения представления текста, ...
Добавлено: 7 ноября 2019 г.
Using Taxonomy Tree to Generalize a Fuzzy Thematic Cluster
Фролов Д. С., Миркин Б. Г., Nascimento S. и др., , in: Fuzzy Systems (FUZZ-IEEE), IEEE International Conference Proceedings.: IEEE, 2019. P. 1–6.
Добавлено: 30 октября 2019 г.
Parsimonious Generalization of Fuzzy Thematic Sets in Taxonomies Applied to the Analysis of Tendencies of Research in Data Science
Фролов Д. С., Nascimento S., Fenner T. и др., Information Sciences 2020 Vol. 512 P. 595–615
Добавлено: 9 октября 2019 г.
Globally Optimal Parsimoniously Lifting a Fuzzy Query Set Over a Taxonomy Tree
Фролов Д. С., Миркин Б. Г., Nascimento S. и др., , in: Optimization of Complex Systems: Theory, Models, Algorithms and Applications.: Switzerland: Springer Publishing Company, 2020. P. 779–789.
Добавлено: 25 июня 2019 г.
CONTENT 2019, The Eleventh International Conference on Creative Content Technologies
International Academy, Research, and Industry Association (IARIA), 2019.
Добавлено: 4 июня 2019 г.
Method for Generalization of Fuzzy Sets
Фролов Д. С., Миркин Б. Г., Nascimento S. и др., , in: International Conference on Artificial Intelligence and Soft Computing. 18th International Conference, ICAISC 2019, Zakopane, Poland, June 16–20, 2019, Proceedings* 1. Issue 11508.: Cham: Springer, 2019. P. 273–286.
We define and find a most specific generalization of a fuzzy set of topics assigned to leaves of the rooted tree of a taxonomy. This generalization lifts the set to a “head subject” in the higher ranks of the taxonomy, that is supposed to “tightly” cover the query set, possibly bringing in some errors, both ...
Добавлено: 3 июня 2019 г.
International Conference on Artificial Intelligence and Soft Computing. 18th International Conference, ICAISC 2019, Zakopane, Poland, June 16–20, 2019, Proceedings
Cham: Springer, 2019.
The two-volume set LNCS 11508 and 11509 constitutes the refereed proceedings of of the 18th International Conference on Artificial Intelligence and Soft Computing, ICAISC 2019, held in Zakopane, Poland, in June 2019. The 122 revised full papers presented were carefully reviewed and selected from 333 submissions. The papers included in the first volume are organized in the ...
Добавлено: 3 июня 2019 г.
Система автоматического аннотирования текстов с помощью стохастической модели
Вознесенская Т. В., Леднов Д. А., Машинное обучение и анализ данных 2018 Т. 4 № 4 С. 266–279
Работа посвящена системе автоматического аннотирования текста, реализованной в рамках совместного проекта компании «DC – Systems» и факультета компьютерных наук НИУ ВШЭ. Построение аннотации осуществляется с помощью синтаксически согласованных словосочетаний, наиболее близких к семантике всего текста. При этом пренебрегается возможными дополнительными смыслами отдельных фрагментов текста. Качество аннотации определяется семантической близостью к исходному тексту. Задача построения аннотации разбивается ...
Добавлено: 5 октября 2018 г.
Annotated Suffix Tree Method for German Compound Splitting
Шишкова А. С., Артемова Е. Л., , in: CLLS 2016. Computational Linguistics and Language Science. Proceedings of the Workshop on Computational Linguistics and Language Science. Moscow, Russia, April 26, 2016Vol. 1886.: Aachen: CEUR Workshop Proceedings, 2017. P. 42–47.
Добавлено: 10 октября 2017 г.
Comparison of String Similarity Measures for Obscenity Filtering
Артемова Е. Л., , in: Proceedings of the 6th Workshop on Balto-Slavic Natural Language Processing.: Stroudsburg, PA: Association for Computational Linguistics, 2017. P. 97–101.
Добавлено: 10 октября 2017 г.
Annotated suffix trees for text clustering
Артемова Е. Л., Ильвовский Д. А., , in: The 3d International Workshop on Concept Discovery in Unstructured Data (CDUD 2016). Proceedings of the Third Workshop on Concept Discovery in Unstructured Data co-located with the 13th International Conference on Concept Lattices and Their Applications (CLA 2016), Moscow, Russia, July 18, 2016. CEUR Workshop ProceedingsVol. 1625.: Aachen: CEUR Workshop Proceedings, 2016. P. 25–31.
In this paper an extension of tf-idf weighting on annotated suffix tree (AST) structure is described. The new weighting scheme can be used for computing similarity between texts, which can further serve as in input to clustering algorithm. We present preliminary tests of us-ing AST for computing similarity of Russian texts and show slight im-provement ...
Добавлено: 26 октября 2016 г.
Refining a Taxonomy by Using Annotated Suffix Trees and Wikipedia Resources
Артемова Е. Л., Миркин Б. Г., Annals of Data Science 2015 Vol. 2 No. 1 P. 61–82
Добавлено: 27 мая 2015 г.
An approach to the problem of annotation of research publications
Артемова Е. Л., , in: Proceedings of The Eighth International Conference on Web Search and Data Mining.: NY, United States of America: ACM, 2014. Ch. 58 P. 429–434.
Добавлено: 8 декабря 2014 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору