Corpus-Based Text Retrieval and Adaptation for Learning System

N. Karpov

?

Corpus-Based Text Retrieval and Adaptation for Learning System

International Journal of Advances in Computer Science and Its Applications. 2014. Vol. 4. No. 2. P. 38–43.

Карпов Н. В.

The algorithm to adapt lexical complexity in the news article which can be used as materials for learning language presented in the paper. We consider words substitution retrieval according to wordnet-based and corpus-based semantic relatedness. Two corpus-based similarity measures empirically tested: Vector Space Model and Distributional Semantic Model. This language processing algorithm has created as a client-server application. It retrieves appropriate text from Web-resource. Next it performs adaptation procedure.

Приоритетные направления: компьютерно-математическое

Язык: английский

Полный текст

Текст на другом сайте

Ключевые слова: natural language processing автоматическая обработка текста

ПУБЛИКАЦИЯ ПОДГОТОВЛЕНА ПО РЕЗУЛЬТАТАМ ПРОЕКТА:

Адаптация языкового материала НКРЯ для электронного учебника «Русский язык как иностранный» (2013)

Growth in noncommutative algebras and entropy in derived categories

Пионтковский Д. И., / Series arXiv "math". 2026.

Добавлено: 23 июня 2026 г.

Multilinear nilalgebras and the Jacobian theorem

Пионтковский Д. И., / Series arXiv "math". 2025.

Добавлено: 23 июня 2026 г.

ML-based Fast Simulation of FARICH Responses

Шипилов Ф. А., Barnyakov A., Ivanov A. и др., / Series Physics "arxiv.org". 2026.

Добавлено: 19 мая 2026 г.

Natural hazard database from Internet publications: text mining with a large language model

Деркачева А. А., Сакиркина М. А., Краев Г. Н. и др., /. 2026.

Добавлено: 28 апреля 2026 г.

Algorithmic overlaps as thermodynamic variables: from local to cluster Monte Carlo dynamics in critical phenomena

Пиле Я. Э., Deng Y., Щур Л. Н., / Series arXiv "math". 2026. No. 2604.10254.

Добавлено: 20 апреля 2026 г.

Using predefined vector systems to speed up neural network multimillion class classification

Gabdullin N., Андросов И. А., / Series Computer Science "arxiv.org". 2026.

Добавлено: 2 апреля 2026 г.

RuCLEVR: A Russian Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning

Biryukova K., Chelnokova D., Erkenova J. и др., Communications in Computer and Information Science 2024 Vol. 2364 CCIS P. 109 – 121

Добавлено: 25 февраля 2026 г.

Iterative Ricci-Foster Curvature Flow with GMM-Based Edge Pruning: A Novel Approach to Community Detection

Сорокин К. С., Бекетов М. Е., Онучин А. и др., / arxiv.org. Серия cs.SI "Social and Information Networks ". 2025.

Обнаружение сообществ в сложных сетях — фундаментальная проблема, открытая для новых подходов в различных научных областях. Мы представляем новый метод обнаружения сообществ, основанный на потоке Риччи на графах. Наша техника итеративно обновляет веса ребер (их метрические длины) в соответствии с их (комбинаторной) версией кривизны Риччи Фостера, вычисленной на основе эффективного расстояния сопротивления между узлами. Известно, ...

Добавлено: 15 января 2026 г.

Implementing Transport Coding in OMNeT++ for Message Delay Reduction

Петрованов И. С., Сергеев А. В., / Series Computer Science "arxiv.org". 2025. No. 2512.18332.

Добавлено: 24 декабря 2025 г.

Hessian-based lightweight neural network for brain vessel segmentation on a minimal training dataset

Меньшиков И. А., Бернадотт А. К., Елфимов Н. С., / Series arXie "Statistical mechanics". 2025.

Добавлено: 1 декабря 2025 г.

Эффективный алгоритм торговли на фондовом рынке: ретроспективный анализ, основанный на данных по S&P-500.

Рубчинский А. А., Чубарова Д. А., / Series WP7 "Математические методы анализа решений в экономике, бизнесе и политике". 2025. No. WP7/2025/01.

Добавлено: 9 ноября 2025 г.

Rewriting the Rules: LLMs Vs. Traditional ML in University Admissions

Чепиков И. А., Карпов И. А., , in: 26th International Conference, AIED 2025, Palermo, Italy, July 22–26, 2025, Proceedings, Part I. Artificial Intelligence in Education. Posters and Late Breaking Results, Workshops and Tutorials, Industry and Innovation Tracks, Practitioners, Doctoral Consortium, Blue Sky, and WideAIED.: Springer, 2025. P. 352 – 358.

Добавлено: 4 сентября 2025 г.

Automatic Morpheme Segmentation for Russian: Can an Algorithm Replace Experts?

Morozov D., Garipov T., Ляшевская О. Н. и др., Journal of Language and Education 2024 Vol. 10 No. 4 P. 71–84

Introduction: Numerous algorithms have been proposed for the task of automatic morpheme segmentation of Russian words. Due to the differences in task formulation and datasets utilized, comparing the quality of these algorithms is challenging. It is unclear whether the errors in the models are due to the ineffectiveness of algorithms themselves or to errors and inconsistencies ...

Добавлено: 7 января 2025 г.

Cross-country analysis of science, technology and innovation policies: non-covid-19 related and Covid-19 specific STI policies in OECD countries

Russo M., Pavone P., Майснер Д. и др., Quality and Quantity 2025 Vol. 59 No. Suppl 1 P. S343–S367

In OECD countries, Science, Technology and Innovation (STI) policies were seen as key aspects of coping with the Covid-19 pandemic. Now that the pandemic is over, identifying which policy mix portfolios characterised countries in terms of their non-Covid-19 related and Covid-19 specific STI policies fills a knowledge gap on changes in STI policies induced by ...

Добавлено: 27 сентября 2024 г.

Parameter-Efficient Tuning of Transformer Models for Anglicism Detection and Substitution in Russian

Daniil Lukichev, Kryanina Darya, Anastasia Bystrova и др., , in: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Вып. 22.Вып. 22.: [б.и.], 2023. P. 295–306.

Добавлено: 25 апреля 2024 г.

Анализ ошибок морфологического анализатора MyStem при работе с записями детской речи

Лелик В. П., Еремичева Т. А., Морозова Д. А. и др., В кн.: Когнитивная наука в Москве: новые исследования. Материалы конференции 21–22 июня 2023 г.: М.: «Буки Веди», Московский институт психоанализа, 2023. С. 274–279.

Одно из условий эффективной работы автоматических морфологических анализаторов — это корректное распознавание незнакомых слов и успешное снятие морфологической омонимии. В настоящей работе оценивались результаты автоматиче- ской обработки расшифровок спонтанной детской речи с помощью морфологического анализатора MyStem. Материалами для исследования послужили лонгитюдные записи спонтанной речи двух детей-билингвов и их родителей, созданные по протоколу корпу- са CHILDES. ...

Добавлено: 5 апреля 2024 г.

Explainable Document Classification via Pattern Structures

Sergei O. Kuznetsov, Паракал Э. Д., Lecture Notes in Networks and Systems 2023 Vol. 776 P. 423–434

Добавлено: 5 февраля 2024 г.

Business Process Management Workshops. BPM 2023 International Workshops, Utrecht, The Netherlands, September 11–15, 2023, Revised Selected Papers

Switzerland: Springer, 2024.

Добавлено: 17 января 2024 г.

Проект Chekhov Digital: задачи и проблемы реализации семантической разметки текстов (на примере рассказа А. П. Чехова «Смерть чиновника»)

Северина Е. М., Ларионова М. Ч., Litera 2023 № 10 С. 211–222

В статье рассматривается модель подготовки машиночитаемой (семантической) разметки текстов для проекта Chekhov Digital на примере филологической интерпретации отдельных значимых элементов рассказа А. П. Чехова «Смерть чиновника» и представления этих сведений в явном виде с опорой на стандарты цифровой публикации Text Encoding Initiative (TEI/XML). Выявлены значимые сущности для разметки корпуса текстов писателя, однако вопрос их репрезентации ...

Добавлено: 12 января 2024 г.

РАЗРАБОТКА СИСТЕМЫ ГЕНЕРАЦИИ ПОВСЕДНЕВНЫХ ДИАЛОГОВ НА РУССКОМ ЯЗЫКЕ: ПИЛОТНОЕ ИССЛЕДОВАНИЕ

Кругликова В. Г., В кн.: Анализ речи: теоретические и прикладные аспекты: сборник научных статей.: [б.и.], 2023.

В статье представлен сравнительный анализ различных языковых моделей, используемых для генерации текстов, и произведена оценка их эффективности для задачи генерации диалоговой речи. В сравнительном анализе участвуют модели GPT-3, BERT, LSTM. Данное исследование является частью проекта по разработке системы генерации диалогов на русском языке. В работе также описана архитектура разрабатываемой системы и предложены примеры её использования. ...

Добавлено: 10 декабря 2023 г.

Investor sentiment and the NFT hype index: to buy or not to buy?

Бакланова В. С., Куркин А. В., Теплова Т. В., China Finance Review International 2024 Vol. 14 No. 3 P. 522–548

Добавлено: 10 декабря 2023 г.

Think about what you’ve learned: анализ тональности для моделирования пользовательского опыта в сфере онлайн-образования

Кирина М. А., Человек: образ и сущность. Гуманитарные аспекты 2024 № 2(58) С. 176–204

В статье рассматриваются способы автоматического анализа мнений для оценки пользовательского опыта применительно к отзывам на проекты в рамках онлайн-курсов по программированию на Python, Java и Kotlin, представленных на англоязычной образовательной платформе Hyperskill. В исследовании описывается подход с опорой на методы анализа тональности и извлечения ключевых слов для характеристики отношения пользователей к изучаемым темам, образовательному процессу ...

Добавлено: 9 декабря 2023 г.

Комбинирование методов для извлечения терминов из научно-технического текста

Большакова Е. И., Семак В. В., Интеллектуальные системы. Теория и приложения 2021 Т. 25 № 4 С. 239–242

Представлен подход к автоматическому извлечению терминов из отдельного научного текста, сочетающий в себе известные методы: лингвистические шаблоны, статистические меры терминологичности, методы ранжирования графов. Описаны комбинированные методы и этапы извлечения, отбора и ранжирования терминов, реализованные при обработке документов на русском языке. Представлены результаты экспериментов по извлечению терминов из учебных текстов по математике и программированию. Оценки эффективности ...

Добавлено: 23 ноября 2023 г.

Multimodal Discourse Trees in Forensic Linguistics

Galitsky B., Ильвовский Д. А., Гончарова Е. Ф., , in: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Вып. 22.Вып. 22.: [б.и.], 2023.

В работе исследуется концепция построения мультимодального дискурсивного дерева для структурированного представления текста, обогащенного дополнительной информацией из источников различной природы. В более ранних работах были введены понятия коммуникативных дискурсивных деревьев, расширенных с помощью теории речевых актов, а также расширенных дискурсивных деревьев, которые отражают структуру не одного текста, а набора связанных документов; в данной работе мы исследуем возможность расширения дискурсивной структуры за счет ...

Добавлено: 10 ноября 2023 г.