• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Статьи
  • Texterra: инфраструктура для анализа текстов.
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
26 июня 2026 г.
«Культурологи пытаются увидеть, что скрывается за поверхностью обычных вещей»
Максим Жиганов много лет исследует разные стороны звука — сначала в привязке к своей родной Перми, а затем в более глобальных масштабах. В интервью проекту «Молодые ученые Вышки» он рассказал о звуковых картах, тематическом номере журнала «Логос» и о том, зачем делать привычное менее понятным и очевидным.
26 июня 2026 г.
В НИУ ВШЭ разработали приложение для диагностики фонологической обработки у детей
Специалисты Центра языка и мозга НИУ ВШЭ представили новый цифровой инструмент для оценки навыков фонологической обработки у детей — батарею тестов «ЗАРЯ» («Звуковой анализ русского языка»). Это первое в России стандартизированное приложение, позволяющее быстро и надежно выявлять нарушения способности различать звуки речи, удерживать их в оперативной памяти и проводить фонематический анализ. Программа работает на планшетах и смартфонах с операционной системой Android, доступна для скачивания в RuStore. Детали валидации теста опубликованы в Journal of Speech, Language, and Hearing Research.
24 июня 2026 г.
Древняя чашекрания - новый вид брахиопод с необычной формой раковины и образом жизни
Российские ученые из Высшей школы экономики, МГУ имени М.В. Ломоносова и Таллинского технического университета изучили ископаемый вид древних брахиопод (плеченогих), который обитал в теплом море на севере современной Эстонии более 445 миллионов лет назад. Древняя брахиопода росла в форме чашки со «шляпкой», чтобы защититься от зарастания. Исследование опубликовано в журнале Palaeogeography, Palaeoclimatology, Palaeoecology.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

Texterra: инфраструктура для анализа текстов.

Труды Института системного программирования РАН. 2014. Т. 26. № 1. С. 421–438.
Денис Турдаков, Недумов Я., Астраханцев Н., Сысоев А., Андрианов И., Майоров В., Федоренко Д., Коршунов А., Кузнецов С.

В статье описан проект Texterra, в рамках которого была создана инфраструктура для анализа текстов. Texterra предоставляет масштабируемое решение для быстрой обработки текстовых документов, основанное на использовании знаний, извлекаемых из Веб-ресурсов и текстовых документов. В данной статье раскрываются детали реализации проекта, варианты использования и результаты экспериментальных исследований разработанных инструментов.

Приоритетные направления: компьютерно-математическое
Язык: русский
DOI
Ключевые слова: анализ текстовкомпьютерная лингвистикаобработка естественного языкавикипедия
Похожие публикации
Growth in noncommutative algebras and entropy in derived categories
Пионтковский Д. И., / Series arXiv "math". 2026.
Добавлено: 23 июня 2026 г.
Multilinear nilalgebras and the Jacobian theorem
Пионтковский Д. И., / Series arXiv "math". 2025.
Добавлено: 23 июня 2026 г.
ML-based Fast Simulation of FARICH Responses
Шипилов Ф. А., Barnyakov A., Ivanov A. и др., / Series Physics "arxiv.org". 2026.
Добавлено: 19 мая 2026 г.
Natural hazard database from Internet publications: text mining with a large language model
Деркачева А. А., Сакиркина М. А., Краев Г. Н. и др., /. 2026.
Добавлено: 28 апреля 2026 г.
Сравнительный анализ методов аспектного анализа тональности текстов
Абрегова З. Х., Двойникова А. А., В кн.: Альманах научных работ молодых ученых Университета ИТМО.: Университет ИТМО, 2025. С. 487–493.
В статье рассматриваются различные методы аспектного анализа тональности текстовых данных, включая как традиционные методы, основанные на правилах, так и современные алгоритмы машинного и глубокого обучения. В работе представлен сравнительный анализ корпусов данных и методов аспектного анализа тональности текстов, который является важной задачей в области обработки естественного языка и анализа данных. ...
Добавлено: 25 апреля 2026 г.
Перспективы медиа-мониторинга в исследованиях общественного мнения (на примере доверия президенту)
Анкудинов И. А., Социология: методология, методы, математическое моделирование 2025 № 61 С. 165–203
Изменчивые политические настроения россиян — постоянный предмет интереса социологических фондов. С развитием интернета привычные анкетные исследования стали дополняться онлайн-опросами и, несмотря на некоторый скепсис, «майнингом» социальных сетей. В настоящей статье предпринимается попытка скорректировать стихийную интернет-выборку так, чтобы приблизить ее оценки к репрезентативным омнибусам. Мы используем показатели доверия Президенту РФ в сети и в опросах с ...
Добавлено: 22 апреля 2026 г.
Algorithmic overlaps as thermodynamic variables: from local to cluster Monte Carlo dynamics in critical phenomena
Пиле Я. Э., Deng Y., Щур Л. Н., / Series arXiv "math". 2026. No. 2604.10254.
Добавлено: 20 апреля 2026 г.
Нейросетевые инструменты в арсенале вузовского преподавателя
Федоров А. О., Вакку Г. В., Лебедева С. Э., Галактика медиа: журнал медиа исследований 2026 Т. 8 № 2 С. 163–182
С увеличением объемов данных преподаватель вуза может потратить годы на обработку и  систематизацию информации. Персонализированная помощь, рекомендации по контенту, сбор данных для обзоров литературы и оформление библиографических ссылок укрепляют роль искусственного интеллекта как эффективного нейросетевого инструмента научной коммуникации. В данной статье рассматриваются практические примеры использования таких инструментов, как Elicit, SciSpace, Consensus, Undermind и Paperfinder, для упрощения ...
Добавлено: 7 апреля 2026 г.
Using predefined vector systems to speed up neural network multimillion class classification
Gabdullin N., Андросов И. А., / Series Computer Science "arxiv.org". 2026.
Добавлено: 2 апреля 2026 г.
Автоматическое выявление побуждений в тексте: применение методов компьютерной лингвистики в работе эксперта-лингвиста
П.Е. Белова, А.К. Сафарян, В кн.: Научно-практическая конференция с международным участием "Национальные и международные тенденции и перспективы развития судебной экспертизы". Сборник докладов.: Н. Новгород: Изд-во ННГУ им. Н.И. Лобачевского, 2024.
В данной статье представлено описание системы автоматического поиска и извлечения побуждений из текстов на русском языке FindImper, основанной на поиске глагольных форм и синтаксических связей. Алгоритм реализован на языке программирования Python с использованием библиотек для морфологического и синтаксического анализа и набора правил. Данный инструмент направлен на оптимизацию работы эксперта-лингвиста и доступен к использованию через веб-сайт ...
Добавлено: 30 января 2026 г.
Iterative Ricci-Foster Curvature Flow with GMM-Based Edge Pruning: A Novel Approach to Community Detection
Сорокин К. С., Бекетов М. Е., Онучин А. и др., / arxiv.org. Серия cs.SI "Social and Information Networks ". 2025.
Обнаружение сообществ в сложных сетях — фундаментальная проблема, открытая для новых подходов в различных научных областях. Мы представляем новый метод обнаружения сообществ, основанный на потоке Риччи на графах. Наша техника итеративно обновляет веса ребер (их метрические длины) в соответствии с их (комбинаторной) версией кривизны Риччи Фостера, вычисленной на основе эффективного расстояния сопротивления между узлами. Известно, ...
Добавлено: 15 января 2026 г.
Implementing Transport Coding in OMNeT++ for Message Delay Reduction
Петрованов И. С., Сергеев А. В., / Series Computer Science "arxiv.org". 2025. No. 2512.18332.
Добавлено: 24 декабря 2025 г.
Hessian-based lightweight neural network for brain vessel segmentation on a minimal training dataset
Меньшиков И. А., Бернадотт А. К., Елфимов Н. С., / Series arXie "Statistical mechanics". 2025.
Добавлено: 1 декабря 2025 г.
Determining the boundary of dynamical chaos in the generalized Chirikov map via machine learning
Чернышов Д. П., Сатанин А. М., Щур Л. Н., / Series arXiv "math". 2025.
Добавлено: 21 ноября 2025 г.
Дискурсивные возможности больших языковых моделей при решении задач генерации новых текстов
Мыльникова А. В., Гасимов А. Р., Научно-техническая информация. Серия 2: Информационные процессы и системы 2025 № 9 С. 33–38
На основе изучения функционирования больших языковых моделей (LLMs) и специфических характеристик машинной обработки дискурса показано применение экспериментального метода компьютерного и лингвистического анализа для статистического исследования и интерпретации лингвистических характеристик текстов. В качестве материалов исследования использован лингвистический корпус текстов Brown, а также корпуса искусственно сгенерированных текстов с применением Claude Sonnet 3.7 и Grok-3. В механизмах обработки ...
Добавлено: 19 ноября 2025 г.
Эффективный алгоритм торговли на фондовом рынке: ретроспективный анализ, основанный на данных по S&P-500.
Рубчинский А. А., Чубарова Д. А., / Series WP7 "Математические методы анализа решений в экономике, бизнесе и политике". 2025. No. WP7/2025/01.
Добавлено: 9 ноября 2025 г.
Психолингвистический анализ непрофессионального дискурса о коррупции в социальной сети в «ВКонтакте»
Кузнецова Ю. М., Максименко А. А., Станкевич М. А. и др., Мониторинг общественного мнения: Экономические и социальные перемены 2026 № 1 С. 231–250
Статья посвящена анализу непрофессионального онлайн-дискурса о коррупции, представленного в социальной сети «ВКонтакте». В отличие от институционального или экспертного подхода, фокус на обыденной, пользовательской рефлексии позволяет уловить глубинные ценностные установки, формы выражения и языковые паттерны повседневной морали, что особенно актуально в условиях роста значимости социальных сетей как источника информации и формирования общественных настроений. Целью исследования являлось ...
Добавлено: 6 ноября 2025 г.
Employing computational linguistic technologies and oculography to develop diagnostic tool for detecting autoaggressive tendencies in young people: a riveted gaze into “get rid of the shackles of this world”
Хоменко А. Ю., Kasimova L., Sychugov E. и др., Psychiatria Danubina 2025 Vol. 37 No. Suppl. 1 P. 213–223
Раннее распознавание аутоагрессивных тенденций у молодых людей имеет важное значение для диагностического скрининга и снижения рисков суицидального поведения. Этого можно достичь с помощью психолингвистических подходов, таких как анализ корпусов текстов и айтрекинг-исследования. Корпусные исследования помогают выявить обобщенные речевые паттерны лиц из группы риска суицида, в то время как окулографические методы изучают перцептивные маркеры, связанные с ...
Добавлено: 19 октября 2025 г.
Computational linguistics and intellectual technologies. Papers from the Annual International Conference "Dialogue" (2025)
[б.и.], 2025.
Сборник включает 39 докладов международной конференции по компьютерной лингвистике и интеллектуальным технологиям «Диалог 2025», представляющих широкий спектр теоретических и прикладных исследований в области описания естественного языка, моделирования языковых процессов, создания практически применимых компьютерных лингвистических технологий. Для специалистов в области теоретической и прикладной лингвистики и интеллектуальных технологий. ...
Добавлено: 19 октября 2025 г.
Тематическая разметка антропологического корпуса: методика классификации шахтерских нарративов
Мазитова Л. Л., Пантелеева Л. М., Вестник Самарского университета. История, педагогика, филология 2024 Т. 30 № 4 С. 156–164
В статье излагается методика создания антропологического корпуса текстов, объединенных принадлежностью к шахтерской профессии. Содержание работы коррелирует с тремя исследовательскими задачами: разработкой тематической классификации, введением условных обозначений для выделения нарратива в тексте, определением принципов организации корпуса по тематике нарративов. Тематическая классификация нарративов стала результатом анализа нескольких «контрольных» текстов. Она представляет собой ступенчатую систематизацию культурно-профессиональной тематики, поскольку, помимо основных (базовых) тем, может ...
Добавлено: 18 января 2025 г.
Лингвистическая сложность текстов жанра «виртуальная экскурсия по музею» (на материале виртуального визита в Государственный Эрмитаж)
Колмогорова А. В., Куликова Е. Р., Колмогорова П. А., Текст. Книга. Книгоиздание 2025 № 38 С. 29–54
Статья посвящена анализу метрик лингвистической сложности текстов Виртуального визита по Главному музейному комплексу Государственного Эрмитажа, размещенного на сайте музея. Цель исследования – определить, в какой мере лингвистические характеристики данных текстов коррелируют с признаками виртуальной экскурсии по музею как речевого жанра.  Значения метрик текстов виртуального визита анализируются на фоне значений аналогичных метрик научных искусствоведческих текстов и ...
Добавлено: 8 ноября 2024 г.
Синтаксическая позиция «народа» в политическом дискурсе левого и правого популизма (опыт синтаксического анализа на основе NLP)
Галочкин А. Е., Филологические науки в МГИМО 2024 Т. 10 № 2 С. 23–37
В данной статье предпринимается попытка измерить популизм в англоязычных выступлениях политиков с использованием методов компьютерной лингвистики. Актуальность данного исследования связана не только с ростом популизма в мире и важностью понимания механизмов политического дискурса, но и недостатком лингвистических исследований в контексте корпусных исследований. Большинство предложенных на сегодняшний день методов требуют значительных ресурсов или страдают от структурных ...
Добавлено: 19 сентября 2024 г.
Патриотический дискурс в Рунете: до и после 24 февраля 2022 г.
Анкудинов И. А., Мониторинг общественного мнения: Экономические и социальные перемены 2024 № 2 С. 153–177
Зафиксированный после 24 февраля 2022 г. патриотический подъем нашел своеобразное отражение в русскоязычном сегменте интернета. Хотя социологи почти единодушны в том, что социальное самочувствие граждан и их отношение к властям улучшились, цифровые следы этих изменений не так заметны: невооруженным взглядом видна только усилившаяся поляризация по линии «за — против». В работе измеряется непосредственный (краткосрочный) эффект, ...
Добавлено: 7 сентября 2024 г.
Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Вып. 21, дополнительный том. Москва: РГГУ, 2022. C. 1001–1190.
РГГУ, 2022.
Сборник включает 17 докладов международной конференции по компьютерной лингвистике и интеллектуальным технологиям «Диалог 2022», представляющих широкий спектр теоретических и прикладных исследований в области компьютерного моделирования естественного языка и создания новых лингвистических технологий. Для специалистов в области теоретической и прикладной лингвистики и интеллектуальных технологий. ...
Добавлено: 24 мая 2024 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору