• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Статьи
  • A resource-light method for cross-lingual semantic textual similarity
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
15 мая 2026 г.
В НИУ ВШЭ разрабатывают нейросеть для сферы науки и инноваций
Исследователи НИУ ВШЭ учат большие языковые модели понимать русскоязычную научную терминологию, увеличивая при этом их энергоэффективность. Адаптированная модель работает в 2,7 раза быстрее и требует на 73% меньше памяти, чем исходная открытая модель, что позволяет запускать ее на более доступном оборудовании. Программа прошла государственную регистрацию.
15 мая 2026 г.
Стартовал совместный спецпроект бренд-медиа Вышки IQ Media и iFORA ИСИЭЗ
В мае 2026 года стартовал научно-популярный проект «Искусственный интеллект: технологии, данные и будущее», который стал результатом работы двух команд — проекта iFORA Института статистических исследований и экономики знаний НИУ ВШЭ и редакции бренд-медиа IQMedia. Медийно-аналитический спецпроект посвящен современному развитию искусственного интеллекта и аналитике больших данных.
14 мая 2026 г.
<a>Ученые ФКН ВШЭ представили работы в сфере ИИ и биоинформатики на ICLR 2026
Ученые Института искусственного интеллекта и цифровых наук факультета компьютерных наук ВШЭи студенты трека «ИИ360: Инженерия искусственного интеллекта» бакалаврской программы «Прикладная математика и информатика» приняли участие в международной конференции ICLR — одном из самых авторитетных мировых форумов в области машинного обучения и представления данных. В этом году конференция состоялась в Рио-де-Жанейро (Бразилия).

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

A resource-light method for cross-lingual semantic textual similarity

Knowledge-Based Systems. 2018. Vol. 143. P. 1–9.
Glavas G., Franco-Salvador M., Ponzetto S., Rosso P.
Приоритетные направления: гуманитарные науки компьютерно-математическое
Язык: английский
DOI
Текст на другом сайте
Ключевые слова: word embeddings plagiarism detectionSemantic textual similarityCross-lingualWord alignmentParallel sentences alignment
Похожие публикации
Natural hazard database from Internet publications: text mining with a large language model
Деркачева А. А., Сакиркина М. А., Краев Г. Н. и др., /. 2026.
Добавлено: 28 апреля 2026 г.
Школьный литературный канон эмиграции 1918–1939 гг.
Стрижкова Д. А., / Институт русской литературы (Пушкинский Дом) РАН. Серия B001 "Репозиторий открытых данных по русской литературе и фольклору". 2026.
В базе данных представлена роспись русскоязычных литературных произведений и отрывков, напечатанных в учебниках по словесности, хрестоматиях, книгах для чтения, сборниках стихотворений и рассказов, выходивших во Франции, Германии, Латвии, Эстонии, Болгарии, Сербии в период первой волны русской эмиграции с 1918 по 1939 гг. Датасет представляет интерес для исследователей школьного литературного канона, эмиграции и детского чтения ...
Добавлено: 22 апреля 2026 г.
Ising models on the hydrogen peroxide and other lattices
Qin X., Deng Y., Щур Л. Н. и др., / Series arXiv "math". 2026. No. 2603.02962.
Добавлено: 20 апреля 2026 г.
Algorithmic overlaps as thermodynamic variables: from local to cluster Monte Carlo dynamics in critical phenomena
Пиле Я. Э., Deng Y., Щур Л. Н., / Series arXiv "math". 2026. No. 2604.10254.
Добавлено: 20 апреля 2026 г.
Современная российская мультипликация как инструмент воспитания традиционных духовно-нравственных ценностей
Жигунов А. Ю., / Basic Research Programme. Серия HUM "Humanities". 2026. № 1.
В статье предпринимается попытка описания образовательного и воспитательного потенциала современной российской анимации в аспекте формирования представлений молодого поколения о традиционных российских ценностях. С опорой на медиа- и семиотический анализ, метод культурно-исторической интерпретации рассмотрены анимационные российские проекты, созданные с 2000 года по 2025 гг., находившиеся в прокате в эфире телевизионных каналов либо стриминговых сервисов с большой ...
Добавлено: 19 апреля 2026 г.
Using predefined vector systems to speed up neural network multimillion class classification
Gabdullin N., Андросов И. А., / Series Computer Science "arxiv.org". 2026.
Добавлено: 2 апреля 2026 г.
Iterative Ricci-Foster Curvature Flow with GMM-Based Edge Pruning: A Novel Approach to Community Detection
Сорокин К. С., Бекетов М. Е., Онучин А. и др., / arxiv.org. Серия cs.SI "Social and Information Networks ". 2025.
Обнаружение сообществ в сложных сетях — фундаментальная проблема, открытая для новых подходов в различных научных областях. Мы представляем новый метод обнаружения сообществ, основанный на потоке Риччи на графах. Наша техника итеративно обновляет веса ребер (их метрические длины) в соответствии с их (комбинаторной) версией кривизны Риччи Фостера, вычисленной на основе эффективного расстояния сопротивления между узлами. Известно, ...
Добавлено: 15 января 2026 г.
Implementing Transport Coding in OMNeT++ for Message Delay Reduction
Петрованов И. С., Сергеев А. В., / Series Computer Science "arxiv.org". 2025. No. 2512.18332.
Добавлено: 24 декабря 2025 г.
Hessian-based lightweight neural network for brain vessel segmentation on a minimal training dataset
Меньшиков И. А., Бернадотт А. К., Елфимов Н. С., / Series arXie "Statistical mechanics". 2025.
Добавлено: 1 декабря 2025 г.
Determining the boundary of dynamical chaos in the generalized Chirikov map via machine learning
Чернышов Д. П., Сатанин А. М., Щур Л. Н., / Series arXiv "math". 2025.
Добавлено: 21 ноября 2025 г.
Эффективный алгоритм торговли на фондовом рынке: ретроспективный анализ, основанный на данных по S&P-500.
Рубчинский А. А., Чубарова Д. А., / Series WP7 "Математические методы анализа решений в экономике, бизнесе и политике". 2025. No. WP7/2025/01.
Добавлено: 9 ноября 2025 г.
Diffusion on language model embeddings for protein sequence generation
Мещанинов В. П., Strashnov, P., Shevtsov A. и др., / Cornell University. Серия CoRR, arXiv:2403.03726 "Computing Research Repository,". 2025.
Дизайн белков требует глубокого понимания присущей сложности «белкового вселенной». Хотя многие работы ориентируются на условную генерацию или сосредоточены на отдельных семействах белков, базовая задача безусловной генерации остаётся недостаточно изученной и недооценённой. В этой работе мы исследуем именно этот ключевой аспект и представляем DiMA — модель, которая использует непрерывную диффузию по эмбеддингам, полученным из языковой модели для белков ESM-2, ...
Добавлено: 5 октября 2025 г.
Smoothie: Smoothing Diffusion on Token Embeddings for Text Generation
Шабалин А. М., Мещанинов В. П., Vetrov D., / Series cs.CL, arXiv:2505.18853 "Computation and Language". 2025.
Диффузионные модели достигли передовых результатов в генерации изображений, аудио и видео, однако их адаптация к тексту остаётся сложной из-за его дискретной природы. Ранее подходы либо применяют гауссовскую диффузию в непрерывных латентных пространствах, что наследует семантическую структуру, но затрудняет декодирование токенов, либо работают в пространстве категориального симплекса, что учитывает дискретность, но игнорирует семантические связи между токенами. ...
Добавлено: 5 октября 2025 г.
Политическая аккомодация культурных различий в индустриально развитых обществах (Political Accommodation of Cultural Differences in Industrialized Societies)
Малахов В. С., Симон М. Е., Летняков Д. Э. и др., / SSRN. Серия Social Science Research Network "Social Science Research Network". 2020.
Понятие «политическая аккомодация» применительно к теории и практике управления культурным  разнообразием могло  бы  обогатить  российский  академический  словарь. Либерально-демократические  государства  изобрели  специфические  механизмы политической аккомодации культурных различий. Благодаря этим механизмам та часть населения  демократического  государства,  которая  не  готова  раствориться  в этнокультурном  большинстве,  более  или  менее  надежна  защищена.  Закон  не  только запрещает насильственную ассимиляцию, но и содержит ...
Добавлено: 26 сентября 2025 г.
The Parallel Corpus of Russian and Ruska Romani Languages
Kirill Koncha, Abina Kukanova, Kazakova Tatiana и др., , in: Proceedings of the 3rd Workshop on NLP Applications to Field Linguistics (Field Matters 2024).: Bangkok: Association for Computational Linguistics, 2024. Ch. 1 P. 1–5.
Добавлено: 13 ноября 2024 г.
Scalable and language-independent embedding-based approach for plagiarism detection considering obfuscation type: no training phase
Gharavi E., Veisi H., Россо П., Neural Computing and Applications 2020 Vol. 32 No. 14 P. 10593–10607
Добавлено: 29 октября 2020 г.
Evaluation of Vector Transformations for Russian Word2Vec and FastText Embeddings
Korogodina O., Karpik O., Klyshinsky E., , in: GraphiCon 2020 - Proceedings of the 30th International Conference on Computer Graphics and Machine Vision.: St. Petersburg: CEUR-WS, 2020.
Добавлено: 21 октября 2020 г.
Word2vec not dead: predicting hypernyms of co-hyponyms is better than reading definitions
Arefyev N V., Fedoseev M., Kabanov A. и др., , in: Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог» (Москва, 17–20 июня 2020 г.)Issue 19(26): дополнительный том.: -, 2020. P. 13–32.
Добавлено: 9 октября 2020 г.
How much does a word weight? Weighting word embeddings for word sense induction
Arefyev, N., Ermolaev P., Panchenko A., , in: Computational Linguistics and Intellectual Technologies. International Conference "Dialogue 2018" Proceedings.: M.: Conference Proceedings Editorial board, 2018. P. 68–84.
Добавлено: 9 октября 2020 г.
Evaluation Tracks on Plagiarism Detection Algorithms for the Russian Language
Smirnov I., Копотев М. В., Ляшевская О. Н., , in: Computational Linguistics and Intellectual Technologies. International Conference "Dialogue 2017" ProceedingsVol. 1. Issue 16 (23).: M.: -, 2017. P. 271–283.
The paper presents a methodology and preliminary results for evaluating plagiarism detection algorithms for the Russian language. We describe the goals and tasks of the PlagEvalRus workshop, dataset creation, evaluation setup, metrics, and results. ...
Добавлено: 30 сентября 2020 г.
Word Embedding for Semantically Related Words: An Experimental Study
Karyaeva M., Браславский П. И., Sokolov V., Automatic Control and Computer Sciences 2019 Vol. 53 P. 638–643
Добавлено: 10 апреля 2020 г.
Data-driven models and computational tools for neurolinguistics: a language technology perspective
Ekaterina Artemova, Бакаров А. А., Артемов А. В. и др., Journal of Cognitive Science 2020 Vol. 1 No. 21 P. 15–52
Добавлено: 17 января 2020 г.
Learning Word Embeddings without Context Vectors
Зобнин А. И., Elistratova E., , in: Proceedings of the 4th Workshop on Representation Learning for NLP (RepL4NLP-2019)Issue W19-43.: Association for Computational Linguistics, 2019. P. 244–249.
Добавлено: 9 ноября 2019 г.
A Dataset for Noun Compositionality Detection for a Slavic Language
Puzyrev D., Shelmanov A., Panchenko A. и др., , in: Proceedings of the 7th Workshop on Balto-Slavic Natural Language Processing, 2019, Florence, Italy, Association for Computational Linguistics.: Association for Computational Linguistics, 2019. P. 56–62.
Добавлено: 30 октября 2019 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору