• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Статьи
  • The Combinatorial Analysis of n-Gram Dictionaries, Coverage and Information Entropy based on the Web Corpus of English
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
11 июня 2026 г.
Время жизни популяций определяется законами математики
Исследователи НИУ ВШЭ и МГУ доказали универсальный закон, описывающий время исчезновения популяций в случайной среде. Анализ эволюции ветвящихся процессов — сложных вероятностных систем — показал, что вне зависимости от изначального числа особей процесс вымирания подчиняется строгим математическим закономерностям. Результаты опубликованы в Journal of Applied Probability.
8 июня 2026 г.
«За 12 лет на нашем счету почти 1000 операций с пробуждением»
В НИУ ВШЭ прошла XIII Летняя нейролингвистическая школа, организованная Центром языка и мозга при поддержке факультета гуманитарных наук НИУ ВШЭ. В центре внимания слушателей была совместная работа нейролингвистов, нейрохирургов и нейрофизиологов в операционной, стандартизация лингвистических парадигм и практические подходы к сохранению речевой функции пациентов.
5 июня 2026 г.
Аспирантка НИУ ВШЭ открыла «невидимую» планировку античного Париона
Исследовательница из НИУ ВШЭ Идиль Малгиль изучила с помощью дрона с лазерным сканером сверхвысокого разрешения древнеримский город Парион, расположенный на территории современной Турции. Благодаря высокой плотности сканирования удалось зафиксировать крошечные неровности рельефа, скрытые под землей и растительностью. Обнаружены следы целых кварталов, террасных систем и стен, которые невозможно было различить ни при обычных раскопках, ни с помощью аэрофотосъемки. Результаты исследованияо публикованы в международном научном журнале Ancient Civilizations from Scythia to Siberia.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

The Combinatorial Analysis of n-Gram Dictionaries, Coverage and Information Entropy based on the Web Corpus of English

Baltic Journal of Modern Computing. 2021. Vol. 9. No. 3. P. 363–376.
Малашина А. Г.

We research n-gram dictionaries and estimate its coverage and entropy based on the web corpus of English. We consider a method for estimating the coverage of empirically gen- erated dictionaries and an approach to address the disadvantage of low coverage. Based on the ideas of Kolmogorov’s combinatorial approach, we estimate the n-gram entropy of the English language and use mathematical extrapolation to approximate the marginal entropy. In addition, we approximate the number of all possible legal n-grams in the English language for high order of n-grams.

Научное направление: Математика Компьютерные науки
Приоритетные направления: компьютерно-математическое
Язык: английский
DOI
Текст на другом сайте
Ключевые слова: coveragen-gram dictionariesn-gram entropy
Похожие публикации
Proceedings of the 6th Workshop on Computational Approaches to Discourse, Context and Document-Level Inferences (CODI 2025)
Strube M., Braud C., Hardmeier C. и др., Suzhou: Association for Computational Linguistics, 2025.
Добавлено: 11 июня 2026 г.
On the Ramsey Number R(K_{1,s},P_t)
Kh. Kh. Abdullin, D. B. Mokeev, D. S. Taletskii, Mathematical notes 2026 Vol. 119 No. 1 P. 3–7
Добавлено: 10 июня 2026 г.
TreeDQN: Sample-efficient off-policy reinforcement learning for combinatorial optimization
Sorokin D., Kostin A., Савченко Л. В. и др., Knowledge-Based Systems 2026 Vol. 348 Article 116258
Добавлено: 10 июня 2026 г.
Microbial diversity and production of milk spirit using traditional Buryat fermentation and distillation technologies
Namsaraev Z., Козлова А. Д., Toshchakov S., Scientific Reports 2026 Vol. 16 No. 17769
Дистиллированные кисломолочные напитки встречаются в пищевой промышленности редко, несмотря на повсеместное распространение растительных спиртных напитков. В настоящее время производство крепких дистиллированных алкогольных напитков из кисломолочных продуктов с использованием традиционных технологий известно лишь среди монголоязычных народов и их сибирских соседей. Данное исследование представляет собой первый междисциплинарный анализ дарасуна, традиционного бурятского спиртного напитка, изготавливаемого из кисломолочного напитка ...
Добавлено: 10 июня 2026 г.
Artificial intelligence and digital twins for failure prediction in data center cooling systems: a comprehensive literature review (2018–2026)
Гущин М. И., Butorova A., Bobakov V. и др., European Physical Journal: Special Topics 2026 P. 1–19
Добавлено: 10 июня 2026 г.
Innovations in Information and Decision Sciences. Proceedings of the 13th International Conference on Frontiers in Intelligent Computing: Theory and Applications (FICTA 2025), Volume 4
Springer, 2026.
Добавлено: 8 июня 2026 г.
Wave dynamics within the Whitham-Ostrovsky equation
Flamarion M. V., Пелиновский Е. Н., Nonlinear Dynamics 2026 Vol. 114 Article 784
Добавлено: 5 июня 2026 г.
ML-based Fast Simulation of FARICH Responses
Шипилов Ф. А., Barnyakov A., Ivanov A. и др., / Series Physics "arxiv.org". 2026.
Добавлено: 19 мая 2026 г.
Natural hazard database from Internet publications: text mining with a large language model
Деркачева А. А., Сакиркина М. А., Краев Г. Н. и др., /. 2026.
Добавлено: 28 апреля 2026 г.
Algorithmic overlaps as thermodynamic variables: from local to cluster Monte Carlo dynamics in critical phenomena
Пиле Я. Э., Deng Y., Щур Л. Н., / Series arXiv "math". 2026. No. 2604.10254.
Добавлено: 20 апреля 2026 г.
Using predefined vector systems to speed up neural network multimillion class classification
Gabdullin N., Андросов И. А., / Series Computer Science "arxiv.org". 2026.
Добавлено: 2 апреля 2026 г.
Iterative Ricci-Foster Curvature Flow with GMM-Based Edge Pruning: A Novel Approach to Community Detection
Сорокин К. С., Бекетов М. Е., Онучин А. и др., / arxiv.org. Серия cs.SI "Social and Information Networks ". 2025.
Обнаружение сообществ в сложных сетях — фундаментальная проблема, открытая для новых подходов в различных научных областях. Мы представляем новый метод обнаружения сообществ, основанный на потоке Риччи на графах. Наша техника итеративно обновляет веса ребер (их метрические длины) в соответствии с их (комбинаторной) версией кривизны Риччи Фостера, вычисленной на основе эффективного расстояния сопротивления между узлами. Известно, ...
Добавлено: 15 января 2026 г.
Implementing Transport Coding in OMNeT++ for Message Delay Reduction
Петрованов И. С., Сергеев А. В., / Series Computer Science "arxiv.org". 2025. No. 2512.18332.
Добавлено: 24 декабря 2025 г.
Hessian-based lightweight neural network for brain vessel segmentation on a minimal training dataset
Меньшиков И. А., Бернадотт А. К., Елфимов Н. С., / Series arXie "Statistical mechanics". 2025.
Добавлено: 1 декабря 2025 г.
Determining the boundary of dynamical chaos in the generalized Chirikov map via machine learning
Чернышов Д. П., Сатанин А. М., Щур Л. Н., / Series arXiv "math". 2025.
Добавлено: 21 ноября 2025 г.
Эффективный алгоритм торговли на фондовом рынке: ретроспективный анализ, основанный на данных по S&P-500.
Рубчинский А. А., Чубарова Д. А., / Series WP7 "Математические методы анализа решений в экономике, бизнесе и политике". 2025. No. WP7/2025/01.
Добавлено: 9 ноября 2025 г.
Ситуационно-ориентированный метод размещения точек доступа и шлюзов внутри помещений при организации систем Интернета вещей
Эбрахим А., Иванов И. А., Али А., Информационные технологии 2025 Т. 31 № 4 С. 184–190
Обсуждается разработка метода оптимального размещения точек доступа и шлюзов внутри помещений с учетом мобильности конечных устройств. Предлагается метод, основанный на генетическом недоминируемом алгоритме сортировки II (NSGA-II) и методике определения порядка предпочтения по сходству с идеальным решением, а также приводится пример успешного использования метода в реальной ситуации. ...
Добавлено: 14 июня 2025 г.
Особенности решения задачи геометрического расположения сенсоров при мониторинге пространства.
Яцкин Д. В., Кочкаров А. А., Наукоемкие технологии 2016 Т. 17 № 9 С. 20–29
Описывается интерпретация задачи мониторинга пространства как задачи обнаружения целевого объекта в пределах некоторой области. Рассматриваются подзадачи, комплексное решение которых гарантирует решение исходной задачи. Формулируется задача поиска геометрического положения сенсоров. Задача приводится к дискретному виду, описываются алгоритмы ее решения в общем и в частном случае. На основании разработанных алгоритмов строится программная модель, которая находит и визуализирует ...
Добавлено: 7 марта 2025 г.
Метод Для Максимального Покрытия Беспроводной Сетью Внутри Помещений
Эбрахим А., Иванов И. А., Али А., В кн.: Инновационные, информационные и коммуникационные технологии. Сборник трудов XХ Международной научно-практической конференции. Москва, 2023.: М.: Ассоциация выпускников и сотрудников ВВИА им. проф. Жуковского, 2023. С. 422–425.
Статья посвящена разработке метода оптимального размещения точек доступа и шлюзов внутри помещений. В работе предлагается математическая модель оптимизации, основанная на генетическом недоминируемом алгоритме сортировки II, а также проводится сравнение полученных результатов работой профессионального программного обеспечения. ...
Добавлено: 6 апреля 2024 г.
Построение и анализ моделей русского языка в связи с исследованиями криптографических алгоритмов
Малашина А. Г., Лось А. Б., Чебышевский сборник 2022 Т. 23 № 2 С. 151–160
При исследовании криптографических качеств алгоритмов защиты информации важным моментом является построение теоретических и экспериментальных моделей источников сообщений. В данной статье проводится статистический анализ свойств лексических и n-граммных моделей русского языка на основе новостного текстового корпуса. Создан специализированный корпус из новостных статей последних лет политической направленности, отражающий узкую область употребления языка. Составлены словари токенов и n-грамм, ...
Добавлено: 27 сентября 2021 г.
Entropy analysis of n-grams and estimation of the number of meaningful language texts
Малашина А. Г., , in: Entropy 2021: The Scientific Tool of the 21st Century. Conference Proceedings Book.: Porto: MDPI Open Access Publishing, 2021. P. 106–106.
Добавлено: 5 мая 2021 г.
Имеет ли метод индикаторной переменной преимущества перед анализом полных наблюдений при обработке пропусков в категориальных регрессорах?
Жучкова С. В., Ротмистров А. Н., Шабанова Е. А., Мониторинг общественного мнения: Экономические и социальные перемены 2021 № 4 С. 23–52
Если в категориальном регрессоре есть пропущенные значения, то что лучше применить: анализ полных наблюдений или метод индикаторной переменной? Суть первого подхода состоит в исключении из анализа (в нашем случае – линейного регрессионного) наблюдений, содержащих пропуски хотя бы по одной из изучаемых переменных. Этот подход применяется по умолчанию во многих популярных приложениях, и вопреки сложившимся представлениям ...
Добавлено: 12 декабря 2020 г.
Построение и анализ моделей русского языка в связи с исследованиями криптографических алгоритмов
Малашина А. Г., Лось А. Б., В кн.: Алгебра, теория чисел и дискретная геометрия: современные проблемы, приложения и проблемы истории.: Тула: ТГПУ, 2020. С. 177–181.
Добавлено: 24 сентября 2020 г.
Лексический минимум по языку специальности: сколько слов достаточно? Разработка принципов минимизации
Ольшевская М. Ю., Карпова Е. Л., Власова Е. А., Вестник Новосибирского государственного университета. Серия: Лингвистика и межкультурная коммуникация 2019 Т. 17 № 4 С. 63–77
Данная статья содержит исследование методологии составления лексических минимумов (далее - ЛМ) по русскому языку общего владения (Государственный стандарт, Система лексических минимумов В.В. Морковкина и Частотный словарь русского языка для иностранцев, созданный С.А. Шаровым в рамках проекта KELLY), а также анализ специальных лексических минимумов по медицине, робототехнике, ядерной энергетике, математике. Рассмотрены и систематизированы общеметодический, лингвостатистический и ...
Добавлено: 2 октября 2019 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору