?
The Combinatorial Analysis of n-Gram Dictionaries, Coverage and Information Entropy based on the Web Corpus of English
Baltic Journal of Modern Computing. 2021. Vol. 9. No. 3. P. 363–376.
We research n-gram dictionaries and estimate its coverage and entropy based on the web corpus of English. We consider a method for estimating the coverage of empirically gen- erated dictionaries and an approach to address the disadvantage of low coverage. Based on the ideas of Kolmogorov’s combinatorial approach, we estimate the n-gram entropy of the English language and use mathematical extrapolation to approximate the marginal entropy. In addition, we approximate the number of all possible legal n-grams in the English language for high order of n-grams.
Приоритетные направления:
компьютерно-математическое
Язык:
английский
Flamarion M. V., Пелиновский Е. Н., Nonlinear Dynamics 2026 Vol. 114 Article 784
Добавлено: 5 июня 2026 г.
Seul: PMLR, 2026.
Добавлено: 4 июня 2026 г.
Добавлено: 4 июня 2026 г.
Гомеоморфизмы топологических пространств называются эквивалентными по надстройке, если надстройки над ними топологически эквивалентны. В частности, топологически сопряженные гомеоморфизмы эквивалентны по надстройке. Известно, что для гомологически неприводимых гомеоморфизмов их топологическая сопряженность является необходимым и достаточным условием их эквивалентности по надстройке. Тогда как инварианты топологической сопряженности гомологически приводимых гомеоморфизмов во многих случаях являются избыточными для эквивалентности по ...
Добавлено: 3 июня 2026 г.
Гнетов Ф. А., Конаков В. Д., Успехи математических наук 2026 Т. 81 № 3 (489) С. 161–162
Пусть M обозначает симметрическое пространство некомпактного типа ранга 1. Опираясь на фундаментальную работу [1], в [2] было показано, что плотность соответствующим образом нормированной суммы независимых Hn-значных случайных величин, определенная через сложение Мёбиуса в модели шара Пуанкаре, сходится к фундаментальному решению соответствующего уравнения теплопроводности. Пределом являлся нормальный закон на Hn, соответствующий ядру теплопроводности, определяемому оператором Лапласа–Бельтрами. ...
Добавлено: 2 июня 2026 г.
Силаков Д. В., Системный администратор 2026 № 3 С. 28–33
В статье про платформы для разработки открытого ПО в Китае мы рассказали про GitCode – молодой проект, позиционируемый как площадка для разработчиков со всего мира. Сейчас на GitCode размещаются проекты, созданные в КНР, но некоторые из них уже известны и на международной арене. Помочь открытым проектам в становлении, развитии и расширению аудитории призван фонд OpenAtom ...
Добавлено: 2 июня 2026 г.
Slivnitsin P., Мыльников Л. А., Engineering Applications of Artificial Intelligence 2026 Vol. 179 Article 115185
Добавлено: 29 мая 2026 г.
Gorbounov Vassily, Kazakov A., Data Analytics and Topology 2025 Vol. 1 No. 1 P. 33–45
Добавлено: 28 мая 2026 г.
Мокиенко О. А., Zisman M. A., Бобров П. Д. и др., American Journal of Physical Medicine and Rehabilitation 2026 Vol. 105 No. 6 P. 555–563
Добавлено: 28 мая 2026 г.
Добавлено: 28 мая 2026 г.
Добавлено: 19 мая 2026 г.
Добавлено: 28 апреля 2026 г.
Добавлено: 20 апреля 2026 г.
Gabdullin N., Андросов И. А., / Series Computer Science "arxiv.org". 2026.
Добавлено: 2 апреля 2026 г.
Сорокин К. С., Бекетов М. Е., Онучин А. и др., / arxiv.org. Серия cs.SI "Social and Information Networks ". 2025.
Обнаружение сообществ в сложных сетях — фундаментальная проблема, открытая для новых подходов в различных научных областях. Мы представляем новый метод обнаружения сообществ, основанный на потоке Риччи на графах. Наша техника итеративно обновляет веса ребер (их метрические длины) в соответствии с их (комбинаторной) версией кривизны Риччи Фостера, вычисленной на основе эффективного расстояния сопротивления между узлами. Известно, ...
Добавлено: 15 января 2026 г.
Петрованов И. С., Сергеев А. В., / Series Computer Science "arxiv.org". 2025. No. 2512.18332.
Добавлено: 24 декабря 2025 г.
Hessian-based lightweight neural network for brain vessel segmentation on a minimal training dataset
Меньшиков И. А., Бернадотт А. К., Елфимов Н. С., / Series arXie "Statistical mechanics". 2025.
Добавлено: 1 декабря 2025 г.
Добавлено: 21 ноября 2025 г.
Рубчинский А. А., Чубарова Д. А., / Series WP7 "Математические методы анализа решений в экономике, бизнесе и политике". 2025. No. WP7/2025/01.
Добавлено: 9 ноября 2025 г.
Обсуждается разработка метода оптимального размещения точек доступа и шлюзов внутри помещений с учетом мобильности конечных устройств. Предлагается метод, основанный на генетическом недоминируемом алгоритме сортировки II (NSGA-II) и методике определения порядка предпочтения по сходству с идеальным решением, а также приводится пример успешного использования метода в реальной ситуации. ...
Добавлено: 14 июня 2025 г.
Яцкин Д. В., Кочкаров А. А., Наукоемкие технологии 2016 Т. 17 № 9 С. 20–29
Описывается интерпретация задачи мониторинга пространства как задачи обнаружения целевого объекта в пределах некоторой области. Рассматриваются подзадачи, комплексное решение которых гарантирует решение исходной задачи. Формулируется задача поиска геометрического положения сенсоров. Задача приводится к дискретному виду, описываются алгоритмы ее решения в общем и в частном случае. На основании разработанных алгоритмов строится программная модель, которая находит и визуализирует ...
Добавлено: 7 марта 2025 г.
Эбрахим А., Иванов И. А., Али А., В кн.: Инновационные, информационные и коммуникационные технологии. Сборник трудов XХ Международной научно-практической конференции. Москва, 2023.: М.: Ассоциация выпускников и сотрудников ВВИА им. проф. Жуковского, 2023. С. 422–425.
Статья посвящена разработке метода оптимального размещения точек доступа и шлюзов внутри помещений. В работе предлагается математическая модель оптимизации, основанная на генетическом недоминируемом алгоритме сортировки II, а также проводится сравнение полученных результатов работой профессионального программного обеспечения. ...
Добавлено: 6 апреля 2024 г.
Малашина А. Г., Лось А. Б., Чебышевский сборник 2022 Т. 23 № 2 С. 151–160
При исследовании криптографических качеств алгоритмов защиты информации важным моментом является построение теоретических и экспериментальных моделей источников сообщений. В данной статье проводится статистический анализ свойств лексических и n-граммных моделей русского языка на основе новостного текстового корпуса. Создан специализированный корпус из новостных статей последних лет политической направленности, отражающий узкую область употребления языка. Составлены словари токенов и n-грамм, ...
Добавлено: 27 сентября 2021 г.