Clustering with empty clusters

?

Clustering with empty clusters

Известия Дальневосточного федерального университета. Экономика и управление. 2024. Vol. 2. P. 75–94.

Кластерный анализ широко используется в различных научных и практических областях, связанных с анализом данных. Это важный инструмент для решения задач в таких областях, как машинное обучение, обработка изображений, распознавание текста и т.д. Отсутствие наблюдений не всегда означает отсутствие информации, поэтому предполагается, что наличие пробелов в данных, наличие“пустых” кластеров, также несёт в себе информацию об объекте исследования, как и реальные наблюдения. В этом исследовании предполагается, что мы не наблюдаем не только переменную, но и целый набор объектов, образующих отдельный кластер. Таким образом, предполагается, что отсутствующее в данных — это не факт отсутствия кластера объектов как такового, а потенциально существующие объекты, которые отсутствуют в нашей выборке. Предлагается алгоритм для определения потенциальных “пустых” кластеров для одномерных и двумерных наборов данных, учитывая их размер и расположение в пространстве признаков в зависимости от исходного распределения выборок. Реализован метод заполнения этих пробелов и оценки смещения центроидов начальной кластеризации при учёте пустого кластера. Продемонстрировано применение этого подхода для удаления выбросов из данных.

Язык: английский

Текст на другом сайте

Сравнение методов автоматической разметки речевых формул в русскоязычном интернет-дискурсе: пилотное исследование

Попова Т. И., Масленикова А. С., В кн.: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Выпуск 24.Issue 24.: M.: Max press, 2026. С. 420–429.

Настоящее исследование посвящено разработке и сравнению методов автоматической разметки речевых формул в корпусе русскоязычных интернет-комментариев. Речевые формулы представляют собой класс устойчивых неоднословных единиц, выражающих эмоциональную реакцию в диалоге. Материалом исследования послужил корпус из 10 000 комментариев (157 261 токен), собранных из пяти Telegram-каналов. Формальный поиск по словнику из 437 единиц дал точность (precision) 21%. Для ...

Добавлено: 29 июня 2026 г.

The Use of the Missing Sample Simulation Modeling to Create a Classification Model for Three or More Classes by the Example of the Carbohydrate Metabolism Disorder Degree Detection Problem

Новиков Р. С., Novopashin M., Позин Б. А., Programming and Computer Software 2026 Vol. 52 No. 1 P. 28 – 38

Добавлено: 26 июня 2026 г.

К ранжированию значимости факторов дестабилизации в странах Азии и Африки методами машинного обучения

Коротаев А. В., Черноморченко И. Ю., Медведев И. А., Восток. Афро-азиатские общества: история и современность 2026 № 3 С. 117–130

В статье методами машинного обучения проранжированы по их значимости факторы крупномасштабной вооруженной и невооруженной дестабилизации в странах Азии и Африки. Показано, что страны Африки в большей мере уязвимы к вооружённой дестабилизации (вплоть до полномасштабных гражданских войн), а страны Азии – к массовой невооружённой (антиправительственные демонстрации, массовые беспорядки, политические забастовки и т. п.). Ключевыми факторами вооружённой ...

Добавлено: 21 июня 2026 г.

Artificial intelligence and digital twins for failure prediction in data center cooling systems: a comprehensive literature review (2018–2026)

Butorova A., Bobakov V., Sergeev A. и др., European Physical Journal: Special Topics 2026 P. 1–19

Добавлено: 10 июня 2026 г.

Влияние шизофрении на лексический уровень языка

Унтила К. В., Тасенко О. А., В кн.: Современная лингвистика: ключ к диалогу. Труды и материалы IV Казанского международного лингвистического саммита.Т. 1: СОВРЕМЕННАЯ ЛИНГВИСТИКА: КЛЮЧ К ДИАЛОГУ.: Каз.: Издательство Казанского университета, 2024. С. 221–224.

Шизофрения – это хроническое психическое расстройство, которое выражается как комбинация психотических симптомов – таких как галлюцинации, бред и дезорганизация когнитивных функций. У многих пациентов с диагнозом шизофрения обнаруживаются нарушения речи. Для исследования были отобраны рассказы об истории из жизни из корпуса 3D. В качестве личных историй были собраны ответы на вопросы «Какой самый лучший или запоминающийся ...

Добавлено: 8 июня 2026 г.

Proceedings of the 43rd International Conference on Machine Learning (ICML 2026)

Seul: PMLR, 2026.

Добавлено: 4 июня 2026 г.

От неизвестности к прозрачности: обзор технологий объяснимого ИИ (XAI)

Авдошин С. М., Песоцкая Е. Ю., Информационные технологии 2026 Т. 32 № 4 С. 185–194

С развитием ИИ, и в особенности глубокого обучения, появились модели, способные давать крайне точные прогнозы. Однако их внутренняя логика остается трудной для понимания — и это серьезная проблема, особенно в сферах, где от корректности алгоритма зависят критиче ски важные решения. Одним из перспективных путей ее решения считается направление Explainable Artificial Intelligence (XAI) — разработка подходов, позволяющих прояснять ...

Добавлено: 8 мая 2026 г.

Современные методы анализа временных рядов в мониторинге и прогнозировании состояния оборудования для механизированной добычи

Незнанов А. А., Глушко А. А., Овчинников С. и др., В кн.: Интеллектуальный анализ данных в нефтегазовой отрасли.: М.: ООО «Геомодель Развитие», 2024. С. 140–143.

С развитием систем мониторинга мы получили возможность собирать ключевые показатели работы устройств в процессе механизированной добычи. Каждый день генерируется огромное количество телеметрии, которая пройдя процесс гармонизации и трансформации может быть использована для прогнозирования состояния оборудования. В докладе представлен обзор и произведён отбор современных математических методов и программных реализации инструментов анализа многомерных нерегулярных временных рядов для ...

Добавлено: 29 апреля 2026 г.

Machine Learning Approach to Anticancer Activity Prediction of Transition-Metal Complexes Based on a Large-Scale Experimental Database

Krasnov L., Malikov D., Kiseleva M. и др., Journal of Medicinal Chemistry 2026 Vol. 69 No. 8 P. 8838–8851

Добавлено: 23 апреля 2026 г.

LSTM-модель потребления тепловой энергии в многоэтажном жилом здании

Ершов И. А., Системная инженерия и инфокоммуникации 2025 № 4 С. 11–14

Теплопотребление жилых зданий представляет собой стохастический ряд, создание нейросетевой модели для которого необходимо для проектирования регуляторов тепловой энергии. В статье модель разработана с применением "длинной цепи элементов краткосрочной памяти" (LSTM, Long Short-Term Memory). Высокая точность воспроизведения рядов достигнута обучением модели на наборе данных города Томска 2013-2023 г.г. При моделировании учтены характеристики зданий и температура наружного воздуха. ...

Добавлено: 22 апреля 2026 г.

Алгоритм анализа новостной информации для принятия экономических решений

Чудинова О. С., Первицкая Л. А., Раменская А. В., Индустриальная экономика 2026 № 1 С. 65–78

Статья посвящена разработке алгоритма анализа новостной информации методами машинного обучения, реализованными в библиотеках Python. Обоснование выбора инструментов, применяемых на каждом этапе алгоритма, осуществляется с помощью расчета метрик качества решения соответствующих задач машинного обучения. Результаты работы алгоритма представлены классификацией региональных новостей, собранных за период с августа 2024 года по июнь 2025 года, по отраслям экономики и ...

Добавлено: 20 апреля 2026 г.

Modeling cosolvent effects on solubility in supercritical CO2 using data-driven approaches

Makarov D. M., Каликин Н. Н., Gurikov P. и др., Journal of Supercritical Fluids 2026 Vol. 235 Article 106979

Добавлено: 19 апреля 2026 г.

Эффективность применения прогнозов волатильности в активных торговых стратегиях институциональных инвесторов на российском рынке акций

Лысенок Н. И., Фундаментальная и прикладная математика 2026 Т. 26 № 3 С. 33–42

Исследование посвящено оценке влияния прогнозов реализованной волатильности на результаты активных торговых стратегий на российском рынке акций. На выборке 17 ликвидных акций за 2014-2026 гг. построена гибридная прогнозная модель, объединяющая HAR-J и градиентный бустинг; её преимущество над базовой HAR-J подтверждено тестом Дибольда-Мариано (p < 0,001). Шесть направленных стратегий трёх категорий протестированы с тремя механизмами интеграции прогнозов и без них. ...

Добавлено: 17 апреля 2026 г.

Особые экономические зоны Российской Федерации: моделирование решений потенциальных резидентов и процесса их генерации

Плесовских А. Е., Journal of Applied Economic Research 2023 Т. 22 № 2 С. 323–354

В современных исследованиях широко обсуждается роль особых экономических зон в стимулировании экономического роста и развития России, формировании необходимых инвестиционных потоков и повышении инновационного потенциала страны за счет расширения производства продукции в высокотехнологичных отраслях экономики с высокой добавленной стоимостью. Цель исследования – моделирование процесса генерации резидентов и детерминация количественных факторов, оказывающих статистически значимый эффект на среднегодовой ...

Добавлено: 13 апреля 2026 г.

Опыт генерации оценок эмоциональной валентности и возбуждения слов на основе символьно-уровневой CNN

Люсин Д. В., Валуева Е. А., Сысоева Т. А., В кн.: Психология познания: Материалы Всероссийской научной конференции, ЯрГУ, Институт психологии РАН, 5–6 декабря 2025 г.: Институт психологии РАН, 2026. С. 310–314.

Эмоциональная окраска слов широко используются в различных академических и прикладных исследованиях, от анализа текстов до понимания когнитивных процессов. Актуальной задачей является создание объёмных датасетов с оценками слов по ряду эмоциональных параметров. Современные методы машинного обучения, основанные на семантической близости слов, извлекаемой из текстовых корпусов, демонстрируют высокие корреляции с человеческими оценками, однако иногда наблюдаются существенные расхождения. ...

Добавлено: 10 апреля 2026 г.

Нейросетевые инструменты в арсенале вузовского преподавателя

Федоров А. О., Вакку Г. В., Лебедева С. Э., Галактика медиа: журнал медиа исследований 2026 Т. 8 № 2 С. 163–182

С увеличением объемов данных преподаватель вуза может потратить годы на обработку и систематизацию информации. Персонализированная помощь, рекомендации по контенту, сбор данных для обзоров литературы и оформление библиографических ссылок укрепляют роль искусственного интеллекта как эффективного нейросетевого инструмента научной коммуникации. В данной статье рассматриваются практические примеры использования таких инструментов, как Elicit, SciSpace, Consensus, Undermind и Paperfinder, для упрощения ...

Добавлено: 7 апреля 2026 г.

Применение ML в целях повышения помехоустойчивости сигналов

Ефремов А. М., Портной С. Л., Волошин А. Д., Первая миля 2025 № 8 С. 20–28

Выполнен комплексный обзор методов машинного обучения (ML), применяемых для повышения устойчивости сигнала к помехам в каналах связи. Бурное развитие поколений беспроводной связи, активная разработка концепции 6G предъявляют высокие требования к задержке, скорости и надежности передачи данных. Традиционные подходы к защите от помех, основанные на строгих аналитических моделях, зачастую не справляются с хаотичной природой плотных гетерогенных ...

Добавлено: 4 апреля 2026 г.