Глава
Кластеризация паттернов потребления электроэнергии умного дома на основе ансамблевых методов машинного обучения
В работе рассматривается задача кластеризации паттернов потребления для частного домохозяйства. Для кластеризации суточных профилей нагрузки разработан и применен ансамблевый алгоритм на основе метрики Вассерштейна. Предложенный подход позволяет выделить типичные сценарии энергопотребления, интерпретировать поведение потребителя. Приводятся результаты вычислительных экспериментов на реальных данных.
В книге
Статья посвящена обзору современных тематик и актуальных направлений компьютерной лингвистики на основе анализа материалов одной из конференции в этой области, а именно, 24-ой Международная конференция по компьютерной лингвистике Coling2012. В ней приводится анализ основных подходов и проблемных точек в таких традиционных областях автоматической обработки текста, как автоматический морфологический и синтаксический анализ, машинный перевод и др. Также подробно рассматриваются современные задачи автоматического извлечения информации из текста такие, как извлечение фактов, извлечения мнений, анализ контента на основе привлечения онтологических ресурсов Веба. Делается вывод о том, что для современного уровня развития компьютерной лингвистики характерно вовлечение все более сложных уровней лингвистического анализа в сферу автоматического анализа, применение гибридных подходов в решении задач компьютерной обработки текстов, совмещающих машинное обучение и алгоритмические методы. При этом уровни сложности современных задач обработки текстов, таких как извлечение временной референции в тексте, анализ структуры дискурса и многие другие, требуют активного привлечения экспертных лингвистических знаний.
С развитием автоматизированных систем прогнозирования успеха кинофильмов, актуальным представляется вопрос «В одинаковой степени предсказуемы кинофильмы из разных сегментов или нет?». Зная ответ на него, инвестор может либо обходить проблемные сегменты стороной, либо проводить более детальный анализ (в том числе качественный) кинопроектов, попадающих в проблемный сегмент. В статье между собой сравниваются такие методы классификации с обучением, как логистическая регрессия, MLP (Multilayer Perceptron – разновидность нейронных сетей), KNN (k-Nearest Neighbors – метод k ближайших соседей), CART (Classification and Regression Trees), SVM (Support Vector Machines), BP (Boosted Trees) и RF (Random Forest). Кроме того, для ответа на вопрос «В одинаковой степени предсказуемы кинофильмы из разных сегментов или нет?» применяется оригинальная методика выявления сегментов с высокой и низкой ошибкой предсказания. Проведенная диагностика является примером того, как исследователь может оценить однородность качества классификации и понять, для каких сегментов объектов может быть получен удовлетворительный прогноз, а какие сегменты лучше либо избегать, либо привлекать для их оценки экспертов.
В сборнике представлены тезисы докладов 12-й Международной конференции "Интеллектуализация обработки информации", проводимой Российской академией наук, Федеральным исследовательским центром "Информатика и управление" РАН, Научно-координационный центром "Цифровые методы интеллектуального анализа данных". Конференция проводится с 1989 г., начиная с 2000 г. - регулярно один раз в два года, и является представительным научным форумом в области интеллектуального анализа данных, машинного обучения, распознавания образов, анализа изображений, обработки сигналов, дискретного анализа. Организационный комитет ИОИ-2018 выражает особую благодарность компаниям Форексис и ЦСПиР, оказавшим неоценимую помощь при подготовке и проведении конференции. Конференция поддержана грантом РФФИ 18-07-20075. Сайт конференции http://mmro.ru.
Приводятся результаты анализа факторов, воздействующих на конфигурацию энергоснабжения крупной урбанизированной территории - Московской агломерации. Среди ключевых факторов выявлены: качество городской среды (экологический фактор, как один из его аспектов), административные барьеры, развитие рынка электроэнергии, а также факторы потребления - рост информатизации, маятниковая миграция и дальнейшее развитие энерговооруженности домохозяйств. В качестве вывода предложены меры по изменению энергобаланса региона.
В статье детально анализируется энергетическая инфраструктура Московской агломерации, приводятся результаты анализа факторов, воздействующих на конфигурацию энергоснабжения крупной урбанизированной территории - агломерации. Среди основных моментов автором выявлены: качество городской среды, административные барьеры, развитие рынка электроэнергии, рост информатизации, маятниковая миграция, развитие энерговооруженности домохозяйств. В качестве вывода предложены меры по изменению энергобаланса Московского региона.
В статье обсуждаются различные способы оптимизации системы, моделирующей референциальный выбор (РВ) на основе аннотированного корпуса с использованием машинного обучения. Аннотационная схема, использовавшаяся в наших более ранних исследованиях, была улучшена и расширена. На следующем этапе был имплементирован более «дешевый» набор параметров с целью сокращения времени обработки и трудозатратности аннотации. Наши результаты свидетельствуют о том, что, несмотря на возможность исключения наиболее «дорогих» факторов при моделировании РВ, лучшая аккуратность предсказания достижима только при использовании максимального количества доступной информации. Жанровая принадлежность текстов была введена в систему в качестве одного из параметров и послу-жила повышению показателя аккуратности. И наконец, была запущена серия психолингвистических экспериментов по изучению категоричности выбора, совершаемого говорящими/пишущими. Первые полученные нами результаты оказались многообещающими: они показали, что в случаях, в которых системе не удается дать однозначное предсказание, согласно человеческой оценке, возможно с равной вероятность использование более одного референциального средства.
This book constitutes the refereed proceedings of the 12th Industrial Conference on Data Mining, ICDM 2012, held in Berlin, Germany in July 2012. The 22 revised full papers presented were carefully reviewed and selected from 97 submissions. The papers are organized in topical sections on data mining in medicine and biology; data mining for energy industry; data mining in traffic and logistic; data mining in telecommunication; data mining in engineering; theory in data mining; theory in data mining: clustering; theory in data mining: association rule mining and decision rule mining.