Глава
Метод динамической конфигурации сетевой инфраструктуры в программно-определяемых сетях
В работе приводится обзор программно-определяемых сетей, предлагается метод повышения эффективности и оптимизации сети за счет применения методов машинного обучения
В книге
Статья посвящена обзору современных тематик и актуальных направлений компьютерной лингвистики на основе анализа материалов одной из конференции в этой области, а именно, 24-ой Международная конференция по компьютерной лингвистике Coling2012. В ней приводится анализ основных подходов и проблемных точек в таких традиционных областях автоматической обработки текста, как автоматический морфологический и синтаксический анализ, машинный перевод и др. Также подробно рассматриваются современные задачи автоматического извлечения информации из текста такие, как извлечение фактов, извлечения мнений, анализ контента на основе привлечения онтологических ресурсов Веба. Делается вывод о том, что для современного уровня развития компьютерной лингвистики характерно вовлечение все более сложных уровней лингвистического анализа в сферу автоматического анализа, применение гибридных подходов в решении задач компьютерной обработки текстов, совмещающих машинное обучение и алгоритмические методы. При этом уровни сложности современных задач обработки текстов, таких как извлечение временной референции в тексте, анализ структуры дискурса и многие другие, требуют активного привлечения экспертных лингвистических знаний.
В статье дается краткое введение в ансамбли классификаторов в машинном обучении и описывается алгоритм, повышающий качество классификации за счет рекомендации классификаторов объектам. Гипотеза, заложенная в основу алгоритма, состоит в том, что классификатор скорее правильно классифицирует объект, если он правильно предсказал метки соседей этого объекта из обучающей выборки. Автор иллюстрирует принцип алгоритма на простом примере и описывает тестирование на реальных данных.
С развитием автоматизированных систем прогнозирования успеха кинофильмов, актуальным представляется вопрос «В одинаковой степени предсказуемы кинофильмы из разных сегментов или нет?». Зная ответ на него, инвестор может либо обходить проблемные сегменты стороной, либо проводить более детальный анализ (в том числе качественный) кинопроектов, попадающих в проблемный сегмент. В статье между собой сравниваются такие методы классификации с обучением, как логистическая регрессия, MLP (Multilayer Perceptron – разновидность нейронных сетей), KNN (k-Nearest Neighbors – метод k ближайших соседей), CART (Classification and Regression Trees), SVM (Support Vector Machines), BP (Boosted Trees) и RF (Random Forest). Кроме того, для ответа на вопрос «В одинаковой степени предсказуемы кинофильмы из разных сегментов или нет?» применяется оригинальная методика выявления сегментов с высокой и низкой ошибкой предсказания. Проведенная диагностика является примером того, как исследователь может оценить однородность качества классификации и понять, для каких сегментов объектов может быть получен удовлетворительный прогноз, а какие сегменты лучше либо избегать, либо привлекать для их оценки экспертов.
В сборнике представлены тезисы докладов 12-й Международной конференции "Интеллектуализация обработки информации", проводимой Российской академией наук, Федеральным исследовательским центром "Информатика и управление" РАН, Научно-координационный центром "Цифровые методы интеллектуального анализа данных". Конференция проводится с 1989 г., начиная с 2000 г. - регулярно один раз в два года, и является представительным научным форумом в области интеллектуального анализа данных, машинного обучения, распознавания образов, анализа изображений, обработки сигналов, дискретного анализа. Организационный комитет ИОИ-2018 выражает особую благодарность компаниям Форексис и ЦСПиР, оказавшим неоценимую помощь при подготовке и проведении конференции. Конференция поддержана грантом РФФИ 18-07-20075. Сайт конференции http://mmro.ru.
В статье приведена одна из реализаций алгоритмов машинного обучения.
Обучение современным методам анализа данных невозможно без применения специализированных программных средств и выполнения практических заданий, но возможно ли создание такого лабораторного практикума без использования коммерческого ПО? Образовательный проект кафедры анализа данных и искусственного интеллекта ГУ-ВШЭ призван ответить на этот вопрос.
В статье обсуждаются различные способы оптимизации системы, моделирующей референциальный выбор (РВ) на основе аннотированного корпуса с использованием машинного обучения. Аннотационная схема, использовавшаяся в наших более ранних исследованиях, была улучшена и расширена. На следующем этапе был имплементирован более «дешевый» набор параметров с целью сокращения времени обработки и трудозатратности аннотации. Наши результаты свидетельствуют о том, что, несмотря на возможность исключения наиболее «дорогих» факторов при моделировании РВ, лучшая аккуратность предсказания достижима только при использовании максимального количества доступной информации. Жанровая принадлежность текстов была введена в систему в качестве одного из параметров и послу-жила повышению показателя аккуратности. И наконец, была запущена серия психолингвистических экспериментов по изучению категоричности выбора, совершаемого говорящими/пишущими. Первые полученные нами результаты оказались многообещающими: они показали, что в случаях, в которых системе не удается дать однозначное предсказание, согласно человеческой оценке, возможно с равной вероятность использование более одного референциального средства.
This book constitutes the refereed proceedings of the 12th Industrial Conference on Data Mining, ICDM 2012, held in Berlin, Germany in July 2012. The 22 revised full papers presented were carefully reviewed and selected from 97 submissions. The papers are organized in topical sections on data mining in medicine and biology; data mining for energy industry; data mining in traffic and logistic; data mining in telecommunication; data mining in engineering; theory in data mining; theory in data mining: clustering; theory in data mining: association rule mining and decision rule mining.