Статья
Сравнение методов машинного обучения в задаче предсказания интенции участника онлайн дискуссии
Данная работа посвящена исследованию интенции пользователя в социальной сети. Для этого используется оригинальный набор данных, где собраны диалоги пользователей из социальной сети и каждое сообщение соотнесено к одниму из 25 типов интенций. Рассмотрены современные методы машинного обучения, которые позволяют анализировать элементы последовательности и предсказывать следующие. На выбранном наборе данных проведен вычислительный эксперимент по предсказанию следующей интенции пользователя в ходе дискурса. Оценена точность работы каждого алгоритма.
Препринт представляет результаты исследовательского проекта «Петербургская социология после 1985 года: Институциональная динамика, экономическая адаптация и точки интеллектуального роста», посвященного истории локального академического сообщества петербургских социологов на протяжении последних двадцати пяти лет. Исследование, продолжающее традицию community-studies Чикагской школы, опиралось на широкий круг исторических, социологических, этнографических и библиометрических методов. Целью проекта было изучение экологии интеллектуальных, экономических, политических и других практик сообщества, состоящего примерно из 600 ученых-обществоведов.
В этот выпуск вошли два текста. В первом, за авторством М.М. Соколова, К.С. Губы, Д.В. Димке и М.А. Сафоновой, кратко охарактеризованы интеллектуальные истоки жанра community studies, обоснована его релевантность для социологии науки, описана стратегия и методы исследования, а также перечислены некоторые опубликованные ранее результаты проекта. Во втором тексте, за авторством М.А. Сафоновой, описаны основные этапы сетевой истории ленинградской / петербургской социологии и подробно проанализирована многоуровневая структура социальной сети, которая связывает петербургских социологов в настоящее время. Основной исследовательский вопрос статьи: являются ли главным элементом этой структуры «научные школы» («академические банды», по выражению Томаса Шеффа) – сплоченные клики ученых, объединенные общими интересами и интеллектуальной идентичностью?
В статье дается краткое введение в ансамбли классификаторов в машинном обучении и описывается алгоритм, повышающий качество классификации за счет рекомендации классификаторов объектам. Гипотеза, заложенная в основу алгоритма, состоит в том, что классификатор скорее правильно классифицирует объект, если он правильно предсказал метки соседей этого объекта из обучающей выборки. Автор иллюстрирует принцип алгоритма на простом примере и описывает тестирование на реальных данных.
С развитием автоматизированных систем прогнозирования успеха кинофильмов, актуальным представляется вопрос «В одинаковой степени предсказуемы кинофильмы из разных сегментов или нет?». Зная ответ на него, инвестор может либо обходить проблемные сегменты стороной, либо проводить более детальный анализ (в том числе качественный) кинопроектов, попадающих в проблемный сегмент. В статье между собой сравниваются такие методы классификации с обучением, как логистическая регрессия, MLP (Multilayer Perceptron – разновидность нейронных сетей), KNN (k-Nearest Neighbors – метод k ближайших соседей), CART (Classification and Regression Trees), SVM (Support Vector Machines), BP (Boosted Trees) и RF (Random Forest). Кроме того, для ответа на вопрос «В одинаковой степени предсказуемы кинофильмы из разных сегментов или нет?» применяется оригинальная методика выявления сегментов с высокой и низкой ошибкой предсказания. Проведенная диагностика является примером того, как исследователь может оценить однородность качества классификации и понять, для каких сегментов объектов может быть получен удовлетворительный прогноз, а какие сегменты лучше либо избегать, либо привлекать для их оценки экспертов.
В сборнике представлены тезисы докладов 12-й Международной конференции "Интеллектуализация обработки информации", проводимой Российской академией наук, Федеральным исследовательским центром "Информатика и управление" РАН, Научно-координационный центром "Цифровые методы интеллектуального анализа данных". Конференция проводится с 1989 г., начиная с 2000 г. - регулярно один раз в два года, и является представительным научным форумом в области интеллектуального анализа данных, машинного обучения, распознавания образов, анализа изображений, обработки сигналов, дискретного анализа. Организационный комитет ИОИ-2018 выражает особую благодарность компаниям Форексис и ЦСПиР, оказавшим неоценимую помощь при подготовке и проведении конференции. Конференция поддержана грантом РФФИ 18-07-20075. Сайт конференции http://mmro.ru.
Using network approach, we propose a new method of identifying key food exporters based on the long-range (LRIC) and short-range interaction indices (SRIC). These indices allow to detect several groups of economies with direct as well as indirect influence on the routes of different levels in the food network.
В трудах представлены материалы, затрагивающие вопросы повышения эффективности производственных, экономических, образовательных, биомедицинских систем на основе использования современных технологий, интеллектуальной поддержки принятия решений, формализации экспертной информации, создания учебно-исследовательских систем, теории моделирования и оптимизации. Сборник полезен специалистам, аспирантам, студентам, деятельность которых связана с решением практических задач в области информатики, кибернетики, применением информационных систем и технологий в технике, образовании, экономике и медицине.
В статье обсуждаются различные способы оптимизации системы, моделирующей референциальный выбор (РВ) на основе аннотированного корпуса с использованием машинного обучения. Аннотационная схема, использовавшаяся в наших более ранних исследованиях, была улучшена и расширена. На следующем этапе был имплементирован более «дешевый» набор параметров с целью сокращения времени обработки и трудозатратности аннотации. Наши результаты свидетельствуют о том, что, несмотря на возможность исключения наиболее «дорогих» факторов при моделировании РВ, лучшая аккуратность предсказания достижима только при использовании максимального количества доступной информации. Жанровая принадлежность текстов была введена в систему в качестве одного из параметров и послу-жила повышению показателя аккуратности. И наконец, была запущена серия психолингвистических экспериментов по изучению категоричности выбора, совершаемого говорящими/пишущими. Первые полученные нами результаты оказались многообещающими: они показали, что в случаях, в которых системе не удается дать однозначное предсказание, согласно человеческой оценке, возможно с равной вероятность использование более одного референциального средства.
Статья посвящена обзору современных тематик и актуальных направлений компьютерной лингвистики на основе анализа материалов одной из конференции в этой области, а именно, 24-ой Международная конференция по компьютерной лингвистике Coling2012. В ней приводится анализ основных подходов и проблемных точек в таких традиционных областях автоматической обработки текста, как автоматический морфологический и синтаксический анализ, машинный перевод и др. Также подробно рассматриваются современные задачи автоматического извлечения информации из текста такие, как извлечение фактов, извлечения мнений, анализ контента на основе привлечения онтологических ресурсов Веба. Делается вывод о том, что для современного уровня развития компьютерной лингвистики характерно вовлечение все более сложных уровней лингвистического анализа в сферу автоматического анализа, применение гибридных подходов в решении задач компьютерной обработки текстов, совмещающих машинное обучение и алгоритмические методы. При этом уровни сложности современных задач обработки текстов, таких как извлечение временной референции в тексте, анализ структуры дискурса и многие другие, требуют активного привлечения экспертных лингвистических знаний.
В статье рассматриваются структурные условия, определяющие направление устойчивых потоков международной студенческой миграции. В существующей дискуссии уделяется внимание либо (1) экономическим факторам, влияющим на индивидуальное решение, принимаемое студентом или ее/его семьей, либо (2) факторам, задающим центростремительное движение студентов от периферии к ядру современной миросистемы. В данной статье к этим двум перспективам добавляется третья, институционально-историческая. Описываются элементы социальной структуры, которые могут связывать две страны и обеспечивать поддержание современной студенческой миграции. С помощью сетевого анализа производится визуализация статистических данных UNESCO и Федеральной службы государственной статистики РФ, и выделяются студенческие потоки, которые идут по глубоким и устойчивым миграционным каналам. Показано, что по глубоким каналам идут потоки, связывающие страны, бывшие центрами империй и страны, которые находятся на территориях, которые в прошлом были зависимыми от этих центров. Для описания мезо- и микроуровня организации процесса миграции используются материалы case-study постсоветского студенческого потока (Казахстан-Россия).
В данной работе рассматривается пятое уравнение Пенлеве, которое имеет 4 комплексных параметра. Методами степенной геометрии ищутся асимптотические разложения его решений в окрестности его неособой точки z=z0, z0≠0, z0≠∞, при любых значениях параметров уравнения. Показано, что имеется ровно 10 семейств разложений решений уравнения. Все они - по целым степеням локальной переменной z - z0. Из них одно новое; у него произвольный коэффициент при четвертой степени локальной переменной. Одно из семейств однопараметрическое, остальные - двухпараметрические. Доказано, что все разложения сходятся в окрестности (а являющиеся полюсами - в проколотой окрестности) точки z=z0.
В учебном пособии рассматриваются базовые вопросы компьютерной лингвистики: от теории лингвистического и математического моделирования до вариантов технологических решений. Дается лингвистическая интерпретация основных лингвистических объектов и единиц анализа. Приведены сведения, необходимые для создания отдельных подсистем, отвечающих за анализ текстов на естественном языке. Рассматриваются вопросы построения систем классификации и кластеризации текстовых данных, основы фрактальной теории текстовой информации.
Предназначено для студентов и аспирантов высших учебных заведений, работающих в области обработки текстов на естественном языке.
В данной работе рассматривается пятое уравнение Пенлеве, которое имеет 4 комплексных параметра α, β, γ, δ. Методами степенной геометрии ищутся асимптотические разложения его решений при x → ∞. При α≠0 найдено 10 степенных разложений с двумя экспоненциальными добавками каждое. Шесть из них - по целым степеням x (они были известны), и четыре по полуцелым (они новые). При α=0 найдено 4 однопараметрических семейства экспоненциальных асимптотик y(x) и 3 однопараметрических семейства сложных разложений x=x(y). Все экспоненциальные добавки, экспоненциальные асимптотики и сложные разложения найдены впервые. Также уточнена техника вычисления экспоненциальных добавок.
В данной работе рассматривается пятое уравнение Пенлеве. Методами степенной геометрии ищутся асимптотические разложения его решений при x → 0. Получено 27 семейств разложений решений уравнения. 19 из них получены из разложений решений шестого уравнения Пенлеве. Среди остальных 8 семейств одно было известно раньше, ещё одно может быть получено из разложения решения третьего уравнения Пенлеве. Новыми являются 3 семейства полуэкзотических разложений, 2 семейства сложных разложений и семейство степенно-логарифмических разложений.
Труды содержат доклады, представленные учеными из России, Украины, Белоруссии, Казахстана, Эстонии, Узбекистана, Германии, Польши, посвященные актуальным проблемам радиационной физики твердого тела (влияние радиации на физико-химические свойства и структуру металлических, полупроводниковых и диэлектрических материалов, влияние факторов космического пространства на свойства конструкционных и функциональных материалов и покрытий космических аппаратов, радиационно-технологические методы получения материалов, в частности наноматериалов, модифицирования и обработки материалов с целью улучшения их эксплуатационных свойств, создание и получение экологически чистых материалов с низкой наведенной радиоактивностью и др.).
Труды содержат доклады, представленные специалистами из России, Украины, Белорусии, Казахстана, Узбекистана, Германии, Великобритании, Польши по направлениям:«Радиационная физика металлов», «Радиационная физика неметаллических материалов», «Физические основы радиационной технологии» и посвященные разнообразным проблемам радиационной физики твердого тела (процессы прохождения заряженных и нейтральных частиц, рентгеновского и гамма-излучений через вещество, электрон-атомные, атом-атомные, ион-атомные и др. столкновения в твердых телах, ориентационные явления при взаимодействии высокоэнергетических частиц с твердым телом, радиационно-индуцированные и радиационно-стимулированные явления в твердых телах и др.).