Глава
Survey of Common Design Approaches in AML Software Development
В книге
Статья посвящена обзору современных тематик и актуальных направлений компьютерной лингвистики на основе анализа материалов одной из конференции в этой области, а именно, 24-ой Международная конференция по компьютерной лингвистике Coling2012. В ней приводится анализ основных подходов и проблемных точек в таких традиционных областях автоматической обработки текста, как автоматический морфологический и синтаксический анализ, машинный перевод и др. Также подробно рассматриваются современные задачи автоматического извлечения информации из текста такие, как извлечение фактов, извлечения мнений, анализ контента на основе привлечения онтологических ресурсов Веба. Делается вывод о том, что для современного уровня развития компьютерной лингвистики характерно вовлечение все более сложных уровней лингвистического анализа в сферу автоматического анализа, применение гибридных подходов в решении задач компьютерной обработки текстов, совмещающих машинное обучение и алгоритмические методы. При этом уровни сложности современных задач обработки текстов, таких как извлечение временной референции в тексте, анализ структуры дискурса и многие другие, требуют активного привлечения экспертных лингвистических знаний.
В статье дается краткое введение в ансамбли классификаторов в машинном обучении и описывается алгоритм, повышающий качество классификации за счет рекомендации классификаторов объектам. Гипотеза, заложенная в основу алгоритма, состоит в том, что классификатор скорее правильно классифицирует объект, если он правильно предсказал метки соседей этого объекта из обучающей выборки. Автор иллюстрирует принцип алгоритма на простом примере и описывает тестирование на реальных данных.
The paper deals with the problems of creating and tuning a system of automated anaphora resolution for Russian. Such a system is introduced, combining rule-based and machine learning approaches. It shows F-measure from 0.51 to 0.59. Freeling serves as an underlying morphological layer and an account of its quality is given, with its influence on anaphora resolution workflow. The anaphora resolution system itself is available to download and use, coming with online demo.
В сборнике представлены тезисы докладов 12-й Международной конференции "Интеллектуализация обработки информации", проводимой Российской академией наук, Федеральным исследовательским центром "Информатика и управление" РАН, Научно-координационный центром "Цифровые методы интеллектуального анализа данных". Конференция проводится с 1989 г., начиная с 2000 г. - регулярно один раз в два года, и является представительным научным форумом в области интеллектуального анализа данных, машинного обучения, распознавания образов, анализа изображений, обработки сигналов, дискретного анализа. Организационный комитет ИОИ-2018 выражает особую благодарность компаниям Форексис и ЦСПиР, оказавшим неоценимую помощь при подготовке и проведении конференции. Конференция поддержана грантом РФФИ 18-07-20075. Сайт конференции http://mmro.ru.
Большинство техник машинного обучения ориентированы на обработку структурированных данных, в то время как большая часть доступных данных, как правило, представлена в неструктурированном, в том числе текстовом, виде. Обнаружение концептов - это область извлечения знаний, использующая антропоцентрические методы, ориентированные на выявление глубинной концептуальной структуры данных и активно вовлекающие эксперта в процесс исследований. Семинар был посвящен методам обработки неструктурированной информации и, в первую очередь, превращения ее в структурированную или полуструктурированную. Он затронул самые различные области, такие как извлечение данных из текстов, из сети (в том числе блогов, форумов и социальных сетей), способы обработки неполных данных и самые разнообразные методы - графы, в том числе концептуальные графы, кластеризацию, онтологии. Семинар проходил совместно с конференцией ICFCA 2012, посвященной практическому применению и дополнениям метода FCA (formal concept analysis, формальный анализ концептов) и помимо упомянутого включавшей в себя два семинара - CUBIST (Combining and Uniting Business Intelligence with Semantic Technologies, объединение бизнес-аналитики с семантическими технологиями) и EEML (Experimental Economics and Machine Learning, экспериментальная экономика и машинное обучение), затрагивающими темы использования методов data mining в экономике и бизнес-моделях. Основным направлением проекта БР5 является создание кросс-платформенных систем обработки неструктурированной информации для повышения эффективности управления инновационной деятельностью предприятия, что полностью совпадает с тематикой семинаров. Информация о сотрудниках и оргструктуре компании, коммуникации между сотрудниками компании часто представлена в неструктурированном виде, поэтому важно компенсировать это более совершенными методами обработки.