Глава
Right people at right places: an approach to expert search efficiency improvement
В книге

Большинство техник машинного обучения ориентированы на обработку структурированных данных, в то время как большая часть доступных данных, как правило, представлена в неструктурированном, в том числе текстовом, виде. Обнаружение концептов - это область извлечения знаний, использующая антропоцентрические методы, ориентированные на выявление глубинной концептуальной структуры данных и активно вовлекающие эксперта в процесс исследований. Семинар был посвящен методам обработки неструктурированной информации и, в первую очередь, превращения ее в структурированную или полуструктурированную. Он затронул самые различные области, такие как извлечение данных из текстов, из сети (в том числе блогов, форумов и социальных сетей), способы обработки неполных данных и самые разнообразные методы - графы, в том числе концептуальные графы, кластеризацию, онтологии. Семинар проходил совместно с конференцией ICFCA 2012, посвященной практическому применению и дополнениям метода FCA (formal concept analysis, формальный анализ концептов) и помимо упомянутого включавшей в себя два семинара - CUBIST (Combining and Uniting Business Intelligence with Semantic Technologies, объединение бизнес-аналитики с семантическими технологиями) и EEML (Experimental Economics and Machine Learning, экспериментальная экономика и машинное обучение), затрагивающими темы использования методов data mining в экономике и бизнес-моделях. Основным направлением проекта БР5 является создание кросс-платформенных систем обработки неструктурированной информации для повышения эффективности управления инновационной деятельностью предприятия, что полностью совпадает с тематикой семинаров. Информация о сотрудниках и оргструктуре компании, коммуникации между сотрудниками компании часто представлена в неструктурированном виде, поэтому важно компенсировать это более совершенными методами обработки.
В работе изучается связь характеристик семьи с выбором образовательной траектории в старших классах. Рассматриваются три ситуации образовательного выбора: выбор между высшим и профессиональным образованием после 9 и 11 классов и выбор вуза по окончании 11 класса. В соответствие с теорией Р. Будона, эффекты социально-экономического положения семьи на образовательный выбор были разделены на первичные и вторичные. Первичные эффекты проявляются в том, что учащиеся из семей с большим количеством различных ресурсов показывают более высокие образовательные достижения. Вторичные эффекты видны в том, что даже при одинаковой успеваемости учащиеся из семей с высоким СЭП чаще продолжают обучение по сравнению со сверстниками из семей с низким социальным статусом. Работа основана на данных лонгитюдного исследования «Траектории в образовании и профессии», запущенного в 2011 году, когда респонденты учились в 8 классе, и продолжающегося до сих пор. Результаты показали, что первичные эффекты ослабевают при переходе от 9-го класса к 11-му. Тогда как роль вторичных возрастает: даже при высокой успеваемости учащиеся из семей с низким уровнем культурного, образовательного, социального капитала делают выбор в пользу менее селективных ступеней образования. И наоборот, учащиеся из семей с высоким социально-экономическим положением, но невысокой успеваемостью сделают выбор в пользу высшего образования, а не в пользу профессионального. Делаются выводы о степени доступности образования в старших классах и при переходе в высшее образование, а также о вероятных причинах проявления неравенства. Предложены меры для преодоления неравенства на рассматриваемых переходах.
We present a description of an enterprise expert search system which is based on the analysis of content and communications topology in an enterprise information space. As data sources we use the collections introduced at the Text Retrieval Conference (TREC) in 2006 and 2007. An optimal set of weighting coefficients for three query-candidate associating algorithms is selected for achieving the best search efficiency on a specified corpus. The obtained performance proved to be better than at most TREC participants.
We present the results of our enterprise expert search system application to the tasks that were introduced at the Text Retrieval Conference (TREC) in 2005—2007. The expert search system is based on the analysis of content and communications topology in an enterprise information space. During the performed experiments an optimal set of weighting coefficients for three query-candidate associating algorithms is selected for achieving the best search efficiency on a specified corpus. The obtained performance proved to be better than at most TREC participants. The hypothesis of additional efficiency improvement by means of query classification is proposed.