Глава
Использование word embedding для машинной генерации признаков из транзакционных данных
На данный момент во многих задачах работы с клиентами бизнесу требуется понимать, к какому классу они относятся: например, часть клиентов могут являться лояльными покупателям, а другая часть - имеет высокий шанс уйти к конкурентам в ближайшее время. Истинный класс клиента может стать известным только по прошествии времени, а работать с клиентами нужно уже сегодня. В связи с этим существует большая потребность в моделях, предсказывающих класс клиента. В данной работе для определения признаков клиента предлагается использовать технологию word-embeddings, и, в частности, алгоритм doc2vec, который является логическим развитием алгоритма word2vec. Этот подход применяется к транзакционным данным крупной ресторанной сети, из которых впоследствии и извлекается набор признаков. Далее, на этих признаках обучаются несколько классических моделей машинного обучения для предсказания оттока клиентов и сравнения качества для разных способов генерации переменных.