?
Текстуальный анализ ценообразования на рынке московской жилой недвижимости
В данной работе применяется текстуальный анализ для оценки парамет- ров гедонистической модели ценообразования на рынке вторичной недви- жимости г. Москвы. Для проведения исследования был собран уникальный массив данных – активные в июле 2019 г. объявления о продаже жилой не- движимости на сайте ЦИАН. Для сбора информации была написана специаль- ная программа-парсер на языке Python. Всего было собрано около 60 тыс. объявлений, которые представляют все районы Москвы. На основе этого массива данных и разработанного авторами алгоритма анализа текстов оп- ределены слова (униграммы) и словосочетания (биграммы), которые явля- ются наиболее значимыми предикторами цены. Преимущество данного под- хода в том, что подбор объясняющих переменных для эконометрической модели опирается на выявленные предпочтения участников рынка – алго- ритм определяет характеристики жилья, которые указывают сами владель- цы, заинтересованные в успешной продаже. Таким образом, мы выявляем важные субъективные факторы ценообразования на рынке московской не- движимости. Показано, что использование текстуального анализа позволяет заметно улучшить предсказательную силу эконометрической модели цено- образования. В частности, благодаря использованию униграмм мы можем сократить среднеквадратичную ошибку на 15%. Механизм этого улучшения заключается в учете факторов ценообразования, которые трудно измерить количественным образом. К примеру, биграммы «очистка воды», «охрана консьерж», «клубный дом», «система видеонаблюдение» и им подобные от- вечают за факторы благоустройства самого жилья и его окрестностей, безо- пасность и другие общественные блага локального уровня, которые практи- чески не поддаются количественному измерению по единой методике.