?
Enhancing bankruptcy prediction efficiency using synthetic data
Прогнозирование финансовой несостоятельности компаний имеет решающее значение для инвесторов, кредиторов и регулирующих органов. Однако доступ к высококачественным, сбалансированным данным для обучения моделей часто ограничен из-за соображений конфиденциальности, нехватки информации или особенностей предоставления финансовой отчетности. В данной работе исследуется потенциал методов создания синтетических данных для увеличения экземпляров миноритарного класса в несбалансированных наборах данных и тем самым потенциального улучшения моделей прогнозирования несостоятельности. В работе сравнивается производительность различных методов снижения дисбаланса, включая такие классические, как, например, метод синтетического увеличения выборки меньшинства (Synthetic Minority Over-sampling Technique), с новыми подходами к генерации синтетических данных на основе байесовских сетей, маргинальных распределений, случайных лесов и генеративных состязательных сетей. Исследуется эффективность этих методов с точки зрения их способности улучшить такие показатели классификации, как коэффициент Джини, среднее геометрическое, доля ложно положительных и ложно отрицательных решений. В качестве выборки для эксперимента взяты реальные финансовые показатели промышленных компаний малого и среднего бизнеса Финляндии за 2021. Полученные результаты вносят вклад в растущий объем знаний о генерации синтетических данных и их применении для решения проблем несбалансированных наборов данных и улучшения прогностического моделирования в финансовой сфере, а также дают представление об эффективности различных методов создания синтетических данных для сэмплирования несбалансированных наборов данных и повышения точности и надежности моделей прогнозирования несостоятельности фирм.