Проект посвящен разработке модели кредитного скоринга для юридических лиц. Основная цель модели — оценить кредитоспособность клиентов и помочь банку принять решение о выдаче кредита.
solution.ipynb
: Модель, включающая подробную обработку данных, улучшение модели и подбор гиперпараметров для повышения точности.solution.csv
: Итоговые предсказания для тестового набора, подготовленные к отправке на платформу для оценки.
-
Анализ данных:
- Объединение данных из нескольких файлов.
- Проверка на пропуски, анализ баланса классов и корреляций.
- Удаление коррелированных и низковариативных признаков для улучшения интерпретируемости и предотвращения переобучения.
-
Обучение модели:
- Выбрали библиотеку LightGBM, которая обеспечивает высокую производительность и поддерживает встроенные методы работы с дисбалансом классов.
- Провели подбор гиперпараметров с помощью
RandomizedSearchCV
для улучшения качества модели. - Обучение проводилось с ранней остановкой для предотвращения переобучения.
-
Оценка качества:
- Метрика ROC-AUC на валидационном наборе достигла значения 0.9667, что подтверждает высокую производительность модели.
- Итоговая оценка на тестовом наборе составила 0.8155 ROC-AUC, что позволило нашей команде войти в топ-10 из 70 команд.
Модель показала высокую точность предсказаний, и наша команда заняла 7 место из 70 команд. Это подчеркивает эффективность выбранного подхода и методики обработки данных.
Для запуска ноутбука необходимо установить следующие библиотеки:
!pip install pandas numpy scikit-learn lightgbm