Рет қаралды 60,565
Авторский курс по Data Science для начинающих pymagic.ru
Код на Boosty boosty.to/miracl6/posts/96b1f...
Разбираем задачу по Data Science кредитный скоринг с использованием модели логистической регрессии. Учимся грамотно подходить к разведочному анализу данных EDA, а также обучать модель ML и интерпретировать результаты для бизнеса.
Новая группа ВКонтакте pymagic
Датасет www.kaggle.com/c/sf-dst-scoring
Таймкоды:
00:00 Задача кредитного скоринга
00:25 Что необходимо сделать перед построением модели
00:44 Загрузка данных и предварительный анализ
04:07 Главная фишка EDA анализа!!!!! Как делать EDA?
05:29 Рассматриваем гипотезы
06:13 Анализируем целевую переменную (таргет) / Дисбаланс классов
07:11 Первая гипотеза. Распределение возраста в разрезе таргета (seaborn), нормализуем данные
08:11 Вторая гипотеза. Распределение возраста в разрезе образования / boxplot
10:10 Корреляция признаков
10:30 Третья гипотеза. Анализ зарплат в разрезе таргета / образования
12:33 Feature engineering (генерация фичей), как его делать, какие могут быть новые признаки, что делать с признаком типа дата-время, логарифмирование
15:07 Построение модели машинного обучения. 1 этап - бейзлайн (Logistic Regression)
16:46 Как интерпретировать и использовать метрики precision, recall, roc-auc
17:41 Строим roc-auc curve
18:03 Подбор параметров модели с использованием GridSearch
18:40 Сравниваем результаты на графике roc-auc / анализируем метрики
19:32 Анализ важных признаков после обучения модели
20:02 Используем для анализа важных признаков библиотеку shap / Интерпретирует результаты
22:30 Коэффициенты логистической регрессии
23:27 Сравнение важных признаков в разных классов (визуализация различий)
Instagram* / miracl6_
Группы в ВКонтакте pymagic
Telegram t.me/pymagic
*Компания Meta - организация, деятельность которой запрещена на территории Российской Федерации
#DataScience #python