Как обучить модель по шагам в Data Science? Урок для начинающих на примере задачи регрессии

  Рет қаралды 14,914

miracl6

miracl6

Күн бұрын

Мое сообщество ВКонтакте pymagic
Telegram t.me/pymagic
Ссылка на мануал с обновленным кодом github.com/miracl1e6/manual-p...
Таймкоды:
00:00 Разбор алгоритма построение модели машинного обучения в Jupyter Notebook
00:42 С чего начинать исследование в ноутбуке? О важности написания качественного кода, стандарты PEP8, расширения для Jupyter Notebook
02:06 Загрузка данных
02:28 Смотрим на размер датасета, основные статистики, для чего это важно?
04:04 EDA - Разведочный анализ данных + про гипотезы, как на основании гипотез строить графики
04:53 Как заполнять пропуски в данных
05:34 Обработка выбросов
06:12 Анализ распределения целевой переменной, зависимости, логарифмирование, обработка категориальных признаков
09:12 Моделирование при помощи ML. Нормализация и когда она нужна перед использованием моделей
10:07 Разбиение на тренировочные и тестовые данные
10:40 Как производить отбор значимых признаков
12:11 Выбор метрик для задачи регрессии или классификации
13:41 Baseline
14:40 Подбор оптимальных значений для гиперпараметров, рассмотрение разных способов + кросс-валидация
15:52 Обучение итоговой модели при помощи наилучших значений найденных гиперпараметров
16:45 Что делать дальше?
17:06 Feature importance, Permutation, SHAP / Подходы к интерпретации моделей
19:31 Как описать результаты работы? Почему это важно?
21:33 Ваши комментарии и дополнения. Сообщество PyMagic в ВКонтакте/Telegram
#DataScience #ityoutubersru

Пікірлер: 43
@user-chi_cha_cho
@user-chi_cha_cho 2 жыл бұрын
Анастасия, спасибо за мастер-класс. Мира, любви и добра Вам!
@PaulCherepnin
@PaulCherepnin 2 жыл бұрын
Спасибо! Полезная и концентрированная информация. Очень приятно смотреть Ваши видео
@olegtinkov6553
@olegtinkov6553 2 жыл бұрын
Большое спасибо за видео!! Очень доступно, лаконично. Получился очень хороший мануал!!!
@aleksgor1408
@aleksgor1408 2 жыл бұрын
Как всегда все четко. Спасибо. Много ценного нашел, казалось бы в базовых вещах снова.
@datarevue6694
@datarevue6694 2 жыл бұрын
Давайте пройдемся по байесовским сетям🤓
@user-tb2gq9yc9t
@user-tb2gq9yc9t 2 жыл бұрын
Анастасия, Вы такая профисиональная Спасибо ❤️
@SkaSany
@SkaSany Жыл бұрын
Спасибо за видео! Много для себя отметил полезного
@user-fg2dg4oj2y
@user-fg2dg4oj2y 2 жыл бұрын
Я так возбудился, когда услышал про PEP8, тайп хинтинг, однозначно лайк и подписка. Ваши слова да всем программистам бы в уши. Особенно тем, кто Tensorflow пилит сейчас.
@Alexdoletsplay
@Alexdoletsplay 2 жыл бұрын
Спасибо большое! А может будет когда-нибудь урок по entity embeddings? Вроде как востребованная вещь на том же kaggle, когда нужно получить хорошие эмбеддинги для категориальных признаков, но на русском информации особо нет, на английском немногим лучше, а между тем технология очень любопытная.
@xan7832
@xan7832 2 жыл бұрын
Отличное видео! Как вам идея для следующего ролика?: Как установить расширения для Юпитера и какие из них самые лучшие
@user-rj5jy4hz8o
@user-rj5jy4hz8o 2 жыл бұрын
Спасибо за видео! Как всегда материал ультраполезный. Я вот тут задумалась, как проверить не линейную зависимость? Просто понятно, что чтобы проверить на мультиколлинеарность признаки, можно построить скатерплот и посмотреть только линейную зависимость, а есть ли другие виды? И как их найти? И стоит ли вообще их искать? 😁 Или может нам и не надо от других зависимостей избавляться - пусть на них модель и учится?)
@user-vb7ms8yx8g
@user-vb7ms8yx8g 2 жыл бұрын
Анастасия Вы такая обаятельная
@andreyflash6001
@andreyflash6001 Жыл бұрын
Ничего не понял, но очень интересно)
@BoolFalse
@BoolFalse 2 жыл бұрын
subscribed after 10 sec. )
@osvab000
@osvab000 2 жыл бұрын
Спасибо за видео, вопросец: на какую метрику больше обращать внимание: MSE или MSLE?
@user-vl5qr4ti8c
@user-vl5qr4ti8c 2 жыл бұрын
Анастасия Вы такая умная
@user-tp5pl1xy3r
@user-tp5pl1xy3r 2 жыл бұрын
Анастасия, это было очень полезное видео. Все шаги решения задачи подробно расписаны. У меня к вам вопрос по разделению выборки на train и test. Как вы делаете стратифицированное разделение, когда решаете задачу регрессии? Это нужно, чтобы распределение непрерывной целевой переменной совпадало в train и test, как в задаче классификации. Какие в этом случае используются подходы? Заранее спасибо.
@fillmixx
@fillmixx 2 жыл бұрын
Большое спасибо за видео! У меня вопрос такой. Решаю задачу предсказания цены на дом. При выводе на экран MAE, MSE, RMSE значения очень большие, но при этом R^2 около 0.89. Поэтому у меня вопрос такой? Следует использовать StandardScaler чтобы усреднить данные и тем самым снизить эти значения MAE, MSE, RMSE, или же это нормально что их значения около 240тыс))) помогите, буду очень благодарен!
@ernest3106
@ernest3106 2 жыл бұрын
Анастасия, вы такая красивая и такая умная!
@petrlifshits2574
@petrlifshits2574 2 жыл бұрын
Привет! А не поможешь с таким вопросом - планирую взять себе ноутбук для работы, по ds и ml само собой) Что все таки лучше, проверенный макбук, или все таки классический интел с мощной видюхой, чтоб на ней именно работать? Спасибо!
@Za_Cdelky_Da
@Za_Cdelky_Da 2 жыл бұрын
Здравствуйте Анастасия, подскажите , пожалуйста, когда будет новый поток на ваш курс ? За ранее спасибо, за ответ и извините за такое ранее беспокойство
@user-li3de4zk2l
@user-li3de4zk2l 2 жыл бұрын
Анастасия, сделайте, пожалуйста, конкурс или розыгрыш на одно место в обучающем курсе. Очень хочется попасть, но нет возможности.
@heckfyferus8658
@heckfyferus8658 Жыл бұрын
есть видео про установленные расширения? Мне понравилось расширение для функций очень удобное, как называется?
@user-ff1sd6wl1h
@user-ff1sd6wl1h 2 жыл бұрын
Анастасия, здравствуйте. Я сейчас решаю задачу на Kaggle по предсказанию популярности статьи. Текст почистил, токенизировал, сделал эмбединги на основе tf-idf и doc2vec. Пробовал линейную регрессию, XGBoost-регрессор, двухслойную полносвязную сеть. Пока что наилучшим образом сработала только линейная регрессия на признаках, сгенерированных tsne из эмбедингов, но этого явно недостаточно. Можете подсказать в каком направлении двигаться для улучшения качества?
@andriyspiryakin2217
@andriyspiryakin2217 2 жыл бұрын
Анастасия Вы такая красивая
@borzzusa0899
@borzzusa0899 2 жыл бұрын
И что? Вы тоже
@poppindance1816
@poppindance1816 Жыл бұрын
Ссылка на гитхаб не работает
@user-oc7py1vy6s
@user-oc7py1vy6s 2 жыл бұрын
00:52 Можно попросить твоего монтажера в следующих роликах изменить сцену видео? Сделать наоборот - вот этот весь контент про Data Science расположить в правом нижнем прямоугольнике, а твою веб камеру на главный план переместить?
@Igor_Grey
@Igor_Grey 7 ай бұрын
Привет! Спасибо за видео. Одна проблема. Ссылка на ноутбук не рабочая. Можешь выложить правильную?
@aleksgor1408
@aleksgor1408 2 жыл бұрын
1) В видео говорится, что лучше изпользовать алгоритмы, в которых параметров много и можно их подобрать. Вроде KNN как раз имеет мало параметров? И самый простой считается. 2) Может быть такое, что с поиском по сетке, в отличие от бэзлайн, алгоритмы себя по другому покажут? Мы допустим выбрали KNN. А с поиском по сетке ЭластикНет лучше окажется так как у него как раз и параметров больше.
@dankops2551
@dankops2551 2 жыл бұрын
А можете, пожалуйста, объяснить, как с помощью кроссвалидации можно избежать переобучения? Я так понимаю, вы имели ввиду обнаружить переобучение.
@Norgey_BV
@Norgey_BV 7 ай бұрын
Спасибо за отличное видео, замечу только, что ссылка на гитхаб не работает
@gov4127
@gov4127 2 жыл бұрын
Здравствуйте, не подскажите что нибудь для распознавания речи и перевода в текст?
@gov4127
@gov4127 2 жыл бұрын
@@miracl6 библиотеки, книги, туториалы, видео и т. д. Просто я что то особо не нашёл об этом
@osvab000
@osvab000 Жыл бұрын
Чем отличается: fit_transform от transform? (X_train_norm = sc.fit_transform(X_train), X_test_norm = sc.transform(X_test))
@spraysferry9841
@spraysferry9841 9 ай бұрын
Вначале мы обучаем standartscaler на тренировочных данных а потом на тестовых мы уже трансформируем
@dimasin3450
@dimasin3450 2 жыл бұрын
а какие вообще бывают "задачи"? есть регрессии, классификации, кластеризации и они могут быть мультилейбл и дуальные? всё ли я назвал? и как вообще правильно делать классификацию самых типов задач? и стоит ли отталкиваться именно от изучения этого при начале входа в ДС?
@user-qc5hx1nf7b
@user-qc5hx1nf7b 2 жыл бұрын
Ребята, кто-нибудь знает, что случилось с курсом ВШЭ на Курсере "математика для анализа данных"?? Он пропал вместе с Курсерой и будучи бесплатным, стал резко стоить 64 000 на сайте Вышки...😅🤯😣😣😣 Это какая-то дичь как по мне... Может есть в доступе где-то, никто не знает??
@Thememe_hub
@Thememe_hub 2 жыл бұрын
Как называется расширение на ноутбук для быстрого перехода по заголовкам?
@Thememe_hub
@Thememe_hub 2 жыл бұрын
@@miracl6 спасибо, уже нашел! Имел в виду Table of contents😀
@kamranyusifzade7473
@kamranyusifzade7473 Жыл бұрын
Кто знает как добавить нумерацию кода в jupyter?
@user-jl3ho8kk9o
@user-jl3ho8kk9o 2 жыл бұрын
Новичков сейчас не берут никуда (((вакансий мало
@babalaykagmail
@babalaykagmail 2 жыл бұрын
Я то думал сейчас приведут модель посадят за парту и как начнут учить… а модель уже сама все знает и других учит ;)
THEY WANTED TO TAKE ALL HIS GOODIES 🍫🥤🍟😂
00:17
OKUNJATA
Рет қаралды 22 МЛН
Самое простое объяснение нейросети
16:30
Программный Кот
Рет қаралды 112 М.
THEY WANTED TO TAKE ALL HIS GOODIES 🍫🥤🍟😂
00:17
OKUNJATA
Рет қаралды 22 МЛН