Middle Data Scientist | Выпуск 1. Секция ML | Собеседование | karpov.courses

  Рет қаралды 22,712

karpov.courses

karpov.courses

Күн бұрын

Курс HARD ML: bit.ly/3bizQXw
Это второе mock-интервью на позицию Data Scientist - в этот раз преподаватель курса Hard ML Станислав Гафаров проверил скиллы middle-специалистки Анастасии.
Беседа получилась тёплой и непринуждённой, а само видео мы решили разделить на две части: в первую вошли основы ML и ML Design, а во вторую (которую выложим чуть позже) - Python и работа с данными.
Важно понимать, что это лишь часть вопросов, которые могут задать специалисту данного уровня, и на реальном собеседовании они могут отличаться. В ответах, как и в вопросах, есть неточные формулировки. Просим списать это на то, что интервью проходило поздно вечером :)
Учитесь Data Science с нами: karpov.courses/
0:00 - Интро
02:04 - Формат собеседования
03:18 - Воспоминания
05:09 - Вопрос по ML-дизайну
06:09 - Определение LTV, уточнение условий задачи
09:02 - Начало ответа
12:18 - Переход к ключевым вопросам и самому ответу
22:56 - Обобщение ответа
25:14 - Какие могут возникнуть проблемы при планировании LTV на полгода вперед?
26:59 - Как делать прогноз для новых пользователей?
28:54 - Обоснования выбора и описание модели
30:49 - Представление модели бизнесу
33:32 - Переход к DS
33:58 - Обоснование выбора MSE
35:58 - Примеры несимметричных метрик
40:26 - Переход к регрессорам
43:46 - Gradient-boosted trees
44:50 - Вопрос со звёздочкой
55:36 - Работа с понижением размерности

Пікірлер: 32
@MrRescued
@MrRescued 2 жыл бұрын
Я думаю, для таких видео желательно, чтобы собеседующий и собеседуемый не знали друг друга. Иначе смазывается процесс. Она видит друга, а не человека, который ее проверяет. Он видит друга, а не человека, которого надо строго оценить.
@mwave3388
@mwave3388 2 жыл бұрын
Блин, вот я сколько уже таких интервью в ДС посмотрел, где нужно накидать модель. Каждый раз, на самый первый вопрос, где в двух словах говорится что нужно бизнесу - "нужно спрогнозировать ЛТВ", кандидат отвечает: "а я возьму такую модель, а я МСЕ, МАЕ, ЛОГИТ функцию потерь буду оптимизировать, а я возьму этот алгоритм, а я вот эту метрику буду на валидации использовать". Ветер в харю, я х..ярю. Может сначала сформулировать какие данные должны быть на входе, как давно данные собираются, как предсказывают ЛТВ сейчас, для чего потом будет использоваться ЛТВ? Исходя из данных можно модель выбрать, а с бизнес метрику прикрутить к eval_metric модели.
@cosmonaut380
@cosmonaut380 10 ай бұрын
А может на этапе сбора информации выяснится, что для задачи ML вообще не нужен и простой калькулятор с интерфейсом будет решать ее не хуже, чем бустинг.
@vinylrave2185
@vinylrave2185 2 жыл бұрын
восхищаюсь этими людьми
@user-sg4kc5cx5v
@user-sg4kc5cx5v 2 жыл бұрын
Спасибо за полезный контент! А когда выйдет продолжение? Очень интересно!
@user-of8cr5ok1u
@user-of8cr5ok1u 2 жыл бұрын
Собеседование интересное, спасибо большое как вам, Станислав, так и Анастасии, мне кажется, нужна изрядная смелость для того, чтобы участвовать в таких мероприятиях, и интервьюируемая девушка производит впечатление опытного специалиста. Собеседование показалось несколько неторопливым. Обсуждение первого вопроса заняло около получаса и лично мне не хватило конкретики (но с другой стороны, понятно, что с этой стороны экрана рассуждать легко)) По ML design интересно, часто ли на собеседованиях задают вопросы, которые ближе к техническим аспектам размещения и эксплуатации моделей в проде. Например, про узкие места, оптимизацию и поиск проблем, как всё уместить на распределённой вычислительной платформе, как накатывать обновления на модель и так далее? Понятно, что по классике это ближе к Data Engineering, но ответ всё равно любопытен. В реальных собеседованиях обычно темп такой же или всё-таки повыше? Ожидал, что вопросов про DS и ML будет больше, само обсуждение будет с более высокой скоростью. С нетерпением жду вторую часть, уже интересно, будет ли в python какой-то аналог leetcode-задач, будут ли вопросы по SQL.
@cosmonaut380
@cosmonaut380 10 ай бұрын
После двух просмотренных интервью впечатление, то на джуна знаний больше нужно, чем на мидла.
@antontsvetkov3547
@antontsvetkov3547 2 жыл бұрын
Вот бы реальные собеседования начинались с такой же ржаки
@petyap7600
@petyap7600 2 жыл бұрын
Собес на ДС лучше последнего бэтмена.
@shapovalentine
@shapovalentine 8 ай бұрын
Восхищаюсь выдержкой Станислава)
@user-ei8yb8gu6y
@user-ei8yb8gu6y Жыл бұрын
>Лассо это почти то же самое что и PCA >ну да и таких моментов, когда интервьюер принимает или пропускает ошибки и неточности россыпью по всему видео. Возможно в подобном формате должны участвовать незнакомые дюди
@madchemistry3425
@madchemistry3425 2 жыл бұрын
Очень интересно! В частности, потому что я химик. Было забавно узнать, что и химики могут быть успешны в DS....при желании.
@rusfinance1
@rusfinance1 2 жыл бұрын
Красивая и умная девушка, интересно было посмотреть
@user-mq7xq1hi2q
@user-mq7xq1hi2q 2 жыл бұрын
Так в дереве решений для регрессии же вроде используется не энтропия, а дисперсия вокруг среднего?
@user-ek7sz3mu3i
@user-ek7sz3mu3i 2 жыл бұрын
Да, энтропия только для классификации
@petyap7600
@petyap7600 2 жыл бұрын
АБ тестов с питоном не показали;) Интересненько.
@petyap7600
@petyap7600 2 жыл бұрын
@@Sibbarb9 Ага. Ты прав. Не открывал описание. Ждем.
@Slavlotski
@Slavlotski 2 жыл бұрын
Когда уже научитесь добавлять таймкоды к видео? :)
@sssam844
@sssam844 2 жыл бұрын
бесплатный контент, что вы хотели?
@karpovcourses
@karpovcourses 2 жыл бұрын
Иногда хочется быстрее выложить контент, поэтому тайм-коды доезжают чуть позже) Скоро появятся 👌
@user-fb9zv9cf1s
@user-fb9zv9cf1s Жыл бұрын
Вопрос про метрику, может кто объяснить. Если мы берём и предиктим на полгода вперёд, то как бэ у-тру у нас нет. И оценить в настоящий момет качество предсказания метрикой регрессии не получится.
@ml101withegor
@ml101withegor 2 жыл бұрын
Мне одному показалось, что на junior ds собеседование было сложнее?
@rotesoldat
@rotesoldat 2 жыл бұрын
Более подкапотнее, да. Но тут имхо больше на дизайн и переваривание потребностей бизнеса, что часто намного мозговыноснее документации.
@SP-eg7zv
@SP-eg7zv Жыл бұрын
Как попасть на такое интервью?
@mlpython1089
@mlpython1089 2 жыл бұрын
32:40 работает хорошо на истории. А кто ответит - в реальности оно работает?
@HOOKAH10
@HOOKAH10 2 жыл бұрын
Очень тихий звук
@AlexxxeyS
@AlexxxeyS 2 жыл бұрын
Ну откуда этот американизированный роствско-краснодарский акцент чё за мода такая😁
@MrSkinification
@MrSkinification Ай бұрын
Жижа какая-то а не собеседование. Большое похоже на то что вьювер барышню в кафешку вывел и вопросы о её работе задаёт. Проводить симуляцию собеседования между знакомыми людьми это буквально переобучение сети.
@user-ru2rc1hc3x
@user-ru2rc1hc3x 2 жыл бұрын
Милашка, конечно, но часто очень неуверенные ответы прям
@pogrom4132
@pogrom4132 2 жыл бұрын
какую чушь спрашивает интервьюер, он даже сформулировать не может толком.. тимлид наверное.. бегите от таких.
@mwave3388
@mwave3388 2 жыл бұрын
Ты просто с C-челиками не работал, они то же самое всегда говорят "СДЕЛАЙ ХОРОШО, НЕ ЗНАЮ КАК, ХОЧУ ВСЁ ПРЕДСКАЗАТЬ И БЕЗ ПОГРЕШНОСТЕЙ". Имхо, тут интервьюер должен себе рамки задачи ставить, исходя из условия, ну типа "допустим данные собираются за последние 5 лет, допустим у нас для каждого клиента есть категорийные признаки плюс история операций, допустим за все пять лет есть история оценок экспертов, допустим у нас есть ЛТВ для 10% датасета". И так далее. Цифры не важны, важен их порядок. Это как бы и есть работа инженера - делать чтобы работало. А "Я ВОЗЬМУ ХГБУСТ И БУДУ ОПТИМИЗИРОВАТЬ МАЕ" - это херня с-под ногтей. К тому же, ИРЛ скорее всего найдётся имплементация получше. Какая разницу, какой лосс брать, если правильно модель выбрана и данные хорошие?
@kalinin_sanja
@kalinin_sanja Жыл бұрын
@@mwave3388 что такое ИРЛ?
Валерий Бабушкин: Почему Data Scientist-oв не существует
47:55
1 or 2?🐄
00:12
Kan Andrey
Рет қаралды 57 МЛН
Survival skills: A great idea with duct tape #survival #lifehacks #camping
00:27
когда повзрослела // EVA mash
00:40
EVA mash
Рет қаралды 4,6 МЛН
Nutella bro sis family Challenge 😋
00:31
Mr. Clabik
Рет қаралды 13 МЛН
Реальное Собеседование Data Scientist | Сбер
8:16
1 or 2?🐄
00:12
Kan Andrey
Рет қаралды 57 МЛН