Middle Data Scientist | Выпуск 1. Секция ML | Собеседование

Middle Data Scientist | Выпуск 1. Секция ML | Собеседование | karpov.courses

Рет қаралды 22,712

Күн бұрын

Курс HARD ML: bit.ly/3bizQXw
Это второе mock-интервью на позицию Data Scientist - в этот раз преподаватель курса Hard ML Станислав Гафаров проверил скиллы middle-специалистки Анастасии.
Беседа получилась тёплой и непринуждённой, а само видео мы решили разделить на две части: в первую вошли основы ML и ML Design, а во вторую (которую выложим чуть позже) - Python и работа с данными.
Важно понимать, что это лишь часть вопросов, которые могут задать специалисту данного уровня, и на реальном собеседовании они могут отличаться. В ответах, как и в вопросах, есть неточные формулировки. Просим списать это на то, что интервью проходило поздно вечером :)
Учитесь Data Science с нами: karpov.courses/
0:00 - Интро
02:04 - Формат собеседования
03:18 - Воспоминания
05:09 - Вопрос по ML-дизайну
06:09 - Определение LTV, уточнение условий задачи
09:02 - Начало ответа
12:18 - Переход к ключевым вопросам и самому ответу
22:56 - Обобщение ответа
25:14 - Какие могут возникнуть проблемы при планировании LTV на полгода вперед?
26:59 - Как делать прогноз для новых пользователей?
28:54 - Обоснования выбора и описание модели
30:49 - Представление модели бизнесу
33:32 - Переход к DS
33:58 - Обоснование выбора MSE
35:58 - Примеры несимметричных метрик
40:26 - Переход к регрессорам
43:46 - Gradient-boosted trees
44:50 - Вопрос со звёздочкой
55:36 - Работа с понижением размерности

Пікірлер: 32

@MrRescued 2 жыл бұрын

Я думаю, для таких видео желательно, чтобы собеседующий и собеседуемый не знали друг друга. Иначе смазывается процесс. Она видит друга, а не человека, который ее проверяет. Он видит друга, а не человека, которого надо строго оценить.

@mwave3388 2 жыл бұрын

Блин, вот я сколько уже таких интервью в ДС посмотрел, где нужно накидать модель. Каждый раз, на самый первый вопрос, где в двух словах говорится что нужно бизнесу - "нужно спрогнозировать ЛТВ", кандидат отвечает: "а я возьму такую модель, а я МСЕ, МАЕ, ЛОГИТ функцию потерь буду оптимизировать, а я возьму этот алгоритм, а я вот эту метрику буду на валидации использовать". Ветер в харю, я х..ярю. Может сначала сформулировать какие данные должны быть на входе, как давно данные собираются, как предсказывают ЛТВ сейчас, для чего потом будет использоваться ЛТВ? Исходя из данных можно модель выбрать, а с бизнес метрику прикрутить к eval_metric модели.

@cosmonaut380 10 ай бұрын

А может на этапе сбора информации выяснится, что для задачи ML вообще не нужен и простой калькулятор с интерфейсом будет решать ее не хуже, чем бустинг.

@vinylrave2185 2 жыл бұрын

восхищаюсь этими людьми

@user-sg4kc5cx5v 2 жыл бұрын

Спасибо за полезный контент! А когда выйдет продолжение? Очень интересно!

@user-of8cr5ok1u 2 жыл бұрын

Собеседование интересное, спасибо большое как вам, Станислав, так и Анастасии, мне кажется, нужна изрядная смелость для того, чтобы участвовать в таких мероприятиях, и интервьюируемая девушка производит впечатление опытного специалиста. Собеседование показалось несколько неторопливым. Обсуждение первого вопроса заняло около получаса и лично мне не хватило конкретики (но с другой стороны, понятно, что с этой стороны экрана рассуждать легко)) По ML design интересно, часто ли на собеседованиях задают вопросы, которые ближе к техническим аспектам размещения и эксплуатации моделей в проде. Например, про узкие места, оптимизацию и поиск проблем, как всё уместить на распределённой вычислительной платформе, как накатывать обновления на модель и так далее? Понятно, что по классике это ближе к Data Engineering, но ответ всё равно любопытен. В реальных собеседованиях обычно темп такой же или всё-таки повыше? Ожидал, что вопросов про DS и ML будет больше, само обсуждение будет с более высокой скоростью. С нетерпением жду вторую часть, уже интересно, будет ли в python какой-то аналог leetcode-задач, будут ли вопросы по SQL.

@cosmonaut380 10 ай бұрын

После двух просмотренных интервью впечатление, то на джуна знаний больше нужно, чем на мидла.

@antontsvetkov3547 2 жыл бұрын

Вот бы реальные собеседования начинались с такой же ржаки

@petyap7600 2 жыл бұрын

Собес на ДС лучше последнего бэтмена.

@shapovalentine 8 ай бұрын

Восхищаюсь выдержкой Станислава)

@user-ei8yb8gu6y Жыл бұрын

>Лассо это почти то же самое что и PCA >ну да и таких моментов, когда интервьюер принимает или пропускает ошибки и неточности россыпью по всему видео. Возможно в подобном формате должны участвовать незнакомые дюди

@madchemistry3425 2 жыл бұрын

Очень интересно! В частности, потому что я химик. Было забавно узнать, что и химики могут быть успешны в DS....при желании.

@rusfinance1 2 жыл бұрын

Красивая и умная девушка, интересно было посмотреть

@user-mq7xq1hi2q 2 жыл бұрын

Так в дереве решений для регрессии же вроде используется не энтропия, а дисперсия вокруг среднего?

@user-ek7sz3mu3i 2 жыл бұрын

Да, энтропия только для классификации

@petyap7600 2 жыл бұрын

АБ тестов с питоном не показали;) Интересненько.

@petyap7600 2 жыл бұрын

@@Sibbarb9 Ага. Ты прав. Не открывал описание. Ждем.

@Slavlotski 2 жыл бұрын

Когда уже научитесь добавлять таймкоды к видео? :)

@sssam844 2 жыл бұрын

бесплатный контент, что вы хотели?

@karpovcourses 2 жыл бұрын

Иногда хочется быстрее выложить контент, поэтому тайм-коды доезжают чуть позже) Скоро появятся 👌

@user-fb9zv9cf1s Жыл бұрын

Вопрос про метрику, может кто объяснить. Если мы берём и предиктим на полгода вперёд, то как бэ у-тру у нас нет. И оценить в настоящий момет качество предсказания метрикой регрессии не получится.

@ml101withegor 2 жыл бұрын

Мне одному показалось, что на junior ds собеседование было сложнее?

@rotesoldat 2 жыл бұрын

Более подкапотнее, да. Но тут имхо больше на дизайн и переваривание потребностей бизнеса, что часто намного мозговыноснее документации.

@SP-eg7zv Жыл бұрын

Как попасть на такое интервью?

@mlpython1089 2 жыл бұрын

32:40 работает хорошо на истории. А кто ответит - в реальности оно работает?

@HOOKAH10 2 жыл бұрын

Очень тихий звук

@AlexxxeyS 2 жыл бұрын

Ну откуда этот американизированный роствско-краснодарский акцент чё за мода такая😁

@MrSkinification Ай бұрын

Жижа какая-то а не собеседование. Большое похоже на то что вьювер барышню в кафешку вывел и вопросы о её работе задаёт. Проводить симуляцию собеседования между знакомыми людьми это буквально переобучение сети.

@user-ru2rc1hc3x 2 жыл бұрын

Милашка, конечно, но часто очень неуверенные ответы прям

@pogrom4132 2 жыл бұрын

какую чушь спрашивает интервьюер, он даже сформулировать не может толком.. тимлид наверное.. бегите от таких.

@mwave3388 2 жыл бұрын

Ты просто с C-челиками не работал, они то же самое всегда говорят "СДЕЛАЙ ХОРОШО, НЕ ЗНАЮ КАК, ХОЧУ ВСЁ ПРЕДСКАЗАТЬ И БЕЗ ПОГРЕШНОСТЕЙ". Имхо, тут интервьюер должен себе рамки задачи ставить, исходя из условия, ну типа "допустим данные собираются за последние 5 лет, допустим у нас для каждого клиента есть категорийные признаки плюс история операций, допустим за все пять лет есть история оценок экспертов, допустим у нас есть ЛТВ для 10% датасета". И так далее. Цифры не важны, важен их порядок. Это как бы и есть работа инженера - делать чтобы работало. А "Я ВОЗЬМУ ХГБУСТ И БУДУ ОПТИМИЗИРОВАТЬ МАЕ" - это херня с-под ногтей. К тому же, ИРЛ скорее всего найдётся имплементация получше. Какая разницу, какой лосс брать, если правильно модель выбрана и данные хорошие?

@kalinin_sanja Жыл бұрын

@@mwave3388 что такое ИРЛ?