ВВЕДЕНИЕ В PYSPARK И SPARKSQL / ОЛЕГ АГАПОВ

  Рет қаралды 26,090

DataLearn

DataLearn

2 жыл бұрын

На вебинаре хочу рассказать про появление Apache Spark, его применение в современном стеке дата-инструментов, а также на практике показать как запустить Spark на своём компьютере и написать первый ETL пайплайн!
🔔 План:
📌 Как и почему появился Apache Spark
📌 Какие задачи решает
📌 Основные концепции
📌 Практика 1 - установка и запуск PySpark локально
📌 SparkSQL API
📌 Практика 2 - делаем ETL в PySpark
📌 Q&A
🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить новые видео и ставьте лайки!
📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
🔗 Записаться вы можете на нашем портале datalearn.ru/
👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания, отдавать их на проверку и получить сертификат прохождения курса.

Пікірлер: 52
@illiakaltovich
@illiakaltovich Жыл бұрын
Отличная вводная лекция по Spark 🙂 Таймкоды: 1:38 - План вебинара 3:05 - Для кого этот вебинар 3:48 - О спикере 5:00 - Начало. Пример задачи, под которую заточен Spark 11:59 - Что такое Spark? 17:36 - Модель распределенных вычислений в Spark 22:40 - Нужен ли Spark’y Hadoop? 22:25 - Практика. Установка Spark локально 27:04 - Установка Pyspark из pip 35:15 - Запуск Spark из Docker 38:26 - Запуск Spark в Google Colab 45:35 - Обзор собранной статистики о слушателях 46:00 - Q&A сессия 51:08 - Про режимы работы Spark 54:02 - Что можно делать в PySpark? 56:24 - Компоненты PySpark приложения 1:05:54 - Подробнее о DataFrame 1:08:41 - Читаем данные в DataFrame 1:15:08 - О трансформации данных 1:17:26 - О записи данных 1:18:54 - SQL в Spark 1:23:26 - Практика. DataFrame API 2:24:39 - DataFrame API: основные методы в использовании 2:25:36 - SQL functions: основные методы в использовании 2:27:40 - Общие принципы Spark приложения 2:34:08 - Q&A сессия
@annicioua
@annicioua Жыл бұрын
Спасибо тебе добрый человек =)
@ManticoreRoko
@ManticoreRoko 11 ай бұрын
Великолепный материал для тех кто только начинает погружаться в PySpark. Благодарности ведущему и основателям канала
@user-jy9iw9no5q
@user-jy9iw9no5q 2 жыл бұрын
Лучшая вводная лекция, которую я видел. Но, ребята, что за звук? 2021й год и треск микрофона?! Вы серьезно?)
@olegzaba4756
@olegzaba4756 2 жыл бұрын
вообще классно всё объяснил - 3 часа как одно мгновение ... очень жду продолжение!
@sergeystrikanov2302
@sergeystrikanov2302 2 жыл бұрын
Большое спасибо! Очень круто для понимания и знакомства с PySpark.
@user-xl1zq2ic5f
@user-xl1zq2ic5f 2 жыл бұрын
Сильный спикер, спасибо!
@anastasiyaivanova6992
@anastasiyaivanova6992 2 жыл бұрын
Спасибо, очень полезная информация для ознакомления с PySpark. Как раз то что было нужно.
@254598
@254598 2 жыл бұрын
Ребята вы лучшие! Купила курс на gb, в итоге модуль про спарк изучаю по вашему видео)
@petrodyak
@petrodyak 2 жыл бұрын
Thanks for the introduction to the PySpark! It was very useful.
@igorbulenko6335
@igorbulenko6335 2 жыл бұрын
Спасибо, очень круто, хотелось бы продолжения ))
@user-zo6cz2er8k
@user-zo6cz2er8k 2 жыл бұрын
Спасибо, долго искал что-то подобное на ру-ресусрах)
@aliaksandrsiamenau9922
@aliaksandrsiamenau9922 Жыл бұрын
Замечательный стрим, спасибо
@user-ms9sv3tz4o
@user-ms9sv3tz4o Жыл бұрын
Кайфовый вэбик. Вы как всегда на уровне бог. Спасибо Олегу!
@salivona
@salivona 2 жыл бұрын
Очень здорово, спасибо!
@itrunner
@itrunner 2 жыл бұрын
Очень крутой доклад!
@denisbaranoff
@denisbaranoff 2 жыл бұрын
Прекрасно, это прям ну очень просится па мастеркласс по пайспар в какой- нибудб юдеми👍👍👍
@bbbkkk930
@bbbkkk930 7 ай бұрын
хороший эфир ... авторам спасибо
@lex83641
@lex83641 2 жыл бұрын
Отличный доклад! Гораздо лучше всяких индусов
@faizalimuhammadzoda4731
@faizalimuhammadzoda4731 2 жыл бұрын
Спасибо за хороший контент.
@vandriichuk
@vandriichuk 2 жыл бұрын
Спасибо. Для меня очень полезный материал. Особенно ценно, что на русском.
@lerosh7894
@lerosh7894 7 ай бұрын
вебинар огонь
@nikitakrutikov9697
@nikitakrutikov9697 2 жыл бұрын
Респектище, помогло очень
@gpankov
@gpankov 5 ай бұрын
лучшее объяснение!
@annicioua
@annicioua Жыл бұрын
Как жаль, что ведущий вебинара не рассказал, что просто так ты не заинсталлишь Spark через pip install , если не создашь специальные системные переменные среды, а у лектора всё уже готовенько, а у него pyspark к моменту записи вебинара уже давно установлен был..
@Vanzer77
@Vanzer77 2 жыл бұрын
Отличное видео для начала работы с PySpark! Есть вопрос по части, где нужно посчитать статистики по полю manufacturer_name. Из моего опыта с СУБД и Pandas, очень плохой тон делать группировки по текстовым полям - они работают значительно медленнее чем по целочисленным полям / датам. Понимаю, что в видео поле manufacturer_name было выбрано для примера, но как в целом у спарка обстоят дела с группировкой по тестовым колонкам?
@user-zl3rb8rr3t
@user-zl3rb8rr3t 2 жыл бұрын
Шикарно
@maksimkuznetsov2132
@maksimkuznetsov2132 Жыл бұрын
Интересно было бы ещё узнать, где чаще всего бывают затыки по производительнсти.
@maksimkuznetsov2132
@maksimkuznetsov2132 Жыл бұрын
Спасибо большое! По ETL вообще мало чего есть в русскоязычном сегменте ютуба. На мой взгляд лучший способ передачи опыта - видео. Питон немного изучал. Сейчас я PL/SQL разработчик, но думаю смещаться в ETL. Дико привык к SQL. И все эти методы кажатся извращением. Вообще БД-шные спецы плюются на спарк и ORM
@529aff
@529aff 3 ай бұрын
в spark можно писать и на sql
@qweras79
@qweras79 8 ай бұрын
Привет. Спасибо большое за видео. Можно вопрос, будь ласка? я попробовала работать в сессии Спарка прямо из Визуал Студио Код - єто очень неудобно по ряду причин. Установила взяла отдельно Юпитер. но сессия Спарка в Юпитера не запускается. Єто невозможно или я что-то делаю не так?
@dmitryanoshin8004
@dmitryanoshin8004 2 жыл бұрын
Очень круто! Добавим к модулю 7 DE-101!
@anton108
@anton108 2 жыл бұрын
ты забыл вставить ссылку в GIT
@Asylum_M
@Asylum_M 2 жыл бұрын
Спасибо, а когда продолжение? На ютубе одни вводные лекции для pyspark, а хотелось бы более глубокого погружения.
@maksimkuznetsov2132
@maksimkuznetsov2132 4 ай бұрын
Привет. Кстати, как успехи с пайспарком? Вообще мне показалось, что всего, что тут есть хватит для старта карьеры в этом стэке. Сейчас пытаюсь стартовать в этом имея за плечами большой опыт на SQL и материал этого видео. ))
@maksimsvirskiy6828
@maksimsvirskiy6828 2 жыл бұрын
Огромное спасибо - было очень понятно! а где посмотреть презентацию и ссылки все на гит и т.д.?!
@Frezer911
@Frezer911 10 ай бұрын
В чатике трансляции
@Egor-sm4bl
@Egor-sm4bl 2 жыл бұрын
Хм, а у меня сразу сохранило в одном файле json.... Что-то не так сделал?
@volodink
@volodink 2 ай бұрын
А ссылку на гитхаб в коменты скиньте пожалуйста😅
@antonboiko788
@antonboiko788 Жыл бұрын
Драйвер не распределяет данные между экзекьюторами, это делает Cluster manager
@imoldpirate
@imoldpirate 8 ай бұрын
норм
@cozyfootball
@cozyfootball 6 ай бұрын
Очень много водяных рассуждений ни о чем. Очень много бэ, мэ, эээ. "Я рассказываю так быстро" - ты серьзно?
@529aff
@529aff 3 ай бұрын
запишешь лучше?
NO NO NO YES! (50 MLN SUBSCRIBERS CHALLENGE!) #shorts
00:26
PANDA BOI
Рет қаралды 102 МЛН
Sigma Girl Education #sigma #viral #comedy
00:16
CRAZY GREAPA
Рет қаралды 75 МЛН
FOOTBALL WITH PLAY BUTTONS ▶️ #roadto100m
00:29
Celine Dept
Рет қаралды 74 МЛН
PySpark Tutorial for Beginners
48:12
coder2j
Рет қаралды 47 М.
МИТАП "Apache Spark за 2 часа - для нетерпеливых"_20 апреля 2022г
2:36:23
Школа Больших Данных
Рет қаралды 16 М.
PySpark Tutorial
1:49:02
freeCodeCamp.org
Рет қаралды 1,1 МЛН
Разработка data приложений на DuckDB
1:25:20
МИТАП: «Установка Apache Spark - это просто»_11 мая 2022г
1:25:51
Школа Больших Данных
Рет қаралды 5 М.
NO NO NO YES! (50 MLN SUBSCRIBERS CHALLENGE!) #shorts
00:26
PANDA BOI
Рет қаралды 102 МЛН