Лекция. LSTM, GRU
32:35
3 ай бұрын
Пікірлер
@BrainUniverse
@BrainUniverse 3 күн бұрын
У вас на 17:25 softmax неправильный)
@xandrviking1113
@xandrviking1113 4 күн бұрын
В русском языке нет слова льнейно ? Есть слово лИнейно !!! Куда букву И потерял ?
@xandrviking1113
@xandrviking1113 4 күн бұрын
Лектор так себе конечно, глотает слова, с дикцией проблема. Ничего не понял, хотя знал эту тему давно.
@user-zd6sf8zo5y
@user-zd6sf8zo5y 10 күн бұрын
20:41 Но в этом случае размерность вектора а будет равна m, а не d (размер эмбеддинга). И складывать вектор внимания a с x или у мы не сможем. 21:55 Аналогичная проблема. Мы получим n векторов размерности m (которая вообще говоря не совпадает с размерностью эмбединга) @DeepLearningSchool
@whiteraidr
@whiteraidr 12 күн бұрын
Супер материал, и очень понятная подача, спасибо
@justaseeker5530
@justaseeker5530 13 күн бұрын
На слайде "Идея Transformer" доброе утро переведено, как good night
@mihey0_0
@mihey0_0 13 күн бұрын
Есть ли стажировка в Сербии?
@user-vc3qz1oi4o
@user-vc3qz1oi4o 13 күн бұрын
блин как здорово и интересно, если б так нам в вузе объясняли на парах...все были бы отличниками))
@Apaximatic_Play
@Apaximatic_Play 19 күн бұрын
понятно, я думал эти сети работают хитрее, а это оказывается тупо фильтры
@justaseeker5530
@justaseeker5530 20 күн бұрын
Нео, ты меня слушаешь или смотришь на девицу в красном?
@1stface
@1stface 23 күн бұрын
Очередная хрень на 50 минут про свертку, которой уже пруд пруди ; и ничего про детальное обучение сети - особенно фильтров, в которых сами рассказчики ни черта ничего не понимают.
@user-ku4nn5pw8p
@user-ku4nn5pw8p 23 күн бұрын
На слайде из 9:50 опечатка - должно быть DL[q(z|x, pfi) || p(z)]. И лекторша проговорила эту ошибку Еще опечатка на слайде из 11:04 в 1 строке - должно быть q[z, x | phi], а не q[z, phi| x]. Ещё на 3ей строчке этого же слайда почему-то стоит минус между лоссами реконструкции и регуляризации
@baidiuk1
@baidiuk1 22 күн бұрын
хах, тут скорее во всей формуле на слайде 9:50 в знаменателе вместо p(z) должно быть p(z | x, phi) . На 11:04 ошибок нет. Не важно q(z | x, phi) или q(z | phi, x). Минус в лоссе тоже верный, мы перевернули дробь под логарифмом, чтобы получить D_KL - это дает минус.
@Hermit-iv4xd
@Hermit-iv4xd 24 күн бұрын
... "не знаю" ...
@user-fk4dx7sc8r
@user-fk4dx7sc8r 24 күн бұрын
Красотка
@andreyzykov1059
@andreyzykov1059 25 күн бұрын
я латентное пространство
@Superflywheel
@Superflywheel 26 күн бұрын
Красное платье 👍
@igordobrynin3684
@igordobrynin3684 26 күн бұрын
и ремень и туфли
@hsqlk
@hsqlk 26 күн бұрын
Хорошее объяснение: кратко, но в достаточном объеме для понимания темы
@user-iv5co4lu9g
@user-iv5co4lu9g 27 күн бұрын
Нихера не понял ваще…
@yuryyarovikov3323
@yuryyarovikov3323 27 күн бұрын
А вы с первого видео смотрите?
@yuryyarovikov3323
@yuryyarovikov3323 27 күн бұрын
kzfaq.info/get/bejne/acdxiNuglq2Vm6c.html
@hsqlk
@hsqlk 26 күн бұрын
пересмотри видео через пару дней, потом будет легче
@user-ku4nn5pw8p
@user-ku4nn5pw8p 22 күн бұрын
Грубо говоря, VQ-VAE - это про то, как апроксимировать довольно гибкие, сложные непрерывные распределения дискретными точками, которые более легковестные. То есть эти N точек (вектора из codebook'а) - это центроиды каких-то уплотнений, кластеров из реального распределения. Насколько я понял, тут обычный лосс (как MSE из AE) разбивается на 2 лосса - энкодера и декодера. Мы хотим, чтобы вектора из энкодера плотно группировались у N точек, которыми мы хотим апроксимировать пространство (это encoder loss, от которого текут градиенты по всей CNN энкодера) и мы хотим, чтобы восстановленное изображение из сжатого латентного пространства было максимально похожим на входное (это reconstruction loss, от которого текут градиенты по всей CNN декодера). Ну и т.к. мы инициализировали эти N точек рандомно, то с чего вообще мы взяли, что с помощью их вообще можно что-то нормально апроксимировать? Давайте и их двигать, но по чуть-чуть (добавив коэффициент бэтта), чтобы модель успевала сходиться. А то получится, что центроиды двигаются в сторону итоговых точек энкодера, а эти точки уже сместились в сторону центроидов, оказавшись в другом месте. В итоге так и будут они в противофазе туда сюда прыгать. Резюмируя еще раз: Есть реальное распределение в латентном (сжатом) пространстве, в VAE мы его апроксимировали композицией нормальных распределений (это как разложение функции в ряд Фурье на 100 синусод или в ряд Тейлора), а потом в VQ-VAE мы это распределение еще раз упростили до набора центроидов локальных уплотнений плотности.
@user-ku4nn5pw8p
@user-ku4nn5pw8p 22 күн бұрын
Если что-то не понятно еще, то пиши)
@YbisZX
@YbisZX Ай бұрын
Не понятно, почему слой y считается неотъемлемой частью рекуррентного слоя. Это же просто полносвязный слой приставленный к слою h. Зачем ему быть того же размера k, он же может быть любого размера? Почему нельзя обойтись без него вообще и подавать выход h сразу на следующий рекуррентный слой?
@DeepLearningSchool
@DeepLearningSchool Ай бұрын
Можно, так и делают, на самом деле. Здесь так, чтобы показать идею перехода от полносвязного слоя к RNN. Но вы правы, что стоило бы добавить это в лекцию
@petrstepanov7092
@petrstepanov7092 Ай бұрын
Спасибо ребята!!! Прекрасные видео делаете!
@Perfffffffect
@Perfffffffect Ай бұрын
Обыскал весь интернет в поисках нормального объяснения word2vec. Ничего не нашел кроме статьей шарлатанов, которые сами не понимают, как оно работает (аля «ну я кнопку нажал и получил эмбединг»). А здесь ультрасуперское объяснение с понятной логикой и смыслом того, как это устроено!!!
@MinisterDorado
@MinisterDorado Ай бұрын
Звук тихий
@samuileldi
@samuileldi Ай бұрын
Очень 😢
@sergcib6642
@sergcib6642 Ай бұрын
Вектор разворачивается в картинку...Апсемплим..Конволюшим.. Мда... Сразу видно, что русский язык чужой на этом празднике нейронных сетей.
@fdshdsfdsqq
@fdshdsfdsqq Ай бұрын
Не путать, ибо сам запутался: Есть предварительная нормализация (первоначальная стандартизация данных датасета), когда мы масштабируем данные таким образом, что чтобы их среднее было = 0, а стандартное отклонение = 1. Это позволяет модели быстрее сходиться во время обучения. Но нормализация в датасете не учитывает изменения в распределении входных данных каждого слоя во время обучения!!! Когда вы обновляете веса одного слоя, это изменяет распределение входных данных для следующего слоя. Это называется - внутреннее ковариационное смещение. Поэтому есть нормализация во время обучения - Batch Normalization, Layer Normalization и т.д. которая помогает уменьшить внутреннее ковариационное смещение. Она гарантирует, что данные, поступающие в каждый слой, имеют примерно одно и то же распределение на каждом шаге обучения, что делает оптимизацию более стабильной и быстрой. Данная нормализация происходит во время прямого распространения на каждом шаге итерации обучения. Т.е. 2 нормализации - одна начальная, другая в процессе обучения.
@chubovilya
@chubovilya Ай бұрын
Отлично объясняет!
@baidiuk1
@baidiuk1 Ай бұрын
Спасибо огромное, очень толковый семинар! К сожаление, ссылка в описании ведет на старый ноутбук. Возможно ли загрузить обновленный ноутбук соответстующий видео?
@gblssroman
@gblssroman Ай бұрын
очень тихо
@user-zv8gk4dj5z
@user-zv8gk4dj5z Ай бұрын
под конец началась антикапиталистическая агитка, ахах. Замечательное видео
@palevas
@palevas Ай бұрын
Яндекс даже раньше самого Гугла выкатил трансформер для перевода
@karimvaliev8031
@karimvaliev8031 Ай бұрын
Никита отличный семинарист, объясняет каждую строчку. Татьяна супер лектор. Спасибо
@bumbum3229
@bumbum3229 Ай бұрын
Татьяна Гайнцева, королева ML/DL по объяснению
@baidiuk1
@baidiuk1 Ай бұрын
Спасибо! Отличные семинары от Арема, все максимально разжевано и понятно, с хорошим пониманием материала.
@user-bj2yn8mp4r
@user-bj2yn8mp4r Ай бұрын
Очень быстро и ничего непонятно
@user-bj2yn8mp4r
@user-bj2yn8mp4r Ай бұрын
Первый раз при просмотре видео уменьшаю скорость воспроизведения)
@sulimovp
@sulimovp Ай бұрын
наконец-то понял логику QKV, спасибо!
@94SERP
@94SERP Ай бұрын
10:17 сумма вероятностей после Softmax 1.1
@Arseny150
@Arseny150 Ай бұрын
Как всегда, отличное объяснение. Но вот только одно "но" - во французском языке понятие рода ЕСТЬ! 😀
@karimvaliev8031
@karimvaliev8031 Ай бұрын
Не очень понятное объяснение
@user-bj2yn8mp4r
@user-bj2yn8mp4r Ай бұрын
хорошая лекция, спасибо
@user-bj2yn8mp4r
@user-bj2yn8mp4r Ай бұрын
22:50 знаменатель д.б. под корнем
@varivodasergei
@varivodasergei Ай бұрын
Не очень понятно почему вместо формулирования задач self-superviced learning вдруг переходим к GPT ...
@AlexVoronin-sr3mm
@AlexVoronin-sr3mm Ай бұрын
Можно бы по поводу device абзац-другой добавить, чтоб получился полный торчевый шаблон.
@user-bj2yn8mp4r
@user-bj2yn8mp4r Ай бұрын
Прекрасное объяснение материала
@user-ht4eo2xi9g
@user-ht4eo2xi9g 2 ай бұрын
Студенты + 7:54 - Градиентный спуск 1:10:15 - Хитрый интеграл 1:22:15 - Метод ближайших соседей 1:32:12 - Многоклассовая логистическая регрессия 1:39:00 - Мандаринки 1:46:28 - Градиентный спуск Part 2 2:02:50 - Свёрточные нейросети 2:08:16 - Неоднозначный PCA 2:31:02 - Обучение решающего дерева 2:47:04 - Посчитать животных 2:50:42 - Сколько стоит дом 2:59:03 - Судьба стартапа
@user-jw1rg1tg9g
@user-jw1rg1tg9g 2 ай бұрын
Не очень понятно пояснение, почему нельзя использовать One Hot Encoding позиции (30:01). Поясните, пожалуйста. То, что по памяти неэффективно для больших входов в целом понятно.
@DeepLearningSchool
@DeepLearningSchool 2 ай бұрын
как минимум потому, что one-hot encoding требует, чтобы векторы были длины количества элементов. Т.е. если у вас в последовательности n токенов, то чтобы закодировать их места one-hot векторами, нужны векторы длины минимум n. А мы хотим, чтобы position encodings суммировались с нашими векторами эмбеддингов
@reilly-ej5yw
@reilly-ej5yw 2 ай бұрын
Перефразиуря великую русскую исполнительницу - атеншин, атеншин мы на лекции умной женьщины
@szhavel
@szhavel 2 ай бұрын
Задачу А у студентов можно решить как изопериметрическую задачу вариационного исчисления через функцию Лагранжа, ответ сходится
@user-qm2ek4iv4q
@user-qm2ek4iv4q 2 ай бұрын
не совсем понял - мы складываем вектор внимания а с соответствующим эмбеддингом... но у них же размерности разные. эмбеддинг может быть длиной в несколько сотен значений ,а вектор внимания в данном случае ,содержит всего 4 значения... как мы их складываем?
@user-jw1rg1tg9g
@user-jw1rg1tg9g 2 ай бұрын
Почему вы решили, что вектор внимания содержит 4 значения? Это не так. Размерности векторов внимания и эмбеддинга одинаковые.
@user-qm2ek4iv4q
@user-qm2ek4iv4q 2 ай бұрын
@@user-jw1rg1tg9g спасибо, я наверно не правильно понял. Надо пересмотреть ролик
@reilly-ej5yw
@reilly-ej5yw 2 ай бұрын
а че не по порядку :(
@reilly-ej5yw
@reilly-ej5yw 2 ай бұрын
ФАКт - я отстаю!