Лекция. Архитектура Transformer. Введение, Transformer Encoder

  Рет қаралды 4,352

Deep Learning School

Deep Learning School

3 ай бұрын

Занятие ведёт Татьяна Гайнцева
Ссылка на материалы занятия: docs.google.com/presentation/...
---
Deep Learning School при ФПМИ МФТИ
Каждые полгода мы запускаем новую итерацию нашего двухсеместрового практического онлайн-курса по глубокому обучению. Наборы проводятся в августе-сентябре и январе-феврале.
Поддержать канал можно по ссылке boosty.to/deeplearningschool
За нашими новостями можно следить здесь:
Наш канал в TG: t.me/deep_learning_school_news
Официальный сайт: dls.samcs.ru/
Официальная группа ВК: dlschool_mipt
ФПМИ МФТИ
Официальный сайт: mipt.ru/education/departments...
Магистратура: mipt.ru/education/departments...
Онлайн-магистратура "Современная комбинаторика": omscmipt.ru/
Онлайн-магистратура "Цифровая экономика": digec.online/
Лаборатории ФПМИ: mipt.ru/education/departments...

Пікірлер: 25
@idaklimanova9913
@idaklimanova9913 14 күн бұрын
Татьяна, огромная благодарность вам и всей команде. Невероятный материал!!
@jookovjook
@jookovjook 3 ай бұрын
Очень крутое объяснение энкодера! Спасибо 🙏
@DeepLearningSchool
@DeepLearningSchool 3 ай бұрын
да, спасибо за замечание, это опечатка(
@justaseeker5530
@justaseeker5530 Ай бұрын
На слайде "Идея Transformer" доброе утро переведено, как good night
@94SERP
@94SERP 3 ай бұрын
10:17 сумма вероятностей после Softmax 1.1
@jookovjook
@jookovjook 3 ай бұрын
В 16:51 при подсчете σ_i выражение (x^e_j - μ_i) должно быть в квадрате. Нет?
@w01fer86
@w01fer86 3 ай бұрын
Ага, без квадрата эта сумма просто 0 будет)
@sb9185
@sb9185 27 күн бұрын
Зачем нужен FC layer ?
@user-jw1rg1tg9g
@user-jw1rg1tg9g 3 ай бұрын
Не очень понятно пояснение, почему нельзя использовать One Hot Encoding позиции (30:01). Поясните, пожалуйста. То, что по памяти неэффективно для больших входов в целом понятно.
@DeepLearningSchool
@DeepLearningSchool 3 ай бұрын
как минимум потому, что one-hot encoding требует, чтобы векторы были длины количества элементов. Т.е. если у вас в последовательности n токенов, то чтобы закодировать их места one-hot векторами, нужны векторы длины минимум n. А мы хотим, чтобы position encodings суммировались с нашими векторами эмбеддингов
@user-qm2ek4iv4q
@user-qm2ek4iv4q 3 ай бұрын
не совсем понял - мы складываем вектор внимания а с соответствующим эмбеддингом... но у них же размерности разные. эмбеддинг может быть длиной в несколько сотен значений ,а вектор внимания в данном случае ,содержит всего 4 значения... как мы их складываем?
@user-jw1rg1tg9g
@user-jw1rg1tg9g 3 ай бұрын
Почему вы решили, что вектор внимания содержит 4 значения? Это не так. Размерности векторов внимания и эмбеддинга одинаковые.
@user-qm2ek4iv4q
@user-qm2ek4iv4q 3 ай бұрын
@@user-jw1rg1tg9g спасибо, я наверно не правильно понял. Надо пересмотреть ролик
@palevas
@palevas 2 ай бұрын
Яндекс даже раньше самого Гугла выкатил трансформер для перевода
@hazeovich4530
@hazeovich4530 3 ай бұрын
Из этого видео узнал больше про DL чем за семестр в унике. Привет из ДВФУ🤡
@Ksorz
@Ksorz 3 ай бұрын
Про какую дополнительную статью идет речь? 34:07 Что-то я не вижу ее на Степике
@DeepLearningSchool
@DeepLearningSchool 3 ай бұрын
Добавим, вчера не успели, извините
@Ksorz
@Ksorz 3 ай бұрын
Спасибо :) @@DeepLearningSchool
@user-jw1rg1tg9g
@user-jw1rg1tg9g 3 ай бұрын
@@Ksorz подскажите, о каком курсе степика идет речь? немедленно присоединюсь)
@mi-cher
@mi-cher 3 ай бұрын
@@user-jw1rg1tg9g "Deep Learning (семестр 2, весна 2024)". Ссылки Ютуб режет
@DeepLearningSchool
@DeepLearningSchool 3 ай бұрын
@@user-jw1rg1tg9g вот: stepik.org/course/196142/syllabus
@deadmorose4741
@deadmorose4741 3 ай бұрын
А где предыдущая лекция про голый attention?
@DeepLearningSchool
@DeepLearningSchool 3 ай бұрын
вот: kzfaq.info/get/bejne/fNGZYLuWmKmrl2w.htmlfeature=shared
@dead-maxim
@dead-maxim 3 ай бұрын
Может кто-нить объяснить, как из токенов получаются ембеддинги?
@Ksorz
@Ksorz 3 ай бұрын
Это было в первой лекции курса (kzfaq.info/get/bejne/jcikhN1y287Sgn0.html - Word2Vec, GloVe, FastText). Там был довольно подробный разбор и мы обучали эмбеддинги самостоятельно. Однако потом всё это заменил один единственный слой в нейросети, который что-то там внутри себя делает с токенами и получаются эмбеддинги. Действительно, тут нам особо не объясняли, как теперь это работает, но полагаю, внутри этого слоя что-то подобное
Лекция. Архитектура Transformer. Decoder, QKV Attention
23:22
Deep Learning School
Рет қаралды 2,9 М.
Лекция. Механизм внимания (Attention)
30:04
Deep Learning School
Рет қаралды 3 М.
THEY made a RAINBOW M&M 🤩😳 LeoNata family #shorts
00:49
LeoNata Family
Рет қаралды 29 МЛН
Looks realistic #tiktok
00:22
Анастасия Тарасова
Рет қаралды 43 МЛН
What are Transformers (Machine Learning Model)?
5:50
IBM Technology
Рет қаралды 369 М.
Лекция. Трансформеры. Self-Attention
54:35
Deep Learning School
Рет қаралды 10 М.
Семинар. Введение в PyTorch
1:09:19
Deep Learning School
Рет қаралды 6 М.
Как работает ChatGPT: объясняем нейросети просто
39:04
RationalAnswer | Павел Комаровский
Рет қаралды 1,2 МЛН
Лекция. Внимание (Attention)
38:51
Deep Learning School
Рет қаралды 14 М.