Интенсив GPT Week. Лекция 4: "Alignment"

  Рет қаралды 3,390

Яндекс Образование

Яндекс Образование

6 ай бұрын

Спикер: Паша Темирчев, разработчик группы поиска смысла
Статьи, на которые есть отсылки в лекции или которые использовались при подготовке материала:
1) A General Language Assistant as a Laboratory for Alignment, arxiv.org/abs/2112.00861
Статья от Anthropic, в которой вводится терминология Harmless, Helpful, Honest агента, и в целом описан процесс обучения модели предпочтений.
2) Reinforcement Learning Textbook, Ivanov S., arxiv.org/abs/2201.09746
Конспект лекций по обучению с подкреплением от Сергея Иванова на русском языке (рекомендуем)
3) Proximal Policy Optimization, arxiv.org/abs/1707.06347
РРО - алгоритм, который обычно используется в дообучении LMок на задачу Alignment
В лекции мы его проскочили вскользь, разобрав его базу - градиент по политике.
4) Direct Preference Optimization arxiv.org/pdf/2305.18290.pdf
Метод alignment'а, с которым мы познакомимся на семинаре

Пікірлер: 6
@ilnaz007
@ilnaz007 6 ай бұрын
классный лектор, все доступно объяснил
@user-sx2ju9nv5o
@user-sx2ju9nv5o 6 ай бұрын
очень крутой лектор!
@mstas1977
@mstas1977 6 ай бұрын
Лучший лектор!
@bukovelby
@bukovelby 6 ай бұрын
Какие люди работают в Яндексе, неожиданно классные лекторы!
@nikprilutskiy7064
@nikprilutskiy7064 6 ай бұрын
Очень живая лекция получилась, особенно на контрасте со вчерашней) спасибо!
@mgonetwo
@mgonetwo 6 ай бұрын
Паша похож на джина из восточных сказок лол
Интенсив GPT Week. Семинар 3: "Alignment"
1:02:11
Яндекс Образование
Рет қаралды 2,2 М.
ХОТЯ БЫ КИНОДА 2 - официальный фильм
1:35:34
ХОТЯ БЫ В КИНО
Рет қаралды 2,5 МЛН
Did you find it?! 🤔✨✍️ #funnyart
00:11
Artistomg
Рет қаралды 123 МЛН
NO NO NO YES! (50 MLN SUBSCRIBERS CHALLENGE!) #shorts
00:26
PANDA BOI
Рет қаралды 102 МЛН
Мастер и Маргарита: Мессир, мне больше нравится Рим
33:50
ХОТЯ БЫ КИНОДА 2 - официальный фильм
1:35:34
ХОТЯ БЫ В КИНО
Рет қаралды 2,5 МЛН