MERA: бенчмарк для оценки фундаментальных моделей / A. Феногенова, M. Тихонова, A. Ахметгареева

  Рет қаралды 269

SaluteTech

SaluteTech

3 ай бұрын

GIGA R&D DAY: MERA - бенчмарк для оценки фундаментальных моделей.
В докладе подробно расскажем:
- О методологии бенчмарка и его особенностях
- Подробно обсудим входящие в него тесты - 21 задание в инструктивном формате для оценки навыков модели: здравый смысл, целеполагание, логика, знания о мире, память, математика, этика и многое другое.
- Поговорим о том, как отправлять сабмиты и пользоваться кодом на основе открытой библиотеки LM Harness для замеров моделей в едином формате.
Алёна Феногенова, TeamLead команды AGI NLP R&D
Альбина Ахметгареева, Senior Data Scientist
Мария Тихонова, Главный инженер по разработке

Пікірлер
Survival skills: A great idea with duct tape #survival #lifehacks #camping
00:27
That's how money comes into our family
00:14
Mamasoboliha
Рет қаралды 11 МЛН
50 YouTubers Fight For $1,000,000
41:27
MrBeast
Рет қаралды 116 МЛН
Русалка
01:00
История одного вокалиста
Рет қаралды 5 МЛН
Меняем пространство и время местами
8:03
foo52ru ТехноШаман
Рет қаралды 389 М.
Обзор на ESGify
1:28
SaluteTech
Рет қаралды 55
😱Хакер взломал зашифрованный ноутбук.
0:54
Последний Оплот Безопасности
Рет қаралды 675 М.
Как распознать поддельный iPhone
0:44
PEREKUPILO
Рет қаралды 1,7 МЛН
АЙФОН 20 С ФУНКЦИЕЙ ВИДЕНИЯ ОГНЯ
0:59
КиноХост
Рет қаралды 454 М.
Samsung Galaxy 🔥 #shorts  #trending #youtubeshorts  #shortvideo ujjawal4u
0:10
Ujjawal4u. 120k Views . 4 hours ago
Рет қаралды 6 МЛН
Klavye İle Trafik Işığını Yönetmek #shorts
0:18
Osman Kabadayı
Рет қаралды 3,2 МЛН
Samsung Galaxy Unpacked July 2024: Official Replay
1:8:53
Samsung
Рет қаралды 23 МЛН