Рет қаралды 269
GIGA R&D DAY: MERA - бенчмарк для оценки фундаментальных моделей.
В докладе подробно расскажем:
- О методологии бенчмарка и его особенностях
- Подробно обсудим входящие в него тесты - 21 задание в инструктивном формате для оценки навыков модели: здравый смысл, целеполагание, логика, знания о мире, память, математика, этика и многое другое.
- Поговорим о том, как отправлять сабмиты и пользоваться кодом на основе открытой библиотеки LM Harness для замеров моделей в едином формате.
Алёна Феногенова, TeamLead команды AGI NLP R&D
Альбина Ахметгареева, Senior Data Scientist
Мария Тихонова, Главный инженер по разработке