Рет қаралды 198
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва + трансляция).
Подробности и билеты: jrg.su/KFFBS7
- -
Для OK Hadoop - это ключевой компонент инфраструктуры данных: он активно используется как для реализации продуктовой аналитики, так и для продакшена рекомендательных систем. С точки зрения объемов это более 200 PB в HDFS, 70k vcores, 200 TB RAM.
Вся инфраструктура в Одноклассниках (и не только) разворачивается во внутреннем контейнерном облаке и этому есть причины:
- унификация эксплуатации как железа, так и приложений;
- кардинальное повышение утилизации доступного железа.
В прошлом году очередь дошла и до Hadoop. Михаил рассказывает:
- о причинах отказа от классических подходов по развертыванию и эксплуатации Hadoop-кластеров;
- о том, как провести миграцию сотен петабайт так, чтобы пользователи этого не заметили;
- о сложности жизни с соседями (теперь на одной машине с Hadoop может поселиться другая программа, претендующая на ресурсы);
- и, конечно же, о том, какие преимущества получили в итоге (спойлер - значительные).