Добавить
Уведомления

Инфраструктура ML кластера - всегда есть место для напильника. Павел Михайлик

Тема ML/AI становится массовой, и из ниши единичных гиперскейлеров уходит к новым участникам. При этом, одновременно проявляется целый ряд особенностей: Относительно малые в привычном понимании размеры кластеров Новые возможности Ethernet vs Infiniband позволяют строить вариативно Отсутствие у новых игроков долговременного опыта построения и эксплуатации в отличие от гиперскейлеров Итак, мы построили кластер, мы добились работоспособности инфраструктуры, настроили ROCEv2, DCQCN и прочие страшные слова, — «работает –не трогай….». А если все же копнуть чуть глубже? Почему все же стоит оптимизировать сетевую инфраструктуру и к каким результатам это может привести, - подходы и примеры.

Иконка канала linkmeup
486 подписчиков
12+
39 просмотров
2 месяца назад
12+
39 просмотров
2 месяца назад

Тема ML/AI становится массовой, и из ниши единичных гиперскейлеров уходит к новым участникам. При этом, одновременно проявляется целый ряд особенностей: Относительно малые в привычном понимании размеры кластеров Новые возможности Ethernet vs Infiniband позволяют строить вариативно Отсутствие у новых игроков долговременного опыта построения и эксплуатации в отличие от гиперскейлеров Итак, мы построили кластер, мы добились работоспособности инфраструктуры, настроили ROCEv2, DCQCN и прочие страшные слова, — «работает –не трогай….». А если все же копнуть чуть глубже? Почему все же стоит оптимизировать сетевую инфраструктуру и к каким результатам это может привести, - подходы и примеры.

, чтобы оставлять комментарии