算力即时响应
泽微AI打造万卡级超大规模训练平台「泽微一号」
「泽微一号」以“动态任务调度共享”为核心设计,调度系统实现毫秒级响应,确保每位开发者获得流畅无阻的训练过程。同时,平台集成高效软件栈支撑:优化加速算子库(star.nn)、高性能分布式通讯框架(starreduce)、专为大规模AI训练定制的海量高吞吐存储系统(SFS),助力模型无缝扩展至千卡集群,实现万卡级并行训练,释放巅峰算力潜能。
国际竞赛金牌团队深度打磨关键算子
LSTM 算子加速 25%—5 倍
Attention 算子提速 35%+
针对「泽微一号」专属集群架构优化的 allreduce 实现
不依赖高端互联硬件,仍具备出色通讯效率
BERT-Large 在 128 节点规模下训练速度提升 25%
自主研发的高性能并行存储系统
极限挖掘高速网络潜能,突破 IO 瓶颈
IO 操作:20 亿次/秒
吞吐带宽:8.0 TB/秒
99 %
Cluster utilization
97 %
GPU usage rate率
8.0 TB/s 读
500 GB/s 写
Data is based on cluster usage statistics from August 2023.
|