腾平台上实现了跨越18TB数据的持久不变锻炼
2025-06-03 15:40使RL后锻炼进入超节点集群时代。盘古团队提出Depth-Scaled Sandwich-Norm(DSSN)不变架构和TinyInit小初始化的方式,华为颁布发表推出参数规模高达7180亿的全新模子盘古Ultra MoE,这是一个全流程正在昇腾AI计较平台上锻炼的准万亿MoE模子。5月30日动静,据悉,正在昇腾平台上实现了跨越18TB数据的持久不变锻炼。
上一篇:这些体验该当纳入课程系统
下一篇:我们将元素取荆州古城文相融合