新闻中心
新闻中心

腾平台上实现了跨越18TB数据的持久不变锻炼

2025-06-03 15:40

  使RL后锻炼进入超节点集群时代。盘古团队提出Depth-Scaled Sandwich-Norm(DSSN)不变架构和TinyInit小初始化的方式,华为颁布发表推出参数规模高达7180亿的全新模子盘古Ultra MoE,这是一个全流程正在昇腾AI计较平台上锻炼的准万亿MoE模子。5月30日动静,据悉,正在昇腾平台上实现了跨越18TB数据的持久不变锻炼。