快科技9月20日音讯,中国电信晓示,天翼云自研的国内首个单集群万卡国产化全功能预测验云奇迹平台,也曾阐扬发布上线,基于华为昇腾芯片,并完成了万卡限度Llama3.1-405B大模子测验。
Llama3.1-405B看成4000亿参数限度的大模子,在息壤训推奇迹平台的撑抓下,经过多轮优化,MFU(算力行使率)达到国内朝上水平。
另外,700亿参数大模子Llama2-70B在万卡限度下完成测验,MFU也处于业界朝上水平。
据悉,天翼云的这套平台具备万卡纳管和并行测验才调,基于HPFS PB级并行文献系统、CTCCL RDMA高速卡间互联技巧、Gang计谋与拓扑感知的智算容器调治,以及慧聚自研隔离式测验框架TeleFormers和平台,杀青万卡资源纳管、万卡限度并行测验。
其中,天翼云自研了AI框架Teleformers,对算子、通讯、数据处理进行优化,还有并行计谋的自得当养息,显耀升迁了大模子测验的测验成果。
在现在业内最大参数限度开源单体繁密模子Llama3.1-405B大模子测验测试中,性能走漏达到国外同等水平。
算子优化方面,针对昇腾芯片的特质,在收罗结构层靠近诸多高频算子进行了定制化矫正,构建了高性能算子集。
比如matmul算子,行使昇腾芯片的运筹帷幄亲和性,将算子输入padding到特定的维度,大幅升迁引申成果,从而剖析裁减了测验时刻。
数据处理和活水线方面,通过建立合理的数据分片计谋和HPFS条带化优化,连续数据预取与数据下千里技巧,大幅升迁数据流的处理成果和安逸性;对预处理后的数据集进行了二次分片并提供就近缓存才调,减少GPU闲暇时刻。
自得当并行计谋方面,基于对3D并行中种种运筹帷幄单位的分析,天翼云设想了多种自得当的3D并行计谋,依据模子限度和硬件资源的不同不错自动聘请适当的并行计谋,充分行使运筹帷幄资源和显存资源,裁减模子测验中每轮的迭代时刻。
天翼云国产化万卡智算中心还有多项技巧羁系——
天翼云息壤测验奇迹平台基于软硬件协同设想,提供全链路故障监控、基于主动感知的全链路故障监控和定位、CheckPoint秒级多级高速存储系统、容错优雅调治和模子编译缓存等系统,将万卡限度故障发现和惩办问题裁减到业内前沿的分钟级,大幅升迁灵验测验时刻。
自动断点续训系统:
建筑丰富的故障库,基于此构建了多维故障感知系统,概况快速主动感知相关故障事件和潜在的故障风险;
通过精确的故障阻碍和调治技巧,快速阻碍处理故障节点并从头调治新节点接办任务络续测验,杀青无东说念骨干预式断点续训,灵验减少GPU闲置时刻。
高速多级CheckPoint系统:
天翼云设想基于多级存储的高速CheckPoint系统,通过两阶段异步存储,杀青高速写入内存,并最终异步写入远端系统;
针对断点收复场景,提供程度级故障原地快恢和远端快速收复才调,最终杀青对CheckPoint的秒级读写才调,大幅责骂断点收复时刻、升迁测验成果。
全链路检测器具链:
天翼云开发了全链路故障监控器具链,概况基于主动感知杀青全链路的故障监控和定位。
该器具链不错主动发现诱骗故障,并责骂测验中断的频次,确保测验经由的伙同性和安逸性。
【本文戒指】如需转载请务必注明出处:快科技
职守剪辑:上方文Q
著述本色举报]article_adlist--> 声明:新浪网独家稿件,未经授权不容转载。 -->