“FP8精度”在国产算力芯片打开千亿市场的进程中具有重要意义,它是一种8位浮点数表示法,在AI计算领域优势显著。具体如下:提升算力效率:相比传统的FP16,FP8通过压缩数据宽度,将算力效率提升至翻倍水平。例如寒武纪思元590芯片在FP8适配后,推理效率提升高达300%。在相同的硬件条件下,支持FP8的Tensor Core可以在相同时间内进行更多次的浮点运算,加快训练和推理的速度。降低内存占用和功耗:FP8的数据位宽更窄,8位数据移动能耗仅为FP16的1/4,显存占用可减少50%-75%,这有助于解决AI数据中心的高能耗问题,也使得在相同功耗下,AI芯片能够训练更大的模型或显著缩短训练时间。促进模型优化和压缩:FP8的使用促使模型在训练和推理过程中进行量化,这有助于模型的优化和压缩,进一步降低部署成本。与INT8相比,FP8在LLM的训练和推理更有优势,因为它有更宽的动态范围,更能精准捕获LLM中参数的数值分布。推动国产算力芯片生态建设:DeepSeek发布的R1推理模型以及后续的DeepSeek-V3.1采用FP8精度,带动了国产算力芯片的适配以及生态协同,许多本土芯片厂商围绕DeepSeek开展合作,共同打造适配本土芯片的软件栈、工具链等生态组件,打破了国产芯片生态建设的僵局。增强国产算力芯片竞争力:FP8精度使得国产芯片在推理应用阶段性价比和可用性大增,在制程受限的背景下,为国产芯片提供了“软硬协同”的破局之道。同等算力下,国产推理芯片单价仅为英伟达H20的40%,吸引了更多行业采用国产芯片,推动国产芯片市场份额的提升。
|
|