由启明创投主办的2025世界人工智能大会(WAIC)“启明创投·创业与投资论坛——创业投资开启AI技术与应用共振周期”于7月28日在上海世博中心蓝厅成功举办。
在本次论坛上,清华大学电子工程系长聘教授、系主任,无问芯穹发起人汪玉发表了主题为《软硬协同推进AI基础设施演进》的演讲。
清华大学电子工程系长聘教授、系主任,无问芯穹发起人汪玉
汪玉指出,将人工智能真正转化为实际生产力的过程中,Token作为大模型输入输出的基本单元,已成为智能时代最核心的生产要素之一。过去的价值链路是由电能驱动算力提升,以完成简单任务,而现在则演变为将电能转化为算力,再由算力生成Token,最终支撑复杂任务的执行。伴随这一转变,评价基础设施效能的核心指标也正随之变化——传统的“每焦耳能量所能支持的计算次数(TOPS/J)”正被“每焦耳能量所能处理的有效Token数量(Tokens/J)”所取代。如何优化单位能耗下的Token效率,将是AI 2.0时代基础设施与系统设计的核心命题。
以下系汪玉的演讲精选。
非常感谢启明创投的邀请,我最初是从AI基础设施或AI硬件领域起步,之后慢慢开始做系统层面的工作,所以今天主要想和大家分享我们过去一段时间的实践,以及对未来的一些预测。我们没法像AI一样做到精细化预测,主要还是从技术角度来谈谈。
我们深刻地认识到,真正的AI确实是可以形成生产力的。在生产力提升的过程中,有一个非常重要的维度叫作“数据”,我们就在思考,对于AI基础设施而言,它所消耗的是什么?Token是一个非常重要的单元。在智能革命时代,如果说投入的是算力和数据,而支撑它们运行的主要是电,那么最终处理的到底是什么?我们现在看到了一个通用的基础单元——Token,Token作为人工智能模型的输入和输出,其实是非常关键的。虽然从宏观层面而言,当前的生产要素被称为数据要素,但在大模型时代,核心生产要素可能是Token。
AI 1.0时代,每个不同的垂类数据可以训练一个垂类模型,而现在人们把全世界的数据都转化成Token,用这些Token来训练出一个Next Token Prediction的大模型,再输出成Token,之后这些Token再被转换成不同的模态,如此才能支持所谓的多模态应用,所以Token的输入和输出变得很关键。相应的范式也会发生变化:过去是从电能到算力,来完成简单任务;现在则转变成了从电能到算力,再到处理Token,最终完成复杂任务。
对于基础设施的评价角度也随之改变:原来关注的是从每秒钟或者每焦耳能够输出的计算次数,现在变成了每焦耳或者每瓦特能够支撑的Token数量,所以在AI 2.0时代,需要思考的是单位功耗或单位能量消耗下Token的变化。
在AI 1.0时代,所有的芯片的评价标准都是按照每焦耳的TOPS,或者是每瓦特的TOPS;而现在,我们认为从AI 1.0到2.0评价指标需要发生变化,因为做学术的总是想用一个统一标准来评价,进而牵引整个系统的发展,而Token正是这样一个合适的标准。
随着人工智能或者AGI发展的不同阶段,问题的定义也随之演变:在保证智能水平超过一定阈值的前提下,尽可能优化Tokens/J,作为下一步在基础设施和系统设计维度上的一个重要牵引指标。
比如刚才所提到的,能效需求有几个不同的智能等级,从最初的智能对话助手,到逻辑问答解答,再到具身智能控制,目前我们看到部分工作已经达到了10Tokens/J,当对于智能要求越来越高的时候,Tokens/J的能效需求差别其实是很大的,到level2差1-2个数量级,到level3差2-3个数量级,要填补这些差距就需要从技术层面发力,通过软件和硬件的协同优化来解决这一问题。
从简单对话,到奥数解题、交互场景,再到科学研究领域的AI应用(AI for Science),乃至群体智能的涌现,随着能力的逐级提升,我们需要在确保大模型推理性能提升不受影响的前提下,实现“高质量 Tokens/J ”的持续演进。
有一本书叫《思考,快与慢》,书中把人的认知系统分为两类:System1是负责直觉与感知的,给一个输入马上就有一个输出。另外一个系统是System2,它更像是一个慢速思考的过程。所以在大模型刚出来的时候,我就在思考这到底是不是System2?后来想了想不是,到Open AI o1出来以后,才感觉它似乎接近System2,因为它有基于思维链的推理,所以我们看第二类系统其实是action by action的一个推理的过程。
先来看第一类系统,这是我们之前研究了很久的一类系统,从图像识别、人脸识别开始,给一张图输出一个结果,这个时候如果希望有Tokens/J的提升怎么办?我们知道,无论过去还是现在,大模型本质上都是神经网络,而神经网络的核心就是矩阵的运算,总计算开销等于计算量×单次运算开销,这里的计算量是指矩阵中的非零元数量,非零元才是需要进行乘法和加法运算的,另外一类因素则是每一个非零元的描述需要用多长的向量来进行存储,这是当时看到的两个非常重要的基本优化方向。
为什么大模型/神经网络可以被优化?传统模式是先做算法设计,设计完了以后再去做硬件设计。但是由于神经网络有可学习特性,因此可以两个阶段一起优化,从而在保证算法精度不变的情况下,让矩阵中更多的元素变成0,或者让矩阵里的元素变成更短的向量(比特),这是我们过去很长一段时间在做的工作。人脑中神经元的连接数看起来不多,每个神经元大概只与不到10%的其他神经元相连,也就是说即便有数十亿个参数,实际有效连接只有不到亿量级。所以我们希望借鉴生物的发展,让模型的矩阵变得稀疏。当然,在进行稀疏化的探索中,我们后来看到三个趋势:
第一个,是稀疏对象从权重稀疏发展到激活稀疏,这是因为在大模型时代,模型的主要瓶颈转化为注意力机制中的激活值计算,激活值稀疏成为研究重心;其次是稀疏模式从非结构化发展到结构化稀疏,因为硬件本身是稠密结构化的,对于结构化的稀疏数据才能算得好,不能是随机出现的非零元,而必须是规整的非零元;第三个趋势是从后训练稀疏发展到稀疏训练,DeepSeek也在做这块的尝试,一边训练一边让矩阵变稀疏,使得零元数量可以从50%进一步增加到75%。
另一个重要的方向是量化。因为人脑的运作依赖一个个脉冲,脉冲其实就是0和1,这与我们现实计算系统中常用的32位浮点或64位浮点存在巨大差异。因为一个是64位长度的,一个是简单的0/1信号,所以现在在神经网络优化中,可以进一步变成8比特、4比特等。我们也看过去的10多年,从32比特浮点到8比特定点,这是在2015、2016年的时候大家就形成的共识。再从INT8到INT4或者二值,当然二值的方案业界还在努力过程中,效果不是那么好。所以大家现在看到的基本上都是FP8、FP4,这也是英伟达芯片里都支持的数据表示。
现在国产芯片也在慢慢支持FP8、FP4,以此来支撑更高效的训练和推理工作。从第一类系统最核心的矩阵维度来看,矩阵运算实际上是模型推理的基础,而无论是模型训练还是大规模Agent推理,都需要整个计算系统的支持。整个系统的有效算力,取决于集群的总卡数和单芯片的算力。具体来看,目前的技术路径是从晶圆级别(on-wafer)的集成开始,将多个芯片集成在同一硅基板(silicon)上。如果一个硅基板上面做的是一个独立芯片的话,那么下一步就是在单台机器内实现芯片间的互联,然后再进一步实现服务器之间的互联。通过把多个超节点组合起来,最终变成一个整体的服务器集群。因此,构建出具备高总算力的集群,是一个从底层芯片到上层架构逐级集成和互联的过程。其中每一个环节——从芯片设计、互联技术到集群架构——都存在显著的优化空间,这也为整体算力提升提供了多种可能性。
我们一直在说要做“小盒子”、“中盒子、“大盒子”的优化,每个层面关注的重点不同。在小盒子层面,优化主要集中在计算本身;到了中盒子,重点转向不同芯片之间的连接与协同,包括计算流水的优化,以及多维并行策略的优化;在大盒子(千卡、万卡乃至十万卡)的维度,更重要的是怎么做到很好的资源调度,以及怎样保证系统稳定性,例如在万卡甚至十万卡规模的时候,如何确保任务执行的正确性、故障发生时能否快速检测与恢复,以及如何实现有效的容错管理。因此在系统的优化方面,还有很多需要解决的问题,行业内大家都在很努力地前进,不断推进相关工作。
在端侧,我们的应用需求和现实能力之间,基本上还有10倍左右的差距,当然我们看到今年WAIC上已经有峰值200Tokens/s的端侧方案提出,非常期待能尽快看到这些突破在实际使用中真正满足人们日常生活的需求;在云侧,行业也正很积极地从能效角度推进优化,提升每节点的Tokens/J能效,从而实现更加高效和可持续的计算。
从基础设施层来看,一方面我们要去优化生态的差异,做到多元异构生态现状的优化;另一方面,需要在不同的层级,从底层的基础设施层,到中间的模型层,再到上面的应用层,都要做联合的优化,才能打造出更好的AI基础设施设计。
在这里,我们也展示一下无问芯穹所实现和支持的,从底层基础设施到上层人工智能应用的多元算力调度和优化工作。目前,我们的集群在全中国多个省市都能为主要的算力消耗方提供服务,包括北京、上海等,我们希望下一步能在这些公共平台的基础上,进一步提升算力应用的高效性。
在实际应用的过程中,也会衍生出很多不一样的问题。刚才我们讨论的是单个模型的训练或者推理,而当下游任务从单个大模型发展到智能体协作时,会有多个模型同时出现在一个集群上,而且是单次任务调度或者多次任务调度的时候都会出现,所以GPU的利用率会降低,动态性会变强,开销也会很大,这些都是我们正在解决的问题。
第二个方面,从单个智能体发展到多个智能体的时候,也会产生很多问题。包括并行性、上下文处理、工具复杂度等,在各个不同的窗口、容量和能量的上限都会面临挑战,所以系统需要有进一步的工具和系统优化,支持单智能体到多智能体的发展。
第三个方面,今天的论坛后面会讨论具身智能,具身智能将推动研究重心从云侧芯片到端侧推理演进,这标志着智能系统将从数字世界迈向物理世界,真正对物理世界产生作用。若要在端侧实现非常好的效果,例如部署7B参数规模的模型,其在能效上基本需要做到20Tokens/J以上,同时推理速度还要做到100-200Tokens/s,这是非常难的技术挑战,也是智能系统从数字迈向物理世界过程中所面临的重大难题。
最后,我们希望无问芯穹能够联动产业链上下游的伙伴,共同打造新一代的云端和终端设备。目前,我们正在积极适配各类端侧芯片,持续服务包括联想在内的众多合作伙伴。未来,我们希望既能借助AI云能力赋能千行百业,也助力新终端走入千家万户。
来源 | IPO早知道