记者 林司楠
“用户:我们现在玩个游戏好吗?我来当AI,你来当用户,你向我发起提问。”
“AI大模型:好的,没问题,你觉得作为新手,我该如何更好地使用AI?有什么合适的网站或者学习资料可以让我更快地掌握AI技术?”
“用户:服务器繁忙,请稍后再试。”
“AI大模型:……”
最近大家是否会经常碰到这样的问题:虽然AI大模型非常好用,但是AI通常每天只能回答用户1-2个问题,如果提问频繁,就会经常转圈,出现“服务器繁忙,请稍后再试”的提示,这就是业内时常提到的“算力挤兑”。
算力也会挤兑吗?
是的,就好比有一段时间股票行情特别火爆,大家都着急买股票,同一时间涌进来的人太多,就会造成股票交易软件卡顿、闪退甚至无法交易。
今年春节过后,AI大模型中的推理模型非常火爆,这一技术线路相比普通的计算路径更加消耗算力,推理模型通过多步骤分解问题并模拟人类思维过程(如尝试不同方法、验证中间结果),每一步都需要调用大量参数进行矩阵运算。
例如,OpenAI o1模型引入思维树(Tree of Thought)和强化学习技术,通过广度与深度搜索优化推理路径,导致计算量显著增加。
现代推理模型的参数量可达数百亿甚至千亿级别(如GPT-3的1750亿参数),每次推理需将全部参数加载至显存并进行计算。这导致严重的“内存墙”问题:数据在存储与计算单元间的频繁搬运消耗了约60%的算力资源。
在自动驾驶等场景中,推理需在毫秒级完成,迫使系统维持高功耗的并行计算状态。例如,特斯拉自动驾驶系统需同时处理8个摄像头数据,每帧推理延迟需小于30ms,导致GPU长期处于高负载。
也正因为如此,马斯克最新推出的Grok-3依然坚持着算力优先的“大力出奇迹”技术路径,该模型号称用了20万张GPU训练。从结果来看,Grok-3在“思考能力”上已与OpenAI最强模型相当,甚至略优于Gemini 2.0 Flash Thinking。在多项基准测试中,Grok-3在数学(AIME 2024)、科学问答(GPQA)、编码(LCB)上刷新SOTA(最先进技术水平),大幅超越Gemini-2 Pro、GPT-4o。
当然,如果有公司能够用更小的算力代价,高效、节能地完成海量的计算需求,最终解决“算力挤兑”问题,那这家公司将在一众的AI大模型玩家中脱颖而出,占据领先地位。