在2026年的AI大模型赛道里,我们团队最近经历的一件小事,像一把钥匙,突然打开了我对整个行业底层逻辑的全新认知。这件事说起来没有任何惊天动地的技术突破,甚至在很多人眼里,它只是一次不起眼的“抠门”操作——我们的几个年轻工程师,对着性能分析工具死磕了整整三周,在推理引擎的调度逻辑和显存分配机制上一点点挤水分,最终把大模型的单卡推理吞吐率提升了不到5个百分点。
放在十年前的互联网行业,甚至五年前的云计算赛道,这几个点的性能提升,几乎掀不起任何波澜。你拿着一份标注着“吞吐提升3%”的PPT去找客户,对方大概率会笑着摇摇头,告诉你这点优化在他们的全年算力账单里,连零头都算不上。但这次的结果,完全超出了我们所有人的预期:周一早上,我们把这版优化合并进主干代码,完成灰度上线,没有开任何发布会,没有做任何客户通知,甚至连内部的全员邮件都没发。结果第二天一早,运营团队打开实时看板,所有人都愣在了原地——那不到5个点的吞吐提升,已经完完全全转化成了报表上跳动的数字。
同样的A100显卡集群,同样的千亿参数大模型,同样规模的存量客户,仅仅因为每一张卡每小时能多吐出几万枚token,单位token的生成成本直接下探了近5%,对应的整体毛利空间,在一夜之间就厚出了实实在在的一层。从那一秒开始,这个藏在几十万行代码里的微小优化,就变成了一台永不停歇的小型印钞机,每一秒钟都在为公司创造额外的收益。更让我感慨的是,这个优化的最初想法,来自团队里一个刚毕业两年的00后工程师,他甚至没有写过一份正式的项目立项申请,只是在深夜的工位上盯着profiler的曲线突然灵光一闪。从那个闪念出现,到这个想法变成公司利润表上的正向数字,中间只隔了不到一个月,而真正完成落地变现,甚至只需要一个普通的夜晚。
被token碾碎的长链条:快到极致的收益,也快到极致的生命周期
这件事发生之后,我和身边十几个做模型、做算力、做AI应用的创始人朋友聊天,几乎所有人都发出了同一句感慨:我们正在亲历整个科技行业有史以来最特殊的一个时代。在过往任何一个科技赛道里,你都找不到这样一种规则——技术上的微小领先,能以几乎违背常识的速度,直接兑换成市场影响力、行业竞争壁垒,甚至是真金白银的现金流。
如今的头部大模型公司,核心的业务逻辑已经被简化到了近乎赤裸的程度:集中所有资源把模型的核心能力推到新的高度,快速完成推理侧的适配优化,备足足够的算力来承接海量的token生成需求,顺手把非核心的部分能力开源给社区。剩下的一切——用户的自发涌入、营收曲线的陡峭上扬、估值的指数级攀升,都会在极短的时间里自然生长出来,根本不需要你用过去互联网行业那套“烧钱换增长”的逻辑去慢慢铺垫。
但所有的高速都暗中标好了代价,这条从技术到利润的链条,一端快到离谱,另一端的生命周期也同样短得让人窒息。过去一款爆款软件的生命周期可以长达三五年,一款现象级的互联网产品甚至能统治用户十年以上的时间。但在今天的大模型赛道里,每一代旗舰模型的“当红窗口期”,已经被残酷地压缩到了3到6个月,这还是行业里最乐观的估计。更多的时候,一款模型从全网刷屏的“神作”,到彻底从行业讨论里消失,可能只需要1到2个月的时间。
过去半年里,整个行业的风向切换速度,已经快到了很多人根本反应不过来的程度。2025年11月,谷歌带着Gemini 3横空出世,在几乎所有主流评测榜单上屠榜,直接逼得OpenAI内部紧急拉响了“红色警报”。那两个月里,几乎所有的行业社群里,所有人都在讨论Gemini的颠覆性能力,不少人甚至直接断言谷歌将彻底夺回大模型赛道的主导权。结果仅仅半年过去,全网关于Gemini 3的讨论已经寥寥无几,不是这款模型的用户停止了增长,而是这个赛道的聚光灯,从一开始就只会在每一个新选手身上停留3个月。
再往前回溯,Claude Opus 4.6刚发布的时候,整个行业都在惊呼“AGI的雏形已经出现”,它的长文本理解和逻辑推理能力,在当时确实对所有竞品形成了碾压级的优势。结果仅仅过去几个月,随着4.7、4.8版本的快速迭代,新的赞誉和新的质疑几乎同时涌来,没有人再把它当成那个“改变世界的唯一答案”。
OpenAI的故事更是充满了戏剧性。很长一段时间里,行业对它的编程能力的吐槽从来没有停止过,早期的Codex产品我自己用过一段时间就直接退订了,实际体验确实差强人意。结果靠着GPT-5.4、5.5两代版本的连续迭代,Codex像是直接换上了我们这次优化过的全新推理引擎,体验完成了脱胎换骨的跃迁。根据OpenAI官方公开的数据,Codex的周活跃用户已经突破500万,自从2026年2月桌面端正式上线以来,用户规模直接翻了6倍,硬生生把一个所有人都看衰的边缘产品,从被淘汰的泥潭里直接拽了出来。
国内赛道的两个样本,更是把“快”这个字演绎到了极致。智谱在一年前还处在岌岌可危的位置,所有人都觉得它即将在头部玩家的竞争里掉队。结果靠着GLM-4.5、4.6、4.7的连续迭代,2026年开年又直接甩出GLM-5、5.1、5.2三个重磅版本,三个月内完成三次能力跃迁,整个行业格局直接被改写。港股上市仅仅半年,股价涨幅就达到了惊人的8倍,市值一路冲到6000多亿港元,技术上的每一次微小进步,都直接实时写进了二级市场的股价曲线里。
而MiniMax则是另一个方向的典型样本。它上市之初的估值和智谱几乎处在同一量级,首日股价直接翻倍,市值一度冲到130多亿美元,在2026年3月的那波行情里,甚至短暂超过了百度在港股的市值。但风向的调转同样毫无征兆,随着M2.7、M3两代产品的口碑没能达到市场预期,整个行业的预期几乎在一周之内就完成了重置,它的市值从高点快速回落了接近一半。你不得不承认,这个赛道里捧你和抛弃你,用的完全是同一种速度。
如今所有行业会议的讨论,最终都会收敛到两个核心方向:AI编程能力的突破,和多模态体验的落地。过去几十年里互联网行业沉淀下来的那套估值逻辑——看用户时长、看营收结构、看生态护城河——在这个赛道里几乎完全失效了。所有的投资人、客户、行业从业者,心里其实都只在问同一个问题:你这一代新模型的核心能力,到底够不够强?
从十年磨一剑到一夜见收益:被token打碎的旧规则
今天这种“几天之内技术直接变成真金白银”的爽感,恰恰来自于我在基础设施行业摸爬滚打十几年的经历,我太清楚过去这条路径到底有多难走。我一直深耕在AI infra领域,做的是和底层算力基础设施深度绑定的工作。放在过去,如果你在集群调度、芯片利用率上做出了一个重大创新,把整体推理效率提升了15%,想要把这15%的优势转化成实实在在的商业收益,难度大到足以让大部分工程师直接撂挑子。
这种难度是系统性的。首先,这15%的性能提升根本没办法直接定价。你不可能跑到客户面前说,你的算力集群原来一年成本一个亿,现在我把效率提升了15%,你每年多给我1500万服务费。客户根本不会这么算账,他会把你这15%的提升,放进他自己的总拥有成本模型里反复推演,和你掰扯无数细节:你这15%的提升怎么在我的实际业务场景里验证?会不会在特定负载下其实只有5%?你做了优化之后集群的稳定性谁来兜底?后续芯片供应链波动带来的额外成本算谁的?
于是一个原本很纯粹的技术优化,想要走到客户真金白银买单的那一步,中间隔着长达一两年的商务周期,复杂到让人头大的供应链流程,还有一支动辄几十上百人的销售和解决方案团队。你必须养一整套庞大的组织体系,在商业链条的最末端一点点磨,花几个月甚至一两年的时间,才能把一行行代码里的技术优势,慢慢磨成利润表上的数字。底层的技术迭代动一下,远在市场端的反馈,可能要等半年甚至更久才能传回来。
比漫长周期更尴尬的是技术迭代的速度。你带着团队吭哧吭哧围着某一代主流模型优化了好几个月,熬了无数个通宵终于把方案做出来了,结果抬头一看,这代模型的市场红利期早就过去了。前期投入的几百万研发成本还没来得及回本,你瞄准的那个“标的”本身已经被市场淘汰了。所以过去很长一段时间里,推理基础设施这个赛道,一直卡在一个极其尴尬的位置:所有人都嘴上说着它是AI行业的核心底座,未来价值不可估量,但没有任何人能拿出一个清晰可落地的商业模式,所有人都在烧钱等一个看不到头的未来。
而今天所有的规则被彻底改写,核心的转折点,恰恰是AI编程需求的全面爆发,直接把整条技术变现链条里所有的水分全部抽干,短到了近乎不真实的程度。这里最核心的秘密,藏在token这个东西的底层属性里:它是完完全全的现货,从来不是什么需要等待交付的期货。
你完全可以把token理解成水电一样的基础能源,它根本不存在传统商品的“设计-生产-运输-交付”的漫长流程:用户的请求发出来的那一刻,算力集群就在实时计算,几秒钟之后生成的结果就直接返回给了用户。就是这么一个极其简单的属性,把过去几十年科技行业沉淀下来的所有商业规则,全部推翻了。
我们团队花三周时间磨出来的那几个点的吞吐提升,一旦完成上线,从第二天开始就进入了实时结算的状态:每天的算力产出里多挤出来的那几个百分点,不需要等到下个财年审计,不需要放进客户复杂的TCO模型里反复论证,更不需要养一支庞大的销售团队去挨个说服客户证明它的价值。每多生成的一枚token,都是在原有成本基础上多赚出来的利润,算力集群的整体产能上去了,单位token的真实成本自然就降了,公司的财务报表当天就能变得更好看。
更可怕的是这种优化的传播几乎没有任何摩擦。它根本不挑地域,只要是同型号的算力集群,跑着同版本的大模型,不管你的客户在国内还是海外,这套优化方案几乎可以直接平移过去,几个小时之内就能完成全量部署,几天之内就能覆盖所有的算力节点。
以天为单位,把一个底层技术的微小提升,直接兑换成实打实的商业回报,过去横亘在技术和利润之间那套又长又重的商业体系,被直接整个跳过了。这大概是整个人类科技发展史上,从技术突破到商业收益,最短的一条传导链条。
没有资历的赛场:这是属于年轻人的黄金时代
在整个行业里跑了这么久,还有一件事让我越来越觉得震撼:如今站在技术突破最前沿,亲手把这些微小优化变成巨额利润的人,绝大多数都是二十岁出头的年轻人。这个前所未有的快赛道,对年轻工程师的友好程度,超过了过去任何一个时代。
因为这个赛道的评判标准,残忍到了绝对客观的程度:你的优化到底让吞吐涨了几个点,模型的推理精度有没有掉,所有的数字都明明白白摆在看板上,跑一次测试就能得到毫无争议的结果,几乎完全不给“资历”“人情”“行业地位”这些东西留下任何生存空间。你根本不需要某个在行业里摸爬滚打二十年的前辈点头认可,也不需要你精通职场人情世故,更不需要所谓的“行业资深评委”给你盖章认证。只要你真的做出了能提升效率的东西,它的价值就会明明白白写在集群的运行数据里,第二天就能体现在公司的利润表里。
一个刚毕业两三年的二十多岁年轻人,完全可以靠着一次灵光一闪的技术突破,在未来几年里为公司创造出几个亿,甚至几十亿的商业价值。这种反馈的速度快到你当天就能看到结果,价值硬到没有任何人可以否定。在这条全新的从技术到利润的链条里,那些过去专门站在中间,负责评判你“够不够资格”的人,几乎已经完全失去了存在的空间。
我们现在身处的这个时代,是一个全球化的全新赛场,整个行业的节奏快到让人喘不过气,未来的竞争只会越来越残酷。但它也用最粗暴的方式,把过去横亘在技术和收益之间那些又长又重的冗余环节,连同那些只会靠资历卡人的“评委”们,一起彻底删掉了。最后剩下的,只有纯粹的技术创新,和那些真正把手弄脏,做出了这些技术的实干者。
链条里多余的中间人越少,真正在一线做事的人,就越值钱。
这是属于所有年轻工程师的最好的时代。