凌晨两点,模型卡页突然弹出一句“time.Se极”,后端日志瞬间爆红,我盯着屏幕愣了十秒,脑子里只有一个念头:『DeepSeek』又放毒。没想到天亮就刷到官方推送——V3.1-Terminus上线,号称“终点”版本,还把源码扔进GitHub。那一瞬,熬夜的怒气被好奇心按下去:到底真修好了,还是换个名字继续“极你太美”?我拎着咖啡钻进测试机房,把旧版留下的失败用例全部翻出来,挨个往里扔,准备看它能撑几轮。
先说最闹心的语言串烧。上一次让它解读《红楼梦》,它突然冒出一句“this metaphor真妙”,直接把弹幕笑崩。这回我复制了同样的提示词,输出稳稳停在现代汉语,连“metaphor”都没露头。还不放心,又把整段西班牙语塞进去,要求转译七国语言,结果每一行都锁死在目标语种,没有半句英文插足。我把输出贴进Diff工具,旧版那一堆五颜六色的乱码提示直接归零,一行红色都没出现,干净得像刚格式化的硬盘。
更隐蔽的雷是“极”字病毒。Go代码里只要调用API,返回的struct字段偶尔会自带“极”后缀,编译器当场罢工。我翻出那段曾逼疯同事的函数,重新请求十次,回包全部正常,字符统计里“极”出现次数为零。为了再补一刀,用Python循环跑一千次长文本生成,把结果扔进频率分析,高频词列表里依旧找不到“极”。那一刻,耳机里传来隔壁工位同事的惊呼:“日志不再刷屏了!”我知道,这个暗雷算是被彻底拔线。
性能彩蛋也在悄悄升级。官方说“人类最后测试”提高36.5%,我向来对百分比免疫,直接搬出MMLU-Pro、GPQA-Diamond原版题库,限时三十分钟,让它闭卷答题。分数从旧版的75.2跳到82.7,换算成百分位,正好挤进全球前三,把Gemini 2.5 Pro压在后头。更直观的是代码场景,我让模型写一段带缓存的并发爬虫,旧版需要七轮提示才能跑通,新版两轮就交出可直接部署的工程包,还顺手把竞态条件注释得明明白白,省下的时间够我下楼买杯拿铁。
有人疑惑一个月就能迭代这么猛,是不是参数翻倍。我扒了仓库里的config文件,总层数没增,注意力头也没暴涨,变化集中在对齐策略:训练流程里多了一步“语言一致性检测”,把混合语料重新过滤;解码端引入“字符异常惩罚”,一旦监测到无意义单字,概率立刻下调。两个小动作,就把之前的吐槽点精准缝上,算力成本却只增加三个百分点,性价比直接拉满。
“Terminus”这个代号值得玩味。拉丁文里意为终点,但官方路线图却透露第四季度还要发新架构。看似矛盾,其实把时间线摊开就能看懂:V3系列从八月官宣“迈向Agent时代”开始,一路小步快跑,语言、搜索、编码三大模块补齐后,已经没有明显短板,继续堆参数只会边际效应递减。命名为终点,更像给旧架构画上句号,为接下来的Agent原生模型让路。开发者社区里已经有人晒出内测邀请邮件,标题栏赫然写着“Agent-First”,时间点与Terminus发布仅隔两周,接力棒交接得毫不拖泥带水。
我把测试记录发进朋友圈,半小时收到两百多条私信,一半是问API价格涨没涨。官方公告写得干脆:定价维持原样,上下文长度放长到128K,批处理速度再提20%。对于已经在生产环境跑应用的团队,这等于直接降价。有人担心开源之后会被抄作业,我反倒觉得『DeepSeek』把最难啃的骨头啃完了,后续拼的是生态。仓库里同步放出的Plugin SDK比上个月版本多出十一个钩子,浏览器、数据库、Docker一口气全接入,Agent落地场景瞬间从聊天框扩展到整条工作流。
凌晨的机房灯光惨白,我把最后一行日志保存,伸懒腰时忽然意识到,困扰两个月的随机字符、语言串烧、代码异常,全在这一夜安静消失。屏幕上只剩下一行绿色提示:All tests passed. 那一刻,我没有“终极”的仪式感,反而闻到新一轮竞赛的火药味。V3.1-Terminus像一道关门声,把旧烦恼关在身后,走廊尽头已经亮起“V4”和“R2”的指示牌。国产大模型的接力跑,才刚进入冲刺段。