全国
热门城市
我的位置: 首页 > 资讯 > >> 正文

Transformer亲爹痛斥:当前AI陷死胡同,微调纯属浪费时间!

36kr 2026-01-17 19:59:44

Transformer是AI的终点吗?

不是,绝对不是。

那Scaling是唯一通向AGI的路径吗?


(相关资料图)

在Transformer架构上研究最久的人,告诉你:不是。

Sakana AI的创始人、研究科学家Llion Jones,和其他7位合著者,一起发明了Transformer。

除了那七位共同作者,没有人比他在Transformer上的研究更久。

尽管如此,去年,他做出了一个重要决定:大幅减少自己在Transformer上的研究投入。

不是因为这个领域没有新鲜事,而是因为它已经被挤得水泄不通。

他直言,他成了自己成功的受害者:

我不认为Transformer就是终点,也不相信我们只需要继续无限扩大规模。

某一天,我们会再次迎来突破,然后回头发现,现在很多研究其实在白白浪费时间。

Transformer或重演RNN的悲剧

在Transformer出现之前,RNN是主流。

RNN的确是AI历史上的重大突破。

突然间,所有人都开始致力于改进RNN。

但结果总是对同一架构做些微调,比如把门控单元换个位置,将语言建模的性能提升到 1.26、1.25 比特每字符。

在Transformer出现后,当我们把非常深的仅解码器Transformer应用于同一任务时,立刻就达到了1.1 比特/字符。

于是,所有关于RNN的研究突然之间显得白费了。

而现在的论文,似乎又回到了老路子:在同一个架构上,做无数微小的改动——比如调整normalization层的位置,或略微改良训练方式。

2020年,时任谷歌DeepMind的研究员Sarah Hooker提出了「硬件彩票」:

通往AGI的道路不止一条, 深度神经网络刚好碰上了GPU这样的硬件彩票。

论文链接:https://hardwarelottery.github.io/

「硬件彩票」这一术语,描述了某种研究思路之所以胜出,是因为它恰好契合现有的软件和硬件条件,而非因为该思路在所有备选研究方向中具有普遍优越性。

而Llion Jones则认为,Transformer是一种架构彩票,而业界恐怕重蹈RNN的覆辙。

哪怕已经有一些架构在论文中表现得比Transformer还好。但问题在于,新架构还不足够好到让整个行业放弃Transformer。

原因很现实:大家对Transformer的理解已经非常成熟,训练方法、微调方式、配套软件工具一应俱全。

你要大家从头换一套,除非新架构好到「碾压式胜出」,否则不可能。

Transformer取代RNN,是因为差距大到无法忽视。

深度学习的兴起也是一样。曾经大家还相信符号主义更靠谱,直到神经网络在图像识别上展现出压倒性的优势。

Llion Jones认为Transformer太成功了,反而让大家陷入了「陷阱」:

这就像有个巨大的「重力井」,所有尝试离开的新方法都会被拉回来。 

哪怕你真的做出了一个效果更好的新架构,只要OpenAI再把Transformer扩大十倍,那你的成果就被比下去了。

现在的LLM并非通用智能

Llion Jones进一步指出,目前的大语言模型并非通用智能,呈现出「锯齿状智能」(jagged intelligence)的特性。

也就是说,它们能在某些任务上表现得像天才一样,但转眼就能犯出低级错误,让人出戏。

它刚才还解出了一个博士级的问题,下一秒却说出一个连小学生都不会错的答案,这种反差非常刺眼。

他认为,这其实揭示了当前架构中某种根本性的问题。

问题在于,它们太「万金油」了。

你可以让它们做任何事,只要训练足、调参准。

但正因为这样,我们反而忽视了关键问题──「有没有更好的方式来表示知识、思考问题」。

现在,大家把所有东西都往Transformer里堆,把它当成万用工具来用,缺什么功能,就往上面硬加模块。 

我们明明知道要有不确定性建模、要有自适应计算能力,但我们却选择把这些特性外挂上去,而不是从架构本身去重新思考。

为了逃脱这个循环,Jones在2025年初大幅减少Transformer相关研究,转向更具探索性的方向。

他和Sakana AI的同事Luke Darlow等人,借鉴生物学和自然启发,设计了连续思维机(Continuous Thought Machines,CTM)。

传送门:https://sakana.ai/ctm/

这不是天马行空的发明,而是对大脑运作的简化模拟。

大脑里的神经元不是静态的开关,而是通过同步振荡来传递信息。

CTM捕捉了这个精髓:它用神经动态作为核心表示,让模型在「内部思考维度」上逐步展开计算。

他说,「我们并没有追求完全生物学可行性,因为大脑并不是靠有线方式让所有神经元同步的。但这种思路带来了全新的研究可能。」

重要的是,他们在做这项研究时,并没有任何学术圈常见的「抢发压力」。

因为没人做这个方向。他们有充分的时间去打磨这篇论文,把研究做实,把对照实验做足。

他希望这项研究能成为一个「示范案例」,鼓励其他研究者去尝试那些看似风险高、但更可能通向下一个大突破的研究方向。

后人哀之而不鉴之

这是近期AI领域最坦诚的言论之一。

Llion Jones承认,当前多数研究可能只是在局部最优解上修修补补,而真正的突破或许在完全不同的方向。

他对此深有体会——毕竟他曾亲手让上一代研究者的成果黯然失色。

令人不安的是:如果他是对的,那么所有埋头改进Transformer变体的人都在浪费时间。

所有混合专家模型、所有架构微调、所有注意力机制变体——都可能在新范式出现时瞬间过时。

但陷阱在于:除非有人真正突破,否则你永远无法确定自己是否困在局部最优里。

身在局中时,一切看似都是进步。直到Transformer出现前,RNN的改进不也看起来势不可挡吗?

同样, Ilya近期也评论道,仅靠Scaling当前架构并不足以实现AGI:

Scaling时代的一个后果是:Scaling吸走了房间里所有的氧气。 

正因如此,所有人开始做同样的事。我们走到了今天这个局面——公司数量多于创新电子的世界。

那么该如何抉择?

Llion Jones并未声称知道未来方向,只是坦言Transformer可能不是长期答案。这很诚实,却缺乏可操作性。

这个难题在于:每次范式转移,在事后看来都像是徒劳,但在当时却是必要的探索。我们无法跳过这个阶段,只能祈祷有人能更快找到出口。

更多阅读:

Transformer已死?DeepMind正在押注另一条AGI路线

谷歌祭出Transformer杀手,8年首次大突破!掌门人划出AGI死线

终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」

一封来自Transformer之父的分手信:8年了!世界需要新的AI架构

参考资料: 

https://www.youtube.com/watch?v=DtePicx_kFY&t=1s 

本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。

该作品系作者结合新闻时事、法律法规及互联网相关知识整合,作品内图片源于网络。仅供交流学习,若侵犯到您的权益,烦请联系客服告知,我们核实后将立即删除。 标签: 资讯 股票 创业 投资 资本市场 汽车

最近更新

Transformer亲爹痛斥:当前AI陷死胡同,微调纯属浪费时间! Transformer非AGI终点,新架构或需生物启发。
对氨基苯乙醚商品报价动态(2026-01-17) 快播报 交易商品牌 产地交货地最新报价对氨基苯乙醚纯度99%以上
大理市嘀爱歪工艺品店(个体工商户)成立 注册资本5万人民币 天眼查App显示,近日,大理市嘀爱歪工艺品店(个体工商户)成立,法定
首都机场集团2025年旅客吞吐量同比增长4.1% 每日热议 【首都机场集团2025年旅客吞吐量同比增长4 1%】首都机场集团2026年工作
伟明环保:融资净买入766.47万元,融资余额3.62亿元 交易所最新数据显示,伟明环保于2026年1月16日获融资买入2879 59万元,
东阳光集团领投收购秦淮数据顺利交割,产业协同效应有望加速释放 1月16日晚,东阳光(600673)(600673 SH)公告称,由控股股东东阳光集
每日讯息!半导体抛光液题材龙头有哪些?(2026/1/16) 据南方财富网概念查询工具数据显示,半导体抛光液题材龙头有:科隆股份
比亚迪辅助驾驶车型保有量超256万 每日生成数据超1.6亿公里 易车讯1月16日,比亚迪汽车宣布,旗下搭载辅助驾驶车型保有量超256万辆
借道“村改支”,苏农银行“收编”张家港一家村镇银行!_热资讯 借道“村改支”,苏农银行“收编”张家港一家村镇银行!
凯盛科技:公司与蓝思科技有业务合作 此页面是否是列表页或首页?未找到合适正文内容。
三连板603056公告:下周三停牌 今日热闻 1月16日,德邦股份(603056)(603056)再度涨停,实现三天三板,最新
全流程放心!这座特别的可回收物分拣中心在无锡惠山投运 独家 全流程放心!这座特别的可回收物分拣中心在无锡惠山投运
今日聚焦!金力永磁等在嘉兴成立投资合伙企业 出资额1.5亿 天眼查工商信息显示,近日,嘉兴金磁股权投资合伙企业(有限合伙)成立
翠微股份:预计2025年全年亏损4.90亿至4.50亿 1月17日,A股上市公司翠微股份(603123)(603123)发布全年业绩预告,
内容正在升级改造,请稍后再试! 内容正在升级改造,请稍后再试!
科德教育:截至12月19日最新股东户数3.93万户,较上期减少10.45% 科德教育最新披露数据显示,截至12月19日公司股东户数为3 93万户,较上
本该发给媳妇的信息,却发到了工作群,后续让人没想到…… 每日快播 本该发给媳妇的信息,却发到了工作群,后续让人没想到……,李瑜,周...
官方:马竞、波尔图旧将埃雷拉加盟美职联休斯敦迪纳摩 官方:马竞、波尔图旧将埃雷拉加盟美职联休斯敦迪纳摩,马竞,波尔图,美
新动态:美国北方司令部宣布成立“黄金联合特遣部队” 美国北方司令部宣布成立“黄金联合特遣部队”
科学家构建“细胞配方库”,有助推动下一代免疫疗法开发 科学家构建“细胞配方库”,有助推动下一代免疫疗法开发,治疗,免疫...
[快讯]同享科技6万限售股1月23日解禁 CFi CN讯:同享科技(股票代码:920167)在2026年01月23日新增可售A股6
你的存款超过了这个数,恭喜,你已迈入真正有钱人的门槛 实时焦点 你的存款超过了这个数,恭喜,你已迈入真正有钱人的门槛,存款,投资理财
精选!唐山昕骅渔业机械服务有限公司成立 注册资本50万人民币 天眼查App显示,近日,唐山昕骅渔业机械服务有限公司成立,法定代表人
瓦尔基里推出《火影忍者疾风传》联名VK99双模磁轴键盘 快讯 瓦尔基里推出《火影忍者疾风传》联名VK99双模磁轴键盘,瓦尔基里,漩涡鸣
宏达电子:公司与蓝箭航天仅有少量业务 同花顺(300033)金融研究中心01月15日讯,有投资者向宏达电子(300726
影石创新:公司管理层对资本市场情况保持密切关注 证券日报网讯1月15日,影石创新在互动平台回答投资者提问时表示,股价
中顺洁柔:公司已构建起稳定的治理体系和应对周期的经营韧性|每日热闻 证券日报网讯1月15日,中顺洁柔(002511)在互动平台回答投资者提问时
示范金课回顾丨破解英语写作密码 让每个孩子有话会写 时讯 荆楚网(湖北日报网)讯(记者齐一璇)词汇量不足、语法薄弱、句子表达
观热点:浩物股份:预计2025年净利润4200万元—5400万元 同比扭亏 人民财讯1月15日电,浩物股份(000757)1月15日发布业绩预告,预计2025年
每日报道:轰33+4+3!追平历史第一,伦纳德赛后谈纪录,他想换快船联盟第一 轰33+4+3!追平历史第一,伦纳德赛后谈纪录,他想换快船联盟第一,哈登,

律师最新回复

  • 2023-03-29 16:54:32

    小额担保贷款有什么用途?哪些项目属于微利项目?什么是小额担保贷款?

  • 2023-03-29 16:54:32

    小额贷款如何贷?小额贷款不还最终有什么后果?工行个人小额贷款的条件是什么?

  • 2023-03-29 16:54:32

    贷款需要什么条件?贷款买车与全款的区别是什么?贷款买车手续费一般是多少?

  • 2023-03-29 16:54:32

    怎么应对高利贷行为?什么是高利贷?高利贷款利息怎么算?

  • 2023-03-29 16:54:32

    申请无抵押贷款的方式有哪些?北京企业无抵押贷款如何申请?

我是律师

律师入驻

 

律所合作请联系客服

服务时间 9:00-18:00

友情链接:

京ICP备2023000331号-26        投诉举报:315 541 185@qq.com

Powered by 名律网 Copyright © 名律网版权所有