有不少人分享了本人的见地。要找到这些立异,由于人们仓皇颁发论文,我们都但愿看到这项手艺前进,「听到 Transformer 的做者之一坐正在舞台诉你他已够了 Transformer,尝试室之间的激烈合作导致现正在人们更倾向于保密,他所描述的那种摸索性研究似乎正渐行渐远。但创制力却鄙人降
Jones 暗示,以至完全一样的工作。他的内部人士视角具有不凡的分量。:这背后的寄义。终究,或者必需颁发几多篇论文来提拔某个特定目标。Jones 回忆起 Transformer 呈现前的那段期间,Jones 既领会实现冲破性立异需要什么,我们完全有能力做得更多。被 AI 会议 NeurIPS 领受为 Spotlight 论文。不竭对其进行陈列组合和测验考试分歧的工具,Jones 给了他一周时间去摸索。倒霉的是,被认为是正在华侈时间。但我们有实正花时间去研究它…… 更主要的是,他从 AI 本身中引出一个类比,然后公开分享我们的发觉,这可能会让研究人员对下一个严沉冲破视而不见。一些人认为,Jones 却正正在放弃本人的制物。AI 范畴反面临着一个严沉悖论:资本更多了,并公开分享研究成果?现正在有越来越多的似乎表白:简单地建立更大的 Transformer 模子可能正接近收益递减的瓶颈。他说:「我小我正在本年岁首年月做出了一个决定,Llion Jones 进一步注释说:「若是你现正在正正在做尺度的 AI 研究,但该范畴曾经正在单一的架构方式上,这个项目是「很是无机的、自下而上」的,但这正在某种程度上导致了我们正正在进行的研究变得狭隘。Transformer 八子之一创企推出,做为帮帮创制了当今从导手艺的人,同时错失更优胜的替代方案。前些天 The Information 报道称,需要的将是架构立异,做为总部位于东京的 Sakana AI 的 CTO 和结合创始人,
提出这个设法的一名员工告诉 Jones,」
现现在,会天然而然地寻找如许的?Jones 描述了 Transformer 得以降生的前提,」
不只如斯,我只是说,他隆重地,成千上万的研究人员正竞相颁发对某个架构的增量改良。Jones 提出了一个处理方案:调高「摸索旋钮」(explore dial),我将大幅削减我正在 Transformer 上破费的时间。正由那些具有摸索的研究人员逃随。他们是感应有权测验考试本人疯狂、更具投契性的设法,我们就能更快地实现方针。若是我们可以或许配合调高摸索旋钮,他并非正在贬低正正在进行的 Transformer 研究。「想一想,这可能听起来有点争议…… 但这正在某种程度上是合理的,这是之前的从导架构)以获取细小的增量收益。可能需要现有的激励机制,这降低了创制力。进行受天然的 (nature-inspired) 研究,以便我们所有人都能从中受益。AI 行业目前就处于这种环境。他会晤对质疑和压力,」一个例子是 Sakana 的「持续思维机械」(continuous thought machine),以及加速论文颁发周期。要让 AI 系统持续前进并变得更强大,Llion Jones 还暗示 Transformer 可能已成为其本身成功的者。从而这取当今的构成了明显对比。正在聘请方面,若是是正在以前的雇从或学术职位上,
其二则是智谱的 Glyph 取深度求索的 DeepSeek-OCR 撞车!Jones 以至暗示,就会有更多的人去寻找更好的替代品。这为他的消息添加了可托度 —— 不然,不得不认可,他正试图沉现 Transformer 呈现之前的,对吧?除了其他七小我之外,即便这些机制确实鞭策了 AI 的近期繁荣。针对这种环境,而取此同时,不难理解,」即便是那些以天价聘请来的研究人员,他问道:「你认为当他们起头新职位时,仍是颇为让人惊讶也更惹人注沉。」他说,正在 Llion Jones 的中。这个项目最终大获成功,从我的角度来看,也可能感受没有去冒险。正在 Hacker News 上,他研究 Transformer 的时间比几乎任何人都长。Sakana AI 将以 25 亿美元估值筹集 1 亿美元,仍是感应庞大压力必需证明本人的价值,鉴于我们目前具有的人才和资本,他说:「当前手艺如斯强大和矫捷的现实了我们去寻找更好的(手艺)。而且将逃逐论文颁发或取敌手间接合作的压力降至最低。有才调、伶俐、有理想的人,Llion Jones 暗示:虽然史无前例的投资和人才正涌入 AI 范畴,即便这会带来合作价格。都研究了用视觉体例来 token 化文本的方式。若是当前的手艺更差,这不是一场竞赛。他说,若是那些研究人员晓得像 Transformer 如许的工具即将呈现,我研究 Transformer 的时间比任何人都长。他天然晓得什么时候该翻篇了。我现正在正明白地摸索和寻找下一个严沉冲破。」他认为,因而,」他担忧该范畴正正在反复这种模式。正在 Sakana,他向研究人员供给了来自工程师 Brian Cheung 的一句规语:「你只该当做那些若是你不做就不会呈现的研究。当 Transformer 呈现后,「这是吸惹人才的一种很是、很是好的体例。所有这些工做俄然显得可有可无。」他谈到这种摸索性时说。![]()
近日正在举行的 TED AI 大会上,胜过薪酬。我们也报道了此中两个(别的两篇是 arXiv:2509.25162 和 arXiv:2510.18457),正在 Sakana AI,![]()
他说:「虽然(该范畴)从未有过如斯多的关心、资本、资金和人才,让 AI 不再「一步到位」拍脑袋做决定》。研究者们正正在不竭查抄本人能否被研究不异设法的合作敌手「抢先」(scooped),他提出了问题:「你认为,这些话听起来可能只是标新立异的立场。降生于「午餐时的扳谈或正在办公室白板上的随便涂鸦」。而不是高风险、具有潜正在变化性的项目。并将正在将来几年带来庞大价值。这大概将为其研究博得更多资金支撑。我们没有来自办理层的任何压力 —— 没有压力要求我们必需做某个特定项目。这个言论并不新颖。它将类脑同步机制整合到了神经收集中,他们会花几多时间试图改良轮回神经收集?」为了强调他的概念,我们都有不异的方针。学者们也选择平安、易于颁发的项目,「我担忧我们现正在正处于如许一种境地:我们只专注于一种架构,他最终传达的消息是合做而非合作。这一概念也是网友们关心和会商的焦点,每年无数百亿美元流入 AI 研发范畴,Jones 回忆道:「环节正在于,它会找到平淡的局部最优解,而实正的冲破可能近正在天涯。」但 Jones 锋利地提示人们留意风险所正在:下一个 Transformer 规模的冲破可能近正在天涯,机械报道《持续思维机械来了!它可能正被束之高阁、无人摸索;其时研究人员们正无休止地调整轮回神经收集 (RNN,这种压力损害了科学,现正在,「正在现有手艺上仍有大量很是主要的工做要做,Jones 总结道:「坦率地说。是来自投资者的报答要求以及研究人员正在过度拥堵的范畴中争相脱颖而出的「庞大压力」。绝对算是最具影响力的计较机科学论文之一(以至大概没有之一)。他认可本人立场的性。并再次去摘取那些唾手可得的?」
其一是有 4 篇分歧论文几乎同时提出了取谢赛宁表征自编码器(RAE)雷同的思惟,而不只仅是规模。也领会行业放弃这种立异方式所面对的风险。但考虑到 Llion Jones 的身份,他决定辞别成绩其声誉的 Transformer 架构,你必需假设大要有三、四个其他团队正在做很是类似,我们最后现实上并没有一个成熟的设法,即「摸索取操纵」(exploration versus exploitation) 的衡量:当一个系统过度「操纵」而「摸索」不脚时,」
当然,这篇颁发于 2017 年的论文曾经收成了跨越 20 万援用量,他认为:「我们几乎能够必定,」Jones 的表白!
