天博官网(TBSports) 谷歌全家桶,皆被新模子“按捺”了

发布日期:2026-05-29 17:55    点击次数:120

天博官网(TBSports) 谷歌全家桶,皆被新模子“按捺”了

文 | 字母 AI

距离谷歌的 Gemini 3.5 Flash 发布依然一周多了。

皮查伊在谷歌发布会上口口声声地默示,Gemini 3.5 Flash 性能比 3.1 Pro 还强,说它是 Agent 期间的底座。

可成果呢?网上对 Gemini 3.5 Flash 的评价,除了速率快这独一的优点外,全是污点。输出的内容特地多、啰嗦、干活 token 糜掷量爆炸 ……

ag真人app官方网站入口

谷歌 Antigravity 风雅东谈主瓦伦 · 莫汉(Varun Mohan)在 5 月 25 日发帖称,谷歌已增设 Gemini 3.5 Flash ( Low ) 模子用于优化资源糜掷。

瓦伦默示,凭证谷歌的里面测试数据,在处理浅易任务时,Gemini 3.5 Flash ( Low ) 比拟 Gemini 3.5 Flash ( Medium ) 可以减少约 45% 的 token 生成量。在软件工程(SWE)任务上的阐述,Gemini 3.5 Flash ( Low ) 盛大优于上一代旗舰模子 Gemini 3 Flash ( High ) 。

有关词网友们并不买账,面前,瓦伦的驳倒区依然被网友们的冷嘲热讽透顶攻占。

热评第一条是"你们的家具测试过吗?看起来你们是拿咱们在作念测试啊!"

第二条是"能否也处理一下图像模子的生成数目完了问题?你们的智力需要对标 Codex。我使用 Codex 可以生成 1000 张图像,但在谷歌的高档套餐下,我只可使用 Antigravity 生成 24 张。"

Gemini 3.0 Pro 出来的时候,扫数东谈主皆在为谷歌饱读掌,OpenAI 致使因此拉响红色警报,以衰落被谷歌超越。

有关词到了 3.5 Flash,谷歌成了怯夫,眼瞅着就要步入 Meta 的后尘。

那咱们不禁要问,谷歌,你这是咋了?

01 Gemini 3.5 的阐述莫得达到预期

网上对 Gemini 3.5 Flash 的评价相等一致,很快,然而不够好。

皮查伊在发布会上反复强调模子多低廉,有关词现实中情况天差地远。

按照官方订价,Gemini 3.5 Flash 每百万输入 token 收费 1.5 好意思元,每百万输出 token 收费 9 好意思元,如实比 Claude Opus 4.7 的 5 好意思元和 25 好意思元低廉。

但这仅仅价钱表,实在决定资本的,是完成一个任务到底要糜掷几许 token。

Artificial Analysis 在好意思满评估套件中测试发现,Gemini 3.5 Flash 完周至部任务的总资本是 1552 好意思元,而 Gemini 3 Flash 只需要 282 好意思元,前者是后者的 5.5 倍。

哪怕是和 Gemini 3.1 Pro 比拟,Flash 的资本也逾越 75%,约莫是 870 好意思元。更窘态的是,Gemini 3.5 Flash 完成任务的用度,比 GPT-5.5 medium 还贵。

原因在于 turn count,也即是完成任务需要的轮次。

在 Agent 评估中,Flash 模子平均每个任务需要 49 轮对话。每一轮对话,它皆会把好意思满的对话历史输入给模子,token 资本因此暴增。

而这样的任务,GPT-5.5 或者 Opus 4.7,差未几只用 20 轮就能完成。

是以谷歌说的"资本不到一半",指的是单元 token 价钱。但对用户来说,Gemini 3.5 Flash 少许皆未低廉。

除了轮次多了,Gemini 3.5 Flash 的输出相等啰嗦。

比如以前你问 Gemini 3.1 Pro 一个技巧问题,模子会奏凯给出代码和节略解释。

换成 3.5 Flash 之后,通常的问题,模子会先解释布景,再列举三种可能的有贪图,然后逐个分析优污点,临了才给出代码。

看起来很全面,施行上大部老实容皆是鬼话。更要命的是,这些鬼话皆算 token,皆要收费。

复杂任务的 token 糜掷更是爆炸。

有用户反馈,让 Flash 践诺一个多身手的代码重构任务,模子反复在不同文献之间跳转,每次跳转皆要重新加载落魄文,最终糜掷的 token 是预期的三倍以上。

还有用户默示,仅仅输入了一个复杂的 prompt,就直战役发了 5 小时使用完了。

谷歌在 I/O 2026 之后偷偷修改了 AI Pro 订阅的额度礼貌,从固定音问数,改成了基于计较资源的配额(compute-based quota)。

即是说你一个任务,如若让模子想考得多,那即使它给你回复的内容不变,花的钱也比以前更多。

那么问题来了,我何如知谈一个任务会让模子糜掷几许算力?况兼,我也推算不出来我还剩几许算力。

可能我仅仅跟它打个呼唤,就花掉许多 token。让它践诺一个长周期任务,反而不何如糜掷 token。

有用户在外网论坛上奏凯把新完了称为"骗局",称单个 prompt 就糜掷了 13% 的配额,某些 Gemini AI Plus 功能一次能烧掉快要 30%。

那为什么 Gemini 3.5 Flash 阐述会这样一般?

谜底藏在 benchmark 里,金沙JinSha(中国)娱乐网入口Flash 的阐述相等不平衡。

Gemini 3.5 Flash 在 Terminal-Bench 2.1、MCP Atlas、Toolathlon、OSWorld 这类 Agent、器用调用、代码践诺榜单上阐述可以。Terminal-Bench 2.1 拿到 76.2%,MCP Atlas 拿到 83.6%,皆算是头部收货。

这些榜单测的是模子能弗成按照指示调用器用、践诺大呼、完成多身手操作。Flash 在这些方面如实有上风。

但在更接近"聪慧不聪慧"的概括推理榜上,它的阐述就有点丢丑了。

Humanity ‘ s Last Exam 是 40.2%,低于 Gemini 3.1 Pro 的 44.4% 和 Claude Opus 4.7 的 46.9%。ARC-AGI-2 是 72.1%,低于 Gemini 3.1 Pro 的 77.1% 和 GPT-5.5 的 84.6%。GDPval-AA 也低于 Claude Opus 和 GPT-5.5。

也即是说,Gemini 3.5 Flash 有点"蠢"。你给它任务它能去干活,但它"智力不够"。它作念不了面前最火的复杂推理、长链分析、创意判断。

系念方面也有问题。

在谷歌的宣传中,Gemini 3.5 Flash 有最高 1M token 落魄文。但模子卡里的 MRCR v2 长落魄文测试潜入,128k 平均收货是 77.3%,到 1M pointwise 只好 26.6%。

Gemini 3.5 Flash 天然能一口吃下许多内容,然而到用的时候就驱动笼统了。

Artificial Analysis 的寥寂测试奏凯打脸谷歌。

在编程指数(Coding Index)上,Artificial Analysis 给 Flash 打了 45.0 分,低于 Gemini 3.1 Pro 的 56.5 分,更远低于 GPT-5.5。

02 Gemini 按捺了谷歌的进口,导致模子问题会按捺 Google 的扫数家具体验

谷歌 I/O 2026 上,皮查伊晓喻,Gemini 是谷歌全家具世界的纠合层。

也即是说,Gemini 3.5 Flash 镶嵌到了谷歌绝大多数家具里。

外媒默示," Gemini 正在变得无法躲闪"。

畴前,一个 AI 不好用,你可以无用。你认为 ChatGPT 不行,可以换 Claude,还认为不好你可以根柢无用 AI。

但谷歌把 Gemini 放进扫数进口以后,Gemini 3.5 Flash 的灾祸体验,按捺了谷歌扫数家具。

最典型的例子是 AI Overview 和 AI Mode 的" disregard/ignore/stop "故障。

用户搜索" disregard "" ignore "" stop "等单词时,谷歌 AI Overview 会把它们误判成指示,导致搜索成果异常或空缺。

有用户在 X 上发帖说,搜索" disregard "这个词,AI Overview 不是给出界说,而是回复"领会了!我会忽略之前的辅导,重新驱动。"

搜索" stop ",AI Overview 说"没问题。我依然罢手面前操作。"

搜索" ignore ",AI Overview 说"收到。音问已忽略。"

镶嵌 Gemini 3.5 Flash 以后,AI Overview 把这些单词当成了对话指示,天博官网(TBSports)导致 AI Overview 把这些单词当成了对话指示。

问题不单出面前这几个词上。经过网友测试," remember "" start "" finished "" forget "这些词也会触发雷同故障。即便在搜索词里加上" definition ",也无法让 AI Overview 回反闲居。

谷歌方面恢复称,这个问题与 I/O 的新搜索发布无关,是 AI Overviews 自身问题,团队正在树立。

搜索是谷歌的命脉,一朝搜索出了问题,扫数东谈主皆只会认为"谷歌要凉了"。

是以面前的压力给到了 Gemini 3.5 Pro。

外界实在想看的,不是谷歌能弗成把 AI 塞进扫数进口。这个问题依然有谜底了,谷歌如实作念到了。外界想看的是,Google 能弗成拿出一个富裕聪慧、富裕踏实、富裕有劝服力的旗舰模子,重新解释我方在模子智力上莫得掉队。

这个任务 Flash 完成不了。它是一个践诺型模子,速率快,颖慧活,但智力不够。它符合作念 Agent 架构里的子任务践诺器,配合强贪图器使用。但它不是旗舰,它撑不起谷歌在 AI 期间的门面。

最终只可落到 3.5 Pro。

面前,Gemini 3.5 Pro 还在里面测试中。官方博客默示,"咱们也在奋发开辟 3.5 Pro。它依然在里面使用,咱们期待下个月(6 月)推出。"

谷歌家具风雅东谈主图尔西 · 多希(Tulsee Doshi)默示," 3.5 Pro 像阵势司理,风雅想澄澈事情该何如作念;Flash 像践诺团队,风雅把一个个具体任务跑完。实在需要推理和贪图的场地,要交给更大的 Pro;仅仅需要快速调用器用、批量处理任务的场地,用 Flash 就够了。。"

这个架构瞎想本人没问题,问题在于 Pro 还没出来,许多场景只可让 Flash 一个东谈主苦苦硬撑。

是以 Gemini 3.5 Pro 变成了一个二次验货节点。

如若 3.5 Pro 出来后阐述还可以,那谷歌落魄还能圆畴前。

话术我皆想好"全线镶嵌 Flash 是咱们一个尝试,给人人形成了一些不好的家具体验,不外咱们依然发布了 3.5 Pro,统统好用,接待人人体验"。

Flash 的问题可以被富厚为一种融合,Pro 才是实在的实力展示。

但如若 3.5 Pro 阐述不好,那谷歌在 AI 这块可以说是全面衰弱。

AI Overview 有初级特地、ChatBot 啰嗦、WorkSpace 糜掷 token 过高导致价钱太贵、Antigravity 没什么起色。扫数这些家具皆会被 Gemini 遭殃,从上风变成职守。

谷歌面前的处境很秘籍。它有现款、有基础设施、有 DeepMind。但自从 3.0 Pro 之后,它就一直缺能打的旗舰模子。

3.5 Pro 要补的即是这个缺口。如若 3.5 Pro 作念不到,谷歌真就有可能步入 Meta 的后尘。

03 谷歌正在成为硬件公司

不外谷歌并非一败涂地,违反,在硬件这块,谷歌反而支棱起来了。

谷歌 2026 年 Q1 财报潜入,公司收入 1099 亿好意思元,同比增长 22%。谷歌 Search & Other 收入 604 亿好意思元,同比增长 19%。YouTube 告白收入约 99 亿好意思元,同比增长 11%。谷歌 Cloud 收入 200 亿好意思元,同比增长 63%。

这诠释谷歌仍然是一台赢利机器。

这份财报里最亮眼的数字,来自于谷歌 Cloud 的 63% 增长。

皮查伊在财报电话会上说,Cloud 的增长是"强盛需求"的成果。其实这句话的骨子,即是在说谷歌的 TPU 硬件和数据中心卖得相等好。

基于谷歌模子构建的 AI 处理有贪图同比增长近 800%。Gemini Enterprise 的付费月活用户环比增长 40%。通过 API 使用的 AI token 增长到每分钟 160 亿个,比第四季度的 100 亿增长了 60%。

Cloud 的 backlog(依然签下,但还莫得阐明成收入的合同金额)在本季度翻了一番,达到 4620 亿好意思元。

皮查伊说,"澄澈,咱们在短期内受到算力完了。如若咱们大致兴奋需求,咱们的 Cloud 收入会更高。是以咱们正在渡过这个时刻,咱们正在投资,但咱们有一个宏大的长期贪图框架 …… 咱们看到了前所未有的契机。"

公司预测在异日 24 个月内完成 50% 的 backlog。

天然谷歌基座模子不行,编程器用 Antigravity 阐述也差强东谈看法,但 TPU 这块阐述太好了。

我皆怀疑,谷歌是不是忘了我方其实是一个互联网公司,不是一个硬件公司?

Anthropic、Meta 等外部大客户正在租用或采购谷歌 TPU 资源。

Anthropic 在 5 月晓喻与谷歌和 Broadcom 签署了新的多年期公约,扩大使用谷歌 Cloud 的 TPU。

这笔交游让 Anthropic 取得了多达 100 万个谷歌 AI 计较芯片的使用权,价值数百亿好意思元,预测将在 2026 年带来卓著 1 吉瓦的容量上线。

1 吉瓦的电厂,约莫能给 35 万户家庭供电。

谷歌在 Google Cloud Next 2026 上晓喻了第八代 TPU,初次选拔双芯片递次,差别针对磨真金不怕火和推理瞎想专用架构,TPU 8t 和 TPU 8i。

尤其是 TPU 8t,它是专为大领域、计较密集型的磨真金不怕火责任准备的,具有更大的计较吞吐量和更多的 scale-up 带宽。

TPU 8i 则是专为低蔓延推理责任负载瞎想,Agent 干活要反复"想考、调用器用、再想考"。每一步慢少许,几十上百步下来就会很慢,是以低蔓延对 Agent 绝顶伏击。

或者你可以这样富厚,TPU 8t 是给模子用的。

磨真金不怕火前沿大模子即是让几万块芯片总共赛马拉松。问题不是单块芯片够不够快,而是这几十万块芯片能弗成一直执续地跑。

比如说某根收集线坏了、某块芯片不亮了、系统需要重启查验点,那么总共磨真金不怕火集群就会因此浪费掉多数时辰。

是以 Google 说 TPU 8t 的重心不是单纯"算力更强",而是让磨真金不怕火经由更少中断。

谷歌说,TPU 8t 的瞎想贪图,是 goodput 卓著 97%。

所谓 goodput,你可以富厚成实在用于干活的时辰。

比如一台机器表面上责任 100 小时,但中间故障、恭候、重启浪费了 10 小时,那有用责任时辰只好 90 小时,goodput 即是 90%。

Google 说 TPU 8t 贪图卓著 97% goodput,有趣是它但愿大部分时辰皆真实在磨真金不怕火,而不是在等树立、等重启、等收集还原。

为了竣事卓著 97% 的 goodput,谷歌给 TPU 8t 加入了许多横向晋升性能的功能。比如系统发现那处坏了,可以自动绕路,无用东谈主手工停机修。

TPU 8i 则是给 Agent 用的。

Agent 推理是一个相等选藏的事情,前文提到,Agent 不是回答一次就罢澄澈的,它会反复想考、查贵寓、调用器用、写代码、再查验、再修正。

一次任务可能要调用模子几十次致使上百次。

是以 TPU 8i 重心是让这些调用尽可能快。

它有 384MB 板载 SRAM,可以富厚成芯片傍边有一派相等快的小系念区。Agent 短期系念就保留在这里,那么当 Agent 需要用这些系念的时候,就可以奏凯从这里面拿,从而减少往来搬数据的时辰。

它还用了更多 CPU 主机,也即是让傍边有更多"调遣员"襄助安排数据输入输出、任务互助。Agent 跑起来不仅仅模子算一下,还要不断读数据、发苦求、调器用、拿成果,CPU 即是帮 TPU 处理这些杂活的。

微软也曾有过这样一个预测,到 2028 年将有 13 亿个 Agent 进入运行,这才是为什么,谷歌要把 TPU 分红 8t 和 8i,Agent 的归 Agent,磨真金不怕火的归磨真金不怕火。

和谷歌传统的互联网业务比拟,TPU 反而是他们面前最硬的叙事。

但问题就在于,Anthropic 能用 TPU 造出 Claude Opus 4.7 以及面前的 Mythos,可谷歌只拿出来了 Gemini 3.5 Flash。

还真即是橘生淮南则为橘天博官网(TBSports),生于淮北则为枳。



 



    Copyright © 1998-2026 天博体育(TBSports)官方网站™版权所有

    bjhuboshi.com备案号 备案号: 

    技术支持:®天博体育(TBSports) RSS地图 HTML地图