AIToBox周刊：第 21 期¶

这里记录每周值得分享的AI科技内容，周末发布。

本杂志开源（GitHub: aitobox/newsweekly），欢迎提交 issue，投稿或推荐你的项目。

AI资讯¶

1. 2025 Google I/O开发者大会¶

万众期待的Google I/O开发者大会，终于在5月21日凌晨1点正式开始了。

详细内容

大会包括Google在AI、视觉生成、搜索、Agent系统及其他领域的最新发布和技术进展。分为六大部分，共列举了23项重点内容，涵盖了Google AI Ultra会员计划、Gemini系列模型、Veo3、Imagen 4、AI搜索模式、Agent系统及硬件设备等，展现了Google在人工智能和技术创新方面的全面发力。

一、战略级产品：Google AI Ultra 会员¶

定价：249.99 美元/月（前三个月半价 124.99 美元）覆盖服务：Gemini 2.5 Pro Deep Think、Veo3、Project Mariner、NotebookLM、YouTube 会员等意义：整合 Google 最新 AI 技术，标志其生态协同战略的全面落地

二、AI 模型：Gemini 系列全面进化¶

Gemini 2.5 Pro 语言/推理/代码能力登顶 LMArena 榜单，WebDev 编码测试分数提升 142 点彩蛋：自主通关《宝可梦：蓝》游戏，展示复杂任务处理能力
Gemini 2.5 Flash 速度优化版，6 月正式上线，支持 AI Studio 预览
Deep Think 模式通过延长推理时间提升数学/编程任务质量（类似 OpenAI 的 o1 pro）
Gemini Diffusion 实验性扩散模型，生成速度比前代快 5 倍，代码质量持平

三、Gemini 产品：多模态交互升级¶

Gemini Live 整合 Project Astra，支持摄像头实时问答（已上线 Android/iOS）示例：识别街景物体并纠正用户错误认知
Personal Context 打通 Gmail/Drive 数据，生成个性化服务（如考试复习题）
Agent Mode 代理模式自动执行复杂任务（如房源搜索、预约看房），实验阶段待开放

四、视觉生成：对标 Sora 的突破¶

Flow 电影工具整合 Veo/Imagen/Gemini，支持视频生成+剪辑（需使用官方素材）限制：仅限美国区域，需魔法访问
Veo3 原生音频生成：同步音效/对话（如机器人战斗、篮球进球欢呼）成本：单条视频消耗 150 点数（Ultra 会员月供 12500 点）
Imagen 4 文字嵌入优化：支持复杂排版（如恐龙骨字母海报），已上线 Whisk 平台

五、搜索革命：AI Mode 重构体验¶

功能亮点： * 端到端对话式搜索，支持长复杂提问 * 个性化推荐（结合 Gmail/搜索历史） * 深度研究：自动生成带引用报告 * 虚拟试衣：上传照片预览穿搭效果 * 数据：AI 概览功能月活超 15 亿，搜索量增长两位数百分比

六、Agent 系统：自动化新范式¶

Project Mariner 浏览器自动化 Agent，支持多任务并行 & 示范学习（RPA 式操作）
开发者 API 夏季开放
Jules AI 编程助手，支持 GitHub 代码管理（每日 5 次免费额度）

资讯地址

https://io.google/2025/explore/

2. Anthropic发布Claude Opus 4 与 Claude Sonnet 4¶

5月22日，Anthropic正式发布新一代 Claude 系列模型：[Claude Opus 4] 与 [Claude Sonnet 4]。这两款模型旨在为编程、高级推理及 AI 智能体领域树立全新标杆。

详细内容

Claude 4 Opus：定位最强、最智能的模型，专为复杂推理、顶级编程和 AI Agent 工作流打造。
Claude 4 Sonnet：性能卓越，兼具高推理能力和高效率，是 Claude 3.7 Sonnet 的显著升级版。

编程能力登顶全球：Claude 4 Opus 在 SWE-bench 上以 72.5% 的成绩傲视群雄，Terminal-bench 得分 43.2%，登顶「世界最佳编程模型」。Claude 4 Sonnet 在 SWE-bench 上也取得了 72.7% 的 SOTA 成绩。

AI Agent 能力再突破：扩展思考与工具使用：模型能在「扩展思考」模式下调用网页搜索等工具，实现推理与工具的交替使用，大幅提升响应质量。并行工具执行：可同时调用多个工具，效率更高。指令遵循更精准：对复杂指令的理解和执行能力显著增强。记忆力大幅提升：通过开发者授予的本地文件访问权限，模型能创建和维护「记忆文件」，提取并保存关键信息，实现跨会话的连续性和隐性知识积累。

资讯地址

https://www.anthropic.com/news/claude-4

往期推荐¶

(完)