Skip to content

AIToBox周刊:第 21 期

这里记录每周值得分享的AI科技内容,周末发布。

本杂志开源(GitHub: aitobox/newsweekly),欢迎提交 issue,投稿或推荐你的项目。

AI资讯

1. 2025 Google I/O开发者大会

万众期待的Google I/O开发者大会,终于在5月21日凌晨1点正式开始了。

详细内容

大会包括Google在AI、视觉生成、搜索、Agent系统及其他领域的最新发布和技术进展。分为六大部分,共列举了23项重点内容,涵盖了Google AI Ultra会员计划、Gemini系列模型、Veo3、Imagen 4、AI搜索模式、Agent系统及硬件设备等,展现了Google在人工智能和技术创新方面的全面发力。

一、战略级产品:Google AI Ultra 会员

定价:249.99 美元/月(前三个月半价 124.99 美元) 覆盖服务:Gemini 2.5 Pro Deep Think、Veo3、Project Mariner、NotebookLM、YouTube 会员等 意义:整合 Google 最新 AI 技术,标志其生态协同战略的全面落地

二、AI 模型:Gemini 系列全面进化
  • Gemini 2.5 Pro 语言/推理/代码能力登顶 LMArena 榜单,WebDev 编码测试分数提升 142 点 彩蛋:自主通关《宝可梦:蓝》游戏,展示复杂任务处理能力
  • Gemini 2.5 Flash 速度优化版,6 月正式上线,支持 AI Studio 预览
  • Deep Think 模式 通过延长推理时间提升数学/编程任务质量(类似 OpenAI 的 o1 pro)
  • Gemini Diffusion 实验性扩散模型,生成速度比前代快 5 倍,代码质量持平
三、Gemini 产品:多模态交互升级
  • Gemini Live 整合 Project Astra,支持摄像头实时问答(已上线 Android/iOS) 示例:识别街景物体并纠正用户错误认知
  • Personal Context 打通 Gmail/Drive 数据,生成个性化服务(如考试复习题)
  • Agent Mode 代理模式自动执行复杂任务(如房源搜索、预约看房),实验阶段待开放
四、视觉生成:对标 Sora 的突破
  • Flow 电影工具 整合 Veo/Imagen/Gemini,支持视频生成+剪辑(需使用官方素材) 限制:仅限美国区域,需魔法访问
  • Veo3 原生音频生成:同步音效/对话(如机器人战斗、篮球进球欢呼) 成本:单条视频消耗 150 点数(Ultra 会员月供 12500 点)
  • Imagen 4 文字嵌入优化:支持复杂排版(如恐龙骨字母海报),已上线 Whisk 平台
五、搜索革命:AI Mode 重构体验

功能亮点: * 端到端对话式搜索,支持长复杂提问 * 个性化推荐(结合 Gmail/搜索历史) * 深度研究:自动生成带引用报告 * 虚拟试衣:上传照片预览穿搭效果 * 数据:AI 概览功能月活超 15 亿,搜索量增长两位数百分比

六、Agent 系统:自动化新范式
  • Project Mariner 浏览器自动化 Agent,支持多任务并行 & 示范学习(RPA 式操作)
  • 开发者 API 夏季开放
  • Jules AI 编程助手,支持 GitHub 代码管理(每日 5 次免费额度)

资讯地址

https://io.google/2025/explore/

Image

2. Anthropic发布Claude Opus 4 与 Claude Sonnet 4

5月22日,Anthropic正式发布新一代 Claude 系列模型:[Claude Opus 4] 与 [Claude Sonnet 4]。这两款模型旨在为编程、高级推理及 AI 智能体领域树立全新标杆。

详细内容

  • Claude 4 Opus:定位最强、最智能的模型,专为复杂推理、顶级编程和 AI Agent 工作流打造。
  • Claude 4 Sonnet:性能卓越,兼具高推理能力和高效率,是 Claude 3.7 Sonnet 的显著升级版。

编程能力登顶全球:Claude 4 Opus 在 SWE-bench 上以 72.5% 的成绩傲视群雄,Terminal-bench 得分 43.2%,登顶「世界最佳编程模型」。Claude 4 Sonnet 在 SWE-bench 上也取得了 72.7% 的 SOTA 成绩。

AI Agent 能力再突破:扩展思考与工具使用:模型能在「扩展思考」模式下调用网页搜索等工具,实现推理与工具的交替使用,大幅提升响应质量。并行工具执行:可同时调用多个工具,效率更高。指令遵循更精准:对复杂指令的理解和执行能力显著增强。记忆力大幅提升:通过开发者授予的本地文件访问权限,模型能创建和维护「记忆文件」,提取并保存关键信息,实现跨会话的连续性和隐性知识积累。

资讯地址

https://www.anthropic.com/news/claude-4

image image

往期推荐

(完)