本文由上海 AI Lab、中国科学技术大学和上海交通大学联合完成。主要作者包括中国科学技术大学硕士生杨靖懿、上海交通大学本科生邵帅。通讯作者为刘东瑞和邵婧,上海 AI Lab 安全团队,研究方向为 AI 安全可信。 从 Anthropic 的 Claude 3.5 Sonnet 自带 Computer-Use 功能 ...
「Agent/智能体」可说是当今 AI 领域最炙手可热的话题。今天凌晨,OpenAI 发布了一系列可让开发者通过 API 构建智能体的新工具,其中最大的看点便是 Responses API⁠,这是对之前的 Chat Completions API 的一轮大升级,使其获得了 Assistants API 般使用工具的能力,从而 ...
当 AI 不再受限于单一指令,而是能像人类般操作软件、跨系统处理复杂任务,由 Computer Use 技术引发的变革正重塑数字化劳动未来。知名风投 a16z 指出,这一技术是 AI Agent 落地的关键突破,打破传统 AI 依赖 API 的局限,可实现端到端工作流自动化,更大胆预测 ...
IT之家 10 月 8 日消息,谷歌正在预览一款全新的 Gemini 人工智能模型,该模型旨在通过浏览器浏览网络并与之交互,使 AI 智能体能够在原本为人而非机器人设计的用户界面中执行操作。这款名为“Gemini 2.5 计算机使用”(Gemini 2.5 Computer Use)的模型,利用“视觉 ...
Google于10月7日发布Gemini 2.5 Computer Use模型,这款基于Gemini 2.5 Pro视觉理解和推理能力开发的专门模型,让AI代理能够像人类一样操控用户界面。 该模型在多个网页和移动设备控制基准测试中,表现超越Anthropic Claude Sonnet 4.5及OpenAI竞争产品,同时保持更低延迟。
就在刚刚,OpenAI 头号竞争对手 Anthropic 推出了 “computer use” 功能,让 Claude 能够像人类一样操作电脑了!看屏幕、动光标、点按钮、打字等。通过 API,开发者可以让 Claude 将指令翻译成计算机指令,从而解放一些枯燥的重复性流程任务。 一、西方的Anthropic 的 ...
IT之家 10 月 8 日消息,谷歌正在预览一款全新的 Gemini 人工智能模型,该模型旨在通过浏览器浏览网络并与之交互,使 AI 智能体能够在原本为人而非机器人设计的用户界面中执行操作。这款名为“Gemini 2.5 计算机使用”(Gemini 2.5 Computer Use)的模型,利用“视觉 ...
谷歌的 Computer Use 模型来了! 今天凌晨,谷歌 DeepMind 重磅发布了基于 Gemini 2.5 的计算机使用模型 Gemini 2.5 Computer Use。 考虑到前些天谷歌才刚刚发布了 Chrome DevTools (MCP),Gemini 2.5 Computer Use 的诞生倒不是特别让人惊讶。简单来说,与 OpenAI 的 Computer-Using ...