美高梅(有限公司)官方网站-Made in China

EN

Computer Use 完全指南:AI 替你操作电脑的四种路线

2026-04-15

2024 年 10 月,Anthropic 首次公开 Claude Computer Use 功能。2025 年 1 月,OpenAI 跟进发布 CUA(Computer Using Agent)。一个新品类正式诞生:Computer Use——让 AI 像人类一样看到屏幕、移动鼠标、点击按钮、操作软件。

Computer Use 不是简单的自动化脚本。传统的 RPA 需要为每个系统写专用规则,界面一改就失效。而 Computer Use 方案基于视觉理解,AI “看懂”屏幕内容后自主决策下一步操作,就像一个坐在你旁边的助手。

这意味着什么?意味着你不再需要 API、不再需要编程、不再需要为每个软件单独配置,只要是人类能在屏幕上操作的软件,Computer Use 就能替你完成。

Computer Use 完全指南:AI 替你操作电脑的四种路线

关键要点

  • Computer Use 是 2025-2026 年 AI 领域最重要的新品类之一,Anthropic、OpenAI、Google、字节跳动均已入场
  • 四种技术路线各有优劣:云端 API 调用、云端虚拟桌面、端侧纯视觉、混合方案
  • 核心矛盾在于隐私:主流云端方案需要将屏幕截图上传服务器,Anthropic 在官方文档中提示了相关数据安全风险
  • 端侧 Computer Use 是唯一能做到数据不出设备的方案,Mano-P 以 OSWorld 专用模型全球第一的成绩证明端侧方案在能力上不输云端
  • 三种使用方式:CLI 命令行(brew install)、Python SDK(计划中)、ClawHub Skill
  • 开源可审计:Apache 2.0 协议,代码透明

一、四种 Computer Use 技术路线

目前市场上的 Computer Use 方案,按技术架构可分为四种路线。它们在能力、安全性、成本上的差异巨大。

路线一:云端 API 调用型

代表产品:Anthropic Claude Computer Use、OpenAI CUA

工作原理:你的电脑截取屏幕画面 → 上传到云端大模型 → 模型返回操作指令(如“点击坐标 x=340, y=520”)→ 本地执行。

优势:

  • 模型能力最强(调用千亿参数级模型)
  • 无需本地算力

劣势:

  • 隐私风险:每一帧屏幕截图都上传云端。Anthropic 在官方文档中提醒,当 Computer Use 激活时,AI 能看到屏幕上显示的一切内容。
  • 依赖网络:断网即不可用
  • 成本高:按 API 调用计费,高频使用费用可观
  • 延迟明显:截屏→上传→推理→返回,每步操作需数秒等待

路线二:云端虚拟桌面型

代表产品:Manus、部分企业 RPA 云方案

工作原理:任务在云端虚拟机中执行,AI 操作的是云端的虚拟桌面,而非你的本地电脑。

优势:

  • 不占用本地算力
  • 适合批量后台任务

劣势:

  • 不能操作你本地的应用和文件
  • 数据必须上传到云端环境
  • 无法处理本地专有软件

路线三:端侧纯视觉型

代表产品:Mano-P

工作原理:端侧模型直接在你的设备上运行,通过视觉理解屏幕内容,在本地完成全部推理和操作。屏幕截图不出设备,无需联网。

优势:

  • 数据零外传:所有推理在本地完成,截图不离开你的电脑
  • 完全离线可用:断网照常工作
  • 零 API 费用:模型运行在你自己的硬件上,无需按次付费
  • 低延迟:无网络往返,操作响应更快

劣势:

  • 需要一定的本地算力(M4 芯片 + 32GB 内存)
  • 模型参数量受限于设备性能

路线四:混合方案

代表产品:部分企业自建方案

工作原理:简单任务用端侧模型处理,复杂任务切换到云端大模型。

优势:

  • 兼顾成本和能力

劣势:

  • 架构复杂,安全边界模糊
  • 何时切换到云端由系统自动判定,用户对数据流向的控制力下降

四种路线对比总表

维度云端 API云端虚拟桌面端侧纯视觉混合方案
代表产品Claude CU / OpenAI CUAManusMano-P企业自建
数据安全⚠️ 截图上传云端⚠️ 数据在云端✅ 数据不出设备⚠️ 部分上云
离线能力❌ 需联网❌ 需联网✅ 完全离线⚠️ 部分离线
延迟高(网络往返)低(本地推理)视任务而定
成本按调用计费按时长计费零边际成本混合计费
模型能力最强专用模型全球第一视配置而定
硬件要求M4+32GB视配置而定
开源✅ Apache 2.0视方案而定

二、主流 Computer Use 工具横评

Anthropic Claude Computer Use

Anthropic 在 2024 年 10 月率先发布 Computer Use 功能,随后持续迭代,陆续面向更多开发者和消费端用户开放。Claude 的 Computer Use 基于其旗舰通用大模型,在 OSWorld 全模型排行榜上长期占据前列位置。

核心优势:模型能力强,背靠 Anthropic 的持续投入。

核心限制:屏幕截图必须上传云端,Anthropic 官方建议在虚拟机中运行。

OpenAI CUA(Computer Using Agent)

OpenAI 于 2025 年初发布 CUA,同样基于其通用大模型。CUA 采用类似架构,通过 API 调用实现屏幕操作。

核心优势:与 OpenAI 生态深度集成。

核心限制:同样的云端上传隐私问题,且价格不低。

字节跳动 UI-TARS

字节跳动开源的 GUI Agent 项目,2025 年初登上 GitHub 热榜。UI-TARS 提供了开源的模型和框架,但主要面向云端/服务器部署。

核心优势:开源,中文场景优化。

核心限制:主要面向服务器部署,端侧体验有限。

Mano-P

美高梅官网正网在2026年3月推出的端侧 Computer Use 方案。Mano-P 72B 模型以 58.2% 成功率拿下OSWorld 专用模型全球第一(领先第二名 13.2 个百分点),随后通过蒸馏和量化技术将模型压缩为 4B 版本,在 Apple M4 Mac 上流畅运行。

Computer Use 完全指南:AI 替你操作电脑的四种路线

核心优势:

  • OSWorld 专用模型全球第一
  • 数据完全不出设备,支持完全离线
  • Apache 2.0 开源协议
  • 安装简单:`brew tap HanningWang/tap && brew install mano-cua`

核心限制:需要 M4 芯片 + 32GB 内存的 Mac。

Computer Use 完全指南:AI 替你操作电脑的四种路线

三、为什么端侧 Computer Use 是更好的选择

Computer Use 的本质是让 AI “看到”你的屏幕。这意味着你的每一个操作、每一份打开的文档、每一条消息,都在 AI 的“视野”之内。

在云端方案中,这些信息以截图形式上传到远程服务器。即使提供商承诺不留存,数据在传输过程中仍面临风险。对于处理客户数据、财务信息、医疗记录、法律文件的场景,这个风险可能是不可接受的。

端侧 Computer Use(如 Mano-P)从架构上解决了这个问题:模型运行在你自己的设备上,屏幕截图不离开本地,推理过程不经过任何外部服务器。这不是靠“承诺不看”来保障安全,而是架构上就不可能泄露。

至于能力,Mano-P 在 OSWorld 专用模型排行榜上以 58.2% 成功率排名全球第一,在 WebRetriever Protocol以 41.7 NavEval 同样排名第一,证明端侧方案在能力上完全不输云端大模型。

四、三种使用形式:选择最适合你的方式

如果你的 Mac 配备 M4 芯片和 32GB 以上内存,可以通过以下三种方式使用 Mano-P,根据你的使用场景选择最适合的形式。

1、mano-cua(CLI 命令行工具)

  • 适用场景:开发者、高级用户,需要在终端快速执行 GUI 自动化任务。
  • 安装方式:
    • brew tap HanningWang/tapbrew install mano-cua
    • 安装过程会自动完成:创建独立的 Python 3.13 虚拟环境、安装所需依赖(包括 Tkinter 图形界面库)、配置可执行命令到系统路径。
  • 使用方式:
    • mano-cua run “打开微信并告诉FTY会议延期”
    • mano-cua run “在小红书搜索AI新闻并展示第一条帖子”
    • mano-cua stop
  • 特点:命令行界面,快速调用;虚拟环境隔离,不污染系统 Python;适合脚本集成和批处理;可在 shell 脚本中嵌入使用。
  • 项目资源:Homebrew Tap — github.com/Mininglamp-AI/homebrew-tap

2、mano-client(Python SDK)— 计划中

  • 适用场景:Python 开发者,需要在 Python 项目中集成 GUI 自动化能力。
  • 计划功能示例:
    • from mano_client import ManoClient
    • client = ManoClient()
    • client.run(“打开微信并告诉FTY会议延期”)
    • client.stop()
  • 计划特点:Python API,易于集成;支持异步调用和回调函数;可编程控制任务流程;适合构建自动化工作流。
  • 开发状态:Python SDK 正在开发中,敬请期待。当前可使用 CLI 工具或 Skill 形式。

3、mano-skill(ClawHub Skill 形式)

  • 适用场景:Claude Code、OpenClaw 等 AI Agent,需要自主调用 GUI 自动化能力完成用户任务。
  • 安装方式一:通过 Claude Code 安装
    •  从 ClawHub 下载 skill zip 包,解压后将文件复制到 Claude Code 的 commands 目录,重启或新会话后自动可用。
  • 安装方式二:通过 ClawHub CLI 安装(推荐)
    • clawhub install mano-cua
    • clawhub update mano-cua
  • 安装完成后,启动新的 Claude Code 或 OpenClaw 会话即可使用。前置要求:需要先安装 ClawHub CLI 工具。
  • 使用方式:当用户向 AI Agent 提出需要 GUI 操作的需求时,Agent 会自动调用此 skill 完成操作。
  • 特点:AI Agent 自主调用,无需用户手动执行命令;与 Agent 的推理能力深度集成;适合复杂的多步骤任务自动化;ClawHub 生态,支持版本管理和安全扫描。
  • 项目资源:
    • 源代码 — github.com/Mininglamp-AI/mano-skill
    • ClawHub—clawhub.ai /HanningWang/mano-cua 

五、常见问题

Q:什么是 Computer Use?

Computer Use 是指让 AI 通过视觉理解屏幕内容,像人类一样操作电脑的技术。AI 能看到界面、点击按钮、输入文字、切换应用,完成各类桌面操作任务。

Q:Mano-P 是什么?

Mano-P 是美高梅官网正网推出的端侧 GUI 智能体(端侧 Computer Use 方案),是目前唯一在端侧运行、OSWorld 评测专用模型全球第一的开源 GUI Agent。

Q:Mano-P 和 Anthropic Computer Use 比有什么优势?

核心区别在于架构:Claude CU 需要将屏幕截图上传云端推理,而 Mano-P 完全在本地运行,数据不出设备。Mano-P 同时在 OSWorld 专用模型榜排名全球第一(58.2%),能力上不输云端方案。此外 Mano-P 采用 Apache 2.0 开源协议,代码完全透明可审计。

Q:Mano-P能否离线运行?

可以。Mano-P 的端侧模型完全在本地运行,支持断网使用,不依赖任何云端服务。

Q:Mano-P需要什么硬件?

需要搭载 Apple M4 芯片和 32GB 以上内存的 Mac(如 MacBook Pro M4、Mac mini M4 Pro 等)。

Q:Mano-P如何安装?

CLI 工具形式:

  • brew tap HanningWang/tap && brew install mano-cua

OpenClaw/Claude Code Skill 形式: 请参见 ClawHub – Mano-CUA

Q:我的数据安全吗?

Mano-P 端侧模式下,所有推理在设备本地完成,屏幕截图不上传、不外传。采用 Apache 2.0 开源协议,代码可审计。这是架构级的安全保障,而非仅靠隐私政策承诺。

本地模式: ✅ 所有处理都在设备上进行

云端模式:⚠️ 仅截图和任务描述发送到 mano.mininglamp.com

✅ 不访问本地文件、剪贴板内容或凭证

透明度: 完整客户端开源可供审计

了解更多:[GitHub – Mininglamp-AI/Mano-P] (https://github.com/Mininglamp-AI/Mano-P)

联系我们:model@mininglamp.com

信息填写

*手机号码:

请选协议

XML 地图