首页干货文章 Computer Use 开发者实战：从零实现端侧 GUI 自动化

Computer Use 开发者实战：从零实现端侧 GUI 自动化

2026-04-23

每天早上，你打开三个系统——CRM里导出客户名单，粘贴到邮件模板，再到内部工单系统逐条录入。20分钟的重复操作，没有API可调，写脚本又怕界面改版就废了。你想让AI帮你干这事，但打开主流的Computer Use方案一看：第一步，把你的屏幕截图上传到云端。屏幕上正开着客户合同和内部代码，这不可接受。端侧Computer Use方案解决了这个矛盾：模型推理在你自己的Mac上完成，截图一个字节不出设备，断网也能跑。本文是一份面向开发者的实操指南，所有操作基于Mano-P——美高梅官网正网开源的端侧GUI智能体，OSWorld基准测试专用模型全球第一（58.2%），从安装到跑通第一个任务只需要5分钟。

关键要点

Computer Use是AI通过纯视觉理解直接操控计算机GUI界面的技术，无需API接口或HTML解析，AI像人一样“看屏幕、动鼠标”
端侧Computer Use方案让所有截图、推理、操作都在本地Mac上完成，一个字节不出设备
Mano-P是目前OSWorld专用模型榜全球第一（58.2%），领先第二名13.2个百分点
Mano-P 4B量化模型在Apple M4 Pro上实现476 tokens/s预填充、76 tokens/s解码，峰值内存仅4.3GB
一行命令安装：brew tap HanningWang/tap && brew install mano-cua
三种集成方式：CLI命令行（mano-cua）、Python SDK（mano-client）、AI Agent技能（mano-skill）
Apache 2.0开源协议，代码完全可审计，可商用无限制

一、Computer Use是什么？开发者为什么应该关注？

Computer Use，简单说就是让AI具备“操作电脑”的能力。不是通过调用API，不是通过解析HTML，而是像人一样理解电脑界面上有什么，然后执行点击、输入、滚动、拖拽等操作。

这项技术的底层是Vision-Language-Action（VLA）模型：视觉理解（看懂屏幕上的按钮、文字、图标）+ 语言推理（理解用户指令并规划步骤）+ 动作执行（输出具体的鼠标坐标和键盘操作）。

对于开发者来说，Computer Use解决的是一个长期痛点：大量软件操作无法通过API自动化。企业内部系统、桌面软件、跨应用操作流程等。这些场景过去只能靠传统RPA的脆弱脚本，界面一改就挂。Computer Use通过视觉理解绕过了这个问题：它不依赖特定的UI元素ID或DOM结构，而是像人眼一样直接“看”界面，天然具备对UI变化的适应能力。

但大多数Computer Use方案有一个对开发者来说很难接受的前提：你的屏幕截图必须上传到云端服务器进行推理。这意味着你正在开发的代码、正在操作的内部系统、屏幕上显示的一切，都会离开你的设备。

端侧Computer Use方案解决了这个矛盾。模型推理在本地完成，截图不出设备。Mano-P就是这类方案的代表：一个专为端侧设备设计的开源GUI-VLA智能体，所有推理可以在你自己的Mac上运行。

二、Mano-P：端侧Computer Use怎么跑起来的？

Mano-P的工作原理一句话概括：看屏幕 → 思考下一步 → 执行操作 → 验证结果，循环往复直到任务完成。底层是一个专为GUI操作训练的Vision-Language-Action（VLA）模型，通过多阶段强化学习获得了自主规划和纠错能力。执行每一步后会验证结果是否正确，出错时自动回溯纠正，因此能完成包含数十步甚至上百步的长任务。

开发者更关心的问题是：这么大的模型怎么在Mac上跑得动？三项关键优化：

混合精度量化（w4a16）：4B参数模型压缩到32GB内存的Mac可运行
GSPruning视觉Token剪枝：视觉Token压缩87%，推理吞吐量提升2-3倍，性能损失极小
边缘推理自适应：根据设备算力动态调整推理策略

实际跑出来的数据（Apple M4 Pro，64GB RAM）：

指标	数值
预填充速度	476 tokens/s
解码速度	76 tokens/s
峰值内存	4.3 GB
4K上下文预填充时间	8.6秒
4K上下文解码时间	0.27秒

基准测试成绩：Mano-P 1.0-72B在OSWorld上取得58.2%成功率，专用GUI智能体模型全球第一，领先第二名13.2个百分点。在WebRetriever Protocol I上取得41.7 NavEval分数，同样领先多个主流方案。

三、动手：Mano-P如何 5分钟在Mac上跑起来

硬件要求

最低配置：

Mac mini或MacBook
Apple M4芯片
32GB内存

替代方案：

任意Mac + Mano-P算力棒（通过USB 4.0或更高版本端口连接）

Step 1：安装

打开终端，两行命令：

brew tap HanningWang/tap
brew install mano-cua

安装过程会自动完成：

创建独立的Python 3.13虚拟环境（不污染系统Python）
安装所需依赖（包括Tkinter图形界面库）
配置可执行命令到系统路径

Step 2：运行第一个任务

安装完成后，直接在终端执行：

mano-cua run “打开计算器，计算 1024 × 768”

Mano-P会自动完成：截取当前屏幕 → 识别桌面环境 → 找到并打开计算器应用 → 输入算式 → 得到结果。全程在本地运行，不需要联网。

更多示例：

# 社交媒体操作
mano-cua run “在小红书搜索AI新闻并展示第一条帖子”

# 消息发送
mano-cua run “打开微信并告诉FTY会议延期”

# 停止当前任务
mano-cua stop

Step 3：理解运行模式

Mano-P支持两种运行模式，系统会自动检测并切换：

本地模式（推荐）：

前提：已配置本地模型
工作流程：截取屏幕 → 本地模型推理 → 返回操作指令 → 本地执行
数据安全：所有截图和任务描述完全不离开设备，零上传

云端模式（默认）：

前提：未配置本地模型时自动启用
工作流程：截取屏幕 → 发送截图和任务描述到 mano.mininglamp.com → 云端推理 → 返回指令 → 本地执行
数据边界：只发送截图和任务描述，不访问或传输本地文件、剪贴板内容、系统凭证
隐私提示：运行任务时避免在屏幕上显示敏感文档

常见踩坑

权限问题：首次运行时macOS会弹出辅助功能权限请求，需要在“系统偏好设置 → 隐私与安全性 → 辅助功能”中授予权限。不给权限的话Mano-P无法执行鼠标和键盘操作。
多显示器：目前仅支持主显示器。如果你用多屏，确保目标应用在主屏上。
任务运行状态：运行时屏幕右上角会显示一个小型状态面板，显示当前任务状态和进度，也可以随时暂停或停止任务。
单任务限制：每台设备同时只能运行一个任务。

四、三种集成方式，适配不同场景

方式一：CLI命令行（mano-cua）——已可用

适用场景：终端快速执行、脚本集成、批处理任务。

# 基本用法
mano-cua run “你的任务描述”

# 在shell脚本中嵌入
#!/bin/bash
mano-cua run “打开Excel，将A1单元格的值复制到B1”
mano-cua run “截图保存到桌面”

特点：命令行界面，虚拟环境隔离，适合CI/CD流程中的GUI测试环节。

方式二：Python SDK（mano-client）

适用场景：Python项目集成，需要编程控制任务流程。

from mano_client import ManoClient

# 创建客户端实例
client = ManoClient()

# 运行任务
client.run(“打开微信并告诉FTY会议延期”)

# 停止任务
client.stop()

计划特点：Python API，支持异步调用和回调函数，可编程控制，适合构建自动化工作流。

最新进度请关注GitHub仓库：github.com/Mininglamp-AI/Mano-P，当前可先使用CLI工具或Skill形式。

方式三：AI Agent技能（mano-skill）——已可用

适用场景：让Claude Code、OpenClaw等AI Agent具备GUI自动化能力，在Agent工作流中自主调用。

安装方式（以Claude Code为例）：

从ClawHub获取mano-skill，作为Agent的一项技能安装。Agent在执行任务时可以自主决定何时调用GUI操作能力。

这是最强大的集成方式：AI Agent不仅能写代码、搜索信息，还能直接操作电脑界面——打开应用、填写表单、点击按钮、截图验证，将GUI操作变成Agent工具箱中的一项原生能力。

五、开发者能用它做什么？

自动化测试

传统UI测试依赖元素定位器（XPath、CSS选择器），界面改版后脚本全部失效。Mano-P通过纯视觉理解操作界面，不依赖DOM结构，UI改版后无需重写测试脚本。配合mano-afk（全自动化应用构建），可以实现从需求澄清 → 代码生成 → 部署 → 多层级GUI自动化测试的完整闭环，测试未通过时自动定位问题、修复代码并重新验证。

跨应用数据整合

无需API接口，通过纯视觉交互提取和整合多个系统的数据。例如：从CRM系统中提取客户信息 → 粘贴到邮件模板 → 在内部系统中创建工单。传统方案要对接三个系统的API，Mano-P直接“看着屏幕操作”就能完成。

企业级业务流程自动化

支持数十步至上百步的长任务规划执行。“思考-行动-验证”循环机制确保每步操作的准确性，出错时自动回溯纠正。适合财务报表生成、HR入职流程、供应链数据录入等重复性高但涉及多系统操作的企业场景。

智能报告生成

从多个数据源提取信息，自动生成数据分析报告、工作总结等结构化文档。纯视觉交互意味着不挑系统,不管数据在Excel、Web应用还是桌面软件里，Mano-P都能直接“看到”并处理。

六、常见问题

Q: 什么是Computer Use？

Computer Use是让AI通过视觉理解直接操控计算机GUI界面的技术。与传统RPA依赖元素定位不同，Computer Use通过“看屏幕”理解界面内容，然后执行点击、输入、滚动等操作。这意味着AI可以操作任何有图形界面的软件——不需要API，不需要脚本，不需要知道按钮的代码ID，像人一样直接看屏幕、动鼠标。

Q: Computer Use能自动操作我的电脑吗？

能。但实现方式分两种：云端方案需要把你的屏幕截图上传到远端服务器进行推理，端侧方案则在你自己的设备上完成所有推理和操作。Mano-P本地模式属于后者——截图不出设备，断网也能用。你可以随时拔掉网线验证：如果AI依然能完成操作，说明所有数据都在本地。

Q: Mano-P 是什么？

Mano-P是美高梅官网正网开源的端侧GUI-VLA智能体。Mano是西班牙语中“手”的意思，P有两重含义：Person（个体）和Party（组织）。它能像人一样通过纯视觉理解操作电脑界面，支持在Mac上完全本地运行。

Q: Mano-P与Claude Computer Use相比如何？

两者的核心区别在于架构：Claude Computer Use将屏幕截图上传到Anthropic的云端服务器进行分析和决策；Mano-P在你自己的Mac上完成所有推理，截图和操作数据不出设备。在性能上，Mano-P 1.0-72B在OSWorld上取得58.2%（专用模型全球第一），在WebRetriever Protocol I上取得41.7 NavEval，均超越同类云端方案。本地AI不等于弱AI。

Q: Mano-P可以离线运行吗？

可以。本地模式下，Mano-P的模型完全运行在你的Mac设备上，不需要网络连接。所有截图分析、任务规划和GUI操作都在本地完成。

Q: Mano-P需要什么硬件配置？

最低配置为Apple M4芯片 + 32GB内存的Mac mini或MacBook。4B量化模型的峰值内存占用仅4.3GB，不会影响日常使用。也支持通过USB 4.0或更高版本端口连接的算力棒进行部署。

Q: Mano-P如何安装？

通过 Homebrew 安装：`brew tap HanningWang/tap && brew install mano-cua`。

Q：我的数据安全吗？

架构级安全保障：本地模式下，Mano-P的所有推理在设备本地完成，屏幕截图不上传、不外传，支持完全离线运行。Apache 2.0 开源协议，代码可审计。

了解更多：[GitHub – Mininglamp-AI/Mano-P] (https://github.com/Mininglamp-AI/Mano-P)

联系我们：model@mininglamp.com

美高梅(有限公司)官方网站-Made in China