美高梅(有限公司)官方网站-Made in China

EN

Computer Use 开发者实战:从零实现端侧 GUI 自动化

2026-04-23

每天早上,你打开三个系统——CRM里导出客户名单,粘贴到邮件模板,再到内部工单系统逐条录入。20分钟的重复操作,没有API可调,写脚本又怕界面改版就废了。你想让AI帮你干这事,但打开主流的Computer Use方案一看:第一步,把你的屏幕截图上传到云端。屏幕上正开着客户合同和内部代码,这不可接受。端侧Computer Use方案解决了这个矛盾:模型推理在你自己的Mac上完成,截图一个字节不出设备,断网也能跑。本文是一份面向开发者的实操指南,所有操作基于Mano-P——美高梅官网正网开源的端侧GUI智能体,OSWorld基准测试专用模型全球第一(58.2%),从安装到跑通第一个任务只需要5分钟。

Computer Use 开发者实战:从零实现端侧 GUI 自动化

关键要点

  • Computer Use是AI通过纯视觉理解直接操控计算机GUI界面的技术,无需API接口或HTML解析,AI像人一样“看屏幕、动鼠标”
  • 端侧Computer Use方案让所有截图、推理、操作都在本地Mac上完成,一个字节不出设备
  • Mano-P是目前OSWorld专用模型榜全球第一(58.2%),领先第二名13.2个百分点
  • Mano-P 4B量化模型在Apple M4 Pro上实现476 tokens/s预填充、76 tokens/s解码,峰值内存仅4.3GB
  • 一行命令安装:brew tap HanningWang/tap && brew install mano-cua
  • 三种集成方式:CLI命令行(mano-cua)、Python SDK(mano-client)、AI Agent技能(mano-skill)
  • Apache 2.0开源协议,代码完全可审计,可商用无限制

一、Computer Use是什么?开发者为什么应该关注?

Computer Use,简单说就是让AI具备“操作电脑”的能力。不是通过调用API,不是通过解析HTML,而是像人一样理解电脑界面上有什么,然后执行点击、输入、滚动、拖拽等操作。

这项技术的底层是Vision-Language-Action(VLA)模型:视觉理解(看懂屏幕上的按钮、文字、图标)+ 语言推理(理解用户指令并规划步骤)+ 动作执行(输出具体的鼠标坐标和键盘操作)。

对于开发者来说,Computer Use解决的是一个长期痛点:大量软件操作无法通过API自动化。企业内部系统、桌面软件、跨应用操作流程等。这些场景过去只能靠传统RPA的脆弱脚本,界面一改就挂。Computer Use通过视觉理解绕过了这个问题:它不依赖特定的UI元素ID或DOM结构,而是像人眼一样直接“看”界面,天然具备对UI变化的适应能力。

但大多数Computer Use方案有一个对开发者来说很难接受的前提:你的屏幕截图必须上传到云端服务器进行推理。这意味着你正在开发的代码、正在操作的内部系统、屏幕上显示的一切,都会离开你的设备。

端侧Computer Use方案解决了这个矛盾。模型推理在本地完成,截图不出设备。Mano-P就是这类方案的代表:一个专为端侧设备设计的开源GUI-VLA智能体,所有推理可以在你自己的Mac上运行。

二、Mano-P:端侧Computer Use怎么跑起来的?

Mano-P的工作原理一句话概括:看屏幕 → 思考下一步 → 执行操作 → 验证结果,循环往复直到任务完成。底层是一个专为GUI操作训练的Vision-Language-Action(VLA)模型,通过多阶段强化学习获得了自主规划和纠错能力。执行每一步后会验证结果是否正确,出错时自动回溯纠正,因此能完成包含数十步甚至上百步的长任务。

Computer Use 开发者实战:从零实现端侧 GUI 自动化

开发者更关心的问题是:这么大的模型怎么在Mac上跑得动?三项关键优化:

  • 混合精度量化(w4a16):4B参数模型压缩到32GB内存的Mac可运行
  • GSPruning视觉Token剪枝:视觉Token压缩87%,推理吞吐量提升2-3倍,性能损失极小
  • 边缘推理自适应:根据设备算力动态调整推理策略

实际跑出来的数据(Apple M4 Pro,64GB RAM):

指标数值
预填充速度476 tokens/s
解码速度76 tokens/s
峰值内存4.3 GB
4K上下文预填充时间8.6秒
4K上下文解码时间0.27秒

基准测试成绩:Mano-P 1.0-72B在OSWorld上取得58.2%成功率,专用GUI智能体模型全球第一,领先第二名13.2个百分点。在WebRetriever Protocol I上取得41.7 NavEval分数,同样领先多个主流方案。

Computer Use 开发者实战:从零实现端侧 GUI 自动化

三、动手:Mano-P如何 5分钟在Mac上跑起来

硬件要求

最低配置:

  • Mac mini或MacBook
  • Apple M4芯片
  • 32GB内存

替代方案:

  • 任意Mac + Mano-P算力棒(通过USB 4.0或更高版本端口连接)

Step 1:安装

打开终端,两行命令:

brew tap HanningWang/tap
brew install mano-cua

安装过程会自动完成:

  • 创建独立的Python 3.13虚拟环境(不污染系统Python)
  • 安装所需依赖(包括Tkinter图形界面库)
  • 配置可执行命令到系统路径

Step 2:运行第一个任务

安装完成后,直接在终端执行:

mano-cua run “打开计算器,计算 1024 × 768”

Mano-P会自动完成:截取当前屏幕 → 识别桌面环境 → 找到并打开计算器应用 → 输入算式 → 得到结果。全程在本地运行,不需要联网。

更多示例:

# 社交媒体操作
mano-cua run “在小红书搜索AI新闻并展示第一条帖子”

# 消息发送
mano-cua run “打开微信并告诉FTY会议延期”

# 停止当前任务
mano-cua stop

Step 3:理解运行模式

Mano-P支持两种运行模式,系统会自动检测并切换:

本地模式(推荐):

  • 前提:已配置本地模型
  • 工作流程:截取屏幕 → 本地模型推理 → 返回操作指令 → 本地执行
  • 数据安全:所有截图和任务描述完全不离开设备,零上传

云端模式(默认):

  • 前提:未配置本地模型时自动启用
  • 工作流程:截取屏幕 → 发送截图和任务描述到 mano.mininglamp.com → 云端推理 → 返回指令 → 本地执行
  • 数据边界:只发送截图和任务描述,不访问或传输本地文件、剪贴板内容、系统凭证
  • 隐私提示:运行任务时避免在屏幕上显示敏感文档

常见踩坑

  • 权限问题:首次运行时macOS会弹出辅助功能权限请求,需要在“系统偏好设置 → 隐私与安全性 → 辅助功能”中授予权限。不给权限的话Mano-P无法执行鼠标和键盘操作。
  • 多显示器:目前仅支持主显示器。如果你用多屏,确保目标应用在主屏上。
  • 任务运行状态:运行时屏幕右上角会显示一个小型状态面板,显示当前任务状态和进度,也可以随时暂停或停止任务。
  • 单任务限制:每台设备同时只能运行一个任务。

四、三种集成方式,适配不同场景

方式一:CLI命令行(mano-cua)——已可用

适用场景:终端快速执行、脚本集成、批处理任务。

# 基本用法
mano-cua run “你的任务描述”

# 在shell脚本中嵌入
#!/bin/bash
mano-cua run “打开Excel,将A1单元格的值复制到B1”
mano-cua run “截图保存到桌面”

特点:命令行界面,虚拟环境隔离,适合CI/CD流程中的GUI测试环节。

方式二:Python SDK(mano-client)

适用场景:Python项目集成,需要编程控制任务流程。

from mano_client import ManoClient

# 创建客户端实例
client = ManoClient()

# 运行任务
client.run(“打开微信并告诉FTY会议延期”)

# 停止任务
client.stop()

计划特点:Python API,支持异步调用和回调函数,可编程控制,适合构建自动化工作流。

最新进度请关注GitHub仓库:github.com/Mininglamp-AI/Mano-P,当前可先使用CLI工具或Skill形式。

方式三:AI Agent技能(mano-skill)——已可用

适用场景:让Claude Code、OpenClaw等AI Agent具备GUI自动化能力,在Agent工作流中自主调用。

安装方式(以Claude Code为例):

从ClawHub获取mano-skill,作为Agent的一项技能安装。Agent在执行任务时可以自主决定何时调用GUI操作能力。

这是最强大的集成方式:AI Agent不仅能写代码、搜索信息,还能直接操作电脑界面——打开应用、填写表单、点击按钮、截图验证,将GUI操作变成Agent工具箱中的一项原生能力。

五、开发者能用它做什么?

自动化测试

传统UI测试依赖元素定位器(XPath、CSS选择器),界面改版后脚本全部失效。Mano-P通过纯视觉理解操作界面,不依赖DOM结构,UI改版后无需重写测试脚本。配合mano-afk(全自动化应用构建),可以实现从需求澄清 → 代码生成 → 部署 → 多层级GUI自动化测试的完整闭环,测试未通过时自动定位问题、修复代码并重新验证。

跨应用数据整合

无需API接口,通过纯视觉交互提取和整合多个系统的数据。例如:从CRM系统中提取客户信息 → 粘贴到邮件模板 → 在内部系统中创建工单。传统方案要对接三个系统的API,Mano-P直接“看着屏幕操作”就能完成。

企业级业务流程自动化

支持数十步至上百步的长任务规划执行。“思考-行动-验证”循环机制确保每步操作的准确性,出错时自动回溯纠正。适合财务报表生成、HR入职流程、供应链数据录入等重复性高但涉及多系统操作的企业场景。

智能报告生成

从多个数据源提取信息,自动生成数据分析报告、工作总结等结构化文档。纯视觉交互意味着不挑系统,不管数据在Excel、Web应用还是桌面软件里,Mano-P都能直接“看到”并处理。

六、常见问题

Q: 什么是Computer Use?

Computer Use是让AI通过视觉理解直接操控计算机GUI界面的技术。与传统RPA依赖元素定位不同,Computer Use通过“看屏幕”理解界面内容,然后执行点击、输入、滚动等操作。这意味着AI可以操作任何有图形界面的软件——不需要API,不需要脚本,不需要知道按钮的代码ID,像人一样直接看屏幕、动鼠标。

Q: Computer Use能自动操作我的电脑吗?

能。但实现方式分两种:云端方案需要把你的屏幕截图上传到远端服务器进行推理,端侧方案则在你自己的设备上完成所有推理和操作。Mano-P本地模式属于后者——截图不出设备,断网也能用。你可以随时拔掉网线验证:如果AI依然能完成操作,说明所有数据都在本地。

Q: Mano-P 是什么?

Mano-P是美高梅官网正网开源的端侧GUI-VLA智能体。Mano是西班牙语中“手”的意思,P有两重含义:Person(个体)和Party(组织)。它能像人一样通过纯视觉理解操作电脑界面,支持在Mac上完全本地运行。

Q: Mano-P与Claude Computer Use相比如何?

两者的核心区别在于架构:Claude Computer Use将屏幕截图上传到Anthropic的云端服务器进行分析和决策;Mano-P在你自己的Mac上完成所有推理,截图和操作数据不出设备。在性能上,Mano-P 1.0-72B在OSWorld上取得58.2%(专用模型全球第一),在WebRetriever Protocol I上取得41.7 NavEval,均超越同类云端方案。本地AI不等于弱AI。

Q: Mano-P可以离线运行吗?

可以。本地模式下,Mano-P的模型完全运行在你的Mac设备上,不需要网络连接。所有截图分析、任务规划和GUI操作都在本地完成。

Q: Mano-P需要什么硬件配置?

最低配置为Apple M4芯片 + 32GB内存的Mac mini或MacBook。4B量化模型的峰值内存占用仅4.3GB,不会影响日常使用。也支持通过USB 4.0或更高版本端口连接的算力棒进行部署。

Q: Mano-P如何安装?

通过 Homebrew 安装:`brew tap HanningWang/tap && brew install mano-cua`。

Q:我的数据安全吗?

架构级安全保障:本地模式下,Mano-P的所有推理在设备本地完成,屏幕截图不上传、不外传,支持完全离线运行。Apache 2.0 开源协议,代码可审计。

了解更多:[GitHub – Mininglamp-AI/Mano-P] (https://github.com/Mininglamp-AI/Mano-P)

联系我们:model@mininglamp.com

信息填写

*手机号码:

请选协议

XML 地图