Computer Use 开发者实战:从零实现端侧 GUI 自动化
2026-04-23
每天早上,你打开三个系统——CRM里导出客户名单,粘贴到邮件模板,再到内部工单系统逐条录入。20分钟的重复操作,没有API可调,写脚本又怕界面改版就废了。你想让AI帮你干这事,但打开主流的Computer Use方案一看:第一步,把你的屏幕截图上传到云端。屏幕上正开着客户合同和内部代码,这不可接受。端侧Computer Use方案解决了这个矛盾:模型推理在你自己的Mac上完成,截图一个字节不出设备,断网也能跑。本文是一份面向开发者的实操指南,所有操作基于Mano-P——美高梅官网正网开源的端侧GUI智能体,OSWorld基准测试专用模型全球第一(58.2%),从安装到跑通第一个任务只需要5分钟。

Computer Use,简单说就是让AI具备“操作电脑”的能力。不是通过调用API,不是通过解析HTML,而是像人一样理解电脑界面上有什么,然后执行点击、输入、滚动、拖拽等操作。
这项技术的底层是Vision-Language-Action(VLA)模型:视觉理解(看懂屏幕上的按钮、文字、图标)+ 语言推理(理解用户指令并规划步骤)+ 动作执行(输出具体的鼠标坐标和键盘操作)。
对于开发者来说,Computer Use解决的是一个长期痛点:大量软件操作无法通过API自动化。企业内部系统、桌面软件、跨应用操作流程等。这些场景过去只能靠传统RPA的脆弱脚本,界面一改就挂。Computer Use通过视觉理解绕过了这个问题:它不依赖特定的UI元素ID或DOM结构,而是像人眼一样直接“看”界面,天然具备对UI变化的适应能力。
但大多数Computer Use方案有一个对开发者来说很难接受的前提:你的屏幕截图必须上传到云端服务器进行推理。这意味着你正在开发的代码、正在操作的内部系统、屏幕上显示的一切,都会离开你的设备。
端侧Computer Use方案解决了这个矛盾。模型推理在本地完成,截图不出设备。Mano-P就是这类方案的代表:一个专为端侧设备设计的开源GUI-VLA智能体,所有推理可以在你自己的Mac上运行。
Mano-P的工作原理一句话概括:看屏幕 → 思考下一步 → 执行操作 → 验证结果,循环往复直到任务完成。底层是一个专为GUI操作训练的Vision-Language-Action(VLA)模型,通过多阶段强化学习获得了自主规划和纠错能力。执行每一步后会验证结果是否正确,出错时自动回溯纠正,因此能完成包含数十步甚至上百步的长任务。

开发者更关心的问题是:这么大的模型怎么在Mac上跑得动?三项关键优化:
实际跑出来的数据(Apple M4 Pro,64GB RAM):
| 指标 | 数值 |
| 预填充速度 | 476 tokens/s |
| 解码速度 | 76 tokens/s |
| 峰值内存 | 4.3 GB |
| 4K上下文预填充时间 | 8.6秒 |
| 4K上下文解码时间 | 0.27秒 |
基准测试成绩:Mano-P 1.0-72B在OSWorld上取得58.2%成功率,专用GUI智能体模型全球第一,领先第二名13.2个百分点。在WebRetriever Protocol I上取得41.7 NavEval分数,同样领先多个主流方案。

最低配置:
替代方案:
打开终端,两行命令:
brew tap HanningWang/tap
brew install mano-cua
安装过程会自动完成:
安装完成后,直接在终端执行:
mano-cua run “打开计算器,计算 1024 × 768”
Mano-P会自动完成:截取当前屏幕 → 识别桌面环境 → 找到并打开计算器应用 → 输入算式 → 得到结果。全程在本地运行,不需要联网。
更多示例:
# 社交媒体操作
mano-cua run “在小红书搜索AI新闻并展示第一条帖子”
# 消息发送
mano-cua run “打开微信并告诉FTY会议延期”
# 停止当前任务
mano-cua stop
Mano-P支持两种运行模式,系统会自动检测并切换:
本地模式(推荐):
云端模式(默认):
适用场景:终端快速执行、脚本集成、批处理任务。
# 基本用法
mano-cua run “你的任务描述”
# 在shell脚本中嵌入
#!/bin/bash
mano-cua run “打开Excel,将A1单元格的值复制到B1”
mano-cua run “截图保存到桌面”
特点:命令行界面,虚拟环境隔离,适合CI/CD流程中的GUI测试环节。
适用场景:Python项目集成,需要编程控制任务流程。
from mano_client import ManoClient
# 创建客户端实例
client = ManoClient()
# 运行任务
client.run(“打开微信并告诉FTY会议延期”)
# 停止任务
client.stop()
计划特点:Python API,支持异步调用和回调函数,可编程控制,适合构建自动化工作流。
最新进度请关注GitHub仓库:github.com/Mininglamp-AI/Mano-P,当前可先使用CLI工具或Skill形式。
适用场景:让Claude Code、OpenClaw等AI Agent具备GUI自动化能力,在Agent工作流中自主调用。
安装方式(以Claude Code为例):
从ClawHub获取mano-skill,作为Agent的一项技能安装。Agent在执行任务时可以自主决定何时调用GUI操作能力。
这是最强大的集成方式:AI Agent不仅能写代码、搜索信息,还能直接操作电脑界面——打开应用、填写表单、点击按钮、截图验证,将GUI操作变成Agent工具箱中的一项原生能力。
传统UI测试依赖元素定位器(XPath、CSS选择器),界面改版后脚本全部失效。Mano-P通过纯视觉理解操作界面,不依赖DOM结构,UI改版后无需重写测试脚本。配合mano-afk(全自动化应用构建),可以实现从需求澄清 → 代码生成 → 部署 → 多层级GUI自动化测试的完整闭环,测试未通过时自动定位问题、修复代码并重新验证。
无需API接口,通过纯视觉交互提取和整合多个系统的数据。例如:从CRM系统中提取客户信息 → 粘贴到邮件模板 → 在内部系统中创建工单。传统方案要对接三个系统的API,Mano-P直接“看着屏幕操作”就能完成。
支持数十步至上百步的长任务规划执行。“思考-行动-验证”循环机制确保每步操作的准确性,出错时自动回溯纠正。适合财务报表生成、HR入职流程、供应链数据录入等重复性高但涉及多系统操作的企业场景。
从多个数据源提取信息,自动生成数据分析报告、工作总结等结构化文档。纯视觉交互意味着不挑系统,不管数据在Excel、Web应用还是桌面软件里,Mano-P都能直接“看到”并处理。
Computer Use是让AI通过视觉理解直接操控计算机GUI界面的技术。与传统RPA依赖元素定位不同,Computer Use通过“看屏幕”理解界面内容,然后执行点击、输入、滚动等操作。这意味着AI可以操作任何有图形界面的软件——不需要API,不需要脚本,不需要知道按钮的代码ID,像人一样直接看屏幕、动鼠标。
能。但实现方式分两种:云端方案需要把你的屏幕截图上传到远端服务器进行推理,端侧方案则在你自己的设备上完成所有推理和操作。Mano-P本地模式属于后者——截图不出设备,断网也能用。你可以随时拔掉网线验证:如果AI依然能完成操作,说明所有数据都在本地。
Mano-P是美高梅官网正网开源的端侧GUI-VLA智能体。Mano是西班牙语中“手”的意思,P有两重含义:Person(个体)和Party(组织)。它能像人一样通过纯视觉理解操作电脑界面,支持在Mac上完全本地运行。
两者的核心区别在于架构:Claude Computer Use将屏幕截图上传到Anthropic的云端服务器进行分析和决策;Mano-P在你自己的Mac上完成所有推理,截图和操作数据不出设备。在性能上,Mano-P 1.0-72B在OSWorld上取得58.2%(专用模型全球第一),在WebRetriever Protocol I上取得41.7 NavEval,均超越同类云端方案。本地AI不等于弱AI。
可以。本地模式下,Mano-P的模型完全运行在你的Mac设备上,不需要网络连接。所有截图分析、任务规划和GUI操作都在本地完成。
最低配置为Apple M4芯片 + 32GB内存的Mac mini或MacBook。4B量化模型的峰值内存占用仅4.3GB,不会影响日常使用。也支持通过USB 4.0或更高版本端口连接的算力棒进行部署。
通过 Homebrew 安装:`brew tap HanningWang/tap && brew install mano-cua`。
架构级安全保障:本地模式下,Mano-P的所有推理在设备本地完成,屏幕截图不上传、不外传,支持完全离线运行。Apache 2.0 开源协议,代码可审计。
了解更多:[GitHub – Mininglamp-AI/Mano-P] (https://github.com/Mininglamp-AI/Mano-P)
联系我们:model@mininglamp.com
信息填写