yesmiracle blog

设想一个场景：你需要自动化测试一款企业内部软件，每次运行都涉及大量界面截图。使用云端AI，每一张截图都意味着数据传输、token消耗和潜在的数据泄露风险。现在，一个开源的4B模型让这一切在本地完成——这就是Mano-P，一个能直接操控Mac图形界面的GUI-VLA模型。

Mano-P：纯视觉GUI代理，本地运行

Mano-P的背后是一种GUI-VLA模型，它彻底抛弃了传统自动化依赖的CDP协议或DOM解析，改用纯视觉输入：模型直接分析屏幕截图，找出可交互元素并执行点击、拖拽、键入等操作。它的训练数据涵盖了6万条GUI轨迹、超过300万个动作，使其能操控浏览器页面、桌面软件、专业工具甚至3D应用，完全不受限于特定协议。

在Apple M4 Pro芯片上，4B量化模型的预填充速度达476 tokens/s，解码速度76 tokens/s，峰值内存仅占用4.3GB。在CUA（Computer Use Agent）基准测试中，其任务完成准确率已与云端大模型旗鼓相当，而所有截图和决策数据始终驻留在本地，从未离开设备。更关键的是，它支持离线长任务自主规划，可以在无网络环境下独立完成复杂业务流程的决策与纠错。

安装体验极为流畅：只需一行命令 brew tap HanningWang/tap && brew install mano-cua，随后通过 mano-cua run "打开微信告诉联系人会议延期" 就能下达任务。模型会像人类一样观察屏幕、定位窗口、移动鼠标、键入文字，全程本地执行。

Cider：让端侧模型跑出云端速度

如此顺滑的本地体验，归功于团队自研的推理加速框架Cider。Cider基于Apple MLX生态，首次通过Metal 4 API在Apple GPU上实现了硬件加速的INT8 TensorOps，从而补全了MLX原生缺失的W8A8和W4A8激活量化能力。这意味着原本只能跑在云端的大模型推理负载，现在可以在Mac上高速处理。

实测数据令人印象深刻：启用W8A8量化后，核心算子速度相比MLX原生实现提升40%至90%。以Qwen3-8B为例，FP16原生预填充速度为1695 tokens/s，经Cider加速后跃升至2531 tokens/s，提升近1.5倍；Llama3-8B则从1727 tokens/s提升至2520 tokens/s。对于视觉语言模型Qwen3-VL-2B，在chunked prefill场景中端到端加速达57%–61%。

Cider的接入极其简洁，仅需一行代码即可将任意MLX模型的Linear层替换为加速版本：from cider import convert_model; convert_model(model)。它会根据序列长度自动选择最优计算核心：长序列时使用W8A8 INT8 TensorOps加速预填充，短序列时回退至原始权重以保证解码效率。这意味着Qwen、Llama、Mistral等主流模型均能一键获得速度飞跃。

实战：零成本构建自动化流水线

将Mano-P与Cider结合，可以搭建完全离线的自动化系统。以一个全自动应用构建流水线为例：用户用自然语言描述需求，系统自动完成架构设计、代码生成和本地部署；随后进入多层级测试——先验证API接口，再通过LLM进行页面视觉检查，最后由VLA模型执行端到端GUI操作。若任何环节失败，系统自行定位问题、修复代码、重新部署，循环迭代直到全部通过。整个过程无需人工插手，所有GUI测试的截图和决策均不外传。

另一个典型场景是商业视频智能系统：从生成视频、上传平台、分析数据到剪辑修改，系统自主操作网页和剪辑软件，最终输出包含主观评价与客观指标的分析报告。这些场景的共同特点是：大量界面交互产生的图像数据，全部在本地闭环处理。

成本侧的意义更为直接。在全自动编程流水线中，GUI测试环节消耗的云端token通常占总量的59%以上——因为模型必须持续分析截图、定位元素并判断结果，推理开销巨大。Mano-P将这部分高频调用直接归零，不产生任何API费用，也不上传一张截图。与Claude Computer Use横向对比：Claude在OSWorld测试中取得72.1%的成绩，高于Mano-P的58.2%，但其依赖网络API，所有交互数据必须传出设备。[推断]对于金融、政务等对数据驻留有刚性需求的场景，端侧方案在合规性与性能的平衡上更具现实可行性。

立即上手只需三步：

通过Homebrew安装：brew tap HanningWang/Tap && brew install mano-cua
运行基础任务：mano-cua run "你的指令"
开发者可将模型集成至Skill，或调用Cider加速现有MLX模型：from cider import convert_model; convert_model(your_model)

Mano-P和Cider的组合证明，端侧GUI代理不仅技术上可行，在特定业务场景中甚至比云端服务更具优势。团队已宣布将开源mano-p模型的训练方法，使开发者能利用自有数据训练定制化的GUI代理。[推断]这或许会推动企业级本地AI自动化进入一个新范式，让数据主权与智能操控真正兼得。