简介

你见过 AI agent 在屏幕上点来点去。PhysiClaw 让它去碰一块真正的屏幕。

PhysiClaw 是一台小巧的桌面机器人，它给 AI agent 一副实体的身体来操作手机。一台相机俯视屏幕；一支装在三轴机械臂上的电容触控笔伸出去，点在玻璃上。agent 读屏幕上的内容，决定怎么做，机械臂就照做 —— 跟人操作手机是同一套循环，只不过用相机当眼睛、用触控笔当手指。

手机上不用装任何 app，不用对接任何 API，也不用连接任何账号。对手机来说，这支触控笔和指尖毫无区别 —— 所以任何 app 都能用，iOS 或 Android 都行，每个 app 都不用单独配置。

它解决的问题

那些号称「能用你手机」的软件 agent，靠的无非三样东西。每一样都是一堵墙。

API 与 OAuth

每个服务都要单独对接、配密钥、过授权页。新 app，新的墙 —— 而你最想用的那些 app（你的银行、外卖软件）往往压根没有公开 API。

无障碍接口

自动化框架和读屏桥接都能被检测、被拦截，而且一旦 app 改版就全废了。

越狱

为了注入点击而 root 设备，既脆弱又不安全，大多数人也碰不得。

PhysiClaw 干脆完全不碰软件栈，绕过了这三样。唯一抵达手机的东西就是一个触控笔尖 —— 所以没什么要对接的，没什么能被检测的，也没什么要越狱的。

这个循环刻意做得简单，而且每次都一模一样：

因为每一步都以查看结果收尾，所以意外 —— 弹窗、广告、加载慢 —— 不过是要去应对的新状态，而不会让脚本崩掉。它如何工作详细走一遍完整的循环。

「什么都不装」这话差不多是真的，而这点差别很要紧 —— 所以直说了吧：

那些想让 agent 在现实世界里真正动手的人：折腾自动化的玩家、学机器人的人，以及所有不想再为「一根手指就能办到的事」多写一个对接的人。一套完整的构建大约 $112 的现成零件，加上一个下午的组装和校准 —— 不用焊接，不用定制电路板。