跳转到内容

简介

你见过 AI agent 在屏幕上点来点去。PhysiClaw 让它去碰一块真正的屏幕。

PhysiClaw 是一台小巧的桌面机器人,它给 AI agent 一副实体的身体来操作手机。一台相机俯视屏幕;一支装在三轴机械臂上的电容触控笔伸出去,点在玻璃上。agent 读屏幕上的内容,决定怎么做,机械臂就照做 —— 跟人操作手机是同一套循环,只不过用相机当眼睛、用触控笔当手指。

手机上不用装任何 app,不用对接任何 API,也不用连接任何账号。对手机来说,这支触控笔和指尖毫无区别 —— 所以任何 app 都能用,iOS 或 Android 都行,每个 app 都不用单独配置。

那些号称「能用你手机」的软件 agent,靠的无非三样东西。每一样都是一堵墙。

API 与 OAuth

每个服务都要单独对接、配密钥、过授权页。新 app,新的墙 —— 而你最想用的那些 app(你的银行、外卖软件)往往压根没有公开 API。

无障碍接口

自动化框架和读屏桥接都能被检测、被拦截,而且一旦 app 改版就全废了。

越狱

为了注入点击而 root 设备,既脆弱又不安全,大多数人也碰不得。

PhysiClaw 干脆完全不碰软件栈,绕过了这三样。唯一抵达手机的东西就是一个触控笔尖 —— 所以没什么要对接的,没什么能被检测的,也没什么要越狱的。

这个循环刻意做得简单,而且每次都一模一样:

  1. 看。 俯拍相机给屏幕拍照。设备本地的视觉模型给找到的每个按钮、图标和每行文字都框出范围、打上标签。
  2. 决策。 agent 读这张标注好的视图,挑一个目标 ——这个框 —— 再挑一个动作:tap、swipe、长按。
  3. 移动并触碰。 机械臂把触控笔送到目标,笔尖落下完成一次触碰,然后抬起。
  4. 检查。 相机再看一眼。屏幕有没有按预期变化?变了就进行下一个动作;没变就再试一次。

因为每一步都以查看结果收尾,所以意外 —— 弹窗、广告、加载慢 —— 不过是要去应对的新状态,而不会让脚本崩掉。 它如何工作详细走一遍完整的循环。

「什么都不装」这话差不多是真的,而这点差别很要紧 —— 所以直说了吧:

那些想让 agent 在现实世界里真正动手的人:折腾自动化的玩家、学机器人的人,以及所有不想再为「一根手指就能办到的事」多写一个对接的人。一套完整的构建大约 $112 的现成零件,加上一个下午的组装和校准 —— 不用焊接,不用定制电路板。