现实 · The Reality

机器人比人慢 10×

人做 1 秒的任务, 机器人需要 10 秒 · 复杂任务甚至 14 秒

这 9-13 秒消耗在哪里? 答案不在机器人, 在 操作员的脑里

长期 北极星 KPI

1:10 → 1:1

每个 H 命题 / gap / 决策都必须回答: 这让 1:10 → 1:1 更近还是更远?

短期 forcing function

WRC 2026 · 8 月

世界机器人大赛 (北京亦庄) · 遥操作赛项 · 现场约束反哺 day-1 build

↓ 向下看消耗在哪

第一性问题 · The First-Principles Question

操作员的精力账单

"我的十份精力在操作中到底损耗在哪些地方, 导致我不能像人在自然状态下那样, 在低认知负荷的情况下长时间工作?"
— YZL, 2026-05-16 round 7

2026-05-21 round 8, 我们系统枚举了 14 项 cognitive load (认知负荷) 消耗源: 5 项 YZL 自述 + 9 项 学界 / cross-domain 调研补全。

分类轴 = Wickens 2008 MRT (Multiple Resource Theory, 多资源理论) 四维 cell · 每项 trace 到蓝图 H 命题 + L 层 gap + 当下 substrate 缓解状态。

Part A · YZL 自述 5 类

#1 环境认知 v1

底盘怕撞 · 胳膊怕磕到桌子 (过温) / 碰到人 (伤害)

MRT: Visual-Spatial-Focal + SA L1 · 蓝图 H3 · 学界 Endsley 1995

#2 主从异构换算 demo-blocker

人腕 2-DoF 复合 vs 从臂串联 3-DoF → 触发 retargeting · 肘角不同步

MRT: Cognitive-Spatial · H1+H6 · Kilteni 2012 / Mick 2020

#3 视觉补偿触觉 v1

人 200ms 视觉延时 + 置信度低 · 遮挡场景不知抓取 FSM (Finite State Machine, 有限状态机) 状态

MRT: Visual 强占 · H2 · Bergholz 2023 g=0.83 (最大 ROI)

#4 视觉认知 demo-blocker

人眼 vs 摄像头 FOV (Field of View, 视场) 不同 · 眼角缓冲降 cog load · 颈-眼偏置不映射会晕

MRT: Visual-Ambient + 前庭冲突 · H4 · Slater 2009 PI / Open-TeleVision 2024

#5 主从动力学不一致 v1

把主端启动扭矩 (start-up torque) 理解为从端实际阻力 → internal model 错配反复重建

MRT: Cognitive · H1 · Hannaford Z-width 4 段 · Toet 2020 incorporation

Part B · 学界 + cross-domain 补 9 类

#6 时序 / 同步 demo-blocker

跨 modality > 30ms 即破 PI · jitter > 平均延迟 · 触觉必须先于视觉

#7 状态可视化 / 归因 v1

机器卡了 5 种原因长一样 · 力反馈饱和被误读 · 失败归因焦虑 trust 崩

#8 听觉 / ambient 丢失 v1

撞 / 刮 / 滚没声 · 顾客 / 警报全没 · SA 30% 通常靠耳被砍

#9 Workspace clutch v1

Master workspace < Slave → reset · 粗动微动切换判断 · 脚控 vs 手控 mode 边界

#10 全身分身术 demo-blocker

两臂 + 双 gripper + 腰 + 头 + 4 swerve 底盘 5-6 个 control surface 并发

#11 Hammer 稳定性 v1

Master spec 每改一次, 操作员手感重建几小时到几天 · incorporation longitudinal

#12 HMD 物理疲劳 v1

眼疲劳 / 太阳穴 / 雾 / 压 · 首次戴 30-50% 眩晕率 · 视力适配

#13 Vigilance decrement v2

4h+ 班次注意力曲线 1h 后断崖 · 微休息 protocol · 班次交接 handover

#14 LTM 学习曲线 v1

Learn-to-Master 中位数未量化 · 流动率 50%+/年放大成本 · 商业模型分母

完整 14 项 + Wickens MRT cell + 学界引用 + 蓝图 H 编号 + 当下 substrate 缓解状态: CONTEXT/research/20260521-cc-cogload-inventory.md

回答 · The Answer

三条元原则

14 项消耗散落, 但回答只有 3 条原则。每条 spec / 决策 / 投入都必须同时通过这 3 把尺。

M1 · 设计起点

操作者还剩多少
具身感 + 认知负荷

不是"机器人长什么样"。是 操作者还能不能像自然状态下那样长时间低认知负荷工作

每条 spec 必须回答两个问题:

  • 它如何提升 sense of embodiment (具身感)?
  • 它如何降低 cognitive load (认知负荷)?

反哺到 14 项: #1 #2 #4 #5 #6 #11 #12 #13 直接对接。

M1 具身感 + 认知负荷

M2 · 双场景 KPI 矩阵

每条 spec 必须
同时在两列过线

日常 (美超实操) 与极端 (WRC 比赛 / 强 EM 干扰) 共用一张表, 不允许 "demo OK 但比赛挂"。

维度日常极端
图像延迟< 200 ms同上 + 可降级
图像 jitterP99 ≤ 20 ms≥ 5 ms P99 即不合格
通信链路单 4G/WiFi≥ 2 物理介质冗余
触觉延迟< 30 ms 本地闭环公网下 transparency 降级
远程上电optional必须 (无人现场)

反哺 #6 时序 · #10 全身控制

M2 双场景 KPI 矩阵

M3 · 挖坑哲学

系统集成
才是仓颉的护城河

子系统 SOTA (State of the Art, 最优) = 别人替我们打的工:

PHANToM · Force Dimension · SenseGlove · DLR 阻抗控制 · mmWave 雷达 · ZED 双目 · Lawrence 1993 transparency · Anderson-Spong 1989 wave variables · Mitra-Niemeyer 2008 model-mediated · ...

系统集成 = 空白。把分散在 30 个 lab 里的 SOTA 第一次拼成产品的人, 才是仓颉。

目标产物: 让操作者具身感不被打断 + 认知负荷可承受 + 远程无人干预可运维 的产品。

反哺 #3 #7 #8 #9 #14 · 任何子系统级竞品都不会自己解掉这些

M3 系统集成挖坑哲学

落地 · From Principle to Practice

Onboarding
第一天发生什么

元原则不抽象。一个新 operator 从陌生到熟练, 时间轴上 5 个 milestone 把 M1/M2/M3 落到行为层。

Onboarding 时间线 0s → 10s → 30min → 1h → days

T+0s

戴 VR + 插 master

Operator 戴 Apple Vision Pro, 双手插进 master 三指套

应对 #4 #12

T+5–10s

挥舞建 RHI

双臂挥舞触发 rubber-hand-illusion (橡胶手错觉), 具身感 lock — M1 核心 ritual

应对 #2 #5 #11

T+30 min

Hello world 补货

第一次完整 pick-and-place · L1.1 培训曲线 quantification 起点

应对 #1 #3 #7

T+1 h

Vigilance dip

注意力曲线第一次断崖 (Nick 2025) — 触发 micro-break protocol

应对 #13

T+? days

LTM 中位数

Learn-to-Master 达成 · 这个 ? 是商业模型分母, 必须量化 (UU-03)

应对 #14

"Mapping reveal & affordance design = 产品级 onboarding (非运营培训)。"

挡路 · The 5 Blockers

L1 · 操作员
初次接触的 5 个 gap

这 5 个 gap 来自 60-gap inventory 第 1 层 "操作员初次接触" — Onboarding 失败模式的全景, 每个直接卡 unit economics (单位经济)。

L1.1

上岗培训曲线

新人坐下到第一次完成任务: 几小时 vs 几天 vs 几周 = 10× operating cost 差

应对: 5-10s RHI ritual + 30min hello world 标准化课件

L1.2

HMD 首次眩晕率

vergence-accommodation conflict + 视-前庭不同步 → 30-50% 首次报眩晕

应对: head-tracked active stereo + ≥100° FoV (M1 + #4 视觉认知)

L1.3

视力 / 残障适配

Vision Pro 对 ~30% 普通人不友好 (散光 / 近视 / 老花 / 色盲)

应对: ZEISS 光学插片 prescription 流程 (招聘 onboarding step 1)

L1.4

操作员能力差异

A 干 1h B 要 2h 错误率 · "合格" 门槛标定缺失

应对: NASA-TLX + 标准化 6 任务 LTM benchmark 出厂三件套

L1.5

高流动性招聘市场

美式蓝领时薪工流动率 50%+/年 → 每年 onboard 一半人, 放大 L1.1 成本

应对: 培训曲线压到 < 2 天 → 流动率成本可吸收

cross-cut

关键洞察

这 5 项不解, 1:10 → 1:1 商业模型上不去。M1 元原则的物理 grounding 就在这里。

Owner: 王真 (COO, US GTM) + 后续招聘 ops 同事

路线 · The Path

怎么把 1:10
压回 1:1

1:10 → 1:1 v1-v4 进度

v1

1:5

2026-08 WRC 前 · 全身控制 + 触觉 cutaneous + 通信双模 ship

v2

1:3

首批客户 · 自研 7DOF 第一型 + Haption-clone master ship

v3

1:2

规模化 · 多机 1 人监督 + 长时班次 protocol + LTM 中位数 ≤ 2 天

v4

1:1

Autopilot 上线 · autonomous task ≥ 80% · operator = exception handler

短期 forcing function · WRC 2026 (8 月)

现场约束 → day-1 build

  • 现场直播多 → 数字图传 WiFi 频段冲突, 模拟图传通常稳定
  • 通信必须双模 — 模拟图传接收后再转网线 → IP 远传
  • 故障模式必须有兜底, 尤其通信部分

YZL 5/15: "数字图传可能因为带宽占用而不稳定, 但模拟图传通常很稳定 ... 把不稳定的无线共享带宽转化成固定的有线带宽, 逻辑上更合理。"

Rain 部署端 美超场景