现实 · The Reality
人做 1 秒的任务, 机器人需要 10 秒 · 复杂任务甚至 14 秒。
这 9-13 秒消耗在哪里? 答案不在机器人, 在 操作员的脑里。
长期 北极星 KPI
1:10 → 1:1
每个 H 命题 / gap / 决策都必须回答: 这让 1:10 → 1:1 更近还是更远?
短期 forcing function
WRC 2026 · 8 月
世界机器人大赛 (北京亦庄) · 遥操作赛项 · 现场约束反哺 day-1 build
↓ 向下看消耗在哪
第一性问题 · The First-Principles Question
"我的十份精力在操作中到底损耗在哪些地方, 导致我不能像人在自然状态下那样, 在低认知负荷的情况下长时间工作?"
2026-05-21 round 8, 我们系统枚举了 14 项 cognitive load (认知负荷) 消耗源: 5 项 YZL 自述 + 9 项 学界 / cross-domain 调研补全。
分类轴 = Wickens 2008 MRT (Multiple Resource Theory, 多资源理论) 四维 cell · 每项 trace 到蓝图 H 命题 + L 层 gap + 当下 substrate 缓解状态。
底盘怕撞 · 胳膊怕磕到桌子 (过温) / 碰到人 (伤害)
MRT: Visual-Spatial-Focal + SA L1 · 蓝图 H3 · 学界 Endsley 1995
人腕 2-DoF 复合 vs 从臂串联 3-DoF → 触发 retargeting · 肘角不同步
MRT: Cognitive-Spatial · H1+H6 · Kilteni 2012 / Mick 2020
人 200ms 视觉延时 + 置信度低 · 遮挡场景不知抓取 FSM (Finite State Machine, 有限状态机) 状态
MRT: Visual 强占 · H2 · Bergholz 2023 g=0.83 (最大 ROI)
人眼 vs 摄像头 FOV (Field of View, 视场) 不同 · 眼角缓冲降 cog load · 颈-眼偏置不映射会晕
MRT: Visual-Ambient + 前庭冲突 · H4 · Slater 2009 PI / Open-TeleVision 2024
把主端启动扭矩 (start-up torque) 理解为从端实际阻力 → internal model 错配反复重建
MRT: Cognitive · H1 · Hannaford Z-width 4 段 · Toet 2020 incorporation
跨 modality > 30ms 即破 PI · jitter > 平均延迟 · 触觉必须先于视觉
机器卡了 5 种原因长一样 · 力反馈饱和被误读 · 失败归因焦虑 trust 崩
撞 / 刮 / 滚没声 · 顾客 / 警报全没 · SA 30% 通常靠耳被砍
Master workspace < Slave → reset · 粗动微动切换判断 · 脚控 vs 手控 mode 边界
两臂 + 双 gripper + 腰 + 头 + 4 swerve 底盘 5-6 个 control surface 并发
Master spec 每改一次, 操作员手感重建几小时到几天 · incorporation longitudinal
眼疲劳 / 太阳穴 / 雾 / 压 · 首次戴 30-50% 眩晕率 · 视力适配
4h+ 班次注意力曲线 1h 后断崖 · 微休息 protocol · 班次交接 handover
Learn-to-Master 中位数未量化 · 流动率 50%+/年放大成本 · 商业模型分母
完整 14 项 + Wickens MRT cell + 学界引用 + 蓝图 H 编号 + 当下 substrate 缓解状态: CONTEXT/research/20260521-cc-cogload-inventory.md
回答 · The Answer
14 项消耗散落, 但回答只有 3 条原则。每条 spec / 决策 / 投入都必须同时通过这 3 把尺。
M1 · 设计起点
不是"机器人长什么样"。是 操作者还能不能像自然状态下那样长时间低认知负荷工作。
每条 spec 必须回答两个问题:
反哺到 14 项: #1 #2 #4 #5 #6 #11 #12 #13 直接对接。
M2 · 双场景 KPI 矩阵
日常 (美超实操) 与极端 (WRC 比赛 / 强 EM 干扰) 共用一张表, 不允许 "demo OK 但比赛挂"。
| 维度 | 日常 | 极端 |
|---|---|---|
| 图像延迟 | < 200 ms | 同上 + 可降级 |
| 图像 jitter | P99 ≤ 20 ms | ≥ 5 ms P99 即不合格 |
| 通信链路 | 单 4G/WiFi | ≥ 2 物理介质冗余 |
| 触觉延迟 | < 30 ms 本地闭环 | 公网下 transparency 降级 |
| 远程上电 | optional | 必须 (无人现场) |
反哺 #6 时序 · #10 全身控制
M3 · 挖坑哲学
子系统 SOTA (State of the Art, 最优) = 别人替我们打的工:
PHANToM · Force Dimension · SenseGlove · DLR 阻抗控制 · mmWave 雷达 · ZED 双目 · Lawrence 1993 transparency · Anderson-Spong 1989 wave variables · Mitra-Niemeyer 2008 model-mediated · ...
系统集成 = 空白。把分散在 30 个 lab 里的 SOTA 第一次拼成产品的人, 才是仓颉。
目标产物: 让操作者具身感不被打断 + 认知负荷可承受 + 远程无人干预可运维 的产品。
反哺 #3 #7 #8 #9 #14 · 任何子系统级竞品都不会自己解掉这些
落地 · From Principle to Practice
元原则不抽象。一个新 operator 从陌生到熟练, 时间轴上 5 个 milestone 把 M1/M2/M3 落到行为层。
T+0s
Operator 戴 Apple Vision Pro, 双手插进 master 三指套
应对 #4 #12
T+5–10s
双臂挥舞触发 rubber-hand-illusion (橡胶手错觉), 具身感 lock — M1 核心 ritual
应对 #2 #5 #11
T+30 min
第一次完整 pick-and-place · L1.1 培训曲线 quantification 起点
应对 #1 #3 #7
T+1 h
注意力曲线第一次断崖 (Nick 2025) — 触发 micro-break protocol
应对 #13
T+? days
Learn-to-Master 达成 · 这个 ? 是商业模型分母, 必须量化 (UU-03)
应对 #14
"Mapping reveal & affordance design = 产品级 onboarding (非运营培训)。"
挡路 · The 5 Blockers
这 5 个 gap 来自 60-gap inventory 第 1 层 "操作员初次接触" — Onboarding 失败模式的全景, 每个直接卡 unit economics (单位经济)。
L1.1
新人坐下到第一次完成任务: 几小时 vs 几天 vs 几周 = 10× operating cost 差
应对: 5-10s RHI ritual + 30min hello world 标准化课件
L1.2
vergence-accommodation conflict + 视-前庭不同步 → 30-50% 首次报眩晕
应对: head-tracked active stereo + ≥100° FoV (M1 + #4 视觉认知)
L1.3
Vision Pro 对 ~30% 普通人不友好 (散光 / 近视 / 老花 / 色盲)
应对: ZEISS 光学插片 prescription 流程 (招聘 onboarding step 1)
L1.4
A 干 1h B 要 2h 错误率 3× · "合格" 门槛标定缺失
应对: NASA-TLX + 标准化 6 任务 LTM benchmark 出厂三件套
L1.5
美式蓝领时薪工流动率 50%+/年 → 每年 onboard 一半人, 放大 L1.1 成本
应对: 培训曲线压到 < 2 天 → 流动率成本可吸收
cross-cut
这 5 项不解, 1:10 → 1:1 商业模型上不去。M1 元原则的物理 grounding 就在这里。
Owner: 王真 (COO, US GTM) + 后续招聘 ops 同事
路线 · The Path
v1
1:5
2026-08 WRC 前 · 全身控制 + 触觉 cutaneous + 通信双模 ship
v2
1:3
首批客户 · 自研 7DOF 第一型 + Haption-clone master ship
v3
1:2
规模化 · 多机 1 人监督 + 长时班次 protocol + LTM 中位数 ≤ 2 天
v4
1:1
Autopilot 上线 · autonomous task ≥ 80% · operator = exception handler
短期 forcing function · WRC 2026 (8 月)
YZL 5/15: "数字图传可能因为带宽占用而不稳定, 但模拟图传通常很稳定 ... 把不稳定的无线共享带宽转化成固定的有线带宽, 逻辑上更合理。"