核心内容摘要
《白鹿大白兔蹦出来》幕后揭秘:那些让你意想不到的“萌”力瞬间!
本研究为机器人触觉提供了多个富有前景的发展方向硬件方面通过传感器微型化、低功耗芯片及高集成封装提升机器人手内操作的灵活性并解决高负载下的散热稳定性难题。
论文第一作者为清华大学博士、南洋理工大学博士后李寿杰清华大学博士生吴同和人工智能硕士生徐建乐。
论文通讯作者包括清华大学深圳国际研究生院副教授丁文伯大连理工大学教授解兆谦新加坡国立大学助理教授吴昌盛和香港城市大学教授于欣格。
随着机器人技术从「预设程序执行」向「具身智能交互」跨越触觉感知作为理解物体属性、实现精细操作的核心感测方式其重要性日益凸显但当前系统在感知维度、分辨率及信号解读能力上仍远逊于人类导致机器人往往处于「有感无知」的状态。
在此背景下清华大学深圳国际研究生院丁文伯团队联合无界智航Xspark AI及多所国内外科研机构从鸽子卓越的多光谱视觉和非成像感知机制中获得灵感研发出了一种仿生多模态触觉传感器 SuperTac。
该系统将多光谱成像、摩擦电感测与惯性测量融为一体并通过构建
5B 参数的触觉语言模型 DOVE实现了触觉信号从底层感知到高层语义推理的突破。
相关成果作为封面元素发表于《Nature Sensors》第一期也是国内以第一单位在该期刊发表的首篇标志着机器人触觉感知向「人类水平」迈出了关键一步。
论文标题Biomimetic multimodal tactile sensing enables human-like robotic perception论文链接https://www.nature.com/articles/s
-y图 1 Nature Sensors 第一期封面图SuperTac 作为核心元素在封面上进行了展示右下角
仿生逻辑从鸽子眼球到多模态感知架构鸽子拥有自然界最复杂的感知系统之一SuperTac 的硬件设计对应了其生物学特征。
图 2 仿生学设计受鸽眼启发的高分辨率多模态触觉传感器多光谱视觉的迁移从视锥细胞到多通道相机鸽子的视网膜包含多种视锥细胞不仅能感知可见光还拥有人类不具备的紫外线UV感知能力。
SuperTac 集成了小型化的多光谱成像模块覆盖了从紫外390 nm、可见光400–700 nm到近红外940 nm及中红外
5–
1
0 μm的超宽频段。
通过引入超宽频段成像机器人能够在单一交互中同时解析热辐射、荧光位移等深层物理信息实现了对物体形状、纹理、颜色和温度的全面表征。
非成像感知的映射从地磁感应到 TENG / IMU鸽子能通过视网膜中的隐花色素等分子感知地磁场这是一种不依赖图像的物理感知。
SuperTac 在 1 mm 厚的皮肤内嵌入了摩擦纳米发电机TENG和惯性测量单元IMU。
TENG 利用接触起电原理根据不同物体的电负性差异识别材质准确率 95%并实现 15 cm 内的接近觉感知。
IMU 模拟生物的本体感受捕捉 0–60 Hz 的振动及碰撞信号。
通过将摩擦电与惯性信号与光场调制耦合传感器无需密集电极阵列即可扩展出对材质极性、震动及空间姿态的感知能力。
核心机制光场调制的「智能感知层」SuperTac 的核心竞争力在于其厚度仅为 1 mm 的光场调制多层感知皮肤。
皮肤最外层的导电层采用透明的 PEDOT:PSS通过丝网印刷技术在具有优异拉伸性能的 TPU 薄膜上形成涡旋线电极设计。
这种涡旋设计能提供均匀的电学信号结合摩擦起电机制使皮肤在接触不同电负性物体时产生截然不同的电学反馈从而实现高精度的材质分类与 15 cm 范围内的接近觉探测。
图 3 多光谱机理在导电层之下单向透视反射层充当了光学开关其透明度受两侧光强差调节。
当内部 LED 开启形成「触觉模式」时内侧光强占据主导反射层变为不透明状态CMOS 单元聚焦捕捉皮肤表面的微观纹理与形变当内部光源关闭反射层随之变为透明允许外部可见光透射使传感器能够直接获取物体的 RGB 颜色信息。
紧邻其下的紫外荧光标记层则利用在近红外波段不可见但在紫外光下激发的荧光标记实现了形变监测与物体纹理检测的解耦确保在复杂抓取过程中能够同步捕捉切向滑动与表面细节。
图 4 相关测试指标
触觉语言大模型
5B 参数背后的多模态融合架构为了构建跨模态物理信号与自然语言空间的统一表征对齐DOVE 采用了分层架构设计其底层骨干由预训练的大语言模型 Vicuna 构成为系统提供了强大的语言理解与逻辑推理基础。
为了处理极其复杂的触觉输入系统并行集成了四组预训练的 CLIP对比语言—图像预训练模型作为模态编码器将图像化的触觉特征包括颜色、纹理、温度和材质信号提取为深层特征向量。
图 5 触觉语言大模型 DOVEDOVE 的训练通过三阶段策略实现从底层感知到高层认知的递进首先利用 CLIP 将异构传感器信号转化为通用的图像表征随后通过投影层将触觉特征精准对齐至语言模型空间最后针对 Vicuna 骨干网络进行微调使其能够结合常识对触觉指令进行复杂推理。
应用场景从物理触碰到语义逻辑的跃迁SuperTac 提供的多模态底层数据通过 DOVE 模型的深度解析成功实现了从单纯的「物理感知」向高层「语义认知」的跨越赋予了机器人类人的具身交互能力。
图 6 SuperTac DOVE 的应用场景在基础的识别维度DOVE 能够实时融合传感器采集的异构多模态数据为操纵目标建立起全方位的「物理画像」。
例如在抓取实验中面对一个未知杯子DOVE 能准确地将其感官印象转化为人类可理解的语言「黄色室温表面具有规律排布的凸起纹理判定为金属材质」。
最高层级的应用体现在常识指引下的功能决策与推理。
DOVE 不仅解析当前的物理数据还能将实时的触觉反馈与预训练的大模型常识相结合从而推断物体的潜在功能并做出逻辑决策。
在极具挑战性的垃圾分拣任务中这一能力得到了充分验证当机器人接触到乱序堆放的杂物时DOVE 能够根据触觉反馈进行逻辑建模。
例如它会推论道「该物体具有典型的 PET 物理特征结合其轻薄的结构判定为废弃的塑料饮料瓶基于环保常识建议将其放入可回收垃圾桶」。