AI让视障人士“重获光明”,研究登上Nature子刊
【来源:虎嗅网】
据世界卫生组织(WHO)2019 年发布的《世界视力报告》显示,全球约有 22 亿人患有视力障碍,其中至少 10 亿人的视力障碍本可预防或尚待解决。
视力障碍和失明不仅影响着世界各地人们的正常生活,还给全球带来了巨大财政负担,据估计每年造成的全球生产力损失高达 4110 亿美元。
对于盲人和部分视障人士而言,可穿戴电子视觉辅助系统有助于维持他们的日常生活,但当前这类设备的人类适应性还不够,无法大规模推广。
如今,上海交通大学计算机学院清源研究院长聘教轨副教授、博士生导师顾磊磊团队及其合作团队,有望使用一种由 AI 驱动的可穿戴助盲系统帮助更多视障人士“重获光明”。
图|摄像头目前安装在眼镜上,但该团队正在努力使这些设备更轻便、更隐蔽。
据介绍,这是一套融合柔性电子和 AI 的穿戴助盲系统,以听觉触觉取代部分视觉,帮助盲人完成行动及抓取的日常任务。硬件上通过结构和功能设计尽可能实现轻、薄、美;软件上优化系统的信息输出方式,使其符合人类生理的听觉触觉以及大脑的认知方式,目标是使人像调用自己的器官一样轻松使用外部系统;同时开发了基于VR 的沉浸式虚实结合的训练系统,促进人机融合。
视频|一位视障者在户外动态环境中,借助 A-skin 的警示避开了行人,路灯、自行车等障碍物。
经过人形机器人以及盲人和部分视力障碍者在虚拟和真实环境中的测试,他们发现受试者在导航和导航后任务中的表现显著提升,例如能在穿过迷宫时避开障碍物,以及拿取和抓住某个物体。
相关研究论文以“Human-centred design and fabrication of a wearable multimodal visual assistance system”为题,已发表在国际权威科学期刊 Nature Machine Intelligence 上。
论文链接:
https://www.nature.com/articles/s42256-025-01018-6
研究团队表示,这款以人为本的可穿戴式视觉辅助系统,既能满足视障者的独特需求,又能确保将身体和认知压力降至最低。该系统的音频和触觉组件的集成提供了有效的视觉支持,个性化算法和轻量级硬件为用户友好型可穿戴视觉辅助系统提供了启示。
AI 是如何为视障人士指路的?
为视障人士开发人工视觉是人类长期以来的追求。
可穿戴式电子视觉辅助系统为视力受损者或视障人士提供了一种前景广阔的解决方案,为医疗和植入假肢提供了一种替代方案。这些设备不能恢复自然视力,而是通过将环境信息转换成其他感官模式并输入大脑来补偿视力损失,从而协助完成日常任务。
先进的系统已使视障人士能够执行基本的视觉功能,如导航、识别和寻找放错的钥匙等复杂任务。尽管这些技术的功能不断发展,但尚未在视障人士群体中得到广泛应用。使用过程中的认知和体力负荷,以及使用前所需的复杂培训过程,导致了采用率有限。
为解决上述问题,顾磊磊团队提出了一种旨在提高视障者独立生活能力的可穿戴视觉辅助系统。该系统可将视觉输入转化为音频和触觉反馈,确保高精确度、低延迟和对不同环境的适应性。
直观的空间提示听觉输出和导航算法,有助于减轻认知负担;A-skin 的独特设计和放置有助于在恶劣环境中完成导航和导航后任务;虚拟现实(VR)训练有助于快速、安全地进行训练;基于摩擦发电的智能鞋垫则能够以最低的功耗实现虚拟世界和现实世界的同步运动。
图|可穿戴多模态视觉辅助系统概览
整体系统硬件选用深度摄像头 D435i(英特尔 RealSense)安装在 3D 打印眼镜框上。它通过 USB 与 Raspberry Pi 4 Model B 微控制器相连。所有计算均在本地进行,无需远程服务器或其他服务。音频提示通过无线骨传导耳机传送至大脑。整个系统由商用锂离子电池供电。智能鞋垫内置三轴磁力计和摩擦电传感器,所得角度和压力数据分别用于估算行走步数和旋转姿态。
本设计通过使用生物兼容的编码策略来传达高级场景信息,如路径方向的结果。他们对 12 名视障者进行了一次转向目标实验,以找到合适的音频反馈。他们比较了三种反馈方法--二维空间提示音、三维立体声和口语提示--并使用最终航向误差和试验时间等指标来评估其性能。
图|音频反馈策略比较
在演示中,他们使用了人形机器人 TonyPi Pro,其原有头部摄像头被替换为 D435i,并在其操作系统中集成了与演示相关的功能模块。
视频|测试中,机器人成功避开了桌上的正方体。
在人造皮肤的制备方面,电子元件(包括 ToF 传感器、微控制器单元 MCU 及其他器件)通过柔性印刷电路板(FPC)工艺集成在柔性 PET 基板上。他们开发了一种可拉伸的电子皮肤,作为音频反馈的补充。 该电子皮肤是一个集成的感官-运动装置,通过提供近距离警报来提示是否有碰撞风险。该系统的核心部件是一个紧凑型飞行时间(ToF)传感器。当距离小于预定阈值时,致动器就会振动以刺激皮肤。在驱动电路和皮肤之间他们特意保持了间隙,这有利于致动器的振动,同时促进两者之间的空气流通。这种空气流通提高了皮肤的舒适度和透气性,从而提高了长期佩戴性。
该电子皮肤的放置位置以经典的皮质同形体为指导,该同形体是夸张的人体图形,说明大脑中用于控制身体各处传感和运动的部分所占比例。为了不影响正常运动任务的情况下实现高灵敏度,电子皮肤应放置在感觉较多但运动活动较少的区域。最终致动器和驱动电路被放置在手腕上。传感器安装在食指或中指的指背上,其功能根据手指的状态(弯曲或伸直)而改变。
图|用于高效触觉反馈的人造皮肤感觉运动器
在驱动系统设计中,PET 基板底部固定了一个薄型永磁体(厚度为 0.5 毫米,直径为 5 毫米),而单层铜线圈(直径同为 5 毫米)则安装在 PET 窄带上,二者共同构成振动单元。铜线圈通过电气连接与 MCU 的输出端相连。
ToF 传感器与控制电路之间的可伸缩连接部分,则是通过材料打印机将银颗粒打印在 PDMS(聚二甲基硅氧烷,Sylgard 184)基板上制成的。为了增强整体的柔韧性与可拉伸性,该连接区域还包覆了一层额外的 PDMS 封装层。
在实验者的选择上,通过对试点研究的数据进行功率分析,估算出了视障参与者的最低人数。功率分析推荐了 9 名参与者,他们选择了 12 名,以提供一个安全系数。他们在真实世界测试中又招募了 8 名视障人士,共有 20 名视障人士参与了实验。参与者是随机挑选的,来自不同的教育程度、年龄、性别和个人习惯背景。所有参与者都没有使用过类似辅助设备的经验,从而最大程度地减少了参与者可能已有的知识的影响。他们都被进一步蒙上了眼睛,以避免部分视障者的残余视力的影响。
他们对参与者进行了元宇宙康复训练和现实世界导航训练,使用 Unity 构建虚拟环境。摄像头和光线投射用于模拟 RGB-D 摄像头。在前测和后测期间,他们在现实世界中建立了虚拟场景,使用可穿戴系统进行导航。为了避免场景记忆的影响,在训练过程中,场景 1 和场景 2 随机交替出现,并且这些场景的布局随机镜像。每次训练结束后,参与者都有 2 分钟休息时间,在此期间可以提问和回答问题。这些措施确保了受试者不会重复训练完全相同的场景配置。
图|沉浸式元宇宙训练
为了评估训练效果,他们设计了场景 3 进行验证。它由一个迷宫组成,路径总长度约为 25 米。经过场景 1 和 2 的训练后,视障者直接进入场景 3,这是一个全新的场景,之前从未遇到过。参与者头戴贴有标签的帽子,超宽带系统(UWB)以 50 Hz 的频率记录标签的二维位置。用路径总长度除以完成时间来计算平均行走速度,同时统计碰撞次数。该训练计划经过精心组织,以保证用户在不过度劳累的情况下达到一致的成绩水平。
与传统的白手杖相比,该系统转弯更流畅,寻路效率更高。统计分析显示,使用可穿戴系统的步行速度与使用拐杖的速度相当。导航时间和行走距离大幅减少了约 25%。加入电子皮肤后,碰撞事故明显减少。
为了进一步评估可穿戴系统在不同真实世界环境中的影响,他们让另外 8 名视障人士参与了 4 个不同场景的真实世界测试:室内和室外环境、静态和动态障碍物、工作相关场景和日常生活场景,以及反映真实世界挑战的综合任务。这些任务的熟练完成凸显了系统在应对现实生活挑战方面的有效性。
图|真实世界环境测试
所有实验结束后,视障人士完成了广泛用于系统可用性评估的“系统可用性量表”。他们给可穿戴系统打出的平均可用性分数为 79.6 分,在 5000 个商业和研究设备中排名第 85 位。在随后的开放式问题调查问卷中,参与者表示可穿戴系统提供了直观的反馈和引人入胜的训练游戏。
研究结果表明,整合视觉、听觉和触觉能够增强视力辅助系统的可用性和功能性。该系统反映了人眼的构造,将中央区域用于详细处理,外围区域用于监视,通过融合密集和稀疏数据处理、快速和慢速响应速度以及前端观察能力,以最小的功耗和低延迟有效地监控了广阔的区域。
同时,在硬件方面,该系统引入了柔性集传感执行于一体的电子皮肤和自供电的摩擦电智能鞋垫,与传统的刚性设备相比,具有更好的可穿戴性。
而且,该系统是一个开源平台,更广泛、更多样化的视障者群体的参与对于开发适合他们特定需求的导航辅助工具意义重大。
AI 助力视障人群“重获光明”
科学家们一直致力于利用 AI 为视障人群研发补偿视力损失的可穿戴设备,不仅有上述研究中视觉听觉触觉一体化的系统,还有和智能数据手机的避障设备。
今年 3 月,Nature 发布了南京邮电大学通信与信息工程学院的一项研究。一副自主研发的眼镜(重约 400 克,含约 80 克电池)和一部普通智能手机组成的可穿戴式避障设备,可以用于全面的环境感知,包括视频和深度模态,并实现了深度辅助视频压缩模块。
他们在智能手机上设计了一个跨模态障碍物检测模块,该模块利用基于模态相关性的跨模态学习,确保可靠的检测,并提供用户友好的听觉和触觉警报。室内外多个实验结果表明,该模块的防撞率达到 100%,延迟小于 320 毫秒,续航时间约为 11 小时。
2023 年,由 GPT-4 提供支持的 AI 助手 Ask Envision 被设计用于辅助视障用户。它具备多模态能力,可以接收图像和文本,并生成对话式回应,还能够为用户提供更多关于周围世界的视觉信息,并提升用户的独立性。
未来,随着视觉模型、集成可穿戴电子设备、神经科学见解和个性化生成训练环境等方面的更多进展,以及跨学科的进一步合作,AI 帮助视障人群“重获光明”的方式还有更大的想象空间。
参考链接:
https://www.nature.com/articles/d41586-025-01214-9
https://www.who.int/news-room/fact-sheets/detail/blindness-and-visual-impairment
本文来自微信公众号:学术头条,作者:与可