基于转换器模型进行视听模态融合的具身视听导航方法

正文

推荐专利

申请号：CN202411618615

申请日期：2024-11-13

公开号：CN119469172A

公开日期：2025-02-18

类型：发明专利

摘要

本发明公开了一种基于转换器模型进行视听模态融合的具身视听导航方法，包括以下步骤：采集视觉信息和听觉信息；最大化预期折扣回报与奖励；分别使用两个编码器对视听感官进行特征提取；使用空间音频编码器进行特征映射；对视觉和听觉两个模态的信息进行融合；使用动态路径长度加权成功衡量声源为移动声源的任务的策略；使用近端策略优化算法训练网络。本发明能施更好地协同了视觉与听觉输入，使得视听模态得以更好地融合，以提高导航的准确性与精度。本发明使用转换器模型代替传统的门控循环单元，能满足在嘈杂环境以及动态声源任务中的高难度导航要求。本发明使用近端策略优化算法进行训练，节省了人力，提高了经济效益。

技术关键词

音频编码器深度编码器视听导航方法转换器采集视觉信息双耳声音策略听觉麦克风阵列采集门控循环单元动态训练算法短距离图像感官网络结构

系统为您推荐了相关专利信息

发展性阅读障碍跨通道时间加工的人机交互系统及方法

人机交互系统正确率人机交互方法视听人机交互数据

一种基于MT8395处理器的核心板

电源管理芯片逻辑电平转换器双向电平转换芯片无线通信芯片核心板

多模态融合特征驱动的动作控制方法、装置、设备及介质

动作控制方法融合特征多模态动作控制程序序列

一种基于Bi-LSTM强编码器的陀螺振型成像方法

成像方法非线性神经网络序列编码器模块模拟数字转换器

一种外腔大范围可调谐激光器

微环谐振器芯片激光器谐振腔集成模斑转换器游标卡尺

基于转换器模型进行视听模态融合的具身视听导航方法

站点导航

APP 下载