摘要
本发明公开了一种基于转换器模型进行视听模态融合的具身视听导航方法,包括以下步骤:采集视觉信息和听觉信息;最大化预期折扣回报与奖励;分别使用两个编码器对视听感官进行特征提取;使用空间音频编码器进行特征映射;对视觉和听觉两个模态的信息进行融合;使用动态路径长度加权成功衡量声源为移动声源的任务的策略;使用近端策略优化算法训练网络。本发明能施更好地协同了视觉与听觉输入,使得视听模态得以更好地融合,以提高导航的准确性与精度。本发明使用转换器模型代替传统的门控循环单元,能满足在嘈杂环境以及动态声源任务中的高难度导航要求。本发明使用近端策略优化算法进行训练,节省了人力,提高了经济效益。
技术关键词
音频编码器
深度编码器
视听
导航方法
转换器
采集视觉信息
双耳声音
策略
听觉
麦克风阵列采集
门控循环单元
动态
训练算法
短距离
图像
感官
网络结构
系统为您推荐了相关专利信息
人机交互系统
正确率
人机交互方法
视听
人机交互数据
电源管理芯片
逻辑电平转换器
双向电平转换芯片
无线通信芯片
核心板
动作控制方法
融合特征
多模态
动作控制程序
序列
成像方法
非线性神经网络
序列
编码器模块
模拟数字转换器
微环谐振器
芯片
激光器谐振腔
集成模斑转换器
游标卡尺