摘要
本发明提供了一种基于动态门控与双流注意力的儿童语言描述视觉定位方法及系统。方法包括:将接收到的儿童语言信号转化成文本数据,并提取文本特征;对待识别图像进行切分,获得子图像块;基于子图像块,获得第一视觉特征;基于文本特征和第一视觉特征,获得多模态嵌入;基于多模态嵌入,并结合第一视觉特征,获得第二视觉特征;将文本特征与第二视觉特征映射到相同的特征空间,获取跨模态tokens序列;基于跨模态tokens序列,获取待识别图像中儿童语言描述的目标对象位置。本发明滤除了低置信度文本特征,使模型能够根据语义相关度自适应调整多模态特征的贡献度,精准聚焦于目标对象的显著性特征区域,显著提升了目标定位的准确率。
技术关键词
视觉特征
多模态
文本
跨模态
动态门控
图像块
视觉定位方法
注意力
池化特征
儿童
序列
卷积特征
视觉定位系统
语义相关度
线性
语音识别技术
定位模块
对象
系统为您推荐了相关专利信息
深度神经网络模型
食品安全智能检测
时间序列特征
融合特征
多模态
教学质量评价方法
教学质量评价系统
学生
数据
教师