一种基于动态门控与双流注意力的儿童语言描述视觉定位方法及系统

AITNT
正文
推荐专利
一种基于动态门控与双流注意力的儿童语言描述视觉定位方法及系统
申请号:CN202510575003
申请日期:2025-05-06
公开号:CN120495821A
公开日期:2025-08-15
类型:发明专利
摘要
本发明提供了一种基于动态门控与双流注意力的儿童语言描述视觉定位方法及系统。方法包括:将接收到的儿童语言信号转化成文本数据,并提取文本特征;对待识别图像进行切分,获得子图像块;基于子图像块,获得第一视觉特征;基于文本特征和第一视觉特征,获得多模态嵌入;基于多模态嵌入,并结合第一视觉特征,获得第二视觉特征;将文本特征与第二视觉特征映射到相同的特征空间,获取跨模态tokens序列;基于跨模态tokens序列,获取待识别图像中儿童语言描述的目标对象位置。本发明滤除了低置信度文本特征,使模型能够根据语义相关度自适应调整多模态特征的贡献度,精准聚焦于目标对象的显著性特征区域,显著提升了目标定位的准确率。
技术关键词
视觉特征 多模态 文本 跨模态 动态门控 图像块 视觉定位方法 注意力 池化特征 儿童 序列 卷积特征 视觉定位系统 语义相关度 线性 语音识别技术 定位模块 对象
系统为您推荐了相关专利信息
1
一种基于虚拟数字人的AI智能对话系统
智能对话系统 匹配模块 识别模块 分析模块 文本
2
基于多模态数据与AI算法的食品安全智能检测方法及系统
深度神经网络模型 食品安全智能检测 时间序列特征 融合特征 多模态
3
基于多模态大模型的数字人生成方法、装置、设备及存储介质
交互模型 生成方法 多模态 视频 生成数字人
4
目标定位方法、系统、机器人和介质
发送者 手势特征 多模态特征 姿态特征 自然语言
5
一种多元化的教学评价方法及系统
教学质量评价方法 教学质量评价系统 学生 数据 教师
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号