一种基于动态门控与双流注意力的儿童语言描述视觉定位方法及系统

正文

推荐专利

申请号：CN202510575003

申请日期：2025-05-06

公开号：CN120495821A

公开日期：2025-08-15

类型：发明专利

摘要

本发明提供了一种基于动态门控与双流注意力的儿童语言描述视觉定位方法及系统。方法包括：将接收到的儿童语言信号转化成文本数据，并提取文本特征；对待识别图像进行切分，获得子图像块；基于子图像块，获得第一视觉特征；基于文本特征和第一视觉特征，获得多模态嵌入；基于多模态嵌入，并结合第一视觉特征，获得第二视觉特征；将文本特征与第二视觉特征映射到相同的特征空间，获取跨模态tokens序列；基于跨模态tokens序列，获取待识别图像中儿童语言描述的目标对象位置。本发明滤除了低置信度文本特征，使模型能够根据语义相关度自适应调整多模态特征的贡献度，精准聚焦于目标对象的显著性特征区域，显著提升了目标定位的准确率。

技术关键词

视觉特征多模态文本跨模态动态门控图像块视觉定位方法注意力池化特征儿童序列卷积特征视觉定位系统语义相关度线性语音识别技术定位模块对象

系统为您推荐了相关专利信息

一种基于虚拟数字人的AI智能对话系统

智能对话系统匹配模块识别模块分析模块文本

基于多模态数据与AI算法的食品安全智能检测方法及系统

深度神经网络模型食品安全智能检测时间序列特征融合特征多模态

基于多模态大模型的数字人生成方法、装置、设备及存储介质

交互模型生成方法多模态视频生成数字人

目标定位方法、系统、机器人和介质

发送者手势特征多模态特征姿态特征自然语言

一种多元化的教学评价方法及系统

教学质量评价方法教学质量评价系统学生数据教师

一种基于动态门控与双流注意力的儿童语言描述视觉定位方法及系统

站点导航

APP 下载