视觉信息融合方法、装置、设备、介质及计算机程序产品

AITNT
正文
推荐专利
视觉信息融合方法、装置、设备、介质及计算机程序产品
申请号:CN202510549207
申请日期:2025-04-28
公开号:CN120707997A
公开日期:2025-09-26
类型:发明专利
摘要
本发明提供一种视觉信息融合方法、装置、设备、介质及计算机程序产品,所述方法包括:对输入图像和输入文本进行编码,得到目标标记序列;所述目标标记序列包括视觉标记序列和语言标记序列;基于所述语言标记序列对所述视觉标记序列的注意力,确定融合视觉上下文;基于所述融合视觉上下文,确定每个所述目标标记序列的调制参数;基于所述调整参数,确定所述输入文本的语义理解结果。本发明通过在大语言模型的各层引入动态特征调制机制,使视觉信息能够自适应地调整文本表征,从而增强大语言模型对多模态信息的理解能力。
技术关键词
信息融合方法 融合视觉 序列 标记 文本 大语言模型 计算机程序产品 注意力 非暂态计算机可读存储介质 语义 信息融合装置 参数 局部特征提取 图像块 处理器 编码模块
系统为您推荐了相关专利信息
1
一种AI机器人营销方法、系统及可读存储介质
AI机器人 营销方法 商品特征 商品属性信息 意图
2
一种基于混合Mamba网络的三源遥感影像融合分类方法
融合分类方法 影像 非线性 输出特征 像素
3
基于手术场景的图像理解推理系统及方法
手术场景 大语言模型 符号 视觉 图像编码器
4
一种基于大模型的测试用例自动生成方法及系统
测试用例自动生成方法 功能模块 文本分析技术 测试用例自动生成系统 切片
5
一种用于住宿服务场所的人员异常行为预警方法及系统
风险识别模型 预警方法 标记 社交 数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号