视觉信息融合方法、装置、设备、介质及计算机程序产品

正文

推荐专利

申请号：CN202510549207

申请日期：2025-04-28

公开号：CN120707997A

公开日期：2025-09-26

类型：发明专利

摘要

本发明提供一种视觉信息融合方法、装置、设备、介质及计算机程序产品，所述方法包括：对输入图像和输入文本进行编码，得到目标标记序列；所述目标标记序列包括视觉标记序列和语言标记序列；基于所述语言标记序列对所述视觉标记序列的注意力，确定融合视觉上下文；基于所述融合视觉上下文，确定每个所述目标标记序列的调制参数；基于所述调整参数，确定所述输入文本的语义理解结果。本发明通过在大语言模型的各层引入动态特征调制机制，使视觉信息能够自适应地调整文本表征，从而增强大语言模型对多模态信息的理解能力。

技术关键词

信息融合方法融合视觉序列标记文本大语言模型计算机程序产品注意力非暂态计算机可读存储介质语义信息融合装置参数局部特征提取图像块处理器编码模块

系统为您推荐了相关专利信息

一种AI机器人营销方法、系统及可读存储介质

AI机器人营销方法商品特征商品属性信息意图

一种基于混合Mamba网络的三源遥感影像融合分类方法

融合分类方法影像非线性输出特征像素

基于手术场景的图像理解推理系统及方法

手术场景大语言模型符号视觉图像编码器

一种基于大模型的测试用例自动生成方法及系统

测试用例自动生成方法功能模块文本分析技术测试用例自动生成系统切片

一种用于住宿服务场所的人员异常行为预警方法及系统

风险识别模型预警方法标记社交数据

视觉信息融合方法、装置、设备、介质及计算机程序产品

站点导航

APP 下载