基于多角度图像的多模态问答方法、装置、电子设备

AITNT
正文
推荐专利
基于多角度图像的多模态问答方法、装置、电子设备
申请号:CN202411550212
申请日期:2024-11-01
公开号:CN119739814B
公开日期:2025-11-14
类型:发明专利
摘要
本发明提供一种基于多角度图像的多模态问答方法、装置、电子设备,包括:获取用户输入的原始图像和问题文本,并基于原始图像生成若干张多角度图像,多角度图像用于表征原始图像中的同一实体的不同角度;对多角度图像分别进行预处理,得到多角度图像分别对应的嵌入式向量;获取与每个嵌入式向量分别对应的可训练软提示,并基于嵌入式向量和可训练软提示进行多视角特征感知处理,得到多角度视觉特征表示;基于多角度视觉特征表示和问题文本进行预测处理,得到与问题文本对应的答案。通过充分利用不同图像所含的视觉信息,模型在生成答案时获取到的视觉信息更加丰富全面,从而缓解在多模态问答过程中存在的幻觉问题,使得模型生成答案的精度更高。
技术关键词
多角度 问答方法 视觉特征 交叉注意力机制 多视角特征 多头注意力机制 文本 生成答案 图像嵌入 非暂态计算机可读存储介质 预训练语言模型 电子设备 处理器 问答装置 变量 计算机程序产品
系统为您推荐了相关专利信息
1
鲫鱼离群通道的数据采集装置及其病害检测方法
病害检测方法 数据采集装置 图像采集区域 数据装置 外接电源适配器
2
一种基于大模型的交通问答方法
样本 交通 问答方法 轨迹 关键字
3
一种视频未来事件预测方法、装置、存储介质和程序产品
事件预测方法 视频 关键帧 令牌 视觉特征
4
一种测试方法及测试系统
云平台 测试接口 应用程序编程接口 适配器组件 界面
5
基于多模态大模型的建筑物矢量多边形轮廓提取方法
轮廓提取方法 建筑物 多边形 视觉特征 大语言模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号