长文档视觉问答方法、装置及电子设备

AITNT
正文
推荐专利
长文档视觉问答方法、装置及电子设备
申请号:CN202411526272
申请日期:2024-10-30
公开号:CN119046442B
公开日期:2025-03-11
类型:发明专利
摘要
本发明涉及计算机视觉技术领域,尤其涉及一种长文档视觉问答方法、装置及电子设备,方法包括:获取长文档页面的多模态特征;为多模态特征配置预设数量的页面令牌,页面令牌用于存储长文档中各个页面的页面信息;根据每一页面令牌与文档问题的相关程度,为每一页面令牌分配权重;并根据分配权重后的页面令牌,获取长文档的文档信息;通过训练完成的多模态大语言模型,获取文档信息在文档问题下的文档答案。本发明通过采用上述方法,解决相关技术中处理多页的长文档场景时,视觉问答任务的处理效果不佳的问题。
技术关键词
视觉问答方法 多模态特征 令牌 表格特征 大语言模型 页面单元 图片 样本 答案 文本 非暂态计算机可读存储介质 嵌入位置信息 标识符 交叉注意力机制 列表 计算机视觉技术 文档特征
系统为您推荐了相关专利信息
1
基于知识图谱与多模态大模型的社区更新公众意见采集方法
更新知识图谱 大语言模型 实体 城市社区 视觉
2
一种文档知识问答方法、文档知识存储方法及文档知识问答装置
文本 知识存储方法 知识问答方法 节点 语句
3
车辆故障维修指引方法、装置、电子设备和存储介质
大语言模型 节点 数据 计算机存储介质 字段
4
视觉问答的回答生成方法、装置及电子设备
回答生成方法 大语言模型 多模态 文本 图像训练样本
5
搜索词推荐方法、装置、计算机设备和存储介质
云存储器 列表 搜索词推荐方法 客户端 时间段
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号