多模态大语言模型的物体幻觉缓解方法及装置

AITNT
正文
推荐专利
多模态大语言模型的物体幻觉缓解方法及装置
申请号:CN202510825981
申请日期:2025-06-19
公开号:CN120766093A
公开日期:2025-10-10
类型:发明专利
摘要
本发明公开了一种多模态大语言模型的物体幻觉缓解方法及装置,其中,该方法包括将图片和描述指令输入到大型视觉语言模型进行分析,以生成图片对应的候选描述集;提取候选描述集中每个候选描述的物体名词,以得到物体集合;获取条件指令,并根据条件指令计算物体集合中每个物体名词对应的条件概率,以得到每个物体名词对应的置信度;根据每个物体名词对应的置信度得到图片对应的最终描述;由此,通过减少大型视觉语言模型对语言先验的过度依赖,从而有效缓解图像描述任务中的物体幻觉问题。
技术关键词
大语言模型 物体 图片 多模态 指令 视觉 处理器 采样模块 计算机设备 可读存储介质 程序 存储器 图像
系统为您推荐了相关专利信息
1
一种芯片封装体封装方法、芯片封装体及电网配置方法
芯片封装体 电网配置方法 封装芯片 功能模块 封装方法
2
一种基于AI聊天的加盟商预约方法、系统及计算机程序
预约方法 订单 大语言模型 聊天技术 自然语言
3
溯源数据处理方法、装置、计算机设备及存储介质
溯源数据处理方法 金融 标识 溯源数据库 计算机可读指令
4
生成图像的评估方法、系统、图像生成系统
图像处理工具 图像评估 工具组合 服务端 计算机执行指令
5
图像检测方法、装置、车辆和计算机程序产品
图像检测方法 可见光图像 畸变参数 深度学习模型 坐标
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号