摘要
本发明公开了一种基于多模态大模型的新闻图像定制化描述生成方法及装置,方法包括:视觉内容提取与场景图生成模块,将图像内容结构化为三元组表示的视觉场景图,并通过视觉场景图的定位将场景图中元素映射到图像的区域,获得对应的视觉元素区域;实体关联分析与新闻语境整合模块,引导多模态大模型在新闻语境下分析视觉场景图中每个视觉场景元素对应的命名实体;输出替换新闻命名实体的视觉场景图集合与实体的知识标记集合;基于案例学习的定制化新闻描述生成模块,利用相似度查询检索与当前输入的新闻主题和用户自定义规则相似的案例,结合检索到的相似案例与用户自定义规则需求为多模态大模型构建案例学习上下文。装置包括:处理器和存储器。
技术关键词
多模态
生成方法
自定义规则
三元组
图像
场景
实体
元素
倒排索引结构
视觉特征提取
关键词
文章
索引表
文本编码器
标签
标记
存储器
主题
模块
系统为您推荐了相关专利信息
变电站主设备
关联规则挖掘算法
故障诊断方法
采集变电站
多模态
瞄准方法
脱靶量
控制算法设计
驱动执行机构
回路
SQL生成方法
节点
多路径
自然语言
抽象语法树