图像文本对的构建方法、装置、计算机设备及存储介质

AITNT
正文
推荐专利
图像文本对的构建方法、装置、计算机设备及存储介质
申请号:CN202411718492
申请日期:2024-11-27
公开号:CN119670740A
公开日期:2025-03-21
类型:发明专利
摘要
本发明涉及人工智能技术领域,公开了图像文本对的构建方法、装置、计算机设备及存储介质,该方法包括:获取目标场景下的问题集;问题集包括感知问题集、预测问题集和决策问题集;构建问题集对应的问题提示词;将感知预测问题提示词和预设的样本图像输入至第一视觉语言模型,生成样本图像的感知预测信息;以感知预测信息为上下文,将第三问题提示词和样本图像输入至第二视觉语言模型,生成样本图像的决策信息;根据感知预测信息和决策信息生成样本图像的描述文本,构建包含样本图像和描述文本的图像文本对。本发明通过感知、预测和决策自上而下的提示词设计,可以生成包含丰富细节的描述文本,能够提高图文对质量。
技术关键词
文本 格式模板 图像 样本 视觉 决策 答案 计算机设备 场景 可读存储介质 人工智能技术 存储器 处理器 指令 模块 键值 图文
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号