摘要
本申请提供了一种图文交互对话理解方法和系统、电子设备及存储介质,涉及人工智能技术领域。该方法结合当前图像中的当前标记位置信息,对当前图像、当前标记位置信息和当前自然语言指令进行拼接处理,生成当前输入信息,解决了相关技术中图像与文本割裂的问题,实现了视觉与语言的深度对齐,能够更准确地理解用户输入的图文信息,从而理解用户的意图,进而能够提供准确且有针对性的回答;并且,对原始提示词、一个或多个当前示例、当前输入信息进行拼接处理,生成当前拼接内容,将当前拼接内容输入微调后的视觉语言模型,这样能让模型基于一个或多个当前示例借鉴学习,通过给模型相似的数据和对应理解结果,提高对当前输入信息的推理准确率。
技术关键词
标记位置信息
自然语言
指令
图像
图文
意图
对话理解系统
数据
多模态
视觉
编码
电子设备
文本
人工智能技术
计算机程序产品
拼接单元
笔尖
存储器
轨迹
系统为您推荐了相关专利信息
智能分选设备
智能分选系统
图像识别系统
朗伯比尔定律
智能分选机
三维建模方法
月球
三维模型
红外热成像仪
三维重构模型
矫正工具
偏差
矫正方法
LED灯珠
高分辨率相机
无人设备
操控设备
自组网系统
操控系统
终端设备
大语言模型
生成方法
文本
计算机程序产品
HTTP请求