图文交互对话理解方法和系统、电子设备及存储介质

正文

推荐专利

申请号：CN202510445824

申请日期：2025-04-09

公开号：CN120375377A

公开日期：2025-07-25

类型：发明专利

摘要

本申请提供了一种图文交互对话理解方法和系统、电子设备及存储介质，涉及人工智能技术领域。该方法结合当前图像中的当前标记位置信息，对当前图像、当前标记位置信息和当前自然语言指令进行拼接处理，生成当前输入信息，解决了相关技术中图像与文本割裂的问题，实现了视觉与语言的深度对齐，能够更准确地理解用户输入的图文信息，从而理解用户的意图，进而能够提供准确且有针对性的回答；并且，对原始提示词、一个或多个当前示例、当前输入信息进行拼接处理，生成当前拼接内容，将当前拼接内容输入微调后的视觉语言模型，这样能让模型基于一个或多个当前示例借鉴学习，通过给模型相似的数据和对应理解结果，提高对当前输入信息的推理准确率。

技术关键词

标记位置信息自然语言指令图像图文意图对话理解系统数据多模态视觉编码电子设备文本人工智能技术计算机程序产品拼接单元笔尖存储器轨迹

系统为您推荐了相关专利信息

一种智能分选系统

智能分选设备智能分选系统图像识别系统朗伯比尔定律智能分选机

一种月球熔岩管三维建模方法及系统

三维建模方法月球三维模型红外热成像仪三维重构模型

一种LED灯珠矫正方法及装置

矫正工具偏差矫正方法 LED灯珠高分辨率相机

一种基于自组网系统的多无人设备低延时操控系统及方法

无人设备操控设备自组网系统操控系统终端设备

一种英文网站的中文简讯生成方法、装置及计算机程序产品

大语言模型生成方法文本计算机程序产品 HTTP请求

图文交互对话理解方法和系统、电子设备及存储介质

站点导航

APP 下载