基于多模态大语言模型的对话生成方法及装置

正文

推荐专利

申请号：CN202510436346

申请日期：2025-04-09

公开号：CN119938874B

公开日期：2025-07-18

类型：发明专利

摘要

本发明公开了一种基于多模态大语言模型的对话生成方法及装置，涉及对话生成领域，包括：获取查询语句和图像并输入到经微调的多模态大语言模型，图像输入到预训练的图像编码器中，得到多尺度编码特征和选定图像特征，多尺度编码特征经过多层聚合模块，提取得到低级图像特征和高级图像特征；将查询语句输入到文本编码器中，得到文本特征；将以上特征输入到模内及模间增强模块中进行增强，得到增强的图像特征并沿通道连接后经过多层感知机模块进行投影，得到视觉符元；将查询语句输入到预训练的分词器中进行分词，得到文本符元；将视觉符元和文本符元输入到经训练的大语言模型，生成回答语句。本发明解决现有的MLLM未考虑模内和模间相关性问题。

技术关键词

编码特征大语言模型对话生成方法图像编码器多尺度多层感知机文本编码器多模态查询特征语句矩阵模块 Softmax函数 Sigmoid函数对话生成装置视觉处理器

系统为您推荐了相关专利信息

一种煤焦非催化和催化气化反应机理模型的构建方法

煤焦气化催化剂多尺度模拟方法产物生成速率多元统计分析

语义解析方法、装置及电子设备

大语言模型航空语义解析方法文本生成方法实体

基于桥接模式的小波变换与SAM结合的医学图像分割方法

桥接模式医学图像分割方法医学图像分割系统注意力机制高频特征

一种基于多模型融合的ISRJ抑制方法

多模型干扰检测方法信号稀疏重建方法交替迭代方法

多模态大模型内容安全性评估方法和装置

大语言模型安全性评估方法多模态评估装置机制

基于多模态大语言模型的对话生成方法及装置

站点导航

APP 下载