摘要
本发明公开了一种基于多模态大语言模型的对话生成方法及装置,涉及对话生成领域,包括:获取查询语句和图像并输入到经微调的多模态大语言模型,图像输入到预训练的图像编码器中,得到多尺度编码特征和选定图像特征,多尺度编码特征经过多层聚合模块,提取得到低级图像特征和高级图像特征;将查询语句输入到文本编码器中,得到文本特征;将以上特征输入到模内及模间增强模块中进行增强,得到增强的图像特征并沿通道连接后经过多层感知机模块进行投影,得到视觉符元;将查询语句输入到预训练的分词器中进行分词,得到文本符元;将视觉符元和文本符元输入到经训练的大语言模型,生成回答语句。本发明解决现有的MLLM未考虑模内和模间相关性问题。
技术关键词
编码特征
大语言模型
对话生成方法
图像编码器
多尺度
多层感知机
文本编码器
多模态
查询特征
语句
矩阵
模块
Softmax函数
Sigmoid函数
对话生成装置
视觉
处理器
系统为您推荐了相关专利信息
煤焦气化
催化剂
多尺度模拟方法
产物生成速率
多元统计分析
大语言模型
航空
语义解析方法
文本生成方法
实体
桥接模式
医学图像分割方法
医学图像分割系统
注意力机制
高频特征
多模型
干扰检测方法
信号
稀疏重建方法
交替迭代方法
大语言模型
安全性评估方法
多模态
评估装置
机制