基于多模态大语言模型的对话生成方法及装置

AITNT
正文
推荐专利
基于多模态大语言模型的对话生成方法及装置
申请号:CN202510436346
申请日期:2025-04-09
公开号:CN119938874B
公开日期:2025-07-18
类型:发明专利
摘要
本发明公开了一种基于多模态大语言模型的对话生成方法及装置,涉及对话生成领域,包括:获取查询语句和图像并输入到经微调的多模态大语言模型,图像输入到预训练的图像编码器中,得到多尺度编码特征和选定图像特征,多尺度编码特征经过多层聚合模块,提取得到低级图像特征和高级图像特征;将查询语句输入到文本编码器中,得到文本特征;将以上特征输入到模内及模间增强模块中进行增强,得到增强的图像特征并沿通道连接后经过多层感知机模块进行投影,得到视觉符元;将查询语句输入到预训练的分词器中进行分词,得到文本符元;将视觉符元和文本符元输入到经训练的大语言模型,生成回答语句。本发明解决现有的MLLM未考虑模内和模间相关性问题。
技术关键词
编码特征 大语言模型 对话生成方法 图像编码器 多尺度 多层感知机 文本编码器 多模态 查询特征 语句 矩阵 模块 Softmax函数 Sigmoid函数 对话生成装置 视觉 处理器
系统为您推荐了相关专利信息
1
一种煤焦非催化和催化气化反应机理模型的构建方法
煤焦气化 催化剂 多尺度模拟方法 产物生成速率 多元统计分析
2
语义解析方法、装置及电子设备
大语言模型 航空 语义解析方法 文本生成方法 实体
3
基于桥接模式的小波变换与SAM结合的医学图像分割方法
桥接模式 医学图像分割方法 医学图像分割系统 注意力机制 高频特征
4
一种基于多模型融合的ISRJ抑制方法
多模型 干扰检测方法 信号 稀疏重建方法 交替迭代方法
5
多模态大模型内容安全性评估方法和装置
大语言模型 安全性评估方法 多模态 评估装置 机制
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号