摘要
本发明公开了一种基于大语言模型的多模态感知问题生成方法、系统及介质,属于计算机语义分析技术领域,方法包括提取图像特征,并在图像特征中提取与输入文本最相关的特征;将输入内容中的文本背景转化为词嵌入,并与图像特征中提取到的与输入文本最相关的特征进行交互,获得与文本内容最相关的图像表示以及与图像内容最相关的文本表示;将与文本内容最相关的图像表示以及与图像内容最相关的文本表示进行语义对齐,得到视觉和文本信息的多模态语义综合表征,并转换成大语言模型所能理解的输入表征;基于大语言模型所能理解的输入表征引导大语言模型生成问题。本发明能够更加充分的利用大语言模型使其理解更为复杂的多模态输入并生成有效的问题。
技术关键词
大语言模型
文本
生成方法
注意力
计算机语义分析
图像嵌入
视觉
矩阵
序列
图像特征向量
分块
前馈神经网络
图像特征提取
表达式
图像编码器
可读存储介质
生成解码
对齐模块
系统为您推荐了相关专利信息
智能语音交互
服务系统
神经网络语言模型
抵消算法
序列
多尺度特征
平面识别方法
可见光图像
特征提取模型
分辨率
级联卷积神经网络
分类决策树
语义特征
动态特征选择
多模态
损伤预测方法
多尺度网络
复合材料
矩阵
跨域方法