基于大语言模型的多模态感知问题生成方法、系统及介质

正文

推荐专利

申请号：CN202510009573

申请日期：2025-01-03

公开号：CN119942300A

公开日期：2025-05-06

类型：发明专利

摘要

本发明公开了一种基于大语言模型的多模态感知问题生成方法、系统及介质，属于计算机语义分析技术领域，方法包括提取图像特征，并在图像特征中提取与输入文本最相关的特征；将输入内容中的文本背景转化为词嵌入，并与图像特征中提取到的与输入文本最相关的特征进行交互，获得与文本内容最相关的图像表示以及与图像内容最相关的文本表示；将与文本内容最相关的图像表示以及与图像内容最相关的文本表示进行语义对齐，得到视觉和文本信息的多模态语义综合表征，并转换成大语言模型所能理解的输入表征；基于大语言模型所能理解的输入表征引导大语言模型生成问题。本发明能够更加充分的利用大语言模型使其理解更为复杂的多模态输入并生成有效的问题。

技术关键词

大语言模型文本生成方法注意力计算机语义分析图像嵌入视觉矩阵序列图像特征向量分块前馈神经网络图像特征提取表达式图像编码器可读存储介质生成解码对齐模块

系统为您推荐了相关专利信息

基于语义理解的医患智能语音交互服务系统

智能语音交互服务系统神经网络语言模型抵消算法序列

一种应用于超分辨率成像的焦平面识别方法及识别系统

多尺度特征平面识别方法可见光图像特征提取模型分辨率

基于大模型的标准文档自动生成与多维度审核方法及系统

审核方法参数分布式数据库检测点生成规则

基于AI的图像识别与分析系统

级联卷积神经网络分类决策树语义特征动态特征选择多模态

自适应双熵-多尺度Transformer无监督跨域复合材料损伤预测方法

损伤预测方法多尺度网络复合材料矩阵跨域方法

基于大语言模型的多模态感知问题生成方法、系统及介质

站点导航

APP 下载