一种基于多模态大模型的视觉语言交互方法及系统

正文

推荐专利

申请号：CN202511174043

申请日期：2025-08-21

公开号：CN121009505A

公开日期：2025-11-25

类型：发明专利

摘要

本发明公开一种基于多模态大模型的视觉语言交互方法及系统，涉及视觉语言交互技术领域，方法包括：收集多模态数据并进行预处理；构建多模态大模型，在大模型增设多模态融合模块，该模块采用注意力机制，能够使大模型自动学习不同模态数据之间的重要程度，实现多模态信息的有效融合；将预处理后的多模态数据输入大模型，训练优化大模型，使大模型能够更好地处理多模态数据；向大模型输入多模态信息，大模型具体执行如下操作：对多模态信息进行特征提取，通过多模态融合模块将不同模态的特征进行融合，挖掘其中的语义关联，根据融合后的特征生成交互响应，并按照预设的输出形式呈现给用户。本发明可以满足不同场景下的视觉语言交互体验。

技术关键词

语言交互方法语言交互系统多模态信息数据可视化模块语义注意力机制跨模态分析奠定基础修正错别字消除噪声干扰视觉音频输出设备文本特征向量图像特征向量语音识别技术

系统为您推荐了相关专利信息

一种考虑用户决策依赖性的多类型电动汽车充放电并网调度方法

高斯混合模型协方差矩阵位置更新电网运行状态跳跃策略

基于多智能体智能控制的染程PH值自优化系统

染液控制智能体决策 PH值 pH值

一种基于双级确认大模型的超高压线路山火预警方法、装置、计算机设备和介质

预警方法 BERT模型超高压电力线路山火预警装置多尺度特征金字塔

基于物理信息神经网络与机器视觉的桥梁预警方法和系统

神经网络模型预警方法误差修正算法物理数据采集系统

电缆隧道中电弧故障火灾预警方法、系统、介质及设备

预警模型电缆隧道烟气图像风速

一种基于多模态大模型的视觉语言交互方法及系统

站点导航

APP 下载