一种基于多模态大模型的视觉语言交互方法及系统

AITNT
正文
推荐专利
一种基于多模态大模型的视觉语言交互方法及系统
申请号:CN202511174043
申请日期:2025-08-21
公开号:CN121009505A
公开日期:2025-11-25
类型:发明专利
摘要
本发明公开一种基于多模态大模型的视觉语言交互方法及系统,涉及视觉语言交互技术领域,方法包括:收集多模态数据并进行预处理;构建多模态大模型,在大模型增设多模态融合模块,该模块采用注意力机制,能够使大模型自动学习不同模态数据之间的重要程度,实现多模态信息的有效融合;将预处理后的多模态数据输入大模型,训练优化大模型,使大模型能够更好地处理多模态数据;向大模型输入多模态信息,大模型具体执行如下操作:对多模态信息进行特征提取,通过多模态融合模块将不同模态的特征进行融合,挖掘其中的语义关联,根据融合后的特征生成交互响应,并按照预设的输出形式呈现给用户。本发明可以满足不同场景下的视觉语言交互体验。
技术关键词
语言交互方法 语言交互系统 多模态信息 数据 可视化模块 语义 注意力机制 跨模态 分析奠定基础 修正错别字 消除噪声干扰 视觉 音频输出设备 文本特征向量 图像特征向量 语音识别技术
系统为您推荐了相关专利信息
1
一种考虑用户决策依赖性的多类型电动汽车充放电并网调度方法
高斯混合模型 协方差矩阵 位置更新 电网运行状态 跳跃策略
2
基于多智能体智能控制的染程PH值自优化系统
染液 控制智能体 决策 PH值 pH值
3
一种基于双级确认大模型的超高压线路山火预警方法、装置、计算机设备和介质
预警方法 BERT模型 超高压电力线路 山火预警装置 多尺度特征金字塔
4
基于物理信息神经网络与机器视觉的桥梁预警方法和系统
神经网络模型 预警方法 误差修正算法 物理 数据采集系统
5
电缆隧道中电弧故障火灾预警方法、系统、介质及设备
预警模型 电缆隧道 烟气 图像 风速
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号