摘要
本发明提供了一种基于多模态大模型的交互方法、系统、设备及介质,涉及多模态大模型技术领域,本方法包括:获取实时输入信息集;对实时输入信息集分别进行处理,得到处理数据,处理数据包括第一处理信息、第二处理信息及第三处理信息,其中对实时视频信息进行处理得到第一处理信息,对实时音频信息进行处理得到第二处理信息,对实时文本信息进行处理得到第三处理信息;通过预设模态关联模型对处理数据进行关联计算;根据关联损失信息对处理数据进行拼接处理,得到拼接数据集;对拼接数据集进行解码输出,得到交互响应数据,交互响应数据用于反馈交互信息。本方法解决了对实时输入数据实现跨模态间的关联,方便扩展到更加复杂的多模态组合。
技术关键词
实时音频信息
文本
交互方法
多模态
实时视频
数据
关键帧
标记
序列
拼接模型
可读存储介质
解码模型
存储计算机程序
投影模型
交互设备
交互系统
拼接模块
系统为您推荐了相关专利信息
融合型智能
数据管理系统
多模态数据采集
静态特征
多源异构数据
注意力地图
布局特征
图像生成方法
语义
噪声图像
任务分配模型
数据
样本
神经网络模型
任务分配方法
二维卷积神经网络
预报方法
多头注意力机制
气象
风场