摘要
本发明涉及多模态特征处理领域,具体涉及一种多模态特征的生成方法、装置、电子设备及存储介质。本申请通过从原始视频中提取音频和图像数据并分别进行编码和处理,能够充分挖掘不同模态的数据特征,避免了单一模态模型只能处理一种类型数据的局限性。同时,还获取包含大语言模型任务内容以及不同模态特征关联关系的提示文本,有助于为模型提供明确的任务方向和引导其更好地融合多模态信息。然后拼接不同模态特征和提示文本得到多模态特征,并将其作为大语言模型的输入,可使大语言模型能够同时接收和处理来自文本、图像、音频等多类型数据的特征信息,通过融合不同模态特征,弥补单一模态的不足,从而有效提高处理复杂任务的准确性。
技术关键词
多模态特征
大语言模型
音频编码
文本
交叉注意力机制
键值
音频特征
数据
序列
模块
融合多模态信息
生成方法
特征生成图像
视觉
计算机
语音识别模型
系统为您推荐了相关专利信息
列车控制系统
传染病模型
长短期记忆网络
随机森林
节点