一种多模态特征的生成方法、装置、电子设备及存储介质

正文

推荐专利

申请号：CN202411619535

申请日期：2024-11-13

公开号：CN119538192A

公开日期：2025-02-28

类型：发明专利

摘要

本发明涉及多模态特征处理领域，具体涉及一种多模态特征的生成方法、装置、电子设备及存储介质。本申请通过从原始视频中提取音频和图像数据并分别进行编码和处理，能够充分挖掘不同模态的数据特征，避免了单一模态模型只能处理一种类型数据的局限性。同时，还获取包含大语言模型任务内容以及不同模态特征关联关系的提示文本，有助于为模型提供明确的任务方向和引导其更好地融合多模态信息。然后拼接不同模态特征和提示文本得到多模态特征，并将其作为大语言模型的输入，可使大语言模型能够同时接收和处理来自文本、图像、音频等多类型数据的特征信息，通过融合不同模态特征，弥补单一模态的不足，从而有效提高处理复杂任务的准确性。

技术关键词

多模态特征大语言模型音频编码文本交叉注意力机制键值音频特征数据序列模块融合多模态信息生成方法特征生成图像视觉计算机语音识别模型

系统为您推荐了相关专利信息

信息处理方法、设备、存储介质及程序产品

界面数据服务端场景文本

一种基于词义词性基座模型的视频脚本分类方法

词性向量编码器脚本统计特征分类方法

一种金融行业询价语料的解析方法、装置及设备

规则处理器文本数据处理模型行业术语字段

在线矢量地图构建方法、系统、装置及存储介质

图像大语言模型矢量地图数据在线模板

一种基于传染病模型的列车控制防御方法和系统

列车控制系统传染病模型长短期记忆网络随机森林节点

一种多模态特征的生成方法、装置、电子设备及存储介质

站点导航

APP 下载