一种多模态特征的生成方法、装置、电子设备及存储介质

AITNT
正文
推荐专利
一种多模态特征的生成方法、装置、电子设备及存储介质
申请号:CN202411619535
申请日期:2024-11-13
公开号:CN119538192A
公开日期:2025-02-28
类型:发明专利
摘要
本发明涉及多模态特征处理领域,具体涉及一种多模态特征的生成方法、装置、电子设备及存储介质。本申请通过从原始视频中提取音频和图像数据并分别进行编码和处理,能够充分挖掘不同模态的数据特征,避免了单一模态模型只能处理一种类型数据的局限性。同时,还获取包含大语言模型任务内容以及不同模态特征关联关系的提示文本,有助于为模型提供明确的任务方向和引导其更好地融合多模态信息。然后拼接不同模态特征和提示文本得到多模态特征,并将其作为大语言模型的输入,可使大语言模型能够同时接收和处理来自文本、图像、音频等多类型数据的特征信息,通过融合不同模态特征,弥补单一模态的不足,从而有效提高处理复杂任务的准确性。
技术关键词
多模态特征 大语言模型 音频编码 文本 交叉注意力机制 键值 音频特征 数据 序列 模块 融合多模态信息 生成方法 特征生成图像 视觉 计算机 语音识别模型
系统为您推荐了相关专利信息
1
信息处理方法、设备、存储介质及程序产品
界面 数据 服务端 场景 文本
2
一种基于词义词性基座模型的视频脚本分类方法
词性向量 编码器 脚本 统计特征 分类方法
3
一种金融行业询价语料的解析方法、装置及设备
规则处理器 文本 数据处理模型 行业术语 字段
4
在线矢量地图构建方法、系统、装置及存储介质
图像 大语言模型 矢量地图数据 在线 模板
5
一种基于传染病模型的列车控制防御方法和系统
列车控制系统 传染病模型 长短期记忆网络 随机森林 节点
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号