摘要
本申请基于多模态大语言模型的体育视频解说生成方法及系统,包括:获取多模态的数据集,数据集包括体育视频,以及与体育视频对应的音频与解说文本;构建多模态大语言模型,将体育视频、音频与解说文本进行编码,以使对应的视频帧、音频波形和元数据投射到共享的嵌入空间,确定多模态嵌入向量;设置多模态聚类记忆单元,对多模态嵌入向量进行分组,通过对比学习和信息熵正则化优化模态间的特征对齐;基于检索增强上下文学习机制,通过稀疏正则化距离度量检索历史实例作为当前输入多模态嵌入向量的参考输入;将当前多模态嵌入向量与参考输入联合输入到多模态大语言模型,获得体育视频解说。本申请解决了多模态信息整合不足以及上下文利用不充分的问题。
技术关键词
大语言模型
体育
记忆单元
文本
音频
聚类
信息熵
视频帧
生成方法
相似性度量函数
数据
评价方法
语义
编码
多模态特征
机制
波形
系统为您推荐了相关专利信息
医疗实体识别
医疗文本数据
注意力
医疗知识图谱
语义向量
预定义关系
关系抽取方法
实体
预训练语言模型
文本
自动语音识别系统
文本识别
文本纠错方法
语音特征
数据