基于多模态大语言模型的体育视频解说生成方法及系统

正文

推荐专利

申请号：CN202510597487

申请日期：2025-05-09

公开号：CN120495957A

公开日期：2025-08-15

类型：发明专利

摘要

本申请基于多模态大语言模型的体育视频解说生成方法及系统，包括：获取多模态的数据集，数据集包括体育视频，以及与体育视频对应的音频与解说文本；构建多模态大语言模型，将体育视频、音频与解说文本进行编码，以使对应的视频帧、音频波形和元数据投射到共享的嵌入空间，确定多模态嵌入向量；设置多模态聚类记忆单元，对多模态嵌入向量进行分组，通过对比学习和信息熵正则化优化模态间的特征对齐；基于检索增强上下文学习机制，通过稀疏正则化距离度量检索历史实例作为当前输入多模态嵌入向量的参考输入；将当前多模态嵌入向量与参考输入联合输入到多模态大语言模型，获得体育视频解说。本申请解决了多模态信息整合不足以及上下文利用不充分的问题。

技术关键词

大语言模型体育记忆单元文本音频聚类信息熵视频帧生成方法相似性度量函数数据评价方法语义编码多模态特征机制波形

系统为您推荐了相关专利信息

医疗文本大数据智能化标注与知识图谱构建方法及系统

医疗实体识别医疗文本数据注意力医疗知识图谱语义向量

一种关系抽取方法、装置、设备及介质

预定义关系关系抽取方法实体预训练语言模型文本

一种数据分析系统、方法、装置、存储介质及电子设备

服务端客户端设备大语言模型数据平台标识

语音识别后的文本纠错方法、装置、设备及存储介质

自动语音识别系统文本识别文本纠错方法语音特征数据

一种基于大语言模型的小样本统一粒度关系抽取方法

大语言模型关系抽取方法实体样本三元组

基于多模态大语言模型的体育视频解说生成方法及系统

站点导航

APP 下载