基于多模态大语言模型的体育视频解说生成方法及系统

AITNT
正文
推荐专利
基于多模态大语言模型的体育视频解说生成方法及系统
申请号:CN202510597487
申请日期:2025-05-09
公开号:CN120495957A
公开日期:2025-08-15
类型:发明专利
摘要
本申请基于多模态大语言模型的体育视频解说生成方法及系统,包括:获取多模态的数据集,数据集包括体育视频,以及与体育视频对应的音频与解说文本;构建多模态大语言模型,将体育视频、音频与解说文本进行编码,以使对应的视频帧、音频波形和元数据投射到共享的嵌入空间,确定多模态嵌入向量;设置多模态聚类记忆单元,对多模态嵌入向量进行分组,通过对比学习和信息熵正则化优化模态间的特征对齐;基于检索增强上下文学习机制,通过稀疏正则化距离度量检索历史实例作为当前输入多模态嵌入向量的参考输入;将当前多模态嵌入向量与参考输入联合输入到多模态大语言模型,获得体育视频解说。本申请解决了多模态信息整合不足以及上下文利用不充分的问题。
技术关键词
大语言模型 体育 记忆单元 文本 音频 聚类 信息熵 视频帧 生成方法 相似性度量函数 数据 评价方法 语义 编码 多模态特征 机制 波形
系统为您推荐了相关专利信息
1
医疗文本大数据智能化标注与知识图谱构建方法及系统
医疗实体识别 医疗文本数据 注意力 医疗知识图谱 语义向量
2
一种关系抽取方法、装置、设备及介质
预定义关系 关系抽取方法 实体 预训练语言模型 文本
3
一种数据分析系统、方法、装置、存储介质及电子设备
服务端 客户端设备 大语言模型 数据平台 标识
4
语音识别后的文本纠错方法、装置、设备及存储介质
自动语音识别系统 文本识别 文本纠错方法 语音特征 数据
5
一种基于大语言模型的小样本统一粒度关系抽取方法
大语言模型 关系抽取方法 实体 样本 三元组
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号