摘要
本公开提供了一种基于大模型的解说视频生成方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及多模态、自然语言处理、计算机视觉和深度学习等技术领域。该方法包括:获取待处理视频中的多个字幕文本和对应的第一时间戳;基于多个字幕文本的第一时间戳,确定待处理视频中的至少一个无字幕片段和对应的第二时间戳;利用第一多模态大模型对至少一个无字幕片段进行视觉内容理解,得到与至少一个无字幕片段对应的至少一个字幕补全文本;利用大语言模型,基于多个字幕文本和对应的第一时间戳以及至少一个字幕补全文本和对应的第二时间戳,生成针对待处理视频的解说词;以及基于解说词,生成解说视频。
技术关键词
字幕
语义标签
分段
文本
视频生成方法
大语言模型
语义向量
镜头
多模态
生成模板
情感分析模型
视频生成装置
依存句法分析
关键词
处理器
人工智能技术
计算机程序产品
系统为您推荐了相关专利信息
可视化设计系统
多协议
转换单元
证书信息
密钥管理
字数统计方法
图片
OCR识别技术
Visio图形
文本识别
威胁情报分析方法
节点
命名实体识别
非易失性存储介质
sigmoid函数