摘要
本公开提供了一种视频内容文本生成方法、装置、电子设备、计算机可读存储介质及计算机程序产品,涉及图像处理技术领域。该方法包括:基于目标视频中视频片段的内容信息,确定目标视频中的视频分段内容;将视频分段内容中的语音信息转换为文本信息;基于文本信息及视频分段内容生成视频描述文本;将文本信息和视频描述文本进行融合处理,得到视频内容文本。本公开能够结合描述内容和视频的文本信息对视频内容进行分析总结,实现对视频内容的完善和补充,从而让用户能够保持沉浸体验的同时接收到视频中更多的细节,能够对视频内容有更加深刻的理解和感受。
技术关键词
文本生成方法
视频
分段
语句
计算机程序产品
文本生成装置
可读存储介质
图像处理技术
大语言模型
生成语音
电子设备
处理器通信
指令
模块
存储器
场景
系统为您推荐了相关专利信息
实体间关系
案件
关系抽取模型
实体识别模型
识别方法
耕地
识别方法
样本
栅格
非暂态计算机可读存储介质