摘要
本申请提供了一种视频描述信息生成方法、装置、电子设备和存储介质。该方法包括:获取预设描述信息生成模型,以及视频流;将视频流输入预设描述信息生成模型,生成视频流的视频描述信息;其中,预设描述信息生成模型获取视频流中的GOP,将每个GOP内的帧压缩信息通过预设编码模型生成Token;并使用预设大语言模型生成每个Toke对应的视频描述信息,将所有GOP对应的视频描述信息按照对应GOP在视频流中的顺序拼接,生成视频流的视频描述信息。该方法基于包括完整GOP的视频流即可在低计算要求的前提下准确生成对应视频流的视频描述信息。
技术关键词
大语言模型
编解码
信息生成方法
比特流
残差信息
生成视频流
三通道
样本
编码
数据
信息生成装置
电子设备
亮度
处理器
可读存储介质
文本
系统为您推荐了相关专利信息
音频编解码器
GPIO接口
电声转换设备
语音
数字音频接口
推荐文案生成方法
大语言模型
保险产品推荐
语句
客户