摘要
本发明涉及人工智能技术领域和金融科技领域,公开了一种视频字幕生成方法,通过对视频数据进行下采样处理,提取视频帧序列的外观特征和运动特征,通过特征编码模块生成视频特征,结合情感类别库和情感词汇库对视频特征进行情感编码生成情感特征。处理第一个视频帧时,利用初始情感引导强度生成初始字幕片段和字幕特征;处理后续视频帧时,结合当前视频帧的视频特征、情感特征以及前一个视频帧的字幕特征,生成对应的字幕片段和字幕特征。本发明通过融合视频特征和情感特征,能够准确捕捉视频中的情感线索,生成与视频情感内容相匹配的字幕片段。通过注意力机制对视频帧之间的情感关联进行分析,确保字幕生成的连贯性和一致性,提升字幕的准确性。
技术关键词
视频字幕生成方法
情感特征
情感类别
视频帧
编码模块
二维卷积神经网络
三维卷积神经网络
运动特征
字幕生成程序
注意力机制
长短期记忆神经网络
字幕生成装置
特征提取模块
序列
视频情感内容
强度
物体运动轨迹
系统为您推荐了相关专利信息
大规模无人机
无人机集群
网络
注意力机制
信息融合机制
高效无人机
协同感知方法
语义特征
噪声预测
多尺度特征提取
防护网
异常检测系统
三维模型
状态监测单元
图像采集单元
面部动作单元
决策
框架
语音识别算法
音频采集设备