摘要
本发明提供了一种用于视频字幕生成的上下文语义调制方法,属于视频字幕生成领域。为了解决现有上下文语义调制方法中,存在语义对齐效果不佳,且容易忽略关键信息的问题。本发明通过整合每个输出token的上下文信息,进一步学习token间的动态注意力权重,从而实现待生成token与已生成token之间的细粒度语义对齐;该方法不仅能够更有效地建模语义关联,还能自适应地调整关键信息的语义权重,从而增强重要特征的表示,避免关键信息被忽略。
技术关键词
语义
字幕
视频
语句
矩阵
解码器
序列
可读存储介质
调制系统
注意力
文本
输出特征
计算机
编码
处理器
线性
动态
系统为您推荐了相关专利信息
信息提取方法
数据
文本
命名实体识别
执行错误检测
多传感器数据融合
浓度检测方法
有毒气体传感器
卡尔曼滤波算法
协方差矩阵
健康监测数据
公路结构
无标签数据
缺失值填充方法
标签数据处理