摘要
本申请在计算机应用技术领域,公开了基于结构化语法信息的视频内容理解方法、装置、电子设备及存储介质,该方法包括:将训练样本输入目标模型进行内容理解处理,得到预测文本,并构建预测文本对应的句法树;计算句法树与参考文本的句法树之间的句法树编辑距离;利用句法树编辑距离计算语言结构损失,利用语言结构损失对目标模型的模型参数进行更新;在训练好目标模型的模型参数的情况下,获取目标视频;将目标视频输入目标模型进行处理,得到目标视频的内容文本。在本申请中,基于语法树算出的语言结构损失训练目标模型,可对目标视频进行理解,从而得到具备语法准确、句子结构合理且自然的内容文本。
技术关键词
视频内容理解方法
文本
编辑
音频编码器
语法结构
跨模态
音频特征
视觉特征
解码器
多模态特征
参数
模型训练模块
电子设备
可读存储介质
存储计算机程序
树形结构
节点
系统为您推荐了相关专利信息
多源特征融合
智能推荐方法
方剂
患者
协同过滤推荐
文本主题词
生成评论文本
客户
图表生成方法
序列
广告投放优化方法
NLP技术
广告投放策略
画像
广告主