摘要
本申请公开了一种基于语义通信的视频传输方法、装置、设备、介质及程序,视频发送端获取自然语言指令和视频采集帧,通过多态目标跟踪模型和多态理解模型,基于自然语言指令对视频采集帧中特定的目标及目标的行为状态进行跟踪,基于目标的跟踪预测结果和时序预测结果生成语义文本信息,以基于语义文本信息生成视频。根据本申请实施例,通过提供特定事件自然语言指令,即可得到需要关注、跟踪的目标对象在视频下的跟踪预测结果和行为时序预测结果,从而完成对视频关注对象的实时完整描述,为恢复视频提供准确有效的语义文本信息,有效减少恢复视频产生的幻觉现象。
技术关键词
视频传输方法
自然语言
注意力模型
视频接收端
语义
计算机程序指令
时序
视频传输装置
多头注意力机制
文本
发送端
计算机程序产品
电子设备
解码器
网络结构
编码器
可读存储介质
系统为您推荐了相关专利信息
实时业务
关键词
实时数据
数据治理系统
数据治理方法
视频特征提取
广告特征
推送系统
支持跨平台
数字广告技术
飞控系统
模型检验方法
数学模型
自动机
抽样方法
自动监测方法
特征金字塔网络
区域建议网络
自动监测系统
生成多尺度