摘要
本申请公开了一种基于多媒体数据的任务执行方法及相关装置、设备和介质,其中方法包括:基于目标多媒体数据的编码特征和提示文本的嵌入特征,得到融合特征;基于上一解码流程的输出特征进行注意力计算,得到第一隐层特征,并基于第一隐层特征中目标词元的特征向量,在当前解码流程中若干候选前馈层中选择目标前馈层并确定其权重因子,基于目标前馈层的权重因子对第一隐层特征经过其处理之后的第二隐层特征进行加权,得到第三隐层特征,基于第一隐层特征和第三隐层特征,得到当前解码流程的输出特征;基于各轮自回归解码的解码结果,得到执行结果。上述方案,能够降低执行多媒体任务所需的计算资源,并提升多媒体任务的执行效率。
技术关键词
输出特征
多媒体
融合特征
因子
注意力
嵌入特征
编码特征
文本
数据
自然语言
解码器
视频分析
编码器
执行装置
解码模块
程序
处理器
指令
可读存储介质