一种高斯引导跨模态学习的视频问答定位方法与系统

AITNT
正文
推荐专利
一种高斯引导跨模态学习的视频问答定位方法与系统
申请号:CN202510008837
申请日期:2025-01-03
公开号:CN120144693B
公开日期:2025-12-26
类型:发明专利
摘要
本发明公开了一种高斯引导跨模态学习的视频问答定位方法与系统。包括:对视频问答公开数据集进行特征提取,得到视频帧特征和问题特征;将视频帧特征输入时间Transformer,得到全局时序特征和注意力权重;利用全局时序特征和问题特征,构建时间权重分布,对视频帧特征加权,得到加权视觉特征;利用注意力权重和时间权重分布构建时间回溯机制,得到时间回溯特征;将时间回溯特征和问题特征进行特征融合,得到多模态融合特征和预测答案;引入跨时间因果对比损失进行学习,得到训练完成的模型;用户将待处理视频和问题输入训练完成的模型,输出问题的预测答案和视频定位结果。本发明能够提升定位的语义相关性、降低模型运算复杂度、提升模型的定位表现。
技术关键词
视频帧特征 跨模态学习 时序特征 融合特征 定位方法 视觉特征 嵌入位置信息 样本 多模态 前馈神经网络 数据 文本编码器 生成答案 定位系统 注意力机制 动态
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号