一种基于多模态视觉大模型的视频态势标签构建方法

AITNT
正文
推荐专利
一种基于多模态视觉大模型的视频态势标签构建方法
申请号:CN202510907612
申请日期:2025-07-02
公开号:CN120747825A
公开日期:2025-10-03
类型:发明专利
摘要
本发明属于视频处理技术领域,具体涉及一种基于多模态视觉大模型的视频态势标签构建方法,包括以下步骤:S1:获取待识别视频,并对所述待识别视频进行预处理;S2:将所述视觉特征、文本描述特征及音频特征分别进行特征转换得到可识别视觉文本序列、文本描述序列和音频文本序列,所述视觉文本序列包含时间序列;S3:构建和训练识别模型;S4:将所述视觉文本序列、文本描述序列和音频文本序列输入预设置的识别模型识别所述待识别视频在连续时间内所对应的连续事件发展趋势,从数据预处理阶段到模型构建再到具体的待识别视频的视频帧处理阶段的相互佐证,实现了从视频数据获取到事件趋势分析的精准化与智能化。
技术关键词
标签构建方法 事件发展趋势 文本 多模态 音频特征 序列 训练识别模型 关键帧 金字塔 视频帧 匹配误差 邻域 时空注意力机制 融合视觉特征 LK光流法 编码模块 损失函数优化
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号