基于帧序列抽象与语言模型引导的视频理解方法、装置、设备及介质

AITNT
正文
推荐专利
基于帧序列抽象与语言模型引导的视频理解方法、装置、设备及介质
申请号:CN202510825350
申请日期:2025-06-19
公开号:CN120708131A
公开日期:2025-09-26
类型:发明专利
摘要
本申请提供一种基于帧序列抽象与语言模型引导的视频理解方法,应用于人工智能和多模态信息处理技术领域,对视频帧序列中的图像特征进行预处理与镜头分割,生成代表帧编码数据;基于分镜段语义提取规则对代表帧图像特征进行语义解析,结合结构化文本指令对大语言模型的引导作用及模型输出特性,生成语义序列数据;基于多帧拼接输入方式对跨分镜代表帧特征进行处理,结合文本指令结构设计与模型输出规则动态优化语义理解逻辑,生成结构化场景理解数据;对结构化场景理解数据进行处理,生成包含视频语义摘要、脚本创作语义片段、视频标签与商品卖点的应用数据;基于预设应用场景规则对应用数据进行处理,生成视频结构化语义标注结果。
技术关键词
结构化场景 语义 视频理解方法 生成代表 序列 视频帧 数据 图像 文本 摘要 脚本 指令 大语言模型 标签 格式 信息处理技术 逻辑
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号