摘要
本发明属于人工智能技术领域,具体涉及一种基于视频理解的交互式问答系统及其工作方法。所述前端交互层,用于系统与用户交互互动;所述处理层,用于通过大模型实现基于视频理解的交互式问答;所述知识增强层,知识增强层内的内容以文本形式存储形成知识库,根据用户的问题和视频检索的结果进行二次检索,其检索结果和用户的问题、视频检索片段一起输入多模态大模型中,并生成最终回复;本发明针对无法动态响应用户自由提问、忽略视频画面与音频的语义信息以及缺乏对视频时序上下文的理解能力的问题。
技术关键词
交互式问答
视频分析
数据编码
文本
知识图谱查询
多模态特征融合
视频特征提取
语音特征提取
动态
答案
排序模型
交互内容
人工智能技术
模块
时序
视觉特征
系统为您推荐了相关专利信息
智能生成方法
深度学习模型
报表
计算机设备
大数据分析技术
相关度算法
特征提取模型
模式
参数
文本识别模型