摘要
本发明涉及视频会议数据处理技术领域,公开了视频会议多模态实时摘要生成方法,该方法通过同步采集会议的音频流、视频流及文字聊天记录,经预处理转换为时间对齐的文本、关键帧序列及有效聊天内容;随后提取文本语义特征、视觉场景特征及交互意图特征,通过多模态融合模型进行跨模态关联分析,生成融合特征集合;基于此识别核心议题、关键结论及行动项,按时间顺序和重要程度结构化组织,形成实时摘要并动态更新。该方法整合多维度信息,解决了传统单一模态摘要的片面性问题,提升了摘要的完整性、准确性与时效性,助力参会者实时掌握会议重点,提高会议效率与决策质量。
技术关键词
摘要生成方法
多模态
场景特征
文本
语义特征
融合特征
语音识别模型
关键帧
卷积神经网络提取图像特征
视频流
音频
意图
动态更新
会议现场
关键词提取模型
视觉
跨模态
麦克风阵列采集
系统为您推荐了相关专利信息
损伤检测方法
图像分割器
图像编码器
编码特征
压力
心理状态参数
模态特征
多模态情绪
心理状态监测装置
多头注意力机制