摘要
本申请涉及数据分析技术领域,公开了一种基于多模态模型的代答行为检测方法、装置、设备及介质,所述方法包括根据当前音频数据当前视频数据,并检测当前视频数据中是否存在目标嘴部动作特征;在检测到当前视频数据中存在目标嘴部动作特征的情况下,根据目标嘴部动作特征与标准嘴部动作特征生成代答行为检测结果。通过上述方式,本申请通过多模态大模型将音频与视频数据相结合,全面地分析视频中的信息,以标准嘴部动作特征作为参照,与实际检测到的目标嘴部动作特征进行对比,生成代答行为检测结果,检测结果更具客观性和可靠性,进而在金融科技、医疗健康养老等业务领域中提高风控管理系统检测旁人代答行为的准确性。
技术关键词
动作特征
多模态
音频
音视频
静态特征
数据分析技术
计算机设备
可读存储介质
存储计算机程序
医疗健康
处理器
管理系统
存储器
序列
金融
参数