摘要
本发明公开了一种基于多模态融合的抑郁症识别方法、系统及存储介质,包括:对获取的视频数据进行短时序时间窗口划分,将视频数据分割成多个短时序视频单元;采用图文对比预训练模型的图像编码器来处理每个短时序视频单元,并得到视频特征向量;通过大语言模型生成描述,使用图文对比预训练模型中的文本编码器提取语义信息,并得到文本特征向量;计算视频特征向量和文本特征向量之间的相关度,再进行视频特征向量和文本特征向量的融合,得到特征融合向量;采用双向长短时记忆网络对特征融合向量进行分类,输出识别结果。本发明有效增强了模型对视频和文本关联特征的关注度,提高了抑郁症识别的准确率。
技术关键词
视频特征向量
文本特征向量
预训练模型
文本编码器
图像编码器
大语言模型
多模态
识别方法
时序
图文
面部关键点
抑郁
点查找算法
K均值聚类算法
识别系统
数据
注意力模型
语义
系统为您推荐了相关专利信息
知识图谱补全方法
生成对抗网络
模态特征
三元组
实体
对话状态跟踪方法
关系
预训练语言模型
编码器
链接方法
编码器
解码器模型
解码器架构
近邻算法
物体检测
飞行器识别方法
深度学习网络模型
迁移学习模型
预处理飞行器
计算机可读取存储介质