摘要
本发明公开了一种基于跨模态联合表示和时间序列分析的AI数字人构建方法和装置。采集用户面部表情与语音,将采集后的表情和语音进行特征提取,并为表情和语调打上情感类型标签;针对文本,使用关键词提取技术确定文本内容的关键主题;将照片与语音内容进行文本描述,由CLIP模型生成照片与语音的CLIP向量,对向量进行平均加权平均得到联合表示向量。通过对用户、时间、情感、话题和联合表示向量进行记录,生成用户画像。在下一次会话时候重复该过程,并对画像进行更新,每隔15天进行一次数据采集,根据时间序列预测下一次的情感基调与可能话题。与现有技术相比,本发明实现数字人语调、情感基调及话题风格的智能调整,增强交互的连续性与个性化体验。
技术关键词
话题关键词
文本编辑器
跨模态
标签
面部
会话
生成用户画像
图像编辑器
照片
序列
LSTM模型
关键词提取技术
语音特征提取
BERT模型
风格
系统为您推荐了相关专利信息
软件平台开发方法
插件式
对称加密算法
数据处理中心
轻量级通信协议
神经网络模型
免疫固定电泳
多尺度特征融合
胶片扫描
阶段
深度神经网络模型
帕金森病患者
训练数据量
样本
健康对照