摘要
本发明公开了一种面向教学的多模态交互式数字人助教生成方法,属于人工智能教育技术领域,通过多模态输入(语音、文本、肖像图),结合语义增强问答模型(SE‑QA)生成结构化答案;使用情感适配语音合成技术生成个性化语音;构建教学动作视频库,利用时空图卷积网络(ST‑GCN)提取动作特征,并通过时序卷积网络(TCN)生成视频,优化音唇同步与微表情;通过多模态评价与强化学习优化生成过程,实现“生成‑评价‑优化”闭环。本发明采用上述的一种面向教学的多模态交互式数字人助教生成方法,突破了传统数字人系统语义‑动作失配、情感表达单一等技术瓶颈,能显著提升知识传递效率与交互真实感,为智能教育工具提供了创新解决方案。
技术关键词
交互式数字
教学动作
生成方法
视频
教学场景
生成个性化语音
答案
评价反馈系统
音唇同步
动态时间规整算法
情感特征
文本
语义向量
强化学习框架
跨模态
注意力
语义关联度
人工智能教育技术
系统为您推荐了相关专利信息
甲状腺超声图像
报告自动生成方法
特征提取模型
超声医学图像处理
微调方法
图像信号处理方法
编码码率
视频流传输
动态码率
加密算法
评估系统
数据获取模块
数据模块
视频帧集合
粒子