摘要
本申请提供一种基于非遗大模型的多模态实时互动系统和方法,所述系统包括:自动语音识别模块、语音合成模块、非遗大模型模块、数字人渲染模块,所述自动语音识别模块通过麦克风实时采集用户语音信号;所述非遗大模型模块用于处理用户输入的多模态数据,生成相应的响应文本;所述语音合成模块用于文字转语音,实现声音克隆、情感调节和多语言输出;所述数字人渲染模块在非遗大模型的基础上加上3D身体,构建高保真3D数字人模型,通过动作捕捉或AI驱动实现实时表情与肢体动作同步。本申请借助大语言模型在非遗基础上进行文化再创造,深入挖掘非遗文化中蕴含的精神财富,可以实现非遗文化的智能化传播与知识普及。
技术关键词
自动语音识别
互动系统
大语言模型
语音活动检测
检测语音活动
互动方法
数据
非物质文化遗产
中文分词工具
模块
动作同步
翻译工具
文本
生成动画
深度学习模型
句法结构
预训练模型
多轮对话
高性能