摘要
本发明公开了一种数字人实时交互系统及其AI语音对话芯片电路系统,系统采用模块化设计,包括以下模块:基础类模块(BaseReal):负责音频帧管理、TTS服务初始化、视频录制以及自定义音视频循环管理;媒体流管理模块:该模块具备音频流处理、负责音视频流的实时传输;语音识别模块:负责语音特征提取以及文本转换的能力;文本转语音模块:将采集的音频数据转换为文本;唇形同步模块:通过唇形同步算法优化和继承基础类,实现了实时的唇形同步动画生成;大模型模块:基于大量数据微调的LLM大模型、api接口或者工作流agent智能体。本发明具有语音识别、文本转语音、唇形同步、实时音视频交互互动、实时翻译等的作用。
技术关键词
芯片电路系统
AI语音
交互系统
语音识别模块
生成音频数据
单片机
WiFi模块
文本
实时通信
音视频
计算机视觉识别
媒体流技术
云端服务器
音频数据处理
语音特征提取