用微信聊天记录来做AI数字的你,开源了

搜索
AI-TNT
正文
资源拓展
用微信聊天记录来做AI数字的你,开源了
2025-05-17 09:33

数字生命最靠谱的项目底座


就在这几天一个项目火了,就是叫做weclone。


用微信聊天记录来做AI数字的你,开源了


总的来说基于微信聊天记录来生成你的数字分身,现在开源了整个项目的技术是使用python来完成的,并且支持阿里同义千问2.5,现在已经有8.7K收藏了。


这个项目的本质上其实并不那么难:就是RAG知识库的模型微调


利用用RAG知识库的原理,将其微信聊天导入,再利用模型微调以及LORA的方式最终微调出自己的数字人。项目自带了ASR与TTS,将其转化为用户自己的声音。


项目默认使用Qwen2.5-7B-Instruct模型,LoRA方法对sft阶段微调,大约需要16GB显存


如下是整个项目的demo截图,并且通过开源的AstrBot来完成微信、企业微信、飞书对接。



用微信聊天记录来做AI数字的你,开源了


国内生活的最佳数字人记录:微信聊天记录


从个人数据来看,微信聊天记录的确是我们最私密、最贴切自己个人记录的知识库了,个人数据是最详细的。


我们通过别人的聊天记录来判断别人是什么样的人,或者看到别人内心是什么样的。


尤其是个人聊天记录可以从不同的场景里进行分类,比如我因为有读者的原因,就会有自己的粉丝微信号,去答复读者的消息。


而在生活中,又是一个一边在做创业一边爱健身的人,各类健身的朋友经常聚会。从这个项目衍生出来还可以生成企业工作的数字人,尤其是在钉钉或企业微信上,有不同类型的角色尤其是客服,就可以训练这些数字人。


所以基于聊天记录来成为数字人分身,是的确可行的。并且有知识库以及微调的数字人,而不是一个通用的AI数字人,准确率将更高提高。


用微信聊天记录来做AI数字的你,开源了


支持修改数字人的情景对话名称,以及系统提示词。将其设置为个人personal,而不是机器人。


用微信聊天记录来做AI数字的你,开源了


weclone支持用PyWxDump提取微信聊天记录(不支持4.0版本微信)。


可以先将手机的聊天记录迁移(备份)到电脑,数据量更多一些。下载软件并解密数据库后,点击聊天备份,导出类型为CSV,可以导出多个联系人(不建议使用群聊记录),然后将导出的位于wxdump_tmp/export 的 csv 文件夹放在./dataset目录即可,也就是不同人聊天记录的文件夹一起放在 ./dataset/csv。


这个项目的扩展性


1.针对客服的数字人


企业里面产品的客服是一个离职率比较高的职业,所以积累客服的话术与常见问题库是尤其重要的。所以用微信聊天记录克隆数字人分身的概念就可以比较好的降低成本,并且再也不用去单独整理客服的知识库话术,聊天记录本身就是知识库。


2.针对营销的数字人


针对销售的聊天记录,仍然可以当做话术库来完成,将其不同客户、涉及到不同行业的数字人来完成, 作为数字人分身的基础。


这样就不用担心TO B 和TO C的客户,还需要分成本来增加销售营销的内容培训。


3.作为财务的数字人


在财务信息上,我们经常也会找到财务的常规问题,这就非常适合用数字人帮你替代就可以了,而这些微信聊天记录就可以来自某个财务或几个财务专员的数字人身份。


以此类推,可以看到微信聊天记录所衍生出来的数字人有很多人,不过以前是找不到这些数据,现在微信聊天记录是最好的个人数字分身知识库,这就像我们推荐算法。


我们总可以看到不同微信下的推荐算法不一样,就是因为算法比你还清楚你自己,而聊天记录的分析,只要数据够多,就可以分析成为自己的MBTI助手,从工作、到生活上。


进群加入数字人分身产品研发群,我们后续将分享在数字人搭建的一些产品设计案例,你也可以来亲自参加开发。


本文来自微信公众号“Kevin改变世界的点滴”(ID:Kevingbsjddd),作者:Kevin那些事儿



用微信聊天记录来做AI数字的你,开源了




1
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

2
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

6
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales

IOS下载
安卓下载
微信群
沪ICP备2023015588号