AI资讯新闻榜单内容搜索-强化学习

搜索
AI-TNT
搜索: 强化学习

北大领衔,多智能体强化学习研究登上Nature子刊

北大领衔,多智能体强化学习研究登上Nature子刊
7583 AI技术研报
北大领衔,多智能体强化学习研究登上Nature子刊

又有AI创始人卖身大厂!带走25%员工留下空壳,为吴恩达第一位博士生

又有AI创始人卖身大厂!带走25%员工留下空壳,为吴恩达第一位博士生
6606 AI技术研报
又有AI创始人卖身大厂!带走25%员工留下空壳,为吴恩达第一位博士生

当奖励成为漏洞:从对齐本质出发自动「越狱」大语言模型

当奖励成为漏洞:从对齐本质出发自动「越狱」大语言模型
5671 AI技术研报
当奖励成为漏洞:从对齐本质出发自动「越狱」大语言模型

Yann LeCun不看好强化学习:「我确实更喜欢 MPC」

Yann LeCun不看好强化学习:「我确实更喜欢 MPC」
7367 AI资讯
Yann LeCun不看好强化学习:「我确实更喜欢 MPC」

ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!
6459 AI资讯
ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

Karpathy观点惹争议:RLHF不是真正的强化学习,谷歌、Meta下场反对

Karpathy观点惹争议:RLHF不是真正的强化学习,谷歌、Meta下场反对
9668 AI资讯
Karpathy观点惹争议:RLHF不是真正的强化学习,谷歌、Meta下场反对

首届大模型顶会COLM 高分论文:偏好搜索算法PairS,让大模型进行文本评估更高效

首届大模型顶会COLM 高分论文:偏好搜索算法PairS,让大模型进行文本评估更高效
9623 AI技术研报
首届大模型顶会COLM 高分论文:偏好搜索算法PairS,让大模型进行文本评估更高效

上海交通大学温颖教授:打造“通才”Agent|Agent Insights

上海交通大学温颖教授:打造“通才”Agent|Agent Insights
3163 AI资讯
上海交通大学温颖教授:打造“通才”Agent|Agent Insights

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」
3801 AI技术研报
从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

这个团队做了OpenAI没Open的技术,开源OpenRLHF让对齐大模型超简单

这个团队做了OpenAI没Open的技术,开源OpenRLHF让对齐大模型超简单
9298 AI技术研报
这个团队做了OpenAI没Open的技术,开源OpenRLHF让对齐大模型超简单
上一页 当前第20页,共23页 下一页
沪ICP备2023015588号