发布于 2025-02-15
摘要
0. 引言 本篇讲讲deepseek在MoE(Mixture-of-Experts)上的演进过程。DeepSeek是MoE稀疏模型 …
莫贪几两钱 误了月儿圆
计算机相关技术分享
0. 引言 本篇讲讲deepseek在MoE(Mixture-of-Experts)上的演进过程。DeepSeek是MoE稀疏模型 …
0.引言 最近整理deepseek的技术线,针对MTP(Multi-Token Prediction)方法做了些扩展的阅读和学 …
deepseek最近比较出圈,本人也一直关注deepseek发布的一些技术报告。在模型训练、推理性能和计算成本上一直能给大家惊喜。 …
最近 Reasoning Model(推理模型)异常火爆,Kimi 和 DeepSeek 陆续推出自家的产品 K1.5 和 R1, …
已经用了两篇文章讲解了PPO的源码解读: 训练整体过程 经验数据采集过程 最后我们在来看看模型训练过程的一些细节。 1.PPO训练 …
0. 引语 上一篇文章中『基于OpenRLHF源码理解PPO单机训练』已经介绍了PPO训练的完整过程,训练过程如图1所示 图1、P …
0.OpenRLHF简介 本人对PPO一直停留在“理论”和“实践”层面, 看过PPO的原理,训过PPO的模型,但一直没有从源码角度 …
省流,可以直接看图片(在底部),还是比较直观的。 最近老是听说AI Agent,仿佛是一条万能的智慧流水线,能直接提供产品和结果( …
「RAG 技术通过在 AI 生成过程中引入外部知识检索,从基础的文档查询发展到多模态、Multi-Agent 体协同的智能架构,让 …