生成式人工智能归档 - 酥酥的温柔乡

发布于 2025-02-24

80 热度无~ 技术交流

一文比较 Kimi 和 deepseek 的两篇稀疏注意力机制论文

摘要

就在昨天，Kimi 和 Deepseek 分别发布了一篇论文，发布时间和论文主题内容都高度相似。我第一时间把两篇论文阅读完了，急忙 …

发布于 2025-02-19

137 热度无~ 技术交流

从Policy Gradient到REINFORCE++

摘要

强化学习的核心目标是通过不断调整策略（即根据当前状态选择动作的规则），使智能体表现得更好。在强化学习中，有几个关键元素至关重要：首 …

发布于 2025-02-15

106 热度无~ 技术交流

deepseek技术解读(2)-MTP（Multi-Token Prediction）的前世今生

摘要

0.引言最近整理deepseek的技术线，针对MTP（Multi-Token Prediction）方法做了些扩展的阅读和学 …

发布于 2025-02-15

105 热度无~ 技术交流

deepseek技术解读(1)-彻底理解MLA（Multi-Head Latent Attention）

摘要

deepseek最近比较出圈，本人也一直关注deepseek发布的一些技术报告。在模型训练、推理性能和计算成本上一直能给大家惊喜。 …

发布于 2025-02-15

95 热度无~ 技术交流

从ReFT, Kimi K1.5到DeepSeek R1，聊聊Reasoning Model的精巧实现

摘要

最近 Reasoning Model（推理模型）异常火爆，Kimi 和 DeepSeek 陆续推出自家的产品 K1.5 和 R1， …

发布于 2025-02-15

91 热度无~ 技术交流

OpenRLHF源码解读：3.PPO模型训练过程

摘要

已经用了两篇文章讲解了PPO的源码解读：训练整体过程经验数据采集过程最后我们在来看看模型训练过程的一些细节。 1.PPO训练 …

发布于 2025-02-15

98 热度无~ 技术交流

OpenRLHF源码解读：2.PPO训练Experience数据采样过程

摘要

0. 引语上一篇文章中『基于OpenRLHF源码理解PPO单机训练』已经介绍了PPO训练的完整过程，训练过程如图1所示图1、P …

发布于 2025-02-15

96 热度无~ 技术交流

OpenRLHF源码解读：1.理解PPO单机训练

摘要

0.OpenRLHF简介本人对PPO一直停留在“理论”和“实践”层面，看过PPO的原理，训过PPO的模型，但一直没有从源码角度 …

梦回温柔乡

一文比较 Kimi 和 deepseek 的两篇稀疏注意力机制论文

从Policy Gradient到REINFORCE++

deepseek技术解读(2)-MTP（Multi-Token Prediction）的前世今生

deepseek技术解读(1)-彻底理解MLA（Multi-Head Latent Attention）

从ReFT, Kimi K1.5到DeepSeek R1，聊聊Reasoning Model的精巧实现

OpenRLHF源码解读：3.PPO模型训练过程

OpenRLHF源码解读：2.PPO训练Experience数据采样过程

OpenRLHF源码解读：1.理解PPO单机训练