• 梦回温柔乡
    header_user_avatar
    登录

    梦回温柔乡

    疯狂造句中......

    莫贪几两钱 误了月儿圆

  • WeChat
  • qq
  • bilibili
  • cloudmusic
  • github
  • E-mail
  • 切换
  • 大模型

    post_img
    发布于 2025-02-15
    127 热度 无~ 技术交流

    deepseek技术解读(3)-MoE的演进之路

    摘要

    0. 引言 本篇讲讲deepseek在MoE(Mixture-of-Experts)上的演进过程。DeepSeek是MoE稀疏模型 …

    post_img
    发布于 2025-02-15
    106 热度 无~ 技术交流

    deepseek技术解读(2)-MTP(Multi-Token Prediction)的前世今生

    摘要

    ​ 0.引言 最近整理deepseek的技术线,针对MTP(Multi-Token Prediction)方法做了些扩展的阅读和学 …

    post_img
    发布于 2025-02-15
    105 热度 无~ 技术交流

    deepseek技术解读(1)-彻底理解MLA(Multi-Head Latent Attention)

    摘要

    deepseek最近比较出圈,本人也一直关注deepseek发布的一些技术报告。在模型训练、推理性能和计算成本上一直能给大家惊喜。 …

    post_img
    发布于 2025-02-15
    95 热度 无~ 技术交流

    从ReFT, Kimi K1.5到DeepSeek R1,聊聊Reasoning Model的精巧实现

    摘要

    最近 Reasoning Model(推理模型)异常火爆,Kimi 和 DeepSeek 陆续推出自家的产品 K1.5 和 R1, …

    post_img
    发布于 2025-02-15
    91 热度 无~ 技术交流

    OpenRLHF源码解读:3.PPO模型训练过程

    摘要

    已经用了两篇文章讲解了PPO的源码解读: 训练整体过程 经验数据采集过程 最后我们在来看看模型训练过程的一些细节。 1.PPO训练 …

    post_img
    发布于 2025-02-15
    98 热度 无~ 技术交流

    OpenRLHF源码解读:2.PPO训练Experience数据采样过程

    摘要

    0. 引语 上一篇文章中『基于OpenRLHF源码理解PPO单机训练』已经介绍了PPO训练的完整过程,训练过程如图1所示 图1、P …

    post_img
    发布于 2025-02-15
    96 热度 无~ 技术交流

    OpenRLHF源码解读:1.理解PPO单机训练

    摘要

    0.OpenRLHF简介 本人对PPO一直停留在“理论”和“实践”层面, 看过PPO的原理,训过PPO的模型,但一直没有从源码角度 …

    loading_svg

    互联网ICP备案:浙ICP备2021031116号-1

    加载耗时 0.200 秒 | 查询 85 次 | 内存使用 21.54 MB
    Theme Sakurairo by Fuukei
    m-avatar