• 梦回温柔乡
    header_user_avatar
    登录

    梦回温柔乡

    疯狂造句中......

    莫贪几两钱 误了月儿圆

  • WeChat
  • qq
  • bilibili
  • cloudmusic
  • github
  • E-mail
  • 切换
  • RLHF

    post_img
    发布于 2025-02-15
    91 热度 无~ 技术交流

    OpenRLHF源码解读:3.PPO模型训练过程

    摘要

    已经用了两篇文章讲解了PPO的源码解读: 训练整体过程 经验数据采集过程 最后我们在来看看模型训练过程的一些细节。 1.PPO训练 …

    post_img
    发布于 2025-02-15
    98 热度 无~ 技术交流

    OpenRLHF源码解读:2.PPO训练Experience数据采样过程

    摘要

    0. 引语 上一篇文章中『基于OpenRLHF源码理解PPO单机训练』已经介绍了PPO训练的完整过程,训练过程如图1所示 图1、P …

    post_img
    发布于 2025-02-15
    96 热度 无~ 技术交流

    OpenRLHF源码解读:1.理解PPO单机训练

    摘要

    0.OpenRLHF简介 本人对PPO一直停留在“理论”和“实践”层面, 看过PPO的原理,训过PPO的模型,但一直没有从源码角度 …

    loading_svg

    互联网ICP备案:浙ICP备2021031116号-1

    加载耗时 0.181 秒 | 查询 82 次 | 内存使用 21.00 MB
    Theme Sakurairo by Fuukei
    m-avatar