• 梦回温柔乡
    header_user_avatar
    登录

    梦回温柔乡

    疯狂造句中......

    莫贪几两钱 误了月儿圆

  • WeChat
  • qq
  • bilibili
  • cloudmusic
  • github
  • E-mail
  • 切换
  • deepseek

    post_img
    发布于 2025-02-15
    127 热度 无~ 技术交流

    deepseek技术解读(3)-MoE的演进之路

    摘要

    0. 引言 本篇讲讲deepseek在MoE(Mixture-of-Experts)上的演进过程。DeepSeek是MoE稀疏模型 …

    post_img
    发布于 2025-02-15
    106 热度 无~ 技术交流

    deepseek技术解读(2)-MTP(Multi-Token Prediction)的前世今生

    摘要

    ​ 0.引言 最近整理deepseek的技术线,针对MTP(Multi-Token Prediction)方法做了些扩展的阅读和学 …

    post_img
    发布于 2025-02-15
    102 热度 无~ 技术交流

    deepseek技术解读(1)-彻底理解MLA(Multi-Head Latent Attention)

    摘要

    deepseek最近比较出圈,本人也一直关注deepseek发布的一些技术报告。在模型训练、推理性能和计算成本上一直能给大家惊喜。 …

    loading_svg

    互联网ICP备案:浙ICP备2021031116号-1

    加载耗时 0.160 秒 | 查询 82 次 | 内存使用 20.86 MB
    Theme Sakurairo by Fuukei
    m-avatar