|

硅谷视角深聊 DeepSeek的颠覆、冲击、争议和误解

https://www.youtube.com/watch?v=b_OpjUz7zN8

  • 新推出的多模态模型 Janus-Pro
  • 便宜大碗
  • DeepSeek-V3
    • 架构创新:
      • MoE 以及 Load Balance 优化
      • MLA 减少 KV Cache 提升性能
        • 使用 MTP 增加注意力模块,预测接下来的多个 token,提升性能
    • 低成本 $5.5M
    • 衍生 DeepSeek-R1-Zero
      • 训练时使用了纯粹的 RL 方法(无监督)
        • 硅谷视角深聊 DeepSeek的颠覆、冲击、争议和误解-20250212194257091
        • 使用 GRPO RL 算法提升模型推理表现(效率提升,成本下降)
          • 不是什么新技术,业内甚至认为不如 PPO,是退化,但 ds 更高效了
            • 采访提出 GRPO 本质是为了解决算力问题(大规模 RL 运算)和计算效率问题
        • OpenAI 提出 PPO 算法
          • GRPO 去掉了批判的部分,直接优化策略本身
        • 两个奖励函数:
          • 1、验证标准答案
          • 2、确保输出连贯、格式规范
        • 自动找到解决问题的策略和思路
          • 硅谷视角深聊 DeepSeek的颠覆、冲击、争议和误解-20250212200308550
      • 问题:多语言混乱输出,可读性差...
        • 解法:重新训练出 R1
          • 硅谷视角深聊 DeepSeek的颠覆、冲击、争议和误解-20250212202016514
      • 衍生 DeepSeek-R1
        • 证明了无监督 RL 的可行性以及通过少量算力提升模型性能的方法
  • 争议
    • 蒸馏 OpenAI?偷数据?
      • 大量使用 openAI 生成的数据
      • 业内大量使用蒸馏技术
    • 显卡来源?费用真实性?
      • 认为 500 万刀太低了,5 亿差不多
      • 大多数成本都不在一次训练上,而是之前的试错成本(但也是一次性成本)
      • 真正的爆点是推理成本降低,每次推理激活 1/20 的参数
      • 硅谷视角深聊 DeepSeek的颠覆、冲击、争议和误解-20250212203137761
    • 安全问题?
  • 对开闭源公司的影响
    • AI 领域没有真正的护城河
    • OpenAI 面临融资和降价,难以证明估值合理