硅谷视角深聊 DeepSeek的颠覆、冲击、争议和误解
https://www.youtube.com/watch?v=b_OpjUz7zN8
- 新推出的多模态模型 Janus-Pro
- 便宜大碗
- DeepSeek-V3
- 架构创新:
- MoE 以及 Load Balance 优化
- MLA 减少 KV Cache 提升性能
- 使用 MTP 增加注意力模块,预测接下来的多个 token,提升性能
- 低成本 $5.5M
- 衍生 DeepSeek-R1-Zero
- 架构创新:
- 争议
- 蒸馏 OpenAI?偷数据?
- 大量使用 openAI 生成的数据
- 业内大量使用蒸馏技术
- 显卡来源?费用真实性?
- 认为 500 万刀太低了,5 亿差不多
- 大多数成本都不在一次训练上,而是之前的试错成本(但也是一次性成本)
- 真正的爆点是推理成本降低,每次推理激活 1/20 的参数
- 安全问题?
- 蒸馏 OpenAI?偷数据?
- 对开闭源公司的影响
- AI 领域没有真正的护城河
- OpenAI 面临融资和降价,难以证明估值合理