Home
Figma Trans
About
Github
GRPO
群体相对策略优化
Group Relative Policy Optimization
不直接提供所有问答数据,而是让模型基于已有知识进行优化,以获得更好的结果。