GRPO

群体相对策略优化

Group Relative Policy Optimization

不直接提供所有问答数据,而是让模型基于已有知识进行优化,以获得更好的结果。