Home Figma Trans About Github

GRPO

群体相对策略优化

Group Relative Policy Optimization

不直接提供所有问答数据，而是让模型基于已有知识进行优化，以获得更好的结果。