News

一个完整的基于Qwen模型的井字棋思维链(Chain-of-Thought)训练和评估系统。该项目实现了6种不同长度的CoT训练模式,支持多GPU并行训练和高速评估。 - ICUlizhi/Tictactoe-SelfPlay-Qwen ...