💰 津贴奖励

¥100
通过审核即可获得

📚 样题示例

样题加载中...

✨ 试运行通知

我们计划试运行至1月中旬,视强化学习实验结果决定项目去留~

期望大家提供高质量的题目,一起帮助模型变得更好!

📋 津贴发放标准

  • 通过合成数据检查
    确保提交并非AI合成/改编题
  • 大模型 Roll 8次正确数 ≤ 6次
    即8次中至少错2次以上
  • 通过正确性 Judge 审核
    建议自行先验证一下

🤖 推荐测试模型

⚙️ 测试要求:
✓ 尽可能开启深度思考 / 长思考 / 联网搜索等模式
✓ 自行检查或使用AI辅助检查问题和答案的正确性

📝 数据质量要求

  • ✓ 蕴含学科相关知识/推理
  • ✓ 回避已开源测评bench题目
  • 暂不接受选择题和证明题
  • ✓ 问题表述清晰完整
  • ✓ 答案准确无误
  • ✓ 解答过程详细
  • ✓ 支持 Markdown 格式和 LaTeX 数学公式

📝 提交题目

支持 Markdown 语法和 LaTeX 数学公式(行内: $公式$,块级: $$公式$$)
推荐提供唯一、明确的正确答案
请提供完整的推理步骤和解答过程
请提供 kimi k2 thinking / deepseek v3.2 / seed v1.8 做错时的完整分享链接
用于联系和发放津贴

✅ 提交成功!

您的数据已成功提交,我们将在3个工作日内完成审核。

审核结果将通过微信通知您。

❌ 提交失败

请稍后重试或联系管理员