发布日期:2025-02-05 14:29 点击次数:199
最近大家不管在看博文,还是短视频,都能刷到火爆全球的DeepSeek,DeepSeek创始人梁文锋不仅是湛江吴川的骄傲,更是中国人民的骄傲,更有疯狂的粉丝朋友跑到DeepSeek创始人梁文锋先生老家广东省湛江市吴川市覃巴镇米历岭村去打卡。
作为AI的从业者可能更多关注的是DeepSeek背后的强大之处,DeepSeek开源了DeepSeek-R1-Zero和DeepSeek-R1模型,DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练的模型,无需任何监督微调数据即可获得强大的推理能力。
此外,DeepSeek-R1-Zero的性能为何超越OpenAI-o1-0912?主要是DeepSeek-R1-Zero的性能可以通过多数投票的应用进一步增强。在AIME基准测试中采用多数投票时,DeepSeek-R1-Zero的性能从71.0%上升到86.7%,从而超过了OpenAI-o1-0912的性能。
训练期间DeepSeek-R1-Zero的AIME精度
接下来我们再来分析DeepSeek-R1-Zero的牛B之处--自进化过程。DeepSeek-R1-Zero展示了RL如何驱动模型自动提高其推理能力,通过直接从基础模型启动RL,密切监控模型的进展,而不受监督微调阶段的影响。这种方法清晰地展示了模型如何随时间演变,特别是在处理复杂推理任务的能力方面。
强化学习过程中DeepSeek-R1-Zero在训练集上的平均响应长度
DeepSeek-R1-Zero模型在整个训练的过程中,不是外部调整的结果,而是模型内部的内在发展。DeepSeek-R1-Zero通过利用扩展的测试时间计算,自然获得了解决日益复杂的推理任务的能力。这种计算范围从生成数百到数千个推理令牌,使模型能够更深入地探索和完善其思维过程。
这种自我进化最显著的方面之一是随着测试时间计算的增加,复杂行为的出现,反思(模型修改和重新评估其先前步骤)和探索解决问题的替代方法等行为是自发产生的。这些行为不是明确编程的,而是模型与强化学习环境交互的结果。这种自发开发显著增强了DeepSeek-R1-Zero的推理能力,使其能够以更高的效率和准确性处理更具挑战性的任务。
在《DeepSeek-R1论文》中提到DeepSeek-R1-Zero在训练过程中发生一个特别有趣的现象“顿悟时刻”。这一时刻发生在模型的中间版本中,在此阶段,DeepSeek-R1-Zero通过重新评估其初始方法,学会为问题分配更多的思考时间。这种行为不仅证明了模型不断增长的推理能力,也是强化学习的力量,我们不是明确地教授模型如何解决问题,而是简单地为其提供正确的激励,它自主地开发出先进的解决问题的策略。“顿悟时刻”有力地提醒我们,强化学习有潜力在人工系统中解锁新的智能水平,为未来更自主和自适应的模型铺平道路。
如果你也想更多了解DeepSeek,可以关注【腾飞开源公众号】然后私信回复【DeepSeek】,工作人员会后台私发《DeepSeek_R1_Chinese_Version.pdf》中文版供大家交流学习。
上一篇:立方风控鸟·早报(1月17日)