基于刚刚,DeepSeek-R1论文登上Nature封面,通讯作者梁文锋的课程

Page 1: 第1页 各位同学,请看。最新一期的《Nature》期刊,这是全球最顶尖的科学杂志之一,其封面赫然展示了我们今天要学习的主角——DeepSeek-R1。这在人工智能领域,尤其是大语言模型的研究中,是一项极为罕见的荣誉。它标志着这项工作不仅在技术上取得了突破,其科学价值也得到了学术界最高殿堂的认可。 Page 2: 第2页 那么,Nature究竟为何如此看重这项研究呢?其编辑推荐语揭示了核心。他们将模型的“推理”能力比作人类处理复杂问题时的思考过程——我们不会一步到位,而是会先规划步骤。DeepSeek-R1正是通过一种特殊的训练方法——强化学习,学会了这种能力。这好比训练一个孩子解数学题,你不仅在他答对时给予糖果,更重要的是,在他写出正确的解题步骤时也给予鼓励。久而久之,他不仅能给出答案,更能清晰地展示其思考的脉络,甚至在提交答案前自己检查一遍,这就是自我验证与反思。 Page 3: 第3页 在此,我们必须理解一个比技术本身更为深远的概念——“程序价值”。过去,AI公司发布新模型,往往像是在开产品发布会,展示惊艳的功能,刷新各种测试的跑分。但这好比一个厨师自己宣称自己的菜是天下第一,缺乏客观的评判。而DeepSeek将R1提交给Nature进行同行评审,就如同将这道菜送去了米其林评级,让独立的、匿名的专家们来品尝和评判。这个过程,就是从“技术竞赛”转向“科学纪律”的关键一步。它要求你不仅要拿出成果,更要公开你的“食谱”和“烹饪方法”,让科学共同体来验证其可靠性。这为整个行业的健康发展树立了一个至关重要的先例。 Page 4: 第4页 接下来,我们深入其技术核心。传统上,训练一个聪明的AI模型,好比教一个学生,需要先给他看海量的、由老师批改好的标准答案,这个过程我们称之为“监督微调”(SFT)。DeepSeek团队则提出了一个大胆的设想:我们能否跳过这个步骤,直接让学生在不断的练习和自我订正中学会推理?这就是所谓的“无监督冷启动的强化学习”。他们通过一个名为DeepSeek-R1-Zero的实验模型证明,即便没有标准答案作为起点,只要有足够大规模的、有奖励机制的练习,模型同样能学会高超的推理技巧。 Page 5: 第5页 要实现这种全新的训练范式,需要精巧的设计。首先是成本问题。传统的强化学习需要一个“裁判模型”来打分,其体量和“选手模型”一样大,成本极高。DeepSeek发明的GRPO算法,好比一场考试中,不再需要一个专门的老师来为每个学生估分,而是让全班同学的平均分作为参考基线,这样便能知道每个学生的相对水平,大大节省了资源。其次是“奖励”的设计。这就像评分标准,必须明确。DeepSeek设定了两个标准:一是最终答案要对,这是“准确度”;二是你得把解题过程写清楚,这是“格式”。二者结合,确保模型朝着既正确又规范的方向进化。 Page 6: 第6页 第三项设计,是关于如何引导模型输出。研究者们设计了一个极为简单的模板,它只提了一个要求:“请先展示你的思考过程,然后给出最终答案。”这好比一位高明的导师,他不会手把手教你每一步怎么做,而是给你一张白纸,鼓励你自由探索,只需将思考的轨迹记录下来即可。这种“最小干预”的哲学至关重要,因为它允许我们清晰地观察到,模型是如何在没有外部指令的情况下,自发地学习和进步的。 Page 7: 第7页 当训练开始后,奇妙的事情发生了。模型不再满足于简单的回答,而是开始写出长篇大论的“解题思路”,仿佛在进行深入的思考。更令人惊讶的是,它自发地学会了“反思”——在解题中途停下来,审视自己的方法是否正确,甚至尝试用多种不同的路径求解。研究者们观察到了一个有趣的“顿悟时刻”(Aha Moment):在某个阶段,模型突然学会了在发现初始方法行不通时,果断放弃并另辟蹊径。这恰恰是强化学习的魅力所在:只要奖励机制设置得当,模型就能自主发展出高级的解题策略,如同人类学习过程中的灵光一闪。 Page 8: 第8页 然而,这位自学成才的“天才”也有自己的烦恼。DeepSeek-R1-Zero的输出,虽然逻辑上可能无懈可击,但读起来却非常费劲。这好比一位数学家的演算草稿,充满了各种符号和缩写,甚至夹杂着不同国家的语言,普通人很难看懂。这揭示了一个深刻的道理:纯粹的、最大化奖励的机器智能,其表达方式可能与人类的偏好和阅读习惯相去甚远。解决了“对不对”的问题,还需要解决“好不好懂”的问题。 Page 9: 第9页 为了克服Zero模型的缺点,研究团队为真正要发布的DeepSeek-R1模型设计了一条更为稳健的路径。他们不再让模型“从零开始”,而是先进行一个“学前教育”。这个教育过程,就是收集了数千个由人类精心编写或筛选过的、包含详细解题步骤的“范例”,我们称之为“长思维链”数据。用这些高质量的范例对基础模型进行初步的微调,就好比在正式开始大量练习前,先让学生观摩几道题的完美解法。这能确保模型从一个更好的起点开始学习,避免在初期走太多弯路。 Page 10: 第10页 这种“先看范例再练习”的方法,带来了两大显而易见的好处。首先是“可读性”。由于作为范例的冷启动数据本身就是清晰、规范的,模型从一开始就学会了如何以人类友好的方式进行表达,其输出自然就条理分明。其次是“潜力”。这些范例中蕴含了人类数千年来积累的解题智慧和先验知识。让模型学习这些,等于让它站在了巨人的肩膀上,其后续的成长潜力和性能上限,自然要比完全“白手起家”的Zero模型更高。 Page 11: 第11页 现在,让我们将整个训练过程串联起来,形成一幅完整的蓝图。DeepSeek-R1的诞生,并非一蹴而就,而是遵循一个严谨的四步流程。第一步,是“冷启动微调”,用少量高质量范例为基础模型打下良好开端。第二步,是“推理导向的强化学习”,集中火力提升其在数理、编程等核心推理任务上的能力。第三步,是“拒绝采样与监督微调”,利用已经变聪明的模型自己出题、自己解答,制造出海量高质量的训练数据。最后一步,是“全场景强化学习”,进行全面的“精修”,使其不仅聪明,而且有用、无害。这是一个环环相扣、层层递进的系统工程。 Page 12: 第12页 在完成了“学前教育”后,模型进入了第一阶段的“专业集训”。这个阶段的目标非常明确:主攻硬核的推理能力,包括数学、编程、科学和逻辑。同时,为了解决之前提到的“语言混杂”问题,研究者增加了一条新规则:用目标语言(如中文或英文)作答会得到额外加分。这就好比在考试中,不仅要求答案正确,还要求卷面整洁、语言规范。最终,模型的总分由“答题准确分”和“语言规范分”两部分构成,引导它向着既聪明又表达清晰的目标前进。 Page 13: 第13页 当模型在第一阶段的集训中成为“推理高手”后,研究者们想出了一个绝妙的办法来进一步提升它——让这位“高手”亲自出题和编写“教材”。这个过程叫做“拒绝采样”。具体来说,就是让模型针对一个问题,想出很多种解法,然后我们只把那些最终算对了的解法保留下来,作为新的、高质量的“标准答案”。通过这种方式,模型为自己创造了约60万个高质量的训练样本。这就像一个顶尖棋手通过不断复盘自己的对局,总结出最优的棋谱,供自己下一阶段学习使用。 Page 14: 第14页 经历了前两个阶段的“智力”和“知识”训练后,模型进入了最后的“品德与社交”教育阶段。这一阶段的目标是让模型不仅聪明,还要“有用”和“无害”,即更好地服务人类。为此,训练方法也变得更加复杂。对于逻辑推理题,评分标准依然是“正确与否”。但对于日常对话、写作等一般性任务,评分标准则变成了一个由人类偏好训练出来的“品味裁判”(奖励模型)。它能判断模型的回答是否礼貌、有帮助、富有同理心。通过这种混合训练,最终塑造出一个智商与情商兼备的、全面发展的AI模型。 Page 15: 第15页 DeepSeek-R1虽然强大,但其巨大的体量也限制了它的应用场景。为了让这份来之不易的“智慧”能够普及,研究团队使用了一种名为“知识蒸馏”的技术。这好比一位学识渊博的宗师(DeepSeek-R1),他将自己毕生的武学感悟和秘籍(80万个高质量样本)毫无保留地传授给天资聪颖的年轻弟子(如Qwen, Llama等小模型)。尽管弟子们的“内力”远不及宗师,但通过学习这些顶级的“招式”,他们的实战能力也得到了质的飞跃。通过这种方式,强大的推理能力得以“下放”,让更多轻量级的模型也能变得“聪明”。 Page 16: 第16页 经过这一系列复杂的淬炼,DeepSeek-R1的实力究竟如何?大量的公开基准测试给出了答案。如图表所示,无论是在数学、编程还是其他推理任务上,DeepSeek-R1的表现都达到了与业内最顶尖模型相媲美的水平。这雄辩地证明,其精巧的训练方法论最终转化为了实实在在的、可量化的卓越性能。这不仅是一次成功的科学探索,更是一个强大的工程杰作。

基于刚刚,DeepSeek-R1论文登上Nature封面,通讯作者梁文锋的课程