强化学习

一句话总结: 强化学习通过奖励正确动作、惩罚错误动作来训练 AI 智能体。智能体通过试错学习,而不是依赖带标签的样本。

强化学习(RL)是一种机器学习范式。智能体与环境交互,并在每一步采取动作;每次动作后都会收到一个奖励信号。随着时间推移,智能体会学到一个策略(policy)——用于最大化累计奖励的行动方案。强化学习不同于需要带标签数据的监督学习;智能体完全从自身经验中学习。

核心概念

  1. 智能体(Agent):在环境中采取动作的学习者。
  2. 环境(Environment):智能体所处的世界,会对智能体动作作出响应。
  3. 状态(State):智能体观察到的当前情境。
  4. 动作(Action):智能体在每个时间步的选择。
  5. 奖励(Reward):一个标量信号,用于表示某个动作有多“好”。
  6. 策略(Policy):从状态到动作的映射,目标是学到最优策略。
  7. 价值函数(Value Function):对从某个状态出发未来奖励的估计。

强化学习如何工作

在每个时间步,智能体观察当前状态,并基于当前策略选择动作。环境转移到新状态并返回奖励。智能体更新策略,使其更偏好那些带来更高奖励的动作。该循环会重复数千或数百万步。关键挑战在于“探索-利用”权衡:智能体必须尝试新动作以发现更优策略,同时也要利用已知的好动作来累积奖励。

关键算法

  1. Q-Learning:在不需要环境模型的情况下学习动作价值函数。
  2. 深度 Q 网络(DQN):将 Q-learning 与深度神经网络结合。DeepMind 曾用它攻克 Atari 游戏。
  3. 近端策略优化(PPO):稳定且使用广泛的策略梯度方法。用于训练 OpenAI 的机器人与语言系统。
  4. Actor-Critic 方法:结合策略网络(actor)与价值估计器(critic)。
  5. 基于模型的 RL:智能体构建环境的内部模型,用于提前规划。

应用

  1. 机器人:机器人通过 RL 学习行走、抓取与操作物体。
  2. 自动驾驶:RL 帮助智能体在仿真中学习驾驶策略。
  3. 游戏:AlphaGo 与 AlphaZero 使用 RL 击败世界冠军。
  4. LLM 微调:基于人类反馈的强化学习(RLHF)使大语言模型与人类偏好对齐。
  5. 数据采集策略:RL 可优化网页智能体在站点中的导航方式,以更高效地收集结构化数据。

强化学习与训练数据

RL 智能体通常会在部署前先在仿真环境中训练。高质量仿真依赖准确的世界模型;真实世界数据则用于校准这些仿真。Bright Data 的 数据集可帮助团队构建更“贴近真实”的训练环境。多样化的真实世界训练数据可以缩小 sim-to-real 差距。

准备好开始了吗?