西西人大:人文艺术的数字殿堂,点燃你的灵感火花

核心内容摘要

辶喿扌畐:在时代的裂缝中,寻找被遗忘的野性与体面
窥见欲望的裂缝:当“隐秘嗜好”撞上大众审美的道德博弈

2024年,四虎海外网名:全球视野下的文化解码与新机遇

强化学习RL概述和机器学习相通的 “三步学习法”强化学习Reinforcement Learning, RL的核心是 “智能体在环境中试错学习”—— 通过与环境的持续互动不断优化行为策略最终找到能获得最大回报的行动方式。

它和传统机器学习监督 / 无监督看似不同但本质遵循完全一致的 “三步学习法”定义模型策略→ 计算损失回报→ 优化更新迭代这一核心逻辑让 RL 的学习门槛大幅降低。

本文将从 “核心组件→三步学习法→实操落地” 层层拆解用通俗类比和基础代码帮你快速理解 RL 的本质掌握入门关键。

RL 的核心组件理解 “智能体与环境的互动游戏”在 RL 中所有学习过程都围绕 “智能体Agent与环境Environment的互动” 展开核心组件可通过 “游戏玩家闯关” 的类比轻松理解组件通俗类比核心作用智能体Agent游戏玩家做出决策选动作、接收反馈、更新策略环境Environment游戏世界如迷宫、关卡接收智能体的动作返回新状态和回报状态State, S玩家当前位置 / 处境如迷宫坐标描述环境的当前情况是智能体决策的依据动作Action, A玩家的操作如上下左右智能体可执行的行为会改变环境状态回报Reward, R游戏得分如吃到金币 10掉坑 - 50环境对动作的 “打分”是学习的核心反馈信号策略Policy, π玩家的闯关策略如优先走右状态到动作的映射即 “在什么状态下选什么动作”价值函数Value Function, V玩家对当前位置的 “价值判断”如这里容易得分评估状态的长期价值未来能获得的总回报核心互动流程智能体在状态 S 下根据策略 π 选择动作 A → 环境接收 A 后返回新状态 S 和即时回报 R → 智能体根据 R 和 S 更新策略 π → 重复这一循环直到学习到最优策略。

RL 的 “三步学习法”和机器学习的底层逻辑相通无论是监督学习如分类、无监督学习如聚类还是 RL核心都遵循 “定义模型→计算损失→优化更新” 的三步法。

RL 的独特之处仅在于 “模型是策略、损失是回报偏差、优化是策略迭代”具体对应如下第一步定义模型 —— 策略Policy智能体 “怎么选动作”对应传统机器学习的 “模型结构定义”如 CNN、线性回归RL 中 “模型” 就是策略 π—— 它规定了智能体在每个状态下如何选择动作。

两种常见策略类型确定性策略状态 S→固定动作 A如 “迷宫中看到左边是墙就走右”随机性策略状态 S→动作概率分布如 “迷宫中看到岔路60% 走右、40% 走左”更适合探索未知环境。

通俗例子迷宫寻宝游戏中策略就是 “智能体在每个路口状态选择走哪条路动作的规则”。

代码表示简单确定性策略python运行# 状态迷宫坐标 (x, y)动作0上、1下、2左、3右 def simple_policy(state): x, y state # 策略优先向宝藏方向假设宝藏在(5,

移动 if x 5: return 1 # 向下 elif y 5: return 3 # 向右 else: return 0 # 到达后停止第二步计算损失 —— 回报Reward判断 “动作好不好”对应传统机器学习的 “计算损失函数”如交叉熵、MSERL 中 “损失” 通过回报体现 —— 回报是环境对动作的反馈核心是 “量化动作的好坏”。

核心逻辑即时回报Immediate Reward动作执行后立刻获得的反馈如吃到金币 10掉坑 - 50累积回报Cumulative Reward当前动作带来的 “即时回报 未来所有回报的总和”是策略优化的核心依据比如 “眼前少吃 1 个金币但能通往更多金币区域总回报更高”。

累积回报计算公式折扣回报Gt​Rt​γRt1​γ2Rt2​...γ折扣因子0≤γ≤1控制未来回报的权重γ0 只看即时回报γ1 重视未来回报意义让智能体 “有远见”不局限于眼前利益。

通俗例子迷宫中“走岔路 A” 即时回报 1捡到小金币但前方是死路“走岔路 B” 即时回报 0但前方有 100 金币。

通过累积回报计算智能体会选择岔路 B。

第三步优化更新 —— 策略迭代让智能体 “下次做得更好”对应传统机器学习的 “反向传播优化参数”RL 的 “优化” 就是更新策略—— 根据累积回报的反馈调整智能体在不同状态下的动作选择让 “好动作被更多选择坏动作被避免”。

核心逻辑若某个动作 A 在状态 S 下带来的累积回报 G 很高 → 提升策略中 “S→A” 的选择概率若累积回报 G 很低 → 降低 “S→A” 的选择概率重复迭代直到策略稳定智能体在大多数状态下都能选到最优动作。

通俗例子迷宫中智能体第一次走岔路 A 掉坑回报 - 50→ 下次再到该路口时大幅降低走 A 的概率走岔路 B 拿到 100 金币回报 100→ 下次优先选 B。

RL 与传统机器学习的核心区别学习信号的来源不同尽管都遵循 “三步法”但 RL 与监督 / 无监督学习的核心差异在于 “学习信号的来源”这也决定了它们的适用场景学习类型学习信号反馈核心特点适用场景监督学习人工标注的 “正确答案”知道 “什么是对的”直接学习映射关系图像分类、文本翻译无监督学习数据本身的结构如聚类不知道 “正确答案”挖掘数据内在规律异常检测、用户分群强化学习环境反馈的 “回报信号”不知道 “正确答案”通过试错知道 “好不好”游戏闯关、机器人控制、自动驾驶关键结论RL 的核心优势是 “无需人工标注”仅通过环境回报就能自主学习特别适合 “无法提前给出正确答案但能判断动作好坏” 的场景。

实操落地用 Q-Learning 实现 “CartPole 平衡”我们用 OpenAI Gym 的 CartPole 环境小车平衡杆实现基础的 Q-Learning 算法直观感受 RL 的 “三步学习法” 落地过程。

环境说明CartPole 任务目标控制小车左右移动让杆保持平衡不倒下状态 S4 维向量小车位置、小车速度、杆的角度、杆的角速度动作 A2 种0 向左移1 向右移回报 R每保持平衡 1 步 1 分杆倒下则游戏结束。

完整代码PythonOpenAI Gympython运行# 安装依赖 # pip install gym numpy import gym import numpy as np # ---------------------- 第一步定义策略Q表状态→动作价值映射 ---------------------- # Q表rows状态离散化后的数量cols动作数量2存储每个(S,A)的价值 env gym.make(CartPole-v

state_space 10 # 状态离散化将4维连续状态转为10×10×10×1010^4个离散状态 action_space env.action_space.n # 动作数量2 # 初始化Q表随机值 def init_q_table(): return np.random.uniform(low-1, high1, size(state_space, state_space, state_space, state_space, action_space)) q_table init_q_table() # 状态离散化将连续状态转为离散索引方便Q表存储 def discretize_state(state): state_min env.observation_space.low state_max env.observation_space.high # 每个维度分10档计算当前状态的档位索引 discrete_state (state - state_min) / (state_max - state_min) * (state_space -

return tuple(discrete_state.astype(int)) # ---------------------- 第二步计算回报基于Q表的价值评估 ---------------------- # 探索与利用初期多探索随机选动作后期多利用选Q值最大的动作 epsilon

0 # 探索率

0全探索 epsilon_decay

995 # 探索率衰减 gamma

95 # 折扣因子重视未来回报 def choose_action(state): discrete_s discretize_state(state) # 探索随机选动作 if np.random.uniform(0,

epsilon: return env.action_space.sample() # 利用选Q值最大的动作 else: return np.argmax(q_table[discrete_s]) # ---------------------- 第三步更新策略Q表迭代更新 ---------------------- learning_rate

1 # 学习率更新幅度 def update_q_table(state, action, reward, next_state, done): discrete_s discretize_state(state) discrete_next_s discretize_state(next_state) # Q表更新公式基于当前回报和未来最大价值 current_q q_table[discrete_s][action] # 若游戏结束未来价值为0否则取next_state的最大Q值 next_q 0 if done else np.max(q_table[discrete_next_s]) new_q current_q learning_rate * (reward gamma * next_q - current_q) # 更新Q表策略优化 q_table[discrete_s][action] new_q # ---------------------- 启动训练迭代1000轮游戏 ---------------------- episodes 1000 scores [] # 记录每轮得分保持平衡的步数 for episode in range(episodes): state env.reset() # 重置环境获取初始状态 done False score 0 while not done: #

选动作策略 action choose_action(state) #

执行动作获取环境反馈新状态、回报、是否结束 next_state, reward, done, _ env.step(action) score reward #

更新Q表策略优化 update_q_table(state, action, reward, next_state, done) # 更新状态 state next_state # 探索率衰减后期多利用 epsilon max(

01, epsilon * epsilon_decay) scores.append(score) # 每100轮打印进度 if (episode

% 100 0: avg_score np.mean(scores[-100:]) print(f第{episode1}轮 | 平均得分{avg_score:.1f} | 探索率{epsilon:.3f}) # 测试训练效果可视化 env gym.make(CartPole-v1, render_modehuman) state env.reset() done False while not done: action np.argmax(q_table[discretize_state(state)]) # 全利用策略 state, _, done, _ env.step(action) env.render() env.close()

代码核心逻辑对应三步学习法第一步策略用 Q 表定义策略通过 “探索 - 利用” 机制选择动作第二步回报环境返回的即时回报每步 1 未来最大 Q 值长期回报第三步更新用 Q 表更新公式迭代优化让 “好动作保持平衡的 Q 值越来越高”。

预期效果训练初期平均得分≤50杆很快倒下训练后期平均得分≥150杆能长时间保持平衡测试阶段智能体能稳定控制小车杆不倒下。

RL 的核心特点与适用场景

核心特点自主学习无需人工标注仅靠环境回报就能迭代优化序贯决策关注 “长期回报最大化”而非单步最优如迷宫中放弃眼前小金币追求终点大宝藏探索与利用权衡初期探索未知动作后期利用已知最优动作平衡学习效率和效果。

典型适用场景游戏 AI如 AlphaGo 下围棋、游戏机器人闯关机器人控制如机械臂抓取、自动驾驶车辆避障决策优化如推荐系统动态调整推荐策略、金融交易策略优化复杂任务规划如无人机路径规划、物流调度优化。

六、

总结RL 学习的核心要点与入门建议核心逻辑RL 与传统机器学习共享 “三步学习法”——策略模型→ 回报损失→ 更新优化抓住这一点就能快速入门关键认知RL 的核心是 “回报信号的设计” 和 “探索 - 利用的平衡”这两点直接决定学习效果学习顺序入门先掌握核心组件和 Q-Learning基础算法用 CartPole 环境跑通代码进阶学习价值函数、策略梯度PG、DQN 等算法逐步过渡到复杂环境实操优先使用 OpenAI Gym 环境避免重复开发聚焦算法逻辑。

RL 的本质是 “让智能体在互动中自主成长”而 “三步学习法” 是贯穿始终的核心线索。

掌握这一逻辑后后续复杂算法的学习都会变得有章可循。

一男一女免费高清电视剧在线观看-一男一女免费高清电视剧在线观看应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123