1. 项目背景与目标

1.1 为什么选择 A3C 来玩超级马里奥?

超级马里奥是一个经典的横版过关游戏,玩法是简单,但是环境比较复杂:玩家要面对敌人、陷阱、跳跃平台,还要在有限时间内快速决策。
所以在强化学习中,它被认为是一个很好的 实验case

  • 状态空间是高维的(游戏画面本身就是像素矩阵)
  • 行动结果对未来奖励有长远影响(跳跃错过管道可能直接失败)
  • 游戏场景变化多端,能充分考察智能体的泛化能力
阅读全文 »

1. AC 算法

1.1 策略梯度

在强化学习中,如果我们想让智能体学会这样一个 策略(在不同状态下选什么动作):

  • 一个动作能带来高奖励,就要让它以后更可能被选上
  • 一个动作只能带来低回报,就要减少使用它的频率

而策略梯度就是一个这样的工具,“根据奖励信号,调整策略参数,让好动作更可能被选中,坏动作少被选上。”

阅读全文 »

1. 任务与背景介绍

在 Gym/Gymnasium 的 MountainCar-v0 环境中,有这样一个场景:一辆小车被困在两个山坡之间,目标是到达右侧山坡顶端的红旗位置。

乍一看,这似乎只需要踩油门往右冲就行,但现实并非如此,小车的发动机动力不足,单次加速无法直接登顶,它会在半途滑落回谷底。正确的策略是先向左加速爬上左坡,然后顺势向右冲下去,再反复摆动、积累动能,最终才能冲上右侧山顶。

阅读全文 »

1.PPO算法与动作空间类型概览

1.PPO(Proximal Policy Optimization)简介

PPO(近端策略优化)是OpenAI于2017年提出的强化学习算法,通过创新的”剪切目标函数”设计,在保证训练稳定性的同时实现高效策略优化。其核心思想是通过约束策略更新幅度,防止策略突变导致的性能崩溃,解决了传统策略梯度方法(如TRPO)的工程实现复杂性问题

阅读全文 »

1.PPO 算法概述

1.PPO 的提出背景

我们还是以智能体如何控制飞船落地的小游戏为例,智能体的目标是通过一系列操作(如向左移动或向右移动)实现平稳着陆。在训练初期,智能体并不知道应该如何操作,它需要通过反复的试探操作,从环境中不断获得反馈并调整策略,最终掌握一套“高奖励”操作方式。

阅读全文 »

1.强化学习:从试错中学习策略

我们先从一个轻松的生活片段切入:某天夜里,小明肚子咕咕叫,他想去找点吃的,但房间漆黑一片,他不敢开灯,只能凭借记忆和感知,一步一步摸索前进,一开始他撞到了桌角,又不小心踩到了猫,猫的尖叫声还吓了他一跳(负反馈),他又调整方向,继续摸索。他记住了这个方向有桌子不能走,那个方向可能有猫,不断的修正自己的路线,最终摸到了冰箱,找到了食物(正反馈)。这就是强化学习(Reinforcement Learning, RL)核心思想的具象呈现:

智能体在完全未知的环境中,靠“做出行为 → 接受反馈 → 调整策略”这一闭环,在不断试错中学习完成任务的最佳方式。

阅读全文 »

1.MaskFormer概述

1.背景

在图像分割任务中,传统方法如 U-Net、DeepLab 系列通常采用“逐像素点分类”的策略:模型需要判断图像中每一个像素所属的类别。这种方式在语义分割中表现出色,但在实例分割场景下却存在明显的局限性。例如,同一类别的多个实例往往难以区分,因此仅靠逐像素分类很难准确完成实例级的区域划分。

阅读全文 »

1.ViT概述

在上一篇文章中主要讲了 Transformer 的基本原理,尤其是在自然语言处理(NLP)任务中的应用,包括编码器和解码器的主要功能和注意力机制的具体实现。但这些内容大多基于 NLP 领域的示例,本篇我们看看在计算机视觉(CV)领域,Transformer 在图像任务中的使用方式。

1.在视觉领域的发展背景

阅读全文 »

1.循环神经网络

前文有实现过一个基于循环神经网络的文本分类实践任务,循环神经网络(Recurrent Neural Network, RNN)也叫递归神经网络,是专门处理序列数据的神经网络架构,其核心思想是通过循环连接使网络具备“记忆”能力,从而构建序列中时序之间的依赖关系。而处理具有时序或顺序关系的数据(如语言、语音、基因序列等)的核心挑战是理解序列中的上下文依赖关系,这就涉及到序列建模问题。

阅读全文 »

1.Pascal VOC 2012

Pascal VOC (Visual Object Classes) 2012 数据集是计算机视觉领域具有里程碑意义的公开基准数据集,以其全面性、高质量标注和在众多任务上的广泛应用而著称,被广泛用于模型训练、评估与比较研究,尤其作为图像分类、目标检测和语义分割等核心任务的经典基准。

1. 核心特性:多任务基准

Pascal VOC 2012 的核心价值在于其多任务性。它并非针对单一任务设计,而是为多种计算机视觉任务提供了丰富且一致的标注:

阅读全文 »
0%