A3C 算法原理与超级马里奥实践(上)
DQN(Deep Q-Network)系列算法解析与实践
PPO算法在连续与离散动作空间中的案例实践
强化学习 — PPO策略优化算法
强化学习 — 试错、策略与长期奖励
从像素到区域:MaskFormer 系列详解
ViT — Transformer在视觉领域应用代码解析
1.ViT概述
在上一篇文章中主要讲了 Transformer 的基本原理,尤其是在自然语言处理(NLP)任务中的应用,包括编码器和解码器的主要功能和注意力机制的具体实现。但这些内容大多基于 NLP 领域的示例,本篇我们看看在计算机视觉(CV)领域,Transformer 在图像任务中的使用方式。
1.在视觉领域的发展背景
Transformer:多头注意力驱动的编码器-解码器架构
1.循环神经网络
前文有实现过一个基于循环神经网络的文本分类实践任务,循环神经网络(Recurrent Neural Network, RNN)也叫递归神经网络,是专门处理序列数据的神经网络架构,其核心思想是通过循环连接使网络具备“记忆”能力,从而构建序列中时序之间的依赖关系。而处理具有时序或顺序关系的数据(如语言、语音、基因序列等)的核心挑战是理解序列中的上下文依赖关系,这就涉及到序列建模问题。
DeepLabv3+语义分割代码解析
1.Pascal VOC 2012
Pascal VOC (Visual Object Classes) 2012 数据集是计算机视觉领域具有里程碑意义的公开基准数据集,以其全面性、高质量标注和在众多任务上的广泛应用而著称,被广泛用于模型训练、评估与比较研究,尤其作为图像分类、目标检测和语义分割等核心任务的经典基准。
1. 核心特性:多任务基准
Pascal VOC 2012 的核心价值在于其多任务性。它并非针对单一任务设计,而是为多种计算机视觉任务提供了丰富且一致的标注: