KeyChan's blog

我们先从一个轻松的生活片段切入：某天夜里，小明肚子咕咕叫，他想去找点吃的，但房间漆黑一片，他不敢开灯，只能凭借记忆和感知，一步一步摸索前进，一开始他撞到了桌角，又不小心踩到了猫，猫的尖叫声还吓了他一跳（负反馈），他又调整方向，继续摸索。他记住了这个方向有桌子不能走，那个方向可能有猫，不断的修正自己的路线，最终摸到了冰箱，找到了食物（正反馈）。这就是强化学习（Reinforcement Learning, RL）核心思想的具象呈现：

智能体在完全未知的环境中，靠“做出行为 → 接受反馈 → 调整策略”这一闭环，在不断试错中学习完成任务的最佳方式。

阅读全文 »

从像素到区域：MaskFormer 系列详解

发表于 2025-07-08 分类于深度学习本文字数： 4.4k 阅读时长 ≈ 16 分钟

1.MaskFormer概述

1.背景

在图像分割任务中，传统方法如 U-Net、DeepLab 系列通常采用“逐像素点分类”的策略：模型需要判断图像中每一个像素所属的类别。这种方式在语义分割中表现出色，但在实例分割场景下却存在明显的局限性。例如，同一类别的多个实例往往难以区分，因此仅靠逐像素分类很难准确完成实例级的区域划分。

阅读全文 »

ViT — Transformer在视觉领域应用代码解析

发表于 2025-07-02 分类于深度学习本文字数： 4.2k 阅读时长 ≈ 15 分钟

1.ViT概述

在上一篇文章中主要讲了 Transformer 的基本原理，尤其是在自然语言处理（NLP）任务中的应用，包括编码器和解码器的主要功能和注意力机制的具体实现。但这些内容大多基于 NLP 领域的示例，本篇我们看看在计算机视觉（CV）领域，Transformer 在图像任务中的使用方式。

1.在视觉领域的发展背景

阅读全文 »

Transformer:多头注意力驱动的编码器-解码器架构

发表于 2025-06-25 更新于 2025-07-10 分类于深度学习本文字数： 7.6k 阅读时长 ≈ 28 分钟

1.循环神经网络

前文有实现过一个基于循环神经网络的文本分类实践任务，循环神经网络（Recurrent Neural Network, RNN）也叫递归神经网络，是专门处理序列数据的神经网络架构，其核心思想是通过循环连接使网络具备“记忆”能力，从而构建序列中时序之间的依赖关系。而处理具有时序或顺序关系的数据（如语言、语音、基因序列等）的核心挑战是理解序列中的上下文依赖关系，这就涉及到序列建模问题。

阅读全文 »

DeepLabv3+语义分割代码解析

发表于 2025-06-18 更新于 2025-06-19 分类于深度学习本文字数： 5.7k 阅读时长 ≈ 21 分钟

1.Pascal VOC 2012

Pascal VOC (Visual Object Classes) 2012 数据集是计算机视觉领域具有里程碑意义的公开基准数据集，以其全面性、高质量标注和在众多任务上的广泛应用而著称，被广泛用于模型训练、评估与比较研究，尤其作为图像分类、目标检测和语义分割等核心任务的经典基准。

1. 核心特性：多任务基准

Pascal VOC 2012 的核心价值在于其多任务性。它并非针对单一任务设计，而是为多种计算机视觉任务提供了丰富且一致的标注：

阅读全文 »