KeyChan's blog

图像分割DeepLab系列算法思路分析

发表于 2025-06-10 更新于 2025-06-17 分类于深度学习本文字数： 6k 阅读时长 ≈ 22 分钟

1.DeepLab概述

DeepLab是由谷歌提出的专用于语义分割任务的系列模型，核心目标是为图像中的每个像素分配一个语义类别标签。它在图像分割领域有很不错效果，曾在PASCAL VOC-2012数据集上达到当时最高水平（mIOU 79.7%），并在Cityscapes、PASCAL-Context等数据集上广泛使用。DeepLab的优势在于能够在保持高精度的同时还能结合上下文信息，对物体边界进行精确定位。

1.U-Net 与 DeepLab

同样是做分割任务U-Net和DeepLab有啥区别呢？
U-Net更适合在生物医学图像分割（细胞、器官、病变区域等）、小目标分割、需要精确边界轮廓的应用，其优势边界分割极其精细、在小样本数据集（尤其是医学影像）上表现卓越、架构相对也简单清晰、易于实现和改进。

阅读全文 »

深度学习的概念们

发表于 2025-06-05 更新于 2025-06-30 分类于深度学习本文字数： 10k 阅读时长 ≈ 38 分钟

深度学习因为涉及大量的专业术语和复杂概念，系统性地整理这些内容非常有必要。这不仅有助于构建清晰的知识框架，还能避免理解偏差，让沟通更顺畅。同时，随着技术的快速发展，定期梳理这些概念也能帮助我们及时跟上领域前沿。

阅读全文 »

U²-Net显著性目标检测

发表于 2025-06-04 更新于 2025-06-05 分类于深度学习本文字数： 4.6k 阅读时长 ≈ 17 分钟

1.U²-Net介绍与应用

在图像分割与U-Net系列模型解析和基于U-Net++的细胞分割代码实现中提到了U-Net系列网络模型，而 U²-Net 虽然是一个U-Net的变体版本，原本用于显著性检测任务，但由于其优异的前景提取能力，逐渐被广泛用于抠图、图像编辑、人像分割等任务中。

1.U²-Net 概述

U²-Net 属于“显著性检测”任务中的网络结构，其核心目标是从图像中识别出前景区域，即显著目标（Salient Object Detection, SOD）。从任务定义来看，它本质上和语义分割非常接近，将图像划分为前景和背景，只是语义标签通常只有两类。

阅读全文 »

基于U-Net++的细胞分割代码实现

发表于 2025-05-27 更新于 2025-05-30 分类于深度学习本文字数： 6.8k 阅读时长 ≈ 25 分钟

下面我们以一个医学图像实例分割任务为例，来介绍在 PyTorch 框架下如何使用 U-Net++ 网络。U-Net++ 是在经典 U-Net 基础上进行改进的语义分割网络，它通过引入密集跳跃连接和深层监督机制，增强了特征融合能力与梯度传播效果，特别适用于医学图像中边界模糊、结构复杂的分割任务。

1.数据预处理

1.数据集介绍

这个数据集是一些细胞图像，我们的目标是做前景背景分离，对每一个细胞做实例分割。数据集有以下特点：

阅读全文 »

图像分割与U-Net系列模型解析

发表于 2025-05-19 更新于 2025-05-30 分类于深度学习本文字数： 4.6k 阅读时长 ≈ 17 分钟

1.图像分割

虽然图像分割（Image Segmentation）与目标检测（Object Detection）都属于计算机视觉中的视觉识别任务，但它们的目标、输出形式和应用场景各不相同：

目标检测（Object Detection）：找出图像中有哪些物体，并框出每个物体的位置，比如说检测行人、车辆，以边界框 + 类别标签为输出形式。
图像分割（Image Segmentation）：精确地标出图像中每个像素属于哪个类别，以每个像素的类别标签为输出形式。

阅读全文 »

基于Transformer的detr目标检测算法思路分析

发表于 2025-05-13 更新于 2025-05-30 分类于深度学习本文字数： 5.1k 阅读时长 ≈ 19 分钟

1. Transformer

我们可以尝试用一个例子来理解 Transformer 的各个概念。学生在课堂上进行小组讨论写作文：一个班级里有一群学生，每个学生负责贡献一句话来完成一篇作文。他们必须交流彼此的观点（信息），形成一篇通顺的文章。这就像 Transformer 处理一个序列（比如一句话）时的过程。

1. 输入嵌入（Input Embedding）

将原始的输入（如词、图像特征等）映射到一个高维向量空间中，便于 Transformer 网络进行后续处理。

就像每个学生都先写好一句话的草稿，用于后续讨论。每句话被转成一个有意义的表达——每个词转成向量。

阅读全文 »

[YOLO系列④] YOLOv5模型训练与流程解析

发表于 2025-05-07 更新于 2025-05-30 分类于深度学习本文字数： 7.4k 阅读时长 ≈ 27 分钟

1.基本使用

1.YOLOv5整体概述

YOLOv5本质上是一个经过大量优化的工程项目，不像前几代那样有对应的学术论文。它主要是在YOLOv4的基础上做了更实用的工程改进，让使用者能更轻松地应用到实际场景中。主要有以下特点：

工程优化为主
- 没有官方论文，核心改进在于代码实现，比如训练效率、代码可读性
- 相比YOLOv4，工程结构更简洁，配置更直观，适合直接拿来训练自己的数据
使用体验升级
- 作者把数据增强、模型结构（如CSP、SPP模块）等复杂逻辑封装得很好，使用者几乎不用改代码
- 支持混合精度训练，训练速度更快，对硬件要求更友好

阅读全文 »

[YOLO系列③] YOLOv3和YOLOv4优化策略

发表于 2025-04-29 更新于 2025-05-30 分类于深度学习本文字数： 8.4k 阅读时长 ≈ 31 分钟

1.YOLO-V3

1.网络架构改进

提升特征提取能力和训练稳定性

1.残差连接（Residual Connections）

残差连接 是指在神经网络中将输入 x 直接跳跃连接（shortcut）加到输出 F(x) 上的那一条路径。数学形式如下：
$$
y = F(x) + x
$$

其中：
- x：输入
- F(x)：一系列卷积层后的输出（即“主干路径”）
- x 是“旁路路径”或称“跳跃连接”
- 两者相加形成最终输出 y
  这条连接就是 “残差连接”，它是 结构中的一条数据路径。

阅读全文 »

[YOLO系列②] YOLOv2十大改进点解析

发表于 2025-04-21 更新于 2025-05-30 分类于深度学习本文字数： 4.9k 阅读时长 ≈ 18 分钟

1.YOLOv2改进概述

YOLOv2 的改进围绕 稳定性（BN、位置预测）、灵活性（全卷积、多尺度）、数据驱动（锚框聚类）展开，同时通过结构优化（Darknet-19、Passthrough）平衡速度与精度，为后续YOLO版本再改进奠定基础。

如上图是YOLOv2的新特性和mAP（mean Average Precision，平均精度均值）之间的相关性。

阅读全文 »

[YOLO系列①] 物体检测评估指标和YOLO-v1实现思路

发表于 2025-04-17 更新于 2025-05-30 分类于深度学习本文字数： 4.1k 阅读时长 ≈ 15 分钟

1.物体检测评估指标

1.TP / FP / FN / TN

这四个指标是分类任务的基础：
• TP（True Positive）：预测为正，且是真正的正样本（比如检测到了一个人，且确实是人）
• FP（False Positive）：预测为正，但实际上是负样本（检测到了人，但其实是背景或别的物体）
• FN（False Negative）：实际是正样本，但没检测出来（图里有人，模型没发现）
• TN（True Negative）：负样本预测为负（对物体检测来说，通常不关注 TN）

举个例子

阅读全文 »

1.DeepLab概述

1.U-Net 与 DeepLab

1.U²-Net介绍与应用

1.U²-Net 概述

1.数据预处理

1.数据集介绍

1.图像分割

1. Transformer

1. 输入嵌入（Input Embedding）

1.基本使用

1.YOLOv5整体概述

1.YOLO-V3

1.网络架构改进

1.残差连接（Residual Connections）​

1.YOLOv2改进概述

1.物体检测评估指标

1.TP / FP / FN / TN

1.残差连接（Residual Connections）