1.DeepLab概述

DeepLab是由谷歌提出的专用于语义分割任务的系列模型,核心目标是为图像中的每个像素分配一个语义类别标签​。它在图像分割领域有很不错效果,曾在PASCAL VOC-2012数据集上达到当时最高水平(mIOU 79.7%) ,并在Cityscapes、PASCAL-Context等数据集上广泛使用。DeepLab的优势在于能够在保持高精度的同时还能结合上下文信息,对物体边界进行精确定位。

1.U-Net 与 DeepLab

同样是做分割任务U-NetDeepLab有啥区别呢?
U-Net更适合在生物医学图像分割(细胞、器官、病变区域等)、小目标分割、需要精确边界轮廓的应用,其优势边界分割极其精细、在小样本数据集​(尤其是医学影像)上表现卓越、架构相对也简单清晰、易于实现和改进。

阅读全文 »

深度学习因为涉及大量的专业术语和复杂概念,系统性地整理这些内容非常有必要。这不仅有助于构建清晰的知识框架,还能避免理解偏差,让沟通更顺畅。同时,随着技术的快速发展,定期梳理这些概念也能帮助我们及时跟上领域前沿。
阅读全文 »

1.U²-Net介绍与应用

图像分割与U-Net系列模型解析基于U-Net++的细胞分割代码实现 中提到了U-Net系列网络模型,而 U²-Net 虽然是一个U-Net的变体版本,原本用于显著性检测任务,但由于其优异的前景提取能力,逐渐被广泛用于抠图、图像编辑、人像分割等任务中。

1.U²-Net 概述

U²-Net 属于“显著性检测”任务中的网络结构,其核心目标是从图像中识别出前景区域,即显著目标(Salient Object Detection, SOD)。从任务定义来看,它本质上和语义分割非常接近,将图像划分为前景和背景,只是语义标签通常只有两类。

阅读全文 »

下面我们以一个医学图像实例分割任务为例,来介绍在 PyTorch 框架下如何使用 U-Net++ 网络。U-Net++ 是在经典 U-Net 基础上进行改进的语义分割网络,它通过引入密集跳跃连接和深层监督机制,增强了特征融合能力与梯度传播效果,特别适用于医学图像中边界模糊、结构复杂的分割任务。

1.数据预处理

1.数据集介绍

这个数据集是一些细胞图像,我们的目标是做前景背景分离,对每一个细胞做实例分割。数据集有以下特点:

阅读全文 »

1.图像分割

虽然图像分割(Image Segmentation)与目标检测(Object Detection)都属于计算机视觉中的视觉识别任务,但它们的目标、输出形式和应用场景各不相同:

  • 目标检测(Object Detection):找出图像中有哪些物体,并框出每个物体的位置,比如说检测行人、车辆,以边界框 + 类别标签为输出形式。
  • 图像分割(Image Segmentation):精确地标出图像中每个像素属于哪个类别,以每个像素的类别标签为输出形式。
阅读全文 »

1. Transformer

我们可以尝试用一个例子来理解 Transformer 的各个概念。学生在课堂上进行小组讨论写作文:一个班级里有一群学生,每个学生负责贡献一句话来完成一篇作文。他们必须交流彼此的观点(信息),形成一篇通顺的文章。这就像 Transformer 处理一个序列(比如一句话)时的过程。

1. 输入嵌入(Input Embedding)

将原始的输入(如词、图像特征等)映射到一个高维向量空间中,便于 Transformer 网络进行后续处理。

就像每个学生都先写好一句话的草稿,用于后续讨论。每句话被转成一个有意义的表达——每个词转成向量。

阅读全文 »

1.基本使用

1.YOLOv5整体概述

YOLOv5本质上是一个经过大量优化的工程项目,不像前几代那样有对应的学术论文。它主要是在YOLOv4的基础上做了更实用的工程改进,让使用者能更轻松地应用到实际场景中。主要有以下特点:

  1. 工程优化为主
    • 没有官方论文,核心改进在于代码实现,比如训练效率、代码可读性
    • 相比YOLOv4,工程结构更简洁,配置更直观,适合直接拿来训练自己的数据
  2. 使用体验升级
    • 作者把数据增强、模型结构(如CSP、SPP模块)等复杂逻辑封装得很好,使用者几乎不用改代码
    • 支持混合精度训练,训练速度更快,对硬件要求更友好
阅读全文 »

1.YOLO-V3

1.网络架构改进

提升特征提取能力和训练稳定性​​

1.残差连接(Residual Connections)​

残差连接 是指在神经网络中将输入 x 直接跳跃连接(shortcut)加到输出 F(x) 上的那一条路径。数学形式如下:
$$
y = F(x) + x
$$

  • 其中:
    • x:输入
    • F(x):一系列卷积层后的输出(即“主干路径”)
    • x 是“旁路路径”或称“跳跃连接”
    • 两者相加形成最终输出 y
      这条连接就是 “残差连接”,它是 结构中的一条数据路径
阅读全文 »

1.YOLOv2改进概述

YOLOv2 的改进围绕 ​稳定性​(BN、位置预测)、灵活性​(全卷积、多尺度)、数据驱动​(锚框聚类)展开,同时通过结构优化(Darknet-19、Passthrough)平衡速度与精度,为后续YOLO版本再改进奠定基础。

如上图是YOLOv2的新特性和mAP(mean Average Precision,平均精度均值)之间的相关性。

阅读全文 »

1.物体检测评估指标

1.TP / FP / FN / TN

这四个指标是分类任务的基础:
TP(True Positive):预测为正,且是真正的正样本(比如检测到了一个人,且确实是人)
FP(False Positive):预测为正,但实际上是负样本(检测到了人,但其实是背景或别的物体)
FN(False Negative):实际是正样本,但没检测出来(图里有人,模型没发现)
TN(True Negative):负样本预测为负(对物体检测来说,通常不关注 TN)

举个例子

阅读全文 »
0%