AlexNet到ResNet的快速发展
发布时间:2025-06-24 20:36:04 作者:北方职教升学中心 阅读量:986
1.2.1 SegNet
- 提出者:剑桥大学。
- 低分辨率图像:输入高复杂度模型。
- 减少池化层使用,降低细节损失。
6. 总结
语义分割是计算机视觉中的核心问题,深度学习技术的引入极大推动了这一领域的发展。
2. 实时语义分割方法
自动驾驶等嵌入式平台需要平衡语义分割的精度与速度。AlexNet到ResNet的快速发展。检测建议等),并通过随机场或局部分类器优化。
- 改进:
- 图森未来提出了混合扩张卷积,以锯齿波形式分配扩张率。
1.4 多尺度与多层级特征的融合
1.4.1 ASPP(空洞空间金字塔池化)
- 提出者:谷歌(DeepLab系列)。
5.2 高畸变图像的挑战
针对鱼眼图像等具有高度畸变的场景,目前的研究尚未完全解决其带来的几何扭曲问题。
SENet被广泛应用于多个任务中,特别是在图像分类和语义分割中,通过动态调整通道权重来增强模型的特征表达能力。通过特征压缩与重建,模型实现了语义信息的提取与恢复。
3.3 高度畸变图像的挑战
语义分割在高度畸变的图像(如鱼眼图像)中的应用仍面临以下挑战:
- 几何扭曲问题:鱼眼镜头拍摄的图像因光学特性会产生严重的几何畸变,导致标准的卷积操作难以有效提取特征。
空洞卷积
通过调整卷积核的扩张率,可以扩大感受野而不增加参数量。
HRNet(High-Resolution Network)
HRNet专注于保持高分辨率的特征图,并通过逐步融合高分辨率和低分辨率的特征图来提高多尺度信息的表达。
- 高分辨率图像:输入低复杂度模型。
- 平衡特征分辨率与计算复杂度,确保实时分割的同时维持精度。
- ASPP(空洞空间金字塔池化):通过不同扩张率的空洞卷积,增强模型对多尺度特征的捕捉能力。这些网络的出现,为语义分割任务注入了强大的性能支持。
4.5 新兴网络架构(2018年及以后)
SENet(Squeeze-and-Excitation Networks)
SENet提出了一种新型的 自适应特征重标定机制,通过 Squeeze-and-Excitation (SE)模块来增强网络的表达能力。
优化方式:
- 索引上采样(SegNet):利用最大池化层索引高效上采样,减少计算复杂度。
代表方法
- ERFNet:采用卷积分解和低秩近似来减少计算量,从而在精度和效率之间达成平衡。
- 提出者:香港中文大学与商汤科技(PSPNet)。
- 硬件优化策略:通过深度可分离卷积等方式,减少了参数量,降低了计算需求。
1.3.1 空洞卷积(Atrous Convolution)
- 提出者:Chen等和Yu等。
未来方向:
- 针对实时性与精度间的平衡需求,进一步优化网络架构。道路预测中的表现。
5. 应用与未来发展
5.1 常规图像语义分割
语义分割在常规小孔成像的图像中已发展较为成熟:
- 高精度应用:如自动驾驶和高清场景分析。
- 特征融合:集成高低分辨率特征。
- 扩展鱼眼图像语义分割在工业、其关键创新是:
- Squeeze:通过全局平均池化(GAP)将每个通道的信息压缩为一个全局特征。这种方法效率较低,难以扩展。
- 提出者:Chen等和Yu等。
1.4.2 金字塔池化模块(Pyramid Pooling Module, PPM)
3.4 未来方向
为应对这些挑战,未来研究应从以下方面展开:
- 几何适配能力提升:
- 引入对畸变具有鲁棒性的卷积操作,例如可变形卷积或基于极坐标的卷积。
- 实时性需求:如嵌入式系统和智能设备。移动设备)应用中的关键需求。
DeepLabV3+
DeepLabV3+是基于DeepLabV3的进一步改进版本,在语义分割任务中取得了显著的性能提升。
- 优势:提高计算效率。
- 开发结合物理模型的混合架构,在几何与语义信息间建立更强的联系。
MobilenetV3
MobilenetV3通过使用 深度可分离卷积和 硬件友好的设计实现了高效的计算。
- 创新点:加州大学伯克利分校的Long等人提出了FCN,实现了任意大小图像的输入与端到端训练。
- 推动语义分割技术在新兴领域的应用与扩展。
- U型结构(UNet):采用对称架构,增强高分辨率与低分辨率特征之间的信息流动,提高上下文信息传递能力。
4.2 感受野与特征分辨率
语义分割需要较大的感受野来获取全局上下文信息,但传统的降采样方法往往会丢失细节信息。
- 设计:结合全局池化和局部池化,集成全局与局部上下文信息。
- 数据稀缺:鱼眼图像数据集相对较少,限制了模型的泛化能力。
- 特征金字塔网络(FPN):逐层融合不同分辨率的特征图,从而增强对多尺度目标的感知能力。其主要贡献包括:
- ASPP改进:通过引入多尺度空洞卷积(Atrous Spatial Pyramid Pooling),提升模型对不同尺度信息的感知能力。
1.4.3 Hypercolumn
- 提出者:加州大学伯克利分校。
- 问题:可能会产生“网格效应”。
3.2 实时性方法
实时性方法的目标是在有限计算资源下,实现接近高精度方法的分割效果,适配嵌入式平台及资源受限场景。医疗、
- 设计针对性的数据增强方法。它结合了优化算法(如NAS、
- BiSeNet:设计空间分支和上下文分支,兼顾高分辨率特征保留与感受野扩展,适配实时性要求。在深度学习的推动下,语义分割逐渐摆脱传统方法的限制,实现了高效、
- 思想:
- 在标准卷积的采样网格中引入空洞,扩大感受野。
语义分割任务的目标是对每个像素进行分类,并预测其语义类别。
- 提出者:弗赖堡大学。
- PPM(金字塔池化模块):结合全局池化和局部池化,集成了不同尺度的全局和局部信息。
- PSPNet:通过金字塔池化模块有效融合全局与局部信息,特别适合复杂场景的语义分割任务。
1.2.2 UNet
- 在标准卷积的采样网格中引入空洞,扩大感受野。
- 提出者:旷视科技。
2.3 BiSeNet
3. 挑战与未来方向
目前,基于普通图像(无明显畸变)的语义分割研究相对成熟。
3.1 高精度方法
- DeepLab 系列:采用空洞卷积和ASPP模块,显著提升了分割精度,在语义分割基准数据集(如Cityscapes)上表现优异。
- 自监督学习:通过自监督学习来挖掘图像中的隐藏特征,减少对标注数据的依赖,这将为大规模数据集的训练提供新方案。
- 特征融合模块(Fusion Module)整合两者特性。
- 背景:生物医学图像中的训练数据较少。准确的端到端训练。
- 特点:分解卷积提升实时性,同时保留较高的分割精度。
4. 深度学习语义分割关键技术总结
4.1 编码器-解码器架构
语义分割中的编码器-解码器架构(Encoder-Decoder)是基础的网络设计框架。空洞卷积的优点是:
- 优点:扩展感受野,减少细节特征丢失。自动化机器学习)和硬件特性,能够在低延迟和高精度之间找到平衡,非常适合嵌入式设备。
- ERFNet:利用分解卷积提升计算效率,同时保持良好的分割精度。
- 设计特定的数据增强策略以模拟畸变效果,增强模型泛化能力。
- 实时性与鲁棒性权衡:
- 集成更加高效的推理模块,降低嵌入式平台上的部署成本。
1. 图像语义分割的发展
1.1 全卷积神经网络(FCN)
- 背景:在全卷积神经网络(FCN)出现之前,语义分割依赖复杂的预处理(如超像素、
- 改进方法:
- 混合扩张卷积:通过非线性调节扩张率,避免重复采样的问题。
- 集成更加高效的推理模块,降低嵌入式平台上的部署成本。