Google 研究团队开源在 Tensorflow 中进行语义图像分割（Semantic Image Segmentation）模型 DeepLab-v3+，包括 Google Pixel 2 和 Pixel 2XL 手机上的人像模式（Portrait Mode），以及 YouTube 为影片实时更换背景功能，都是这项技术的应用。

Google 研究软件工程师 Liang-Chieh Chen 以及 Yukun Zhu 表示，语义图像分割的主要目的是为每个像素指定语义标签，例如路、天空、人或是狗等物体，不少的程序需要这样的功能，像是合成浅景深效果（Synthetic Shallow Depth-of-field）效果，应用在手机 Pixel 2 和 Pixel 2XL 上提供的人像模式（Portrait Mode），能自动模糊人物的背景，作出类似单镜头反光相机的景深效果。

另外，在多数摄影 App 都会提供的实时影像分割（Video Segmentation），例如最近 YouTube 发表的新功能，为影片换背景的功能，也是语义影像分割的应用。

DeepLab-v3+ 在 Tensorflow 上进行，使用部署于服务器端的卷积神经网络（CNN）骨干架构，以获取最佳的结果。除了代码之外，研究团队也同时公开了 Tensorflow 模型训练以及评估程序，以及使用 Pascal VOC 2012 与 Cityscapes 资料集训练的模型。

DeepLab-v3+ 技术是基于三年前的 DeepLab 模型，期间改进了卷积神经网络特征萃取器、物体比例塑造模型以及同化前后内容的技术，再加上进步的模型训练过程，还有软硬件的升级，从 DeepLab-v2 到 DeepLab-v3，直到现在发表的 DeepLab-v3+，效果一代比一代好。

DeepLab-v3+ 是由 DeepLab-v3 扩充而来，研究团队增加了解码器模组，能够细化分割结果，能够更精准的处理物体的边缘，并进一步将深度卷积神经网络应用在空间金字塔池化（Spatial Pyramid Pooling，SPP）和解码器上，大幅提升处理物体大小以及不同长宽比例的能力，最后得到强而有力的语义分割编码解码器网络。

Liang-Chieh Chen 以及 Yukun Zhu 特别提到，随着软硬件的升级，建构在卷积神经网路上的现代语义图像分割功能，可以达到的水准已经远远超过5年前。

来自：research.googleblog

新闻来源：谷歌最新语义图像分割模型 DeepLab-v3+ 现已开源