(50-1) 14 * << * >> * Русский * English * Содержание * Все выпуски

Гибридная архитектура трансформера и свёрточной нейронной сети с многомасштабным механизмом деформируемого внимания в задаче семантической сегментации
Р.Р. Отырба¹, А.А. Сирота¹

¹Воронежский государственный университет, 394018, Воронеж, Россия, Университетская пл., д. 1

Полный текст (PDF)

DOI: 10.18287/COJ1686

ID статьи: 1686

Аннотация:
Предложена гибридная архитектура нейронной сети SegTwice для решения задачи семантической сегментации, которая сочетает в себе преимущества трансформеров и свёрточных нейронных сетей в рамках общей структуры кодер-декодер. Представлена оригинальная архитектура кодирующей сети TWICE-DA с иерархической структурой из четырех уровней. Вводятся и обосновываются новые архитектурные решения в блоках трансформера, имеющие отличие от известных аналогов. К ним относятся: модуль многомасштабного восприятия, модуль канального внимания, модуль деформируемого внимания и модуль свёрточной сети прямого распространения. Для задачи классификации изображений проведены эксперименты с целью оценки эффективности извлечения признаков TWICE-DA на разных по сложности наборах данных. Показано, что TWICE-DA демонстрирует высокое качество, превосходя большинство современных моделей по точности и вычислительной сложности. Осуществлена интеграция TWICE-DA в структуру сети семантической сегментации путём добавления легковесного MLP-декодера, что в итоге позволило реализовать заявленную архитектуру SegTwice. Эксперименты, проведённые на типовых аэрокосмических наборах данных LoveDA и Potsdam, показали, что предложенная сеть SegTwice демонстрирует конкурентоспособные показатели и не уступает в точности традиционным моделям и современным трансформерам, а в некоторых случаях превосходит их. Важно отметить, что SegTwice обучалась «с нуля», без предварительного обучения на больших наборах данных, что свидетельствует о её устойчивости к переобучению в условиях ограниченного объёма данных.

Ключевые слова:
компьютерное зрение, семантическая сегментация, глубокие нейронные сети, свёрточные нейронные сети, трансформеры, механизм внимания.

Благодарности:
Работа выполнена при поддержке Министерства науки и высшего образования в рамках выполнения работ по Государственному заданию № 075-00444-25-00 (от 26.12.2024).

Цитирование:
Отырба, Р.Р. Гибридная архитектура трансформера и свёрточной нейронной сети с многомасштабным механизмом деформируемого внимания в задаче семантической сегментации / Р.Р. Отырба, А.А. Сирота // Компьютерная оптика. - 2026. - Т. 50, № 1. - 1686. - DOI: 10.18287/COJ1686.

Citation:
Otyrba RR, Sirota AA. Hybrid architecture of transformer and convolutional neural network with a multi-scale deformable attention mechanism for semantic segmentation task. Computer Optics 2026; 50(1): 1686. DOI: 10.18287/COJ1686.

References:

Long J, Shelhamer E, Darrell T. Fully Convolutional Networks for Semantic Segmentation. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2015: 3431-3440. DOI: 10.1109/CVPR.2015.7298965.
Chen LC, Papandreou G, Kokkinos I, Murphy K, Yuille AL, Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs. arXiv Preprint. 2016. Source: <https://arxiv.org/pdf/1412.7062>.
Chen LC, Papandreou G, Kokkinos I, Murphy K, Yuille AL. DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence 2018; 40(4): 834-848. DOI: 10.1109/TPAMI.2017.2699184.
Chen LC, Papandreou G, Schroff F, Adam H. Rethinking Atrous Convolution for Semantic Image Segmentation. arXiv Preprint. 2017. Source: <https://arxiv.org/pdf/1706.05587>. DOI: 10.48550/arXiv.1706.05587.
Chen LC, Zhu Y, Papandreou G, Schroff F, Adam H. Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation. arXiv Preprint. 2018. Source: <https://arxiv.org/pdf/1802.02611>. DOI: 10.48550/arXiv.1802.02611.
Lin TY, Dollár P, Girshick R, He K, Hariharan B, Belongie S. Feature Pyramid Networks for Object Detection. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2017: 936-944. DOI: 10.1109/CVPR.2017.106.
Wang J, Sun K, Cheng T, Jiang B, Deng C, Zhao Y, Liu D, Mu Y, Tan M, Wang X, Liu W, Xiao B. Deep High-Resolution Representation Learning for Visual Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence 2021; 43(10): 3349-3364. DOI: 10.1109/TPAMI.2020.2983686.
Gao SH, Cheng MM, Zhao K, et al. Res2Net: A New Multi-Scale Backbone Architecture. IEEE Transactions on Pattern Analysis and Machine Intelligence 2021; 43(2): 652-662. DOI:10.1109/TPAMI.2019.2938758.
Oktay O, Schlemper J, Folgoc LL, et al. Attention U-Net: Learning Where to Look for the Pancreas. arXiv Preprint. 2018. Source: <https://arxiv.org/pdf/1804.03999>. DOI: 10.48550/arXiv.1804.03999.
Fu J, Liu J, Tian H, et al. Dual Attention Network for Scene Segmentation. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2019: 3141-3149. DOI: 10.1109/ CVPR.2019.00326.
Huang Z, Wang X, Huang L, et al. CCNet: Criss-Cross Attention for Semantic Segmentation. 2019 IEEE/CVF International Conference on Computer Vision (ICCV) 2019: 603-612. DOI: 10.1109/ICCV.2019.00069.
Vaswani A, Shazeer NM, Parmar N, et al. Attention is all you need. arXiv Preprint. 2017. Source: <https://arxiv.org/pdf/1706.03762>. DOI: 10.48550/abs/1706.03762.
Dosovitskiy A, Beyer L, Kolesnikov A, et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. arXiv Preprint. 2020. Source: <https://arxiv.org/pdf/2010.11929>. DOI: 10.48550/arXiv.2010.11929
Zheng S, Lu J, Zhao H, et al. Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2021: 6877-6886. DOI: 10.1109/CVPR46437.2021.00681.
Wang W, Xie E, Li X, et al. Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions. 2021 IEEE/CVF International Conference on Computer Vision (ICCV) 2021: 548-558. DOI: 10.1109/ICCV48922.2021.00061.
Xie E, Wang W, Yu Z, A, et al. SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers. arXiv Preprint. 2021. Source: <https://arxiv.org/pdf/2105.15203>.
Liu Z, Lin Y, Cao Y, et al. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV) 2021: 9992-10002. DOI: 10.1109/ICCV48922.2021.00986.
Chu X, Tian Z, Wang Y, et al. Twins: Revisiting Spatial Attention Design in Vision Transformers. Proceedings of the 34th Conference on Neural Information Processing Systems (NeurIPS 2021) 2021; 34: 9355-9366.
Wu H, Xiao B, Codella N, et al. CvT: Introducing Convolutions to Vision Transformers. arXiv Preprint. 2021. Source <https://arxiv.org/pdf/2103.15808>. DOI: 10.48550/arXiv.2103.15808.
Dong X, Bao J, Chen D, et al., CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2022: 12114-12124. DOI: 10.1109/CVPR52688.2022.01181.
Liu X, Peng H, Zheng N, et al. EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2023: 14420-14430. DOI: 10.1109/CVPR52729.2023.01386.
Liu Z, Mao H, Wu CY, et al. A ConvNet for the 2020s. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2022: 11966-11976. DOI: 10.1109/CVPR52688.2022.01167.
Guo M, Lu C, Hou Q, et al. SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation. arXiv Preprint. 2022. Source: <https://arxiv.org/pdf/2209.08575>. DOI: DOI:10.48550/arXiv.2209.08575.
Ding X, Zhang X, Han J, Ding G. Scaling Up Your Kernels to 31×31: Revisiting Large Kernel Design in CNNs. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2022: 11953-11965. DOI: 10.1109/CVPR52688.2022.01166.
Liu S, Chen T, Chen X, et al. More ConvNets in the 2020s: Scaling up Kernels Beyond 51x51 using Sparsity. arXiv Preprint. 2022. Source: <https://arxiv.org/pdf/2207.03620>. DOI: 10.48550/arXiv.2207.03620.
Guo J, Han K, Wu H, et al. CMT: Convolutional Neural Networks Meet Vision Transformers. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2022: 12165-12175, DOI: 10.1109/CVPR52688.2022.01186.
Wang Q, Wu B, Zhu P, et al. ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2020: 11531-11539, DOI: 10.1109/CVPR42600.2020.01155.
Xia Z, Pan X, Song S, Li LE, Huang G. DAT++: Spatially Dynamic Vision Transformer with Deformable Attention. arXiv Preprint. 2023. Source: <https://arxiv.org/pdf/2309.01430>. DOI: 10.48550/arXiv.2309.01430.
Yao Z, Cao Y, Lin Y, Liu Z, Zhang Z, Hu H. Leveraging Batch Normalization for Vision Transformers. 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW) 2021: 413-422. DOI: 10.1109/ICCVW54120.2021.00050.
Krizhevsky A, Hinton G. Learning Multiple Layers of Features from Tiny Images. Computer Science Department University of Toronto Tech. Rep. 2009; 1(4): 7.
Griffin G, Holub A, Perona P. Caltech-256 Object Category Dataset. Technical Report 7694, California Institute of Technology, 2007.
Loshchilov I, Hutter F. Decoupled Weight Decay Regularization. arXiv Preprint. 2017. Source: <https://arxiv.org/pdf/1711.05101>.
Loshchilov I, Hutter F. SGDR: Stochastic gradient descent with warm restarts. arXiv Preprint. 2016. Source: <https://arxiv.org/pdf/1608.03983>. DOI: 10.48550/arXiv.1608.03983.
Larsson G, Maire M, Shakhnarovich G. FractalNet: Ultra-Deep Neural Networks without Residuals. arXiv Preprint. 2017. Source: <https://arxiv.org/pdf/1605.07648v4>. DOI: 10.48550/arXiv.1605.07648.
Cubuk ED, Zoph B, Shlens J, Le QV. Randaugment: Practical automated data augmentation with a reduced search space. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW) 2020: 3008-3017. DOI: 10.1109/CVPRW50498.2020.00359.
Buslaev A., Iglovikov VI, Khvedchenya E. Albumentations: Fast and Flexible Image Augmentations. Information. 2020; 11(2): 125. DOI: 10.3390/info11020125.
Zhang H, Cisse M, Dauphin YN, Lopez-Paz D. mixup: Beyond Empirical Risk Minimization. arXiv Preprint. 2017. Source: <https://arxiv.org/pdf/1710.09412>. DOI: 10.48550/arXiv.1710.09412.
Yun S, Han D, Chun S, et al. CutMix: Regularization Strategy to Train Strong Classifiers With Localizable Features. 2019 IEEE/CVF International Conference on Computer Vision (ICCV) 2019: 6022-6031. DOI: 10.1109/ICCV.2019.00612.
Tan M, Le QV. EfficientNetV2: Smaller Models and Faster Training. arXiv Preprint. 2021. Source: <https://arxiv.org/pdf/2104.00298>.
Wightman R. PyTorch Image Models. GitHub repository. 2019. Source: <https://github.com/rwightman/pytorch-image-models>. DOI: 10.5281/zenodo.4414861.
Wang JA. Remote Sensing Land-Cover Dataset for Domain Adaptation Semantic Segmentation. arXiv Preprint. 2021. Source: <https://arxiv.org/pdf/2110.08733>.
2D Semantic Labeling Contest - Potsdam. Source: <https://www.isprs.org/education/benchmarks/UrbanSemLab/2d-sem-label-potsdam.aspx>.
LoveDA Semantic Segmentation. Source: <https://codalab.lisn.upsaclay.fr/competitions/421#learn_the_details-overview>.
Xiao T, Liu Y, Zhou B, Jiang Y, Sun J. Unified Perceptual Parsing for Scene Understanding. arXiv Preprint. 2018. <https://arxiv.org/pdf/1807.10221>. DOI: 10.48550/arXiv.1807.10221.
Yamazaki K, Hanyu T, Tran M, et al. AerialFormer: Multi-resolution Transformer for Aerial Image Segmentation. arXiv Preprint. 2023. Source: <https://arxiv.org/pdf/2306.06842>. DOI: 10.48550/arXiv.2306.06842.
Wang D, Zhang J, Xu M, et al. MTP: Advancing Remote Sensing Foundation Model via Multitask Pretraining. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 2024; 17: 11632-11654. DOI: 10.1109/JSTARS.2024.3408154.
Li H, Qiu K, Chen L, et al. SCAttNet: Semantic Segmentation Network With Spatial and Channel Attention Mechanism for High-Resolution Remote Sensing Images. IEEE Geoscience and Remote Sensing Letters 2021; 18(5): 905-909. DOI: 10.1109/LGRS.2020.2988294.

Россия, 443001, Самара, ул. Молодогвардейская, 151; электронная почта: journal@computeroptics.ru; тел: +7 (846) 242-41-24 (ответственный секретарь), +7 (846) 332-56-22 (технический редактор), факс: +7 (846) 332-56-20

1Воронежский государственный университет, 394018, Воронеж, Россия, Университетская пл., д. 1

¹Воронежский государственный университет, 394018, Воронеж, Россия, Университетская пл., д. 1