(49-6) 20 * << * >> * Русский * English * Содержание * Все выпуски

Экземплярная сегментация объектов на изображениях с использованием глубокого обучения и синтетических данных
Г.А. Альгашев¹, Е.В. Горбунов¹, И.А. Килбас¹, Р.А. Парингер¹, А.В. Куприянов¹

¹Самарский национальный исследовательский университет имени академика С.П. Королёва,
443086, Россия, г. Самара, Московское шоссе, д. 34

PDF, 2237 kB

DOI: 10.18287/2412-6179-CO-1656

Страницы: 1037-1046.

Аннотация:
В работе рассматривается задача экземплярной сегментации объектов на изображениях с использованием современных моделей глубокого обучения и синтетических данных. Основное внимание уделено исследованию эффективности синтетических данных, созданных на основе 3D-моделей, для предварительного обучения моделей сегментации. Рассматриваются такие архитектуры, как U-Net, DeepLabV3+, Mask R-CNN и YOLOv8. Для улучшения качества синтетических данных использовались различные параметры автоматической генерации данных, включая случайное позиционирование объектов, добавление фонов, изменение освещения, изменение текстуры объекта, добавление размытия и добавление препятствий. Проведённые эксперименты показали, что каждый из этих шагов вносит значительный вклад в точность моделей, а их сочетание обеспечивает наилучшие результаты (mAP 92,1 %). Результаты подтверждают, что комбинированное использование синтетических и реальных данных позволяет преодолеть разрыв между синтетической и реальной средой. Наилучшая производительность была достигнута моделью YOLOv8, которая продемонстрировала высокую точность и скорость обработки. Полученные выводы подчёркивают важность тщательной настройки параметров генерации синтетических данных для улучшения сегментации в условиях реальных приложений.

Ключевые слова:
экземплярная сегментация объектов, сегментация объектов, глубокое обучение, свёрточные нейронные сети, синтетические данные, нейросетевые модели, компьютерное зрение, обучение без ручной разметки.

Благодарности
Работа выполнена в рамках государственного задания по теме FSSS-2023-0006.

Цитирование:
Альгашев, Г.А. Экземплярная сегментация объектов на изображениях с использованием глубокого обучения и синтетических данных / Г.А. Альгашев, Е.В. Горбунов, И.А. Килбас, Р.А. Парингер, А.В. Куприянов // Компьютерная оптика. – 2025. – Т. 49, № 6. – С. 1037-1046. – DOI: 10.18287/2412-6179-CO-1656.

Citation:
Algashev GA, Gorbunov EV, Kilbas IA, Paringer RA, Kupriyanov AV. Instance segmentation of objects in images using deep learning and synthetic data. Computer Optics 2025; 49(6): 1012-1021. DOI: 10.18287/2412-6179-CO-1656.

References:

Turajlić E. Multilevel Thresholding Image Segmentation Based on Multi-swarm Particle Swarm optimization with a Dynamic Learning Strategy and Kapur’s entropy. 31st Telecommunications Forum (TELFOR) 2023. 1–4. DOI: 10.1109/TELFOR59449.2023.10372741.
Iqbal E, Niaz A, Munir A, Choi KN. Hybrid Active Contour Model for Segmentation of Synthetic and Real Images. 2021 Int Symposium on Intelligent Signal Processing and Communication Systems (ISPACS) 2021: 1-2. DOI: 10.1109/ISPACS51563.2021.9651047.
Zhang L, Zhang H, Wang J, Yang Q. GrabCut: Interactive foreground extraction using graph cuts. ACM Trans Graph 2004; 23(3): 309-314. DOI: 10.1145/1015706.1015720.
Puri D. COCO Dataset stuff segmentation challenge. 2019 5th Int Conf on Computing, Communication, Control and Automation (ICCUBEA) 2019: 1-5. DOI: 10.1109/ICCUBEA47591.2019.9129255.
Everingham D, Van Gool L, Williams C, Winn J, Zisserman A. The Pascal Visual Object Classes (VOC) challenge. Int J Comput Vis 2010; 88(2): 303-338. DOI: 10.1007/s11263-009-0275-4.
Cordts M, Omran M, Ramos S. The cityscapes dataset for semantic urban scene understanding. 2016 IEEE Conf on Computer Vision and Pattern Recognition (CVPR) 2016: 3213-3223. DOI: 10.1109/CVPR.2016.350.
Bovshik PP. Analysis of frameworks for neural networks [In Russian]. Science, technology and education. 2021; 3: 20-23.
Long J, Shelhamer E, Darrell T. Fully convolutional net-works for semantic segmentation. 2015 IEEE Conf on Computer Vision and Pattern Recognition (CVPR) 2015: 3431-3440. DOI: 10.1109/CVPR.2015.7298965.
Ronneberger O, Fischer P, Brox T. U-Net: Convolutional networks for biomedical image segmentation. In Book: Navab N, Hornegger J, Wells WM, Frangi AF, eds. Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015. 18th International Conference, Munich, Germany, October 5-9, 2015, Proceedings, Part III. Dordrecht: Springer International Publishing Switzerland; 2015: 234-241. DOI: 10.1007/978-3-319-24574-4_28.
Chen L-C, Papandreou G, Kokkinos I, Dollár P, Zhang LY. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. IEEE Trans Pattern Anal Machine Intell 2018; 40(4): 834-848. DOI: 10.1109/TPAMI.2017.2699184.
He K, Gkioxari G, Dollár P, Girshick R. Mask R-CNN. 2017 IEEE Int Conf on Computer Vision (ICCV) 2017: 2961-2969. DOI: 10.1109/ICCV.2017.322.
Redmon J, Divvala S, Girshick R, Farhadi A. You only look once: Unified, real-time object detection. 2016 IEEE Conf on Computer Vision and Pattern Recognition (CVPR) 2016: 779-788. DOI: 10.1109/CVPR.2016.91.
Konushin AS, Faizov BV, Shakhuro VI. Road images augmentation with synthetic traffic signs using neural networks. Computer Optics 2021; 45(5): 736-748. DOI: 10.18287/2412-6179-CO-859.
Imbusch B, Schwarz M, Behnke S. Synthetic-to-Real domain adaptation using contrastive unpaired translation. arXiv Preprint. 2022. Source: <https://arxiv.org/abs/2203.09454>. DOI: 10.48550/arXiv.2203.09454.
Makarov SN, Verhoglyad AG, Stupak MF, Ovchinnikov DA, Oberemok JA. Mathematical simulation of a 3D scanner for controlling the mirror system of the Millimetron Observatory. Computer Optics 2021; 45(4): 541-550. DOI: 10.18287/2412-6179-CO-833.
Bochkovskiy A, Wang C-Y, Liao H-YM. YOLOv4: Opti-mal speed and accuracy of object detection. arXiv Pre-print. 2020. Source: <https://arxiv.org/abs/2004.10934>. DOI: 10.48550/arXiv.2004.10934.
Lin T-Y, Maire M, Belongie S, et al. Microsoft COCO: Common objects in context. In Book: Fleet D, Pajdla T, Schiele B, Tuytelaars T, eds. Computer Vision – ECCV 2014. 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V. Cham: Springer International Publishing Switzerland; 2014: 740-755. DOI: 10.1007/978-3-319-10602-1_48.
Kingma DP, Ba J. Adam: A method for stochastic optimization. Int Conf on Learning Representations (ICLR) 2015.
Krasnov DI. Attention modules in convolutional neural networks for small object recognition. Computer Optics 2024; 48(6): 963-968. DOI: 10.18287/2412-6179-CO-1468.

© 2009, IPSI RAS
Россия, 443001, Самара, ул. Молодогвардейская, 151; электронная почта: journal@computeroptics.ru; тел: +7 (846) 242-41-24 (ответственный секретарь), +7 (846) 332-56-22 (технический редактор), факс: +7 (846) 332-56-20

1 Самарский национальный исследовательский университет имени академика С.П. Королёва, 443086, Россия, г. Самара, Московское шоссе, д. 34

¹Самарский национальный исследовательский университет имени академика С.П. Королёва,
443086, Россия, г. Самара, Московское шоссе, д. 34