(48-6) 18 * << * >> * Русский * English * Содержание * Все выпуски

Модули внимания в сверточных нейронных сетях для распознавания малоразмерных объектов
Д.И. Краснов 1

Университет ИТМО,
197101, Россия, г. Санкт-Петербург, Кронверкский пр., д. 49

  PDF, 4759 kB

DOI: 10.18287/2412-6179-CO-1468

Страницы: 963-968.

Аннотация:
Задача распознавания малоразмерных объектов часто встречается в биомедицинских системах и системах безопасности. При этом обнаружение таких объектов часто осложняется наличием плотных облаков или объектов инфраструктуры. В данной работе представлены результаты использования различных механизмов внимания для повышения точности в задаче сегментации малоразмерных объектов на изображении с помощью сверточных нейронных сетей. Были рассмотрены модули внимания по каналам и по пикселам. Подобный подход позволяет эффективно подавлять менее информативные каналы и области изображения и усиливать более информативные каналы и области изображения. При этом весовые коэффициенты в модулях внимания автоматически адаптируются к обучающим данным. Проведена оценка влияния механизмов внимания в архитектуре сверточной нейронной сети на ее способность подавлять сложный фон (облака, тучи и объекты инфраструктуры) и сегментировать малоразмерные объекты. Результаты представлены в виде таблиц с тестовыми метриками, графиков precision-recall и ROC-кривых и тепловых карт, показывающих эффективность подавления фона. Полученные результаты позволяют эффективно внедрять описанные модули внимания в сверточные нейронные сети любой сложности для повышения точности распознавания объектов размером 10 – 40 пикселей на сложном фоне.

Ключевые слова:
сегментация, малоразмерный объект, сверточная нейронная сеть, модуль внимания, компьютерное зрение.

Цитирование:
Краснов, Д.И. Модули внимания в сверточных нейронных сетях для распознавания малоразмерных объектов / Д.И. Краснов // Компьютерная оптика. – 2024. – Т. 48, № 6. – С. 963-968. – DOI: 10.18287/2412-6179-CO-1468.

Citation:
Krasnov DI. Attention modules in convolutional neural networks for small object recognition. Computer Optics 2024; 48(6): 963-968. DOI: 10.18287/2412-6179-CO-1468.

References:

  1. Chattopadhyay A, Maitra M. MRI-based brain tumour image detection using CNN based deep learning method. Neurosci Inform 2022; 2(4): 100060. DOI: 10.1016/j.neuri.2022.100060.
  2. Hashib H, Leon M, Salaque AM. Object detection based security system using machine learning algorithm and Raspberry Pi. 2019 Int Conf on Computer, Communication, Chemical, Materials and Electronic Engineering (IC4ME2) 2019: 1-4. DOI: 10.1109/IC4ME247184.2019.9036531.
  3. Wang X, Lv G, Xu L. Infrared dim target detection based on visual attention. Infrared Phys Techn 2012; 55(6): 513-521. DOI: 10.1016/j.infrared.2012.08.004.
  4. Chen CLP, Li H, Wei Y, Xia T, Tang YY. A local contrast method for small infrared target detection. IEEE Trans Geosci Remote Sens 2014; 52(1): 574-581. DOI: 10.1109/TGRS.2013.2242477.
  5. Wang H, Xin Y. Wavelet-based contourlet transform and kurtosis map for infrared small target detection in complex background. Sensors 2020; 20(3): 755. DOI: 10.3390/s20030755.
  6. Stojnić V, Risojević V, Muštra M, Jovanović V, Filipi J, Kezić N, Babić Z. A method for detection of small moving objects in UAV videos. Remote Sens 2021; 13(4): 653. DOI: 10.3390/rs13040653.
  7. Liu X, Li X, Li L, Su X, Chen F. Dim and small target detection in multi-frame sequence using Bi-Conv-LSTM and 3D-Conv structure. IEEE Access 2021; 9: 135845-135855. DOI: 10.1109/ACCESS.2021.3110395.
  8. Mazurek P. Convolutional neural network reference for track-before-detect applications. Remote Sens 2023; 15(18): 4629. DOI: 10.3390/rs15184629.
  9. Wang Z, Wang C, Chen Y, Li J. Target detection algorithm based on super- resolution color remote sensing image reconstruction. J Meas Eng 2023; 12(1): 15. DOI: 10.21595/jme.2023.23510.
  10. Liu H, Ding M, Li S, Xu Y, Gong S, Kasule AN. Small-target detection based on an attention mechanism for apron-monitoring systems. Appl Sci 2023; 13(9): 5231. DOI: 10.3390/app13095231.
  11. Fan M, Tian S, Liu K, Zhao J, Li Y. Infrared small target detection based on region proposal and CNN classifier. Signal Image Video P 2021; 15: 1927-1936. DOI: 10.1007/s11760-021-01936-z.
  12. Li B, Xiao C, Wang L, Wang Y, Lin Z, Li M, An W, Guo Y. Dense nested attention network for infrared small target detection. IEEE Trans Image Process 2023; 32: 1745-1758. DOI: 10.1109/TIP.2022.3199107.
  13. Li J, Ye DH, Kolsch M, Wachs JP, Bouman CA. Fast and robust UAV to UAV detection and tracking from video. IEEE Trans Emerg Top Comput 2022; 10(3): 1519-1531. DOI: 10.1109/TETC.2021.3104555.
  14. Svanström F, Englund C, Alonso-Fernandez F. Real-time drone detection and tracking with visible, thermal and acoustic sensors. 25th Int Conf on Pattern Recognition (ICPR) 2020: 7265-7272. DOI: 10.1109/ICPR48806.2021.9413241.
  15. Rozantsev A, Lepetit V, Fua P. Flying objects detection from a single moving camera. 2015 IEEE Conf on Computer Vision and Pattern Recognition (CVPR) 2015: 4128-4136. DOI: 10.1109/CVPR.2015.7299040.
  16. Wang Y, Zhou Q, Xiong J, Wu X, Jin X. ESNet: An efficient symmetric network for real-time semantic segmentation. In Book: Lin Z, Wang L, Yang J, Shi G, Tan T, Zheng N, Chen X, Zhang Y, eds. Pattern Recognition and Computer Vision. Cham: Springer Nature Switzerland AG; 2019: 41-52. DOI: 10.1007/978-3-030-31723-2_4.
  17. Huang L, Chen C, Yun J, Sun Y, Tian J, Hao Z, Yu H, Ma H. Multi-scale feature fusion convolutional neural network for indoor small target detection. Front Neurorobot 2022; 16: 881021. DOI: 10.3389/fnbot.2022.881021.
  18. Agac S, Durmaz Incel O. On the use of a convolutional block attention module in deep learning-based human activity recognition with motion sensors. Diagnostics 2023; 13(11): 1861. DOI: 10.3390/diagnostics13111861.
  19. Sudre CH, Li W, Vercauteren T, Ourselin S, Jorge Cardoso M. Generalised dice overlap as a deep learning loss function for highly unbalanced segmentations. In Book: Cardoso MJ, Arbel T, Carneiro G, et al, eds. Deep learning in medical image analysis and multimodal learning for clinical decision support. Cham: Springer International Publishing AG; 2017: 240-248. DOI: 10.1007/978-3-319-67558-9_28.
  20. Rezatofighi H, Tsoi N, Gwak JY, Sadeghian A, Reid I, Savarese S. Generalized intersection over union: A metric and a loss for bounding box regression. 2019 IEEE/CVF Conf on Computer Vision and Pattern Recognition (CVPR) 2019: 658-666. DOI: 10.1109/CVPR.2019.00075.

© 2009, IPSI RAS
Россия, 443001, Самара, ул. Молодогвардейская, 151; электронная почта: journal@computeroptics.ru; тел: +7 (846) 242-41-24 (ответственный секретарь), +7 (846) 332-56-22 (технический редактор), факс: +7 (846) 332-56-20