(44-6) 15 * << * >> * Русский * English * Содержание * Все выпуски

Детектирование книг на книжных полках при помощи глубоких нейронных сетей
М.О. Калинина 1, П.Л. Николаев 1

Московский авиационный институт (национальный исследовательский университет),
121552, Россия, г. Москва, ул. Оршанская, д. 3

 PDF, 2256 kB

DOI: 10.18287/2412-6179-CO-731

Страницы: 968-977.

Аннотация:
Глубокие нейронные сети в настоящее время получили широкое распространение в различных сферах деятельности человека, в том числе тех, где требуется работа с большим объемом данных, а также операции по получению и обработке информации из окружающего мира. В данной статье рассмотрено создание сверточной нейронной сети на основе архитектуры YOLO по детектированию книг в режиме реального времени. Описаны процесс создания собственного набора данных и обучение на нем глубокой нейронной сети. Приведена структура полученной нейронной сети, и рассмотрены наиболее часто используемые метрики для оценки качества ее работы. Также сделан краткий обзор существующих видов архитектур нейронных сетей. Выбранная в качестве основы для нейросети архитектура обладает рядом преимуществ, позволяющих ей в значительной мере конкурировать с другими моделями нейросетей и делающих ее наиболее подходящим вариантом для создания сети, нацеленной на детектирование объектов, так как при ее разработке были значительно снивелированы некоторые часто встречающиеся недостатки подобных сетей (проблемы с распознаванием схожих по оформлению, имеющих одинаковый цвет обложек или расположенных под наклоном книг). Результаты, полученные в ходе обучения глубокой нейронной сети, позволяют использовать ее в качестве основы для дальнейшей разработки приложения, целью которого будет являться детектирование книг по книжным корешкам.

Ключевые слова:
распознавание изображений; детектирование объектов; компьютерное зрение; машинное обучение; искусственные нейронные сети; глубокое обучение; сверточные нейронные сети.

Цитирование:
Калинина, М.О. Детектирование книг на книжных полках при помощи глубоких нейронных сетей / М.О.Калинина, П.Л. Николаев // Компьютерная оптика. – 2020. – Т. 44, № 6. – С. 968-977. – DOI: 10.18287/2412-6179-CO-731.

Citation:
Kalinina MO, Nikolaev PL. Book spine recognition with the use of deep neural networks. Computer Optics 2020; 44(6): 968-977. DOI: 10.18287/2412-6179-CO-731.

Литература:

  1. Quoc, N. A framework for recognition books on bookshelves / N. Quoc, W. Choi // Proceedings of the ICIC 2009: Emerging Intelligent Computing Technology and Applications. – 2009. – P. 386-395. – DOI: 10.1007/978-3-642-04070-2_44.
  2. Tsai, S.S. Combining image and text features: A hybrid approach to mobile book spine recognition / S.S. Tsai, D. Chen, H. Chen, C. Hsu, K. Kim, J.P. Singh, B. Girod // Proceedings of the 2011 ACM international conference on Multimedia. – 2011. – P. 1029-1032. – DOI: 10.1145/2072298.2071930.
  3. Chen, D. Low-cost asset tracking using location-aware camera phones / D. Chena, S. Tsaia, K. Kimb, C. Hsub, J.P. Singhb, B. Giroda // Proceedings of SPIE. – 2010. – Vol. 7798. – 77980R. – DOI: 10.1117/12.862426.
  4. Chen, D. Mobile augmented reality for books on a shelf / D. Chen, S. Tsai, C. Hsu, J.P. Singh, B. Girod // Proceedings of the 2011 IEEE International Conference on Multimedia and Expo. – 2011. – P. 1-6. – DOI: 10.1109/ICME.2011.6012171.
  5. Lee, D.J. Matching book-spine images for library shelf-reading process automation / D.J. Lee, Y. Chang, J.K. Archibald, C. Pitzak // Proceedings of the 2008 IEEE International Conference on Automation Science and Engineering. – 2008. – P. 738-743. – DOI: 10.1109/COASE.2008.4626503.
  6. Nevetha, M.P. Automatic book spine extraction and recognition for library inventory / M.P. Nevetha, A. Baskar // Management WCI '15: Proceedings of the Third International Symposium on Women in Computing and Informatics. – 2015. – P. 44-48. – DOI: 10.1145/2791405.2791506.
  7. Jubair, M.I. A technique to detect books from library bookshelf image / M.I. Jubair, P. Banik // Proceedings of the 2013 IEEE 9th International Conference on Computational Cybernetics (ICCC). – 2013. – P. 359-363. – DOI: 10.1109/ICCCyb.2013.6617619.
  8. Talker, L. Viewpoint-independent book spine segmentation / L. Talker, Y. Moses // Proceedings of the IEEE Winter Conference on Applications of Computer Vision. – 2014. – P. 453-460. – DOI: 10.1109/WACV.2014.6836066.
  9. Yang, X. Smart library: Identifying books on library shelves using supervised deep learning for scene text reading / X. Yang, D. He, W. Huang, A. Ororbia, Z. Zhou, D. Kifer, C.L. Giles // Proceedings of the 2017 ACM/IEEE Joint Conference on Digital Libraries (JCDL). – 2017. – P. 1-4. – DOI: 10.1109/JCDL.2017.7991581.
  10. Anegawa, R. Text detection on books using cnn trained with another domain data / R. Anegawa, M. Aritsugi // Proceedings of the 2019 IEEE International Conference on Dependable, Autonomic and Secure Computing 2019: – P. 170-176. – DOI: 10.1109/DASC/PiCom/CBDCom/CyberSciTech.2019.00041.
  11. Gandhi, R. R-CNN, Fast R-CNN, Faster R-CNN, YOLO – object detection algorithms [Electronical Resource] / R. Gandhi // – 2018. – URL: https://towardsdatascience.com/r-cnn-fast-r-cnn-faster-r-cnn-yolo-object-detection-algorithms-36d53571365e (request date 11.02.2020).
  12. Karatzas, D. ICDAR 2015 competition on robust reading / D. Karatzas, L. Gomez-Bigorda, A. Nicolaou, S. Ghosh, A. Bagdanov, M. Iwamura, J. Matas, L. Neumann, V.R. Chandrasekhar, S. Lu, F. Shafait, S. Uchida, E. Valveny // Proceedings of the 2015 13th International Conference on Document Analysis and Recognition (ICDAR). – 2015. – P. 1156-1160.
  13. Redmon, J. You only look once: Unified, real-time object detection / J. Redmon, S. Divvala, R. Girshick, A. Farhadi // Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. – 2016. – P. 779-788. – DOI: 10.1109/CVPR.2016.91.
  14. Redmon, J. Yolo9000: Better, faster, stronger / J. Redmon, A. Farhady // Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. – 2017. – P. 6517-6525.
  15. Redmon, J. YOLOv3: An incremental improvement [Electronical Resource] / J. Redmon, A. Farhady. – 2018. – URL: https://arxiv.org/pdf/1804.02767.pdf (request date 09.02.2020).
  16. Liu, W. SSD: Single shot multibox detector / W. Liu, D. Anuelov, D. Erhan, C. Szegedy, S. Reed, C. Fu, A. Berg. – In: Computer Vision – ECCV 2016 / ed. by B. Leibe, J. Matas, N. Sebe, M. Welling. – Cham: Springer, 2016. – DOI: 10.1007/978-3-319-46448-0_2.
  17. Lin, T.Y. Focal loss for dense object detection [Electronical Resource] / T.Y. Lin, P. Goyal, R. Girshick, K. He, P. Dollár. – 2018. – URL: https://arxiv.org/pdf/1708.02002.pdf (request date 12.02.2020).
  18. DetectNet: Deep Neural Network для Object Detection в DIGITS [Электронный ресурс]. – URL: https://habr.com/ru/post/310332/ (дата обращения 05.02.2020).
  19. Ren, S. Faster R-CNN: Towards real-time object detection with region proposal networks [Electronical Resource] / S. Ren, K. He, R. Girshick, J. Sun // arXiv Preprint. – 2016. – URL: https://arxiv.org/pdf/1506.01497.pdf (request date 10.02.2020).
  20. He, K. Mask R-CNN [Electronical Resource] / K. He, G. Gkioxari, P. Dollár, R. Girshick // arXiv Preprint. – 2018. – URL: https://arxiv.org/pdf/1703.06870.pdf (request date 09.02.2020).
  21. Mask R-CNN: архитектура современной нейронной сети для сегментации объектов на изображениях [Электронный ресурс]. – 2018. – URL: https://habr.com/en/post/421299/ (дата обращения 11.02.2020).
  22. Liu, W. SSD: Single shot multibox detector [Electronical Resource] / W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu, A.C. Berg. – ArXiv Preprint. – 2016. – URL: https://arxiv.org/pdf/1512.02325.pdf (request date 10.02.2020).
  23. Tsang, S. Review: SSD – single shot detector (object detection) [Electronical Resource] / S. Tsang. – 2018. – URL: https://towardsdatascience.com/review-ssd-single-shot-detector-object-detection-851a94607d11 (request date 14.02.2020).
  24. YOLO: Real-time object detection [Electronical Resource]. – URL: https://pjreddie.com/darknet/yolo/ (request date 09.02.2020).
  25. Sambasivarao, K. Non-maximum suppression (NMS) [Electronical Resource] / K. Sambasivarao. – 2019. – URL: https://towardsdatascience.com/non-maximum-suppression-nms-93ce178e177c (request date 12.02.2020).
  26. Bindal, A. Normalization techniques in deep neural networks [Electronical Resource] // A. Bindal. – 2019. – URL: https://medium.com/techspace-usict/normalization-techniques-in-deep-neural-networks-9121bf100d8 (request date 09.02.2020).
  27. Sharma, H. Activation functions: Sigmoid, ReLU, Leaky ReLU and Softmax basics for neural networks and deep learning [Electronical Resource] // H. Sharma. – 2019. – URL: https://medium.com/@himanshuxd/activation-functions-sigmoid-relu-leaky-relu-and-softmax-basics-for-neural-networks-and-deep-8d9c70eed91e (request date 08.02.2020).
  28. The PASCAL Visual Object Classes homepage [Electronical Resource]. – URL: http://host.robots.ox.ac.uk/pascal/VOC/ (request date 11.02.2020).
  29. Arlen, T.C. Understanding the mAP evaluation metric for object detection [Electronical Resource] / T.C. Arlen. – URL: https://medium.com/@timothycarlen/understanding-the-map-evaluation-metric-for-object-detection-a07fe6962cf3 (request date 14.02.2020).
  30. Saxen, S. Precision vs Recall [Electronical Resource] / S. Saxen. – 2018. – URL: https://towardsdatascience.com/precision-vs-recall-386cf9f89488 (request date 08.02.2020).
  31. Sandeep, A. Object detection – IOU – Intersection Over Union [Electronical Resource] / A. Sandeep. – 2019. – URL: https://medium.com/@nagsan16/object-detection-iou-intersection-over-union-73070cb11f6e (request date 09.02.2020).
  32. Bodla, N. Improving object detection with one line of code [Electronical Resource] / N. Bodla, B. Singh, R. Chellappa, L.S. Davis. – ArXiv Preprint. – 2017. – URL: https://arxiv.org/pdf/1704.04503.pdf (request date 08.02.2020).
    .

© 2009, IPSI RAS
Россия, 443001, Самара, ул. Молодогвардейская, 151; электронная почта: ko@smr.ru ; тел: +7 (846) 242-41-24 (ответственный секретарь), +7 (846) 332-56-22 (технический редактор), факс: +7 (846) 332-56-20