(44-4) 16 * << * >> * Русский * English * Содержание * Все выпуски

Извлечение предпочтений пользователя на основе методов автоматического порождения текстовых описаний изображений фотоальбома
А.С. Харчевникова 1, А.В. Савченко 1

Национальный исследовательский университет «Высшая школа экономики»,
603155, Россия, г. Нижний Новгород, ул. Большая Печерская, д.25/12

 PDF, 1375 kB

DOI: 10.18287/2412-6179-CO-678

Страницы: 618-626.

Аннотация:
В работе рассматривается задача извлечения предпочтений пользователя по его фотоальбому. Предложен новый подход на основе автоматического порождения текстовых описаний фотографий и последующей классификации таких описаний. Проведен анализ известных методов создания аннотаций по изображению на основе свёрточных и рекуррентных (Long short-term memory) нейронных сетей. С использованием набора данных Google's Conceptual Captions обучены новые модели, в которых объединяются характерные признаки фотографии и выходы блока рекуррентной нейронной сети. Исследовано применение алгоритмов обработки текстов для преобразования полученных аннотаций в пользовательские предпочтения. Проведены экспериментальные исследования с помощью наборов данных Microsoft COCO Captions, Flickr8k и специально собранного набора данных, отражающего интересы пользователя. Показано, что наилучшее качество определения предпочтений достигается с помощью методов поиска ключевых слов и суммаризации текстов из Watson API, которые оказываются на 8% точнее по сравнению с традиционным латентным размещением Дирихле. При этом описания, порожденные с помощью обученных моделей, классифицируются на 1–7% точнее известных аналогов.

Ключевые слова:
анализ предпочтений пользователя, обработка изображений, текстовое описание изображений, сверточные нейронные сети.

Благодарности
Статья подготовлена в результате проведения исследования (№ 19-04-004) в рамках Программы «Научный фонд Национального исследовательского университета «Высшая школа экономики» (НИУ ВШЭ)» в 2019 г. и в рамках государственной поддержки ведущих университетов Российской Федерации "5-100".

Цитирование:
Харчевникова, А.С.  Извлечение предпочтений пользователя на основе методов автоматического порождения текстовых описаний изображений фотоальбома / А.С. Харчевникова, А.В. Савченко // Компьютерная оптика. – 2020. – Т. 44, № 4. – С. 618-626. – DOI: 10.18287/2412-6179-CO-678.

Citation:
Kharchevnikova AS, Savchenko AV. Visual preferences prediction for a photo gallery based on image captioning methods. Computer Optics 2020; 44(4): 618-626. DOI: 10.18287/2412-6179-CO-678.

Литература:

  1. Singhal, A. Use of deep learning in modern recommendation system: A summary of recent works [Electronical Resource] / A. Singhal, P. Sinha, R. Pant // arXiv preprint arXiv:1712.07525. – 2017. – URL: https://arxiv.org/abs/1712.07525 (request date 4.12.2019).
  2. Demochkin, K.V. Visual product recommendation using neural aggregation network and context gating / K.V. Demochkin, A.V. Savchenko // Journal of Physics: Conference Series. – 2019. – Vol. 1368, Issue 3. – 032016.
  3. Kharchevnikova, A.S. Neural networks in video-based age and gender recognition on mobile platforms / A.S. Kharchevnikova, A.V. Savchenko // Optical Memory and Neural Networks (Information Optics). – 2018. – Vol. 27, Issue 4. – P. 246-259.
  4. Grechikhin, I. User modeling on mobile device based on facial clustering and object detection in photos and videos / I. Grechikhin, A.V. Savchenko. – In: Proceedings of the iberian conference on pattern recognition and image analysis (IbPRIA) / ed. by A. Morales, J. Fierrez, J. Sánchez, B. Ribeiro. – Cham: Springer, 2019. – P. 429-440.
  5. Rassadin, A.G. Scene recognition in user preference prediction based on classification of deep embeddings and object detection / A.G. Rassadin, A.V. Savchenko. – In: Proceedings of international symposium on neural networks(ISNN) / ed. by H. Lu, [et al.]. – Springer Nature Switzerland AG, 2019. – P. 422-430.
  6. Szegedy, C. Going deeper with convolutions / C. Szegedy // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). – 2015. – P. 1-9.
  7. Howard, A.G. MobileNets: Efficient convolutional neural networks for mobile vision applications [Electronical Resource] / A.G. Howard, M. Zhu, B Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, H. Adam. – arXiv preprint arXiv:1704.04861. – 2017. – URL: https://arxiv.org/abs/1704.04861 (request date 4.12.2019).
  8. Wang, R. Covariance discriminative learning: A natural and efficient approach to image set classification / R. Wang, H. Guo, L.S. Davis, Q. Dai // IEEE Conference on Computer Vision and Pattern Recognition. – 2012. – P. 2496-2503.
  9. Wang, L. Transferring deep object and scene representations for event recognition in still images / L. Wang, Z. Wang, Y. Qiao, L. Van Gool //International Journal of Computer Vision. – 2018. – Vol. 126, Issues 2-4. – P. 390-409.
  10. Xiong, Y. Recognize complex events from static images by fusing deep channels / Y. Xiong, K. Zhu, D. Lin, X. Tang // Proceedings of the International Conference on Computer Vision and Pattern Recognition (CVPR). – 2015. – P. 1600-1609.
  11. Фурман, Я.А. Точечные поля и групповые объекты / Я.А. Фурман, А.А. Роженцов, Р.Г. Хафизов, Д.Г. Хафизов, А.В. Кревецкий, Р.В. Ерусланов; под ред. Я.А. Фурмана. – М: Физматлит, 2014. – 440 с. – ISBN: 978-5-9221-1604-6.
  12. Vorontsov, K. Additive regularization of topic models / K. Vorontsov, A. Potapenko // Machine Learning. – 2015. – Vol. 101. – P. 303-323.
  13. Rosen-Zvi, M. The author-topic model for authors and documents / M. Rosen-Zvi // Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence. – 2004. – P. 487-494.
  14. Blei, D.M. Latent Dirichlet allocation / D.M. Blei, A.Y. Ng, M.I. Jordan // Journal of Machine Learning Research. – 2003. – Vol. 3. – P. 993-1022.
  15. Ferrucci, D.A. Introduction to “this is Watson” / D.A. Ferrucci // IBM Journal of Research and Development. – 2012. – Vol. 56, Issue 3.4. – P. 1:1-1:15.
  16. Lally, A. Question analysis: How Watson reads a clue / A. Lally, J. Prager, M. McCord, B. Boguraev, S. Patwardhan, J. Chu-Carroll // IBM Journal of Research and Development. – 2012. – Vol. 56, Issue 3.4. – P. 2:1-2:14.
  17. Fan, J. Automatic knowledge extraction from documents / J. Fan, A. Kalyanpur, D. Gondek, D. Ferrucci // IBM Journal of Research and Development. – 2012. – Vol. 56, Issue 3.4. – P. 5:1-5:10.
  18. Савченко, А.В. Тригонометрическая система функций в проекционных оценках плотности вероятности нейросетевых признаков изображений / А.В. Савченко // Компьютерная оптика. – 2018. – Т. 42, № 1. – С. 149-158. – DOI: 10.18287/2412-6179-2018-42-1-149-158.
  19. Simonyan, K. Very deep convolutional networks for large-scale image recognition [Electronical Resource] / K. Simo­nyan, A. Zisserman. – arXiv preprint arXiv:1409.1556. – 2014. – URL: https://arxiv.org/abs/1409.1556 (request date 4.12.2019).
  20. Tanti, M. Where to put the image in an image caption generator / M. Tanti, A. Gatt, K.P. Camilleri // Natural Language Engineering. – 2018. – Vol. 24, Issue 3. – P. 467-489.
  21. Wang, M. A parallel-fusion RNN-LSTM architecture for image caption generation / M. Wang, L. Song, X. Yang, C. Luo // Proceedings of the IEEE International Conference on Image Processing (ICIP). – 2016. – P. 4448-4452.
  22. Vinyals, O. Show and tell: A neural image caption generator / O. Vinyals, A. Toshev, S. Bengio, D. Erhan // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). – 2015. – P. 3156-3164.
  23. Kiros, R. Multimodal neural language models / R. Kiros, R. Salakhutdinov, R. Zemel // Proceedings of the International Conference on Machine Learning (ICML). – 2014. – P. 595-603.
  24. Vijayakumar, A.K. Diverse beam search: Decoding diverse solutions from neural sequence models [Electronical Resource] / A.K. Vijayakumar, M. Cogswell, R. Selvaraju, Q. Sun, S. Lee, D. Crandall, D. Batra. – arXiv preprint arXiv:1610.02424. – 2016. – URL: https://arxiv.org/abs/1610.02424 (request date 4.12.2019).
  25. Bernardi, R. Automatic description generation from images: A survey of models, datasets, and evaluation measures / R. Bernardi, R. Cakici, D. Elliott, A. Erdem, E. Erdem, N. Ikizler-Cinbis, B. Plank // Journal of Artificial Intelligence Research. – 2016. – Vol. 55. – P. 409-442.
  26. Lin, T.Y. Microsoft COCO: Common objects in context / T.Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, C. Zitnick // Proceedings of the European conference on computer vision (ECCV). – 2014. – P. 740-755.
  27. Chen, X. Microsoft COCO captions: Data collection and evaluation server [Electronical Resource] / X. Chen, H. Fang, T. Lin, R. Vedantam, S. Gupta, P. Dollar. – arXiv preprint arXiv:1504.00325. – 2015. – URL: https://arxiv.org/abs/1504.00325 (request date 4.12.2019).
  28. Sharma, P. Conceptual captions: A cleaned, hypernymed, image alt-text dataset for automatic image captioning / P. Sharma, N. Ding, S. Goodman, R. Soricut // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (ACL). – 2018. – Vol. 1. – P. 2556-2565.
  29. Papineni, K. BLEU: a method for automatic evaluation of machine translation / K. Papineni, S. Roukos, T. Ward, W.J. Zhu // Proceedings of the 40th annual meeting on association for computational linguistics (ACL). – 2002. – P. 311-318.
  30. Denkowski, M. Meteor universal: Language specific translation evaluation for any target language / M. Denkowski, A. Lavie // Proceedings of the Ninth Workshop on Statistical Machine Translation. – 2014. – P. 376-380.
  31. Vedantam, R. CIDEr: Consensus-based image description evaluation / R. Vedantam, C.L. Zitnick, D. Parikh // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). – 2015. – P. 4566-4575.
  32. Goldberg, Y. Word2Vec explained: Deriving Mikolov et al.'s negative-sampling word-embedding method [Electronical Resource] / Y. Goldberg, O. Levy. – arXiv preprint arXiv:1402.3722. –2014. – URL: https://arxiv.org/abs/1402.3722 (request date 4.12.2019).
  33. Manning, C.D. Foundations of statistical natural language processing / C.D. Manning, H. Schütze. – MIT Press, 1999.
  34. Харчевникова, А.С. Свёрточные нейронные сети в задаче распознавания пола и возраста по видеоизображению / А.С. Харчевникова, А.В. Савченко. – В кн.: Сборник трудов IV Международной конференции и молодёжной школы "Информационные технологии и нанотехнологии" (ИТНТ 2018). – Самара: Предприятие "Новая техника", 2018. – С. 916-924.

© 2009, IPSI RAS
Россия, 443001, Самара, ул. Молодогвардейская, 151; электронная почта: ko@smr.ru ; тел: +7 (846) 242-41-24 (ответственный секретарь), +7 (846) 332-56-22 (технический редактор), факс: +7 (846) 332-56-20