(44-4) 16 * << * >> * Русский * English * Содержание * Все выпуски
  
Извлечение предпочтений пользователя на основе методов автоматического порождения текстовых описаний изображений фотоальбома
А.С. Харчевникова 1, А.В. Савченко 1
1 Национальный исследовательский университет «Высшая школа экономики»,
603155, Россия, г. Нижний Новгород, ул. Большая Печерская, д.25/12
 PDF, 1375 kB
  PDF, 1375 kB
DOI: 10.18287/2412-6179-CO-678
Страницы: 618-626.
Аннотация:
В работе рассматривается задача извлечения предпочтений пользователя по его фотоальбому. Предложен новый подход на основе автоматического порождения текстовых описаний фотографий и последующей классификации таких описаний. Проведен анализ известных методов создания аннотаций по изображению на основе свёрточных и рекуррентных (Long short-term memory) нейронных сетей. С использованием набора данных Google's Conceptual Captions обучены новые модели, в которых объединяются характерные признаки фотографии и выходы блока рекуррентной нейронной сети. Исследовано применение алгоритмов обработки текстов для преобразования полученных аннотаций в пользовательские предпочтения. Проведены экспериментальные исследования с помощью наборов данных Microsoft COCO Captions, Flickr8k и специально собранного набора данных, отражающего интересы пользователя. Показано, что наилучшее качество определения предпочтений достигается с помощью методов поиска ключевых слов и суммаризации текстов из Watson API, которые оказываются на 8% точнее по сравнению с традиционным латентным размещением Дирихле. При этом описания, порожденные с помощью обученных моделей, классифицируются на 1–7% точнее известных аналогов.
Ключевые слова:
анализ предпочтений пользователя, обработка  изображений, текстовое описание изображений, сверточные нейронные сети.
Благодарности
Статья подготовлена в результате проведения исследования (№ 19-04-004) в рамках Программы «Научный фонд Национального исследовательского университета «Высшая школа экономики» (НИУ ВШЭ)» в 2019 г. и в рамках государственной поддержки ведущих университетов Российской Федерации "5-100".
Цитирование:
Харчевникова, А.С.  Извлечение предпочтений  пользователя на основе методов автоматического порождения текстовых описаний  изображений фотоальбома / А.С. Харчевникова, А.В. Савченко  // Компьютерная оптика. – 2020. –  Т. 44, № 4. – С. 618-626. – DOI:  10.18287/2412-6179-CO-678.
Citation:
Kharchevnikova AS, Savchenko AV. Visual preferences prediction for a photo gallery based on image captioning methods. Computer Optics 2020; 44(4): 618-626. DOI: 10.18287/2412-6179-CO-678.
Литература:
  - Singhal, A. Use of deep learning in modern recommendation  system: A summary of recent works [Electronical Resource] / A. Singhal,  P. Sinha, R. Pant // arXiv preprint arXiv:1712.07525. – 2017. – URL:  https://arxiv.org/abs/1712.07525 (request date 4.12.2019).
- Demochkin, K.V. Visual product recommendation using neural aggregation  network and context gating / K.V. Demochkin, A.V. Savchenko //  Journal of Physics: Conference Series. – 2019. – Vol. 1368, Issue 3.  – 032016. 
 
- Kharchevnikova, A.S. Neural networks in video-based age and gender  recognition on mobile platforms / A.S. Kharchevnikova, A.V. Savchenko  // Optical Memory and Neural Networks (Information Optics). – 2018. –  Vol. 27, Issue 4. – P. 246-259. 
 
- Grechikhin, I. User modeling on mobile device based on  facial clustering and object detection in photos and videos /  I. Grechikhin, A.V. Savchenko. – In: Proceedings of the iberian  conference on pattern recognition and image analysis (IbPRIA) / ed. by  A. Morales, J. Fierrez, J. Sánchez, B. Ribeiro. – Cham:  Springer, 2019. – P. 429-440. 
 
- Rassadin, A.G. Scene recognition in user preference prediction based on  classification of deep embeddings and object detection / A.G. Rassadin,  A.V. Savchenko. – In: Proceedings of international symposium on neural  networks(ISNN) / ed. by H. Lu,  [et al.]. – Springer Nature Switzerland AG, 2019. – P. 422-430. 
 
- Szegedy, C. Going deeper with convolutions / C. Szegedy //  Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition  (CVPR). – 2015. – P. 1-9. 
 
- Howard, A.G. MobileNets:  Efficient convolutional neural networks for mobile vision applications  [Electronical Resource] / A.G. Howard, M. Zhu, B Chen,  D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto,  H. Adam. – arXiv preprint arXiv:1704.04861. – 2017. – URL: https://arxiv.org/abs/1704.04861  (request date 4.12.2019). 
 
- Wang, R. Covariance discriminative learning: A natural and  efficient approach to image set classification / R. Wang, H. Guo, L.S. Davis, Q. Dai // IEEE Conference on Computer Vision and  Pattern Recognition. – 2012. –  P. 2496-2503.
 
- Wang, L. Transferring deep object and scene representations  for event recognition in still images / L. Wang, Z. Wang,  Y. Qiao, L. Van Gool //International  Journal of Computer Vision. – 2018. – Vol. 126, Issues 2-4. – P. 390-409.
 
- Xiong, Y. Recognize complex events from static images by  fusing deep channels / Y. Xiong, K. Zhu, D. Lin, X. Tang //  Proceedings of the International Conference on Computer Vision and Pattern  Recognition (CVPR). – 2015. – P. 1600-1609.
 
- Фурман, Я.А. Точечные поля и  групповые объекты / Я.А. Фурман,  А.А. Роженцов, Р.Г. Хафизов, Д.Г. Хафизов, А.В. Кревецкий, Р.В. Ерусланов; под ред. Я.А. Фурмана. – М: Физматлит, 2014. – 440 с. – ISBN: 978-5-9221-1604-6. 
 
- Vorontsov, K. Additive  regularization of topic models / K. Vorontsov, A. Potapenko // Machine Learning. – 2015. –  Vol. 101. – P. 303-323.
 
- Rosen-Zvi, M. The author-topic model for  authors and documents / M. Rosen-Zvi // Proceedings of the 20th Conference on Uncertainty in  Artificial Intelligence. – 2004. – P. 487-494. 
 
- Blei, D.M. Latent  Dirichlet allocation / D.M. Blei, A.Y. Ng, M.I. Jordan // Journal of Machine Learning Research.  – 2003. – Vol. 3. – P. 993-1022. 
 
- Ferrucci, D.A. Introduction to “this is Watson” / D.A. Ferrucci  // IBM Journal of Research and  Development. – 2012. – Vol. 56,  Issue 3.4. – P. 1:1-1:15. 
 
- Lally, A. Question analysis:  How Watson reads a clue / A. Lally, J. Prager, M. McCord,  B. Boguraev, S. Patwardhan, J. Chu-Carroll // IBM Journal of Research and Development.  – 2012. – Vol. 56, Issue 3.4.  – P. 2:1-2:14. 
 
- Fan, J. Automatic knowledge extraction from documents  / J. Fan, A. Kalyanpur, D. Gondek, D. Ferrucci // IBM Journal of Research and Development.  – 2012. – Vol. 56, Issue 3.4. – P. 5:1-5:10. 
 
- Савченко, А.В. Тригонометрическая  система функций в проекционных оценках плотности вероятности нейросетевых  признаков изображений / А.В. Савченко  // Компьютерная оптика. – 2018. – Т. 42, № 1. –  С. 149-158. – DOI: 10.18287/2412-6179-2018-42-1-149-158.
 
- Simonyan, K. Very deep convolutional  networks for large-scale image recognition [Electronical Resource] /  K. Simonyan, A. Zisserman.  – arXiv preprint arXiv:1409.1556. –  2014. – URL:       https://arxiv.org/abs/1409.1556 (request date 4.12.2019). 
 
- Tanti, M. Where to put the image in an image caption generator  / M. Tanti, A. Gatt, K.P. Camilleri // Natural Language Engineering. – 2018. – Vol. 24, Issue 3. – P. 467-489. 
 
- Wang, M. A parallel-fusion RNN-LSTM architecture for image  caption generation / M. Wang, L. Song, X. Yang, C. Luo //  Proceedings of the IEEE International  Conference on Image Processing (ICIP). – 2016. – P. 4448-4452. 
 
- Vinyals, O. Show and tell: A neural image caption generator / O. Vinyals, A. Toshev, S. Bengio, D. Erhan // Proceedings of the IEEE Conference  on Computer Vision and Pattern Recognition (CVPR).  – 2015. –  P. 3156-3164.
 
- Kiros, R. Multimodal neural language models /  R. Kiros, R. Salakhutdinov, R. Zemel // Proceedings of the International Conference on Machine Learning  (ICML). – 2014. – P. 595-603. 
 
- Vijayakumar, A.K. Diverse beam  search: Decoding diverse solutions from neural sequence models [Electronical  Resource] / A.K. Vijayakumar, M. Cogswell, R. Selvaraju,  Q. Sun, S. Lee, D. Crandall, D. Batra. – arXiv preprint arXiv:1610.02424. – 2016. – URL:  https://arxiv.org/abs/1610.02424 (request date 4.12.2019). 
 
- Bernardi, R. Automatic  description generation from images: A survey of models, datasets, and  evaluation measures / R. Bernardi, R. Cakici, D. Elliott,  A. Erdem, E. Erdem, N. Ikizler-Cinbis, B. Plank // Journal of Artificial Intelligence Research.  – 2016. – Vol. 55. –  P. 409-442. 
 
- Lin, T.Y. Microsoft COCO: Common objects in  context / T.Y. Lin, M. Maire, S. Belongie, J. Hays,  P. Perona, D. Ramanan, C. Zitnick // Proceedings of the European conference on computer vision  (ECCV). – 2014. – P. 740-755. 
 
- Chen, X. Microsoft COCO captions:  Data collection and evaluation server [Electronical Resource] / X. Chen,  H. Fang, T. Lin, R. Vedantam, S. Gupta,  P. Dollar. – arXiv preprint  arXiv:1504.00325. – 2015. – URL:  https://arxiv.org/abs/1504.00325 (request date 4.12.2019). 
 
- Sharma, P. Conceptual captions:  A cleaned, hypernymed, image alt-text dataset for automatic image captioning /  P. Sharma, N. Ding, S. Goodman, R. Soricut // Proceedings of the 56th Annual  Meeting of the Association for Computational Linguistics (ACL). – 2018.  – Vol. 1. – P. 2556-2565. 
 
- Papineni, K. BLEU: a method for  automatic evaluation of machine translation / K. Papineni, S. Roukos,  T. Ward, W.J. Zhu // Proceedings  of the 40th annual meeting on association for computational  linguistics (ACL). – 2002. – P. 311-318. 
 
- Denkowski, M. Meteor universal: Language  specific translation evaluation for any target language / M. Denkowski,  A. Lavie // Proceedings of the Ninth  Workshop on Statistical Machine Translation. – 2014. – P. 376-380. 
 
- Vedantam, R. CIDEr: Consensus-based image  description evaluation / R. Vedantam, C.L. Zitnick, D. Parikh //  Proceedings of the IEEE Conference on  Computer Vision and Pattern Recognition (CVPR). – 2015. –  P. 4566-4575. 
 
- Goldberg, Y. Word2Vec  explained: Deriving Mikolov et al.'s negative-sampling word-embedding method  [Electronical Resource] / Y. Goldberg, O. Levy. – arXiv preprint arXiv:1402.3722. –2014. – URL: https://arxiv.org/abs/1402.3722  (request date 4.12.2019). 
 
- Manning, C.D. Foundations of  statistical natural language processing / C.D. Manning, H. Schütze. –  MIT Press, 1999.              
        
- Харчевникова, А.С. Свёрточные нейронные сети в задаче распознавания пола и возраста  по видеоизображению / А.С. Харчевникова, А.В. Савченко. – В кн.: Сборник трудов IV Международной конференции и молодёжной  школы "Информационные технологии и нанотехнологии" (ИТНТ 2018). –  Самара: Предприятие "Новая техника", 2018. – С. 916-924.
 
  
  © 2009, IPSI RAS
    Россия, 443001, Самара, ул. Молодогвардейская, 151; электронная почта: ko@smr.ru ; тел: +7  (846)  242-41-24 (ответственный
      секретарь), +7 (846)
      332-56-22 (технический  редактор), факс: +7 (846) 332-56-20