(47-1) 18 * << * >> * Русский * English * Содержание * Все выпуски

Новый подход к обучению нейронных сетей с помощью натурального градиентного спуска с импульсом на основе распределений Дирихле
Р.И. Абдулкадиров 1, П.А. Ляхов 2

Северо-Кавказский центр математических исследований,
355009, Россия, г. Ставрополь, ул. Пушкина 1;
Северо-Кавказский федеральный университет,
355009, Россия, г. Ставрополь, ул. Пушкина 1

 PDF, 1299 kB

DOI: 10.18287/2412-6179-CO-1147

Страницы: 160-169.

Аннотация:
В данной работе мы предлагаем алгоритм натурального градиентного спуска с импульсом на основе распределений Дирихле для ускорения обучения нейронных сетей. Данный подход учитывает не только направления градиентов, но и выпуклость минимизируемой функции, что значительно ускоряет процесс поиска экстремумов. Представлены вычисления натуральных градиентов, базирующихся на распределениях Дирихле, и реализовано внедрение предложенного подхода в схему обратного распространения ошибок. Результаты по распознаванию изображений и прогнозированию временных рядов во время проведения экспериментов показывают, что предложенный подход дает более высокую точность и не требует большого количества итераций для минимизации функций потерь, по сравнению с методами стохастического градиентного спуска, адаптивной оценки момента и адаптивным по параметрам диагональным квазиньютоновским методом для невыпуклой стохастической оптимизации.

Ключевые слова:
распознавание образов, машинное обучение, оптимизация, распределения Дирихле, натуральный градиентный спуск.

Благодарности
Авторы выражают благодарность СКФУ за поддержку в рамках проекта поддержки малых научных групп и отдельных ученых. Исследование в параграфе 2 проведено в Северо-Кавказском центре математических исследований в рамках соглашения с Министерством науки и высшего образования Российской Федерации (соглашение № 075-02-2022-892). Исследование в параграфе 2 проведено при поддержке Российского научного фонда (проект № 21-71-00017). Исследование в параграфе 3 проведено при поддержке Российского научного фонда (проект № 22-71-00009).

Цитирование:
Абдулкадиров, Р.И. Новый подход к обучению нейронных сетей с помощью натурального градиентного спуска с импульсом на основе распределений Дирихле / Р.И. Абдулкадиров, П.А. Ляхов // Компьютерная оптика. – 2023. – Т. 47, № 1. – С. 160-169. – DOI: 10.18287/2412-6179-CO-1147.

Citation:
Abdulkadirov RI, Lyakhov PA. A new approach to training neural networks using natural gradient descent with momentum based on Dirichlet distributions. Computer Optics 2023; 47(1): 160-169. DOI: 10.18287/2412-6179-CO-1147.

References:

  1. Gardner WA. Learning characteristics of stochastic-gradient-descent algorithms: A general study, analysis, and critique. Signal Proces 1984; 6(2): 113-133. DOI: 10.1016/0165-1684(84)90013-6.
  2. Loizou N, Richtárik P. Momentum and stochastic momentum for stochastic gradient, Newton, proximal point and subspace descent methods. Comput Optim Appl 2020; 77: 653-710. DOI: 10.1007/s10589-020-00220-z.
  3. Gao S, Pei Z, Zhang Y, Li T. Bearing fault diagnosis based on adaptive convolutional neural network with nesterov momentum. IEEE Sens J 2021; 21(7): 9268-9276. DOI: 10.1109/JSEN.2021.3050461.
  4. Hadgu AT, Nigam A, Diaz-Aviles E. Large-scale learning with AdaGrad on Spark. 2015 IEEE Int Conf on Big Data (Big Data) 2015: 2828-2830. DOI: 10.1109/BigData.2015.7364091.
  5. Wang Y, Liu J, Mišić J, Mišić VB, Lv S, Chang X. Assessing optimizer impact on DNN model sensitivity to adversarial examples. IEEE Access 2019; 7: 152766-152776. DOI: 10.1109/ACCESS.2019.2948658.
  6. Xu D, Zhang S, Zhang H, Mandic DP. Convergence of the RMSProp deep learning method with penalty for nonconvex optimization. Neural Netw 2021; 139: 17-23. DOI: 10.1016/j.neunet.2021.02.011.
  7. Melinte DO, Vladareanu L. Facial expressions recognition for human–robot interaction using deep convolutional neural networks with rectified Adam optimizer. Sensors 2020; 20: 2393. DOI: 10.3390/s20082393.
  8. Noh S-H. Performance comparison of CNN models using gradient flow analysis. Informatics 2021; 8: 53. DOI: 10.3390/informatics8030053.
  9. Huang Y, Zhang Y, Chambers JA. A Novel Kullback–Leibler divergence minimization-based adaptive student’s t-filter. IEEE Trans Signal Process 2019; 67(20): 5417-5432. DOI: 10.1109/TSP.2019.2939079.
  10. Asperti, A. Trentin. M. Balancing reconstruction error and Kullback-Leibler divergence in variational autoencoders. IEEE Access 2020; 8: 199440-199448. DOI: 10.1109/ACCESS.2020.3034828.
  11. Martens J. New insights and perspectives on the natural gradient method. J Mach Learn Res 2020; 21(146): 1-76.
  12. Ma X. Apollo: An adaptive parameter-wise diagonal quasi-newton method for nonconvex stochastic optimization. arXiv Preprint. 2021. Source: <https://arxiv.org/abs/2009.13586>.
  13. Li W, Montúfar G. Natural gradient via optimal transport. Information Geometry 2018; 1: 181-214. DOI: 10.1007/s41884-018-0015-3.
  14. Alvarez F, Bolte J, Brahic O. Hessian Riemannian gradient flows in convex programming. SIAM 2004; 43(2): 68-73. DOI: 10.1137/S0363012902419977.
  15. Abdulkadirov RI, Lyakhov PA. Improving extreme search with natural gradient descent using dirichlet distribution. In Book: Tchernykh A, Alikhanov A, Babenko M, Samoylenko I, eds. Mathematics and its applications in new computer systems. Cham: Springer Nature Switzerland AG; 2022: 19-28. DOI: 10.1007/978-3-030-97020-8_3.
  16. Graf M. Regression for compositions based on a generalization of the Dirichlet distribution. Stat Methods Appt 2020; 29: 913-936. DOI: 10.1007/s10260-020-00512-y.
  17. Li Y. Goodness-of-fit tests for Dirichlet distributions with applications. A PhD dissertation. 2015.
  18. Haykin SS. Neural networks: a comprehensive foundation. Prentice Hall; 1999.
  19. Aghdam HH, Heravi EJ. Guide to convolutional neural networks: A practical application to traffic-sign detection and classification. Cham: Springer International Publishing AG; 2017.

© 2009, IPSI RAS
Россия, 443001, Самара, ул. Молодогвардейская, 151; электронная почта: journal@computeroptics.ru; тел: +7 (846) 242-41-24 (ответственный секретарь), +7 (846) 332-56-22 (технический редактор), факс: +7 (846) 332-56-20