(47-1) 18 * << * >> * Русский * English * Содержание * Все выпуски
  
Новый подход к обучению нейронных сетей  с помощью натурального градиентного спуска с импульсом на основе распределений Дирихле
 Р.И. Абдулкадиров 1, П.А. Ляхов 2
 1 Северо-Кавказский центр математических исследований,
 
355009, Россия, г. Ставрополь, ул. Пушкина 1;
     2 Северо-Кавказский федеральный университет,
     355009, Россия, г. Ставрополь, ул. Пушкина 1
 
 PDF, 1299 kB
  PDF, 1299 kB
DOI: 10.18287/2412-6179-CO-1147
Страницы: 160-169.
Аннотация:
В данной работе мы предлагаем алгоритм натурального  градиентного спуска с импульсом на основе распределений Дирихле для ускорения  обучения нейронных сетей. Данный подход учитывает не только направления  градиентов, но и выпуклость минимизируемой функции, что значительно ускоряет  процесс поиска экстремумов. Представлены вычисления натуральных градиентов,  базирующихся на распределениях Дирихле, и реализовано внедрение предложенного  подхода в схему обратного распространения ошибок. Результаты по распознаванию  изображений и прогнозированию временных рядов во время проведения экспериментов  показывают, что предложенный подход дает более высокую точность и не требует  большого количества итераций для минимизации функций потерь, по сравнению с  методами стохастического градиентного спуска, адаптивной оценки момента и  адаптивным по параметрам диагональным квазиньютоновским методом для невыпуклой  стохастической оптимизации.
Ключевые слова:
распознавание образов, машинное обучение,  оптимизация, распределения Дирихле, натуральный градиентный спуск.
Благодарности
Авторы выражают  благодарность СКФУ за поддержку в рамках проекта поддержки малых научных групп  и отдельных ученых. Исследование в параграфе 2 проведено в Северо-Кавказском  центре математических исследований в рамках соглашения с Министерством науки и  высшего образования Российской Федерации (соглашение № 075-02-2022-892).  Исследование в параграфе 2 проведено при поддержке Российского научного фонда  (проект № 21-71-00017). Исследование в параграфе 3 проведено при поддержке  Российского научного фонда (проект № 22-71-00009).
Цитирование:
Абдулкадиров, Р.И. Новый подход к обучению нейронных сетей с помощью натурального градиентного спуска с импульсом на основе распределений Дирихле / Р.И. Абдулкадиров, П.А. Ляхов // Компьютерная оптика. – 2023. – Т. 47, № 1. – С. 160-169. – DOI: 10.18287/2412-6179-CO-1147.
Citation:
Abdulkadirov RI, Lyakhov PA. A new approach to training neural networks using natural gradient descent with momentum based on Dirichlet distributions. Computer Optics 2023; 47(1): 160-169. DOI: 10.18287/2412-6179-CO-1147.
References:
  - Gardner WA.  Learning characteristics of stochastic-gradient-descent algorithms: A general  study, analysis, and critique. Signal Proces 1984; 6(2): 113-133. DOI:  10.1016/0165-1684(84)90013-6.
- Loizou N, Richtárik P.  Momentum and stochastic momentum for stochastic gradient, Newton, proximal point and subspace descent  methods. Comput Optim Appl 2020; 77: 653-710. DOI: 10.1007/s10589-020-00220-z. 
 
- Gao S, Pei Z, Zhang Y, Li T.  Bearing fault diagnosis based on adaptive convolutional neural network with nesterov momentum. IEEE Sens J 2021;  21(7): 9268-9276. DOI: 10.1109/JSEN.2021.3050461.
 
- Hadgu AT, Nigam A, Diaz-Aviles  E. Large-scale learning with AdaGrad on Spark. 2015 IEEE Int Conf on Big Data  (Big Data) 2015: 2828-2830. DOI: 10.1109/BigData.2015.7364091.
 
- Wang Y, Liu J, Mišić J, Mišić  VB, Lv S, Chang X. Assessing optimizer impact on DNN model sensitivity to adversarial  examples. IEEE Access 2019; 7: 152766-152776. DOI: 10.1109/ACCESS.2019.2948658.
 
- Xu D, Zhang S, Zhang H, Mandic  DP. Convergence of the RMSProp deep learning method with penalty for nonconvex  optimization. Neural Netw 2021; 139: 17-23. DOI: 10.1016/j.neunet.2021.02.011.
 
- Melinte DO, Vladareanu L.  Facial expressions recognition for human–robot interaction using deep  convolutional neural networks with rectified Adam optimizer. Sensors 2020; 20:  2393. DOI: 10.3390/s20082393.
 
- Noh S-H. Performance comparison  of CNN models using gradient flow analysis. Informatics 2021; 8: 53. DOI:  10.3390/informatics8030053.
 
- Huang Y, Zhang Y, Chambers JA.  A Novel Kullback–Leibler divergence minimization-based adaptive student’s  t-filter. IEEE Trans Signal Process 2019; 67(20): 5417-5432. DOI:  10.1109/TSP.2019.2939079.
 
- Asperti, A. Trentin. M.  Balancing reconstruction error and Kullback-Leibler divergence in variational  autoencoders. IEEE Access 2020; 8: 199440-199448. DOI:  10.1109/ACCESS.2020.3034828.
 
- Martens J. New insights and  perspectives on the natural gradient method. J Mach Learn Res 2020; 21(146):  1-76.
 
- Ma  X. Apollo: An adaptive parameter-wise diagonal quasi-newton method for  nonconvex stochastic optimization. arXiv Preprint. 2021. Source: <https://arxiv.org/abs/2009.13586>.
 
- Li W, Montúfar G. Natural gradient via optimal transport.  Information Geometry 2018; 1: 181-214. DOI: 10.1007/s41884-018-0015-3.
 
- Alvarez F, Bolte J, Brahic O. Hessian Riemannian gradient flows in  convex programming. SIAM 2004; 43(2): 68-73. DOI: 10.1137/S0363012902419977.
 
- Abdulkadirov RI, Lyakhov PA. Improving extreme search  with natural gradient descent using dirichlet  distribution. In Book: Tchernykh A, Alikhanov A, Babenko M, Samoylenko I, eds.  Mathematics and its applications in new computer systems. Cham: Springer Nature  Switzerland AG; 2022: 19-28. DOI: 10.1007/978-3-030-97020-8_3.
 
- Graf  M. Regression for compositions based on a generalization of the Dirichlet  distribution. Stat Methods Appt 2020; 29: 913-936. DOI:  10.1007/s10260-020-00512-y.
 
- Li Y. Goodness-of-fit tests for Dirichlet distributions with  applications. A PhD dissertation. 2015.
 
- Haykin SS. Neural networks: a comprehensive foundation. Prentice  Hall; 1999.     
    
- Aghdam HH, Heravi EJ. Guide to convolutional neural  networks: A practical application to traffic-sign detection and classification.  Cham: Springer International Publishing AG; 2017.
      
      
    
  
  © 2009, IPSI RAS
    Россия, 443001, Самара, ул. Молодогвардейская, 151; электронная почта: journal@computeroptics.ru; тел: +7  (846)  242-41-24 (ответственный секретарь), +7 (846) 332-56-22 (технический  редактор), факс: +7 (846) 332-56-20