(44-2) 19 * << * >> * Русский * English * Содержание * Все выпуски

Снижение вычислительных затрат в глубоком обучении при почти идеальной линейной разделимости обучающей выборки
И.М. Куликовских 1,2,3

Самарский национальный исследовательский университет имени академика С.П. Королёва,
443086, Россия, г. Самара, Московское шоссе, д. 34,
Факультет электротехники и вычислительной техники, Загребский университет,
10000, Хорватия, г. Загреб, Унска 3,
Институт Руджер Бошкович,
10000, Хорватия, г. Загреб, Биеничка 54

 PDF, 1294 kB

DOI: 10.18287/2412-6179-CO-645

Страницы: 282-289.

Аннотация:
Последние исследования в области глубокого обучения показали, что метод градиентного спуска при условии почти идеальной разделимости обучающей выборки сходится к оптимальному решению, обеспечивающему максимальный зазор между классами. Даже без введения явной регуляризации положение разделяющей гиперплоскости продолжает изменяться, несмотря на то, что ошибка классификации на обучении стремится к нулю. Данное свойство так называемой «неявной» регуляризации позволяет использовать градиентный метод с более агрессивным шагом обучения, что гарантирует более низкие вычислительные затраты. Однако, хотя метод градиентного спуска обеспечивает хорошую обобщающую способность при стремлении к оптимальному решению, скорость сходимости к данному решению в условиях почти идеальной линейной разделимости значительно ниже, чем скорость сходимости, определяемая самой функцей потерь с заданным шагом обучения. В данной работе предлагается расширенная логарифмическая функция потерь, оптимизация параметров которой повышает скорость сходимости, обеспечивая границу погрешности, эквивалентную границе метода градиентного спуска. Результаты вычислительных экспериментов при классификации изображений на эталонных наборах MNIST и Fashion MNIST подтвердили эффективность предложенного подхода к снижению вычислительных затрат в условиях почти идеальной линейной разделимости обучающей выборки и обозначили направления дальнейших исследований.

Ключевые слова:
неявная регуляризация, градиентный метод, скорость сходимости, линейная разделимость, классификация изображений.

Цитирование:
Куликовских, И.М. Снижение вычислительных затрат в глубоком обучении при почти идеальной линейной разделимости обучающей выборки / И.М. Куликовских // Компьютерная оптика. – 2020. – Т. 44, № 2. – С. 282-289. – DOI: 10.18287/2412-6179-CO-645.

Благодарности:
Автор выражает признательность рецензенту за замечания и рекомендации, которые привели к повышению качества представления материалов исследования. Работа выполнена при поддержке грантов Президента РФ (проект № MK-6218.2018.9), Минобрнауки РФ (проект № 074-U01), РФФИ (№ 18-37-00219), а также проекта DATACROSS Центра Превосходства, финансируемого Правительством Хорватии и Европейским Союзом через Европейский фонд регионального развития – Операционная программа конкурентоспособности и сплочения (KK.01.1.1.01.0009).

Литература:

  1. LeCun, Y. Deep learning / Y. LeCun, Y. Bengio, G. Hinton // Nature. – 2015. – Vol. 521(7553). – P. 436-444. – DOI: 10.1038/nature14539.
  2. Goodfellow, I. Deep learning / I. Goodfellow, Y. Bengio, A. Courville. – Cambridge, London: The MIT Press, 2016. – 800 p. – ISBN: 978-0-262-03561-3.
  3. Neyshabur, B. In search of the real inductive bias: On the role of implicit regularization in deep learning [Electronical Resource] / B. Neyshabur, R. Tomioka, N. Srebro // arXiv preprint. – URL: https://arxiv.org/abs/1412.6614 (request date 5.12.2019).
  4. Soudry, D. The implicit bias of gradient descent on separable data / D. Soudry, E. Hoffer, M.S. Nacson, S. Gunasekar, N. Srebro // Journal of Machine Learning Research. – 2018. – Vol. 19. – P. 1-57.
  5. Zhang, C. Understanding deep learning requires rethinking generalization / C. Zhang, S. Bengio, M. Recht, O. Vinyals // arXiv preprint arXiv:1611.03530v2, 2017.
  6. Hoffer, E. Train longer, generalize better: closing the generalization gap in large batch training of neural networks [Electronical Resource] / E. Hoffer, I. Hubara, D. Soudry // arXiv preprint. – URL: https://arxiv.org/abs/1705.08741 (request date 5.12.2019).
  7. Nacson, M.S. Convergence of gradient descent on separable data / M.S. Nacson, J. Lee, S. Gunasekar, N. Srebro, D. Soudry // 2019 22nd International Conference on Artificial Intelligence and Statistics (AISTATS). – 2019. – Vol. PMLR 89. – P. 3420-3428.
  8. Gunasekar, S. Characterizing implicit bias in terms of optimization geometry / S. Gunasekar, J. Lee, D. Soudry, N. Srebro // 2018 35th International Conference on Machine Learning (ICML). – 2018. – Vol. PMLR 80. – P. 1832-1841.
  9. Ma, C. Implicit regularization in nonconvex statistical estimation: Gradient descent converges linearly for phase retrieval and matrix completion / C. Ma, K. Wang, Y. Chi, Y. Chen // 2018 35th International Conference on Machine Learning (ICML). – 2018. – Vol. PMLR 80. – P. 3345-3354.
  10. Kingma, D.P. Adam: A method for stochastic optimization [Electronical Resource] / D.P. Kingma, J.L. Ba // arXiv preprint. – URL: https://arxiv.org/abs/1412.6980 (request date 5.12.2019).
  11. Duchi, J. Adaptive subgradient methods for online learning and stochastic optimization / J. Duchi, E. Hazan, Y. Singer // Journal of Machine Learning Research. – 2011. – Vol. 12. – P. 2121-2159.
  12. Zeiler, M.D. ADADELTA: An adaptive learning rate method [Electronical Resource] / M.D. Zeiler // arXiv preprint. –URL: https://arxiv.org/abs/1212.5701 (request date 5.12.2019).
  13. Kim, H.S. Convergence analysis of optimization algorithms [Electronical Resource] / H.S. Kim, J.H. Kang, W.M. Park, S.H. Ko, Y.H. Cho, D.S. Yu, Y.S. Song, J.W. Choi // arXiv preprint. – URL: https://arxiv.org/abs/1707.01647 (request date 5.12.2019).
  14. Ruder, S. An overview of gradient descent optimization algorithms [Electronical Resource] / S. Ruder // arXiv preprint. – URL: https://arxiv.org/abs/1609.04747 (request date 5.12.2019).
  15. Wilson, A.C. The marginal value of adaptive gradient methods in machine learning / A.C. Wilson, R. Roelofs, M. Stern, N. Srebro, B. Recht // 2017 31st Conference on Neural Information Processing Systems (NIPS). – 2017. – P. 1-11.
  16. Воронцов, К.В. Математические методы обучения по прецедентам (теория обучения машин) [Электронный ресурс] / К.В. Воронцов. – URL:  http:// www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf (дата обращения 01.12.19).
  17. Castañeda, A.R.S. New formulation of the Gompertz equation to describe the kinetics of untreated tumors / A.R.S. Castañeda, E.R. Torres, N.A.V. Goris, [et al.] // PLoS ONE. – 2019. – Vol. 14, Issue 11. – e0224978.
  18. Kulikovskikh, I. BioGD: Bio-inspired robust gradient descent / I. Kulikovskikh, S. Prokhorov, T. Lipić, T. Legović, T. Šmuc // PLoS ONE. – 2019. – Vol. 14, Issue 7. – e0219004.
  19. Kulikovskikh, I. An SGD-based meta-learner with “growing” descent / I. Kulikovskikh, S. Prokhorov, T. Legović, T. Šmuc // Journal of Physics: Conference Series. – 2019. – Vol. 1368. – 052008.
  20. Савченко, А.В. Метод максимально правдоподобных рассогласований в задаче распознавания изображений на основе глубоких нейронных сетей / А.В. Савченко // Компьютерная оптика. – 2017. – Т. 41, № 3. – С. 422-430. – DOI: 10.18287/2412-6179-2017- 41-3-422-430.
  21. An, S. How can deep rectifier networks achieve linear separability and preserve distances? / S. An, F. Boussaid, M. Bennamoun // 2015 32nd International Conference on Machine Learning (ICML). – 2015. – Vol. PMLR 375. – P. 514-523.
  22. Bergstra, J. Random search for hyperparameter optimization / J. Bergstra, Y. Bengio // Journal of Machine Learning Research. – 2012. – Vol. 13. – P. 281-305.

© 2009, IPSI RAS
Россия, 443001, Самара, ул. Молодогвардейская, 151; электронная почта: ko@smr.ru ; тел: +7 (846) 242-41-24 (ответственный секретарь), +7 (846) 332-56-22 (технический редактор), факс: +7 (846) 332-56-20