1. Невозможные детерминированные, стохастические алгоритмы и алгоритмы уменьшения дисперсии для оптимизации в условиях ограничений ортогональности (arXiv)

Автор: Пьер Аблен, Симон Вари, Бин Гао, П. -А. Абсиль

Аннотация: Ограничения ортогональности естественным образом появляются во многих задачах машинного обучения, от анализа основных компонентов до обучения надежной нейронной сети. Обычно они решаются с помощью алгоритмов римановой оптимизации, которые минимизируют целевую функцию при соблюдении ограничения. Однако выполнение ограничения ортогональности может быть наиболее трудоемкой операцией в таких алгоритмах. Недавно Ablin & Peyré (2022) предложили алгоритм Landing, метод с дешевыми итерациями, который не навязывает ограничение ортогональности, но плавно притягивается к многообразию. В этой статье мы приводим новые практические и теоретические разработки алгоритма посадки. Во-первых, метод распространяется на многообразие Штифеля, набор прямоугольных ортогональных матриц. Мы также рассматриваем стохастические алгоритмы и алгоритмы уменьшения дисперсии, когда функция стоимости представляет собой среднее значение многих функций. Мы показываем, что все эти методы имеют ту же скорость сходимости, что и их римановы аналоги, которые точно обеспечивают ограничение. Наконец, наши эксперименты демонстрируют перспективность нашего подхода к решению множества задач машинного обучения, связанных с ограничениями ортогональности.

2. Полугладкий Ньютоновский стохастический алгоритм проксимальной точки с уменьшением дисперсии

(архив)

Автор: Андре Мильзарек, Фабиан Шайпп, Михаэль Ульбрих.

Аннотация: Мы разрабатываем реализуемый метод стохастической проксимальной точки (SPP) для класса слабо выпуклых сложных задач оптимизации. Предлагаемый алгоритм стохастической проксимальной точки включает в себя механизм уменьшения дисперсии, и результирующие обновления SPP решаются с использованием неточной полугладкой структуры Ньютона. Мы устанавливаем подробные результаты сходимости, которые учитывают неточность шагов SPP и которые соответствуют существующим гарантиям сходимости (проксимальных) стохастических градиентных методов с уменьшенной дисперсией. Численные эксперименты показывают, что предложенный алгоритм выгодно конкурирует с другими современными методами и обеспечивает более высокую надежность в отношении выбора размера шага.