Системы глубокого обучения революционизируют технологии вокруг нас – от распознавания голоса, связывающего вас с вашим телефоном, до автономных транспортных средств, которые все больше способны видеть и распознавать препятствия впереди. Но большая часть этого успеха связана с методом проб и ошибок, когда речь идет о самих сетях глубокого обучения. Группа исследователей Массачусетского технологического института недавно рассмотрела их вклад в лучшее теоретическое понимание сетей глубокого обучения, обеспечив направление для дальнейшей работы в этой области.
[penci_related_posts title=”Вам также может быть интересно” number=”4″ style=”list” align=”none” displayby=”cat” orderby=”random”]
«Глубокое обучение было в некотором смысле случайным открытием», – объясняет Томми Поджио, исследователь в Институте исследований мозга Макговерна, директор Центра мозга, разума и машин (CBMM), а также профессор Юджина МакДермотта в области мозга и когнитивных наук. , «Мы до сих пор не понимаем, почему это работает. Теоретические рамки обретают форму, и я считаю, что сейчас мы близки к удовлетворительной теории. Настало время отступить и пересмотреть последние идеи».
Восхождение на горы данных
Нынешняя эпоха отмечена избытком данных – данных из недорогих датчиков всех типов, текста, Интернета и большого количества геномных данных, генерируемых в науках о жизни. В наши дни компьютеры поглощают эти многомерные наборы данных, создавая ряд проблем, которые покойный математик Ричард Беллман назвал «проклятием размерности».
Одна из этих проблем заключается в том, что для представления гладкой многомерной функции требуется астрономически большое количество параметров. Мы знаем, что глубокие нейронные сети особенно хороши в изучении того, как представлять или аппроксимировать такие сложные данные, но почему? Понимание того, почему потенциально может помочь в продвижении приложений глубокого обучения.
«Глубокое обучение похоже на электричество после того, как Вольта обнаружил батарею, но до Максвелла», – объясняет Поджио, научный советник The Core, MIT Quest for Intelligence и исследователь в лаборатории компьютерных наук и искусственного интеллекта (CSAIL) в MIT. «Полезные приложения были, конечно, возможны после Вольты, но именно теория электромагнетизма Максвелла, это более глубокое понимание, открыло путь к радио, телевизору, радару, транзистору, компьютерам и Интернету».
Теоретическая обработка Поджо, Анджея Банбурски и Цяньли Ляо указывает на то, почему глубокое обучение может преодолеть такие проблемы с данными, как «проклятие размерности». Их подход начинается с наблюдения, что многие природные структуры являются иерархическими. Для моделирования роста и развития дерева не требуется указывать местоположение каждой ветки. Вместо этого модель может использовать локальные правила для иерархического управления ветвлением. Визуальная система приматов, кажется, делает нечто подобное при обработке сложных данных. Когда мы смотрим на естественные изображения, включая деревья, кошек и лица, мозг последовательно интегрирует локальные участки изображений, затем небольшие коллекции участков, а затем наборы участков участков.
«Физический мир является композиционным – другими словами, он состоит из множества локальных физических взаимодействий», – объясняет Цяньли Ляо, автор исследования, аспирант кафедры электротехники и компьютерных наук и член CBMM. «Это выходит за рамки изображений. Язык и наши мысли являются композиционными, и даже наша нервная система является композиционной с точки зрения того, как нейроны соединяются друг с другом. Наш обзор теоретически объясняет, почему глубокие сети так хороши для представления этой сложности».
Интуиция заключается в том, что иерархическая нейронная сеть должна лучше приближать композиционную функцию, чем отдельный «слой» нейронов, даже если общее число нейронов одинаково. Техническая часть их работы определяет, что означает «лучше в приближении», и доказывает, что интуиция верна.
Головоломка обобщения
Есть вторая загадка о том, что иногда называют необоснованной эффективностью глубоких сетей. Модели глубокой сети часто имеют гораздо больше параметров, чем данных, чтобы соответствовать им, несмотря на массу данных, которые мы производим в наши дни. Эта ситуация должна привести к тому, что называется «переоснащением», когда ваши текущие данные хорошо соответствуют модели, но любые новые данные ужасно соответствуют модели. Это называют плохим обобщением в обычных моделях. Традиционное решение состоит в том, чтобы ограничить некоторые аспекты процедуры подбора. Однако глубокие сети, по-видимому, не требуют этого ограничения. Поджо и его коллеги доказывают, что во многих случаях процесс обучения в глубокой сети неявно «упорядочивает» решение, создавая ограничения.
Работа имеет ряд последствий в будущем. Хотя глубокое обучение активно применяется в мире, до сих пор это происходило без всеобъемлющей теории. Теория глубокого обучения, которая объясняет, почему и как работают глубокие сети, и каковы их ограничения, вероятно, позволит разработать еще более эффективные подходы к обучению.
«В долгосрочной перспективе способность разрабатывать и создавать более совершенные интеллектуальные машины будет иметь важное значение для любой экономики, основанной на технологиях», – объясняет Поджио. «В конце концов, даже в своем нынешнем – все еще крайне несовершенном – состоянии глубокое обучение оказывает влияние или может повлиять практически на каждый аспект нашего общества и жизни».
Источник: Массачусетский технологический институт
Фото: CC0 Public Domain