Megatron-Turing NLG: нейросеть с 530 млрд параметров для работы с текстами на ЕЯ

Позавчера Nvidia представила разработанную совместно с Microsoft искусственную нейронную сеть (ИНС) Megatron-Turing NLG. Её особенность заключается в огромном количество параметров — 530 млрд. Для сравнения, как уже рассказывал Gadgets News, созданная в 2015 остаточная нейросеть ResNet (снизившая процент ошибок распознавания изображений ImageNet до 3,57%) состояла из 60 млн параметров. Впрочем, рекорд ИНС от Google все еще не побит — у той и вовсе 1.6 трлн параметров — но о ней мало что известно.

Megatron-Turing NLG имеет архитектуру трансформерного типа, которая с 2017 года активно применяется в обработке текстов на естественном языке (для которой до этого использовались в основном рекуррентные нейросети). В пресс-релизе Nvidia отмечены следующие задачи для Megatron-Turing NLG:

  • Прогнозирование завершения [текста]
  • Понимание прочитанного
  • Логическое мышление
  • Умозаключения на естественном языке
  • Устранение смысловой неоднозначности.

В качестве практических примеров можно назвать дописание программного кода и написание кратких аннотаций к статьям или даже целым книгам. В руках злоумышленников подобные Megatron-Turing NLG системы могут стать инструментом создания фейковых новостей и прочих фальшивок — такие случаи известны на примере GPT-3. Но даже при добросовестном подходе они не застрахованы от обучения на текстах, содержащих ошибки, стереотипы и т.д.

Обучение нейросети осуществлялось на суперкомпьютере Selene, который оценивается свыше $85 млн. Он оснащен 560 серверами Nvidia DGX-A100, каждый из которых имеет по восемь графических ускорителей Nvidia A100. Пиковая производительность Selene — 79,215 TFLOPS (FP64). В качестве обучающего материала использовались 15 англоязычных наборов текстов (включая Википедию) общим объемом 270 млрд токенов (символов или их комбинаций).

В свете свежих новостей о нейроморфных процессорах в очередной раз напрашивается сравнение новейших программных и аппаратных нейросетей с человеческим мозгом. Напомню, что крошечный чип Intel Loihi 2 содержит 1 млн искусственных нейронов на площади 31 мм2. Поэтому теоретически суперчип Cerebras WSE-2 (46225 мм2), имея ту же литографию Intel 4 (бывшие 7 нм), вместил бы почти полтора миллиарда искусственных нейронов. Соответственно дата-центр из десяти таких суперчипов по количеству нейронов номинально эквивалентен человеческому неокортексу. Но на деле конечно это далеко не так — биологический нейрон является очень сложным устройством, аналогом которого может послужить отдельная ИНС. Если она будет состоять, например, из 1000 искусственных нейронов, то вместо 10 суперчипов Cerebras WSE-2 потребуется уже 10 тыс. Это конечно при условии, что решена проблема с масштабированием и, самое главное, пониманием работы мозга (достаточным для его искусственного воспроизведения).

Что касается программных нейросетей, то параметры в них — веса входов нейронов. Их аналогом в живом мозге являются синапсы, количество которых исчисляется сотнями триллионов — в тысячи раз больше, чем в Megatron-Turing NLG.

Таким образом, для искусственного воспроизведения человеческого мозга, помимо понимания того как он устроен и работает, потребуется ресурсов в тысячу раз больше, чем сегодня можно реализовать. В то же время нельзя не отметить скорость, с которой развиваются все эти технологии. Если (без особых на то оснований) применить к нейроморфным процессорам и ИНС закон Мура и предположить, что размеры аппаратных и программных нейросетей будут удваиваться каждые два года, то предпосылки для искусственного воссоздания человеческого мозга возникнут примерно через двадцать лет.