Google представила Gemini (сильно приукрасив её возможности) и открыла 2 млн кристаллических структур, Amazon анонсировала Graviton4 и Trainium2, а AMD начала продажи Instinct MI300X

Опубликовано 22:00 10.12.202320:08 12.12.2023 автором Иван Подсекальников

На этой неделе произошло, возможно, главное событие года в индустрии ИИ — компания Google показала, наконец, Gemini — систему, которая «с нуля создана для мультимодальности» и «легко воспринимает текст, изображения, видео, аудио и код». Правда, впечатление от презентации Gemini было подпорчено сноской, что «для целей этой демонстрации задержка была уменьшена, а выходные данные Gemini были сокращены для краткости». На уточняющий запрос Bloomberg в Google ответили, что видео презентации было смонтировано «с использованием неподвижных кадров из видеозаписей и текстовых подсказок». Это совсем не похоже на то, на что показала Google на презентации. А показала она весьма впечатляющие вещи. В числе прочего, Gemini в режиме реального времени:

описывает то, что рисует пользователь: «Вижу гладкие линии… Похоже на птицу… Это утка, плывущая по воде»
угадывает под каким из трех стаканов находится шарик (трепещите, напёрсточники!)
правильно отвечает на вопрос по какой из двух нарисованных дорожек лучше направиться игрушечному утёнку — в конце которой нарисована утка или в конце которой нарисовано нечто угрожающее, идентифицированное Gemini в качестве медведя
исправляет ошибку в расположении небесных светил (Солнце, Юпитер и Земля)
правильно отвечает на вопрос какой из нарисованных автомобилей съедет с горки быстрее (тот, у которой визуально явно лучшая аэродинамика).

Как пояснил один из топ-менеджеров Google, «Это видео иллюстрирует как может выглядеть мультимодальный пользовательский опыт, созданный с помощью Gemini. Мы сделали его, чтобы вдохновить разработчиков».

Также следует помнить, что в презентации демонстрируются возможности самой крупной и сильной версии Gemini, Ultra — тогда как в чат-бот Bard интегрирована более слабая, Pro. Последняя, по отзывам пользователей, заметно уступает GPT-4 и находится примерно на уровне GPT-3.5. От себя могу заметить, что логическую задачу, которую я люблю задавать чат-ботам, Bard на базе Gemini Pro с треском провалил — в отличие, например, от встроенной в Microsoft Bing модели GPT-4. Не справился он и с простенькой задачей по арифметике, которую правильно решили даже ChatGPT на базе GPT-3.5 и Claude 2. А непосредственно Ultra-версия Gemini станет доступной в начале следующего года.

Что касается бенчмарков, то в большинстве из них Gemini Ultra превосходит GPT-4 ненамного. И если предположить, что релиз Gemini Ultra состоится в марте 2024, то придется констатировать, что своего конкурента OpenAI компания Google догнала лишь год спустя — и ей придется догонять его снова с релизом GPT-5. Причем длина контекста у Gemini всего 32 тыс токенов — против 124 тыс у вышедшей в ноябре GPT-4 Turbo.

И тем не менее, Gemini (а точнее её Ultra-версия) знаменует собой если не прорыв (или даже пришествие AGI, как поспешили заявить некоторые блогеры), то серьезный шаг вперед. Пусть сервера Google и не способны в интерактивном режиме обрабатывать получаемое от пользователя видео (в это верилось с трудом с самого начала) и гораздо дольше обрабатывают его запросы, чем это выглядит на презентации — это временная проблема, которая упирается в производительность. Если в обозримом будущем дата-центры достигнут производительности, необходимой для подобной интерактивности, то с такими когнитивными способностями в нашем взаимодействии с компьютерами произойдет настоящая революция.

Предпосылки для этого существуют. С одной стороны, разработчики неустанно работают над повышением эффективности своих продуктов. Например, в ноябре Microsoft представила модель Orca 2, которая в версии с 13 млрд параметров заметно превосходит в бенчмарках LLaMA-2 с 70 млрд параметров.

С другой стороны, непрерывно растет производительность графических ускорителей (на которых главным образом обучаются и работают такие модели как Gemini и GPT-4). На этой неделе начались поставки анонсированного в июне AMD Instinct MI300X, чье быстродействие достигает 81.7 TFLOPS FP64. Это уровень пиковой производительности самого быстрого в мире суперкомпьютера в ноябре 2004 (BlueGene/L beta-System, 91.75 TFLOPS FP64) и на 70% больше, чем у анонсированного два года назад Instinct MI250x. А три года назад производительность самого быстрого (на то время) в FP64-вычислениях графического ускорителя, Instinct MI100, составляла всего 11.5 TFLOPS. На одном Instinct MI300X можно запустить модель с 40 млрд параметров. Согласно заявленным AMD результатам тестирования на бенчмарках Instinct MI300X до 60% превосходит Nvidia H100 (анонсирован в марте 2022). Правда, в ноябре этого года Nvidia представила H200, который заметно превосходит предшественника благодаря увеличению памяти и её пропускной способности.

В свою очередь Amazon (а точнее её дочерняя компания Amazon Web Services) в конце ноября представила два новых процессора для своих дата-центров, 96-ядерное ЦПУ (с архитектурой ARM) Graviton4 и ускоритель для задач искусственного интеллекта, Trainium2. Первый на 30% производительнее своего предшественника, второй — в целых 4 раза.

Подобно Amazon, Google предпочитает продукции Nvidia и AMD свои собственные процессоры. Одновременно с Gemini компания представила тензорный чип TPU v5p, который, в отличие от TPU v5e, заточен не на энергоэффективность (e — efficiency), а на производительность (p — performance). В вычислениях с точностью Bf16 он превосходит своего прошлогоднего предшественника на 67%:

Как можно видеть на примере всех этих графических и тензорных ускорителей, производительность платформ, на которых обучаются и работают системы искусственного интеллекта, растет довольно быстро. Сегодня графические ускорители имеют производительность на уровне суперкомпьютеров 20-летней давности, и если эта тенденция сохранится, то в 2040-х настольные системы будут иметь производительность на уровне нескольких экзафлопс. Этому может помешать окончательное прекращение, к тому времени, действия закона Мура — но способствовать появление новых архитектур. Например, нейроморфных процессоров. На днях стало известно, что компания OpenAI, прославившаяся своим чат-ботом ChatGPT, еще в 2019 году подписала соглашение о намерении инвестировать $51 млн в основанную за два года до этого компанию Rain AI. Уже по этой скромной сумме можно заметить, что пока эта индустрия находится в зачаточном состоянии, но сама по себе идея воспроизвести базовые принципы работы мозга не только в софте, но и в железе, представляется весьма перспективной.

Ну и конкретно в случае с Gemini стоит отметить фактор личности — Google DeepMind возглавляет Демис Хассабис. Это один из крупнейших в мире специалистов по искусственному интеллекту, который сочетает инженерное образование с глубоким знанием нейробиологии (PhD в области когнитивной нейробиологии, исследовательская работа по этому профилю в Массачусетском технологическом институте и Гарвардском университете, соавторство в нескольких влиятельных работах, опубликованных в т.ч. в Nature и Science). Словом, достойный соперник Ильи Суцкевера и Яна Лекуна, которые возглавляют разработку ИИ в OpenAI и Meta (Facebook) соответственно. Под руководством Хассабиса DeepMind прославилась сразу несколькими разработками. В частности, это AlphaGo (обыгравшая в го самого Ли Седоля) и AlphaFold (чье второе поколение c 92% точностью построила пространственную структуру 200 млн белков по их аминокислотным последовательностям).

А еще одновременно с Gemini была анонсирована созданная на её основе AlphaCode 2 — второе поколение предназначенной для написания компьютерных алгоритмов системы, в которой возможности большой языкой модели сочетаются со специально разработанным механизмом поиска и ранжирования (для отбора правильного алгоритма среди множества сгенерированных). Согласно Google, по сравнению с предшественником AlphaCode 2 лучше на 70%. Лежащий в основе этих моделей перебор выигрышных стратегий перекликается с научной работой Let’s Verify Step by Step, о которой рассказывал Gadgets News в публикации на тему возможного прорыва OpenAI. Напомню, что в той работе описываются модели вознаграждения с контролем процесса — в противовес нынешним моделям вознаграждения с контролем результата. По мнению некоторых экспертов, именно связка эффективного отбора выигрышного варианта с большими языковыми моделями может стать ключом к созданию AGI — искусственного интеллекта человеческого уровня.

И в заключение про еще одну разработку Google DeepMind — GNoME. При помощи этого инструмента были открыты 2.2 млн кристаллических структур — включая 380 тыс стабильных материалов, которые могут сыграть важную роль в будущих технологиях. Например, это 528 потенциальных литий-ионных проводников, которые можно использовать для улучшения характеристик перезаряжаемых батарей. По мнению Google, этот огромный объем полученных данных эквивалентен знаниям, накопленным за 800 лет. AlphaFold и GNoME здесь и сейчас закладывают предпосылки для важных научно-технических достижений в будущем. А также для еще большего количества научных публикаций. И в этом отношении Gemini и подобные ей модели могут оказаться большим подспорьем. На презентации рассказали о способности Gemini отбирать среди сотен тысяч научных публикаций те, что отвечают заданным критериям, и извлекать из них необходимую информацию. Вероятно это еще не совсем то, о чем мечтал Gadgets News в публикации Будущее информационной революции: что нас ожидает в ближайшие десятилетия? — но уже нечто похожее.

Google представила Gemini (сильно приукрасив её возможности) и открыла 2 млн кристаллических структур, Amazon анонсировала Graviton4 и Trainium2, а AMD начала продажи Instinct MI300X

Добавить комментарий Отменить ответ

Рубрики