Илон Маск анонсировал запуск обучения модели на кластере из 100 тыс Nvidia H100

Сегодня Илон Маск объявил о начале обучения неназванной модели на вычислительном кластере, состоящем из 100 тыс графических ускорителей Nvidia H100 с жидкостным охлаждением. На сегодня основанная Маском компания xAI успела выпустить 1-е поколение чат-бота Grok и его модификацию (v1.5), а 2-е поколение он обещал в августе. И поскольку, согласно Маску, релиз Grok 3 состоится к концу года и для его обучения потребуется 100 тыс Nvidia H100, можно смело констатировать начало обучения именно этой модели. «Это значительное преимущество в обучении самого мощного в мире,по всем показателям, ИИ к декабрю этого года», написал Илон Маск.

Как уже рассказывал Gadgets News, по слухам GPT-4 обучалась на 25 тыс графических ускорителей Nvidia A100 (2020), чья тензорная производительность в операциях на разреженных матрицах составляет 624 терафлопс FP16. Аналогичная производительность Nvidia H100 (2022) составляет 1979 TFLOPS, т.е. втрое выше. Соответственно, если информация про GPT-4 соответствует действительности, то новый кластер в 12 раз производительнее. Маск назвал его мощнейшим в мире, но утверждать этого нельзя — в мае OpenAI объявила, что начала обучение своей следующей передовой модели. Если речь идет о GPT-5, то размеры кластера альянса OpenAI-Microsoft могут как минимум не уступать xAI. Что касается интеллектуальных возможностей Grok 3, то по словам Маска он будет на равных с GPT-5, или даже превзойдет его. Релиз GPT-5 ожидается в конце этого или начале следующего года, примерно тогда же, вероятно, выйдет и Claude 4.

Но главная интрига состоит не в том какая из этих трех моделей окажется лучшей, а насколько они будут превосходить нынешнее поколение. Скептики указывают на принципиальную неспособность больших языковых моделей (LLM) решать задачи, требующие понимания реального, некнижного, мира. Их оппоненты возражают, что несовершенство нынешних LLM поправимо посредством увеличения их размеров, количество и качества обучающего дата-сета, а главное — применения специальных техник вроде Quiet-STaR. Даже нынешние модели могут вести себя по-разному. Например, по свидетельству автора YouTube-канала AI Explained, чат-бот ChatGPT-4o (набравший в медицинских экзаменах Великобритании и США 94% и 90% соответственно), поставил диагноз диабетику, проигнорировав пулевое ранение его головы. Зато другой чат-бот, Claude 3.5 Sonnet, обратил на это внимание. Он же, как мы уже рассказывали, почти справился с одним из типичных тестов бенчмарка ARC-AGI (претендующего на истинное мерило человекоподобного интеллекта) — в отличие от ChatGPT-4o. Следующий год, когда пользователи будут вовсю тестировать GPT-5, Claude 4, Grok 3 и Gemini 2, вряд ли поставит точку в этом споре, но обещает значительно укрепить позицию одной из сторон. Причем независимо от резервов чисто текстового обучения, тренировка ИИ на видео конечно же продолжится — роботы без неё не обойдутся.