Итоги 2024 года и новогоднее поздравление от Gadgets News

Итак, настала пора подведения итогов уходящего 2024 года. Мы перечислим события, которые нам показались особенно интересными и релевантными темам, которые мы периодически затрагивали в своем блоге.

Главным ньюсмейкером этого года был искусственный интеллект — как и в предыдущем 2023. Но 2024 стал первым годом в истории человечества, когда появление AGI, искусственного разума человеческого уровня, стало казаться реальной перспективой ближайших лет не единичным оптимистам (вроде Марвина Мински, который в 1970 предсказывал, что «через 3-8 лет мы получим машину с общим интеллектом среднего человека»), а целому множеству авторитетных специалистов в этой области. Но обо всем по порядку.

В этом году главные игроки индустрии представили очередное поколение своих моделей: компания Илона Маска X — Groc 2, Anthropic — Claude 3.5 (среднюю и маленькую версии Sonnet и Haiku), Google — Gemini 1.5 (среднюю версию Pro) и Gemini 2 (маленькую версию Flash). Безусловным лидером по-прежнему остается OpenAI — в этом году она выпустила сразу три выдающиеся модели: GPT-4o, o1 и 03 (название o2 было пропущено во избежание ассоциаций и судебных тяжб с известной телекоммуникационной компанией). Главной особенностью GPT-4o стали две поистине революционные технологии. Чат-бот: 1) заговорил на удивление естественным голосом, с соблюдением уместной в контексте разговора интонации и эмоциональной окраски, и 2) научился понимать визуальную информацию. Образно говоря, ИИ обрел речь и зрение. Аналогичная способность понимать увиденное на камеру смартфона была анонсирована Google еще в конце прошлого года, в рамках презентации первого поколения Gemini (Project Astra), но в случае с ChatGPT эта возможность уже доступна платным пользователям. Причем чат-бот может видеть не только через камеру, но и то, что выводится на дисплей.

С конца прошлого года интерес к ИИ разогревали слухи о некоей секретной технологии, разработанной и тестируемой в недрах OpenAI. Сначала она фигурировала под именем Q* (Q-Star), а затем Strawberry. С сентябрьским релизом preview-версии модели o1 эти утечки обрели реальность — речь идет о т.н. цепочке мысли (Chain-of-Though, CoT), способности большой языковой модели выстраивать сложные многоэтапные рассуждения при решении порученной задачи. Несмотря на отдельные досадные ляпы, вроде ошибки при подсчета букв в слове или сравнении десятичных дробей, o1-preview в целом показывала выдающиеся результаты в бенчмарках, в т.ч. по данным независимых тестов. Например, из 12 задач чрезвычайно сложной и престижной Математической олимпиады им. Уильяма Лоуэлла Патнема 2023 года o1 в полном объеме решил 3 задачи, еще 4 он решил частично. Совокупный результат модели составил 49 баллов из 120 — чуть хуже, чем у ста лучших участников олимпиады (в которой в прошлом году участвовало больше 4 тыс лучших студентов Северной Америки). Для сравнения, средний бал участников составляет 10 баллов из 120. Любопытно, что в 2017 году экспертное сообщество (352 опрошенных участников Международной конференции по машинному обучению (ICML) и Конференции по машинному обучению и нейровычислениям (NIPS) на достижение уровня лучших участников-людей в Математической олимпиаде Патнема отводило в среднем 34 года (т.е. к 2052 году).

А спустя несколько месяцев, в декабре, OpenAI представила сначала o1 Pro, а затем и o3. Последняя стала, пожалуй, самым ярким и главным ИИ-анонсом этого года — ведь это был настоящий прорыв. Во-первых, o3 набрала 25% в самом сложном из ныне существующих бенчмарков, Math Frontier — наборе из нескольких сотен чрезвычайно сложных и нигде ранее не опубликованных задач, совместно придуманных десятками сильнейших математиков планеты. Как уже рассказывал Gadgets News, даже профильным математикам требуются часы или даже дни для решения этих задач, чья особенность — крайне ограниченный объем обучающих данных, которые бы способствовали решению. Для сравнения, o1 набирала в этом бенчмарке на порядок меньше — скромные 2%. Другой бенчмарк, ARC-AGI, содержит простые для человека, но сложные для ИИ, задания. Следующий график дает наглядное представление о динамике прогресса моделей OpenAI в этом бенчмарке всего в течение одного года:

Способность рассуждать была анонсирована и в моделях других компаний — например, на днях возглавляющий Google DeepMind Демис Хассабис написал в Твиттере, что Gemini 2.0 Flash Thinking — это «первая «мыслящая» модель», и обещает «много больше новостей об этом в ближайшее время», напомнив о первенстве компании в такого рода моделях — AlphaGo, AlphaZero, AlphaProof. Последняя вышла как раз в этом году и сочетает в себе предобученную языковую модель Gemini (которая перевела с естественного языка на формальный язык Lean миллионы математических задач) и алгоритм обучения с подкреплением AlphaZero (обобщенную, т.е. способную играть в разные игры, версию знаменитой AlphaGo). Вместе с другой системой, AlphaGeometry, и её 2-м поколением (обе вышли в этом года) AlphaProof решила четыре задачи из шести международной математической Олимпиады, недобрав всего один балл до золотой медали, которую в этом году получили 58 из 609 участников (каждый десятый).

Сообщение Хассабиса затрагивает чрезвычайно интересный вопрос: что же лежит в основе технологии, которая позволяет большим языковым моделям выстраивать рассуждения, и отличаются ли подходы разных компаний? Своими соображениями о принципах работы CoT в o3 поделился, например, Франсуа Шолле, комментируя прорывные достижения модели в разработанном им бенчмарке ARC-AGI, но достоверных сведений на этот счет пока нет. В любом случае очевидно, что способность больших языковых моделей (или взаимодействующих с ним систем) рассуждать уже вовсю реализуется в различных моделях. Включая опенсорсные китайские Qwen QvQ (72 млрд параметров) и DeepSeek-V3 (671 млрд параметров). Последняя стала мини-сенсацией конца 2024 года, поскольку при стоимости обучения менее $6 млн превосходит (причем значительно) не только опенсорсную Llama 3.1 с 405 млрд параметров от компании Meta, но и, в некоторых бенчмарках, топовые закрытые GPT-4o и Claude 3.5 Sonnet, обучение которых обошлось по меньшей мере на порядок дороже.

Мы упомянули достижения ИИ в двух направлениях — 1) способность видеть и говорить, а также 2) способность рассуждать. Еще два важнейших направления 3) надежность, т.е. повторяемость правильных ответов и отсутствие т.н. галлюцинаций, а также 4) агентность. О растущей надежности ответов моделей свидетельствуют опубликованные OpenAI результаты бенчмарков o1 Pro, а вот об агентности пока нет никаких объективных данных. Но оптимизм в этом отношении внушает короткое сообщение Сэма Олтмена о «невероятном превосходстве агентности», сделанное им в сентябре. Способность рассуждать и агентность — это, напомним, 2-й и 3-й этапы дорожной карты OpenAI, анонсированной в этом году:

  1. Чат-боты, разговорный ИИ
  2. ИИ, способный к рассуждениям (reasoning)
  3. Агенты, способные к выполнению действий
  4. ИИ-новатор, способный на изобретения
  5. ИИ, способный выполнять работу целой организации.

С учетом явных успехов на 2-м этапе и заявленного Сэмом Олтменом успеха на 3-м, его сделанное в ноябре сенсационное заявление о появлении AGI в наступающем году уже не выглядит фантастическим. И как уже рассказывал Gadgets News, даже главный ИИ-скептик, Ян Лекун, пересмотрел свой прогноз, в котором исключалось создание AGI в ближайшие десять лет — теперь, по его мнению, это может произойти в ближайшие годы.


Если OpenAI лидировала большую часть года среди больших языковых моделей, то Google DeepMind продолжает успешно развивать ИИ для решения чисто научных проблем, прежде всего в области биологии. В этом году вышли системы такого рода, AlphaProteo и AlphaFold 3. Последняя представляет собой 3-е поколение системы, выпущенной в 2022 — она позволяет предсказывать структуры сложных комплексов, содержащих белки, нуклеиновые кислоты, низкомолекулярные соединения, ионы и модифицированные остатки. В свою очередь AlphaProteo — это программа, которая создает трехмерные модели искусственных белков с заданными свойствами — а именно способных связываться (прикрепляться) с заданными белками. Синтез искусственных белков, связывающих (для транспортировки, защиты или, наоборот, уничтожения, и т.д.) определенные белки, имеет огромное значение в том числе для медицины. Не исключено, что эти и подобные им системы закладывают основы будущей революции в биологии и фармацевтике. За вклад в науку (конкретно — за AlphaFold, позволившую построить трехмерные модели 200 млн белков) возглавляющий DeepMind Демис Хассабис и его коллега Джон Джампер получили в этом году Нобелевскую премию по химии.

Если в 2023 событием года стали модели, генерирующие по текстовому описанию изображения, то в 2024 началось победное шествие видеогенераторов. В начале года фурор произвела Sora, демонстрационные ролики которой впечатляли своим кинореализмом (хотя и не избежали ошибок). Однако релиз модели затянулся до конца года, и к тому времени подтянулись конкуренты — Gen-3 Alpha (Runway), Dream Machine (Luma), Kling (Kuaishou), Hotshot, Video-1 (MiniMax) и другие. Одной из самых лучших среди них на сегодня признается VEO 2 от Google.


В течение всего года поступали многочисленные новости о планах той или иной IT-компании построить дата-центр для обучения своей будущей модели. Дальше всех в этом отношении продвинулась компания X Илона Маска, запустившая кластер из 100 тыс Nvidia H100. На фоне ажиотажного спроса на графические ускорители в 2024 продолжился рост котировок акций Nvidia — с начала года они подорожали с $50 до нынешних $140 (почти втрое). На текущий момент капитализация компании достигает $3.3 трлн, уступая лишь Apple ($3.9 трлн). На графике выше можно видеть как при относительно стабильной выручке от игровых видеокарт, доходы от графических ускорителей для дата-центров выросли в 7 раз — с $4,284 млн в феврале-марте 2023 (финансовый 1 кв 2024) до $30,771 млн в августе-октябре 2024 (финансовый 3 кв 2025).

Особо интересных новинок в индустрии традиционных процессоров или графических ускорителей в 2024 не было (за исключением, разве что, 4-го поколения M-процессоров Apple), зато под конец года состоялся анонс 105-кубитного квантового процессора Willow от Google. Главная новость состоит в том, что благодаря специальному алгоритму коррекции на каждом этапе увеличения числа кубитов (от 3×3 к 5×5, от 5×5 до 7×7) вдвое сокращалось количество ошибок — что открывает новые возможности для масштабирования кубитов, главным препятствием для которого до сих пор выступали растущие ошибки вычислений. И хотя на пути к квантовому процессору с тысячами и тем более миллионами кубитов предстоит решить массу инженерных проблем, в целом специалисты Google настроены оптимистично.


Еще одно направление в технологиях, для которого 2024 год стал историческим — космонавтика. 13 октября состоялся 5-й испытательный запуск Starship, в ходе которого первая ступень, Super Heavy (диаметр — 9 м, высота — 70 м, как у 23-этажного дома), с первой же попытки была успешно поймана манипуляторами Mechazilla. Мы стали очевидцами практической реализации проекта, который до тех пор казался чем-то из области фантастики, не имеет аналогов в истории космонавтики и открыто высмеивался «экспертами» вроде Руслана Карманова. Месяц с небольшим спустя состоялось повторное испытание, но на этот раз было решено отказаться от этого маневра, и первая ступень мягко приводнилась неподалеку от стартовой площадки. Как объяснил позднее Илон Маск, в SpaceX «Потеряли связь с компьютером стартовой башни. Возможно, ловушка все равно бы сработала, но мы не были уверены и решили действовать осторожно.» Что касается второй ступени, то с каждым новым испытанием она достигала поверхности Индийского океана с меньшими повреждениям обшивки корпуса.

В числе других достижений SpaceX — растущая многоразовость её «рабочей лошадки», Falcon 9. Если к концу 2022 года компания могла похвастать 15 запусками одного и того же экземпляра первой ступени, а 2023 — 19 запусками, то на сегодня рекорд составляет уже 24 успешных запуска. Общее количество орбитальных запусков SpaceX за 2024 год достигло 134 — на 37% больше по сравнению с 2023 годом (98) и почти в 8 раз больше по сравнению с Роскосмосом (17). Благодаря такой динамике действующая группировка спутникового Интернета Starlink достигает уже почти 7 тыс спутников. В начале этого года состоялась первая передача СМС между сотовыми телефонами по сотовой связи, и тогда же было объявлено, что в 2025 году станет возможным совершение звонков. А в августе Илон Маск пообещал человечеству еще один подарок:

Продумав все до мелочей, SpaceX Starlink будет бесплатно предоставлять доступ к экстренным службам для мобильных телефонов людей, попавших в беду. Это распространяется на весь мир, при условии одобрения правительствами стран. Нельзя допустить ситуации, когда кто-то умирает из-за того, что забыл или не смог заплатить.

Благодаря своим огромным размерам Starship сможет выводить на орбиту антенны диаметром в 5.6 м (с которых легче принимать сигнал крошечным антеннам мобильных телефонов) и быстрее нарастить спутниковую группировку до десятков тысяч. Поэтому революция, которую произведет в космонавтике Starship — это не только гипотетическая колонизация Марса, но и возможность уже в ближайшие годы покрыть всю поверхность Земли широкополосным Интернетом для мобильных устройств.

Своего рода разочарованием года можно назвать очки дополненной и виртуальной реальности Apple Vision Pro. За год было продано около полумиллиона экземпляров, и за это время так и не появились приложения, ради которых у миллионов людей возникло бы сильное желание приобрести Vision Pro. Поэтому пришествие Метавселенной откладывается в очередной раз.


Возвращаясь к теме искусственного интеллекта и подводя итоги 2024 года в этой области, нельзя не упомянуть статус обратного отсчета на сайте lifearchitect.ai, где фиксируются основные достижения и дается соответствующая оценка степени готовности AGI. На основе этой оценки мы подготовили график:

Таким образом, по оценкам ресурса lifearchitect.ai с августа 2017 года, когда Google представила свою знаменитую статью «Attention is all you need» и архитектуру трансформеров, началось ускоренное развитие технологий, ведущих к созданию AGI. За прошлый год уровень его готовности вырос с 39% до 64%, а за этот — с 64% до 88% (случайно или нет, но это значение совпадает с результатом OpenAI o3 в бенчмарке ARC-AGI). Если эти оценки верны, то согласно Сэму Олтмену оставшиеся 12% будут пройдены в течение следующего года, а согласно Яну Лекуну — в течение нескольких ближайших лет. Даже если этот прогноз чрезмерно оптимистичен, нельзя исключать, что к прорыву приведет какой-нибудь альтернативный подход. Как уже рассказывал Gadgets News, в этом году была представлена архитектура Kolmogorov-Arnold Network (KAN), основанная на теореме Колмогорова-Арнольда. Если в многослойном перцептроне функция активации нейрона фиксирована, то в KAN она становится обучаемой. Обучаемая функция активации позволяет гибко адаптироваться к разным данным и задачам, настраивая не только веса, но и саму функцию активации. Другая интересная архитектура (она была анонсирована в конце года) — Large Concept Models (LCM). Если Large Language Models (LLM) оперируют токенами (словам или их составными частями), то LCM — т.н. концептами, в роли которых могут выступать целые предложения.

Мы не знаем сроков появления AGI — годы, десятилетия или даже столетия. Но с позиции достижений этого года можно уверенно утверждать, что появление AGI в ближайшие годы — вполне вероятное событие. Условно эту вероятность можно оценить в 50%, и это не та «вероятность», с которой вы можете встретить на улице своего города живого динозавра (может быть встретите, а может быть нет). Это вероятность, с которой выпадет орёл (или решка) при бросании монеты. Или вероятность, с которой любитель русской рулетки застрелится при первом же выстреле, если зарядит шестизарядный револьвер тремя патронами.

По своей драматичности это событие можно сравнить с несущимся к Земле астероидом, который с вероятностью 50% столкнется с нашей планетой и погубит всё живое на ней. А по степени исторической значимости — с неолитической революцией, которая около 10 тыс лет назад положила начало человеческой цивилизации. Но наши предки, жившие во время перехода от охоты и собирательства к скотоводству и земледелию, зарождения письменности и других технологий, предопределивших судьбу человечества на тысячи лет вперед, не подозревали ни о какой революции — настолько медленными и постепенными были перемены. Тогда как нынешняя технологическая революция происходит при жизни одного поколения, за считанные годы, практически на наших глазах.

Речь идет не об очередной технологии, которая подобно письменности, книгопечатанию, радио с телевидением, компьютерам и Интернету в очередной раз повысит объем, скорость создания, обработки и распространения информации и, как следствие, производительность труда. AGI по определению — искусственный интеллект уровня человека, и соответственно с момента своего появления будет заменять людей в разных профессиях — начиная с операторов колл-центров и заканчивая крупными учеными. Не избежать безработицы и политикам. Наивно думать, что они не потерпят подобной конкуренции — у искусственного разума будет сторонников не меньше, чем у самых выдающихся политических лидеров своего времени. С той разницей, что лояльность сторонников искусственного разума будет достигнута не популизмом или личной харизмой, а реальными достижениями в тех странах, где предпримут подобный эксперимент. И вообще в контексте происходящей сейчас технологической революции конфликты и войны, развязанные властвующими носителями различных политических, национальных и религиозных идеологий, напоминают возню детей в песочнице на пляже, на который неумолимо идет огромный цунами…

Разумеется, это будет постепенный процесс — «карьерный рост» ИИ в правительстве начнется с уровня мелких чиновников, а еще раньше охватит бизнес, традиционно отличающийся от государственных институтов более высокой эффективностью и открытостью для полезных инноваций. Большинство рабочих рук, будем надеяться, ожидает не единовременное увольнение, а постепенный переход на сокращенную рабочую неделю и сокращенный рабочий день. Но по завершении этого процесса буквально всё население Земли окажется безработным — сосуществуя с технологией, которая не только работает вместо людей, но и круглосуточно задействует свои интеллектуальные ресурсы для решения насущных научных, социальных, международных и прочих проблем. Напомним, что сенсационному заявлению Сэма Олтмена о появлении AGI в следующем году предшествовал его не менее сенсационный прогноз о появлении ASI (искусственного сверхразума, который окажется умнее не только любого человека, но и человечества в целом) через несколько тысяч дней. В тысяче дней чуть меньше трех лет, и если взять за «несколько» диапазон от трех до семи, то это означает создание ASI через 8-19 лет — с 2032 по 2043 год. Как уже рассказывал Gadgets News, эти сроки почти совпадают с тем, что в апреле этого года озвучил Джеффри Хинтон — по его оценкам ASI появится через 5-20 лет (в 2029-2044) с вероятностью 50%. Аналогичные сроки еще в 2005 году, когда не было даже намека на нынешний бум ИИ, в своей книге «Сингулярность близко» (The Singularity Is Near) приводил и самый знаменитый современный футуролог, Рей Курцвейл — по его мнению, AGI появится к 2029 году, а ASI — к 2045.

Вслед за массовой безработицей, упразднением демократии (как и остальных форм государственного устройства с участием человека) и фактического вырождения капитализма неизбежно состоится переход к безусловному базовому доходу (ББД) и авторитарному (или даже тоталитарному) правлению искусственного разума. Люди добровольно делегируют ему правление — ведь его решения всегда будут намного эффективнее и дальновиднее решений, принятых людьми самостоятельно. Вполне вероятно, что переходный процесс окажется очень болезненным, вплоть до смуты и войн — споры и конфликты вокруг принципов распределения ББД (как между гражданами одной страны, так и между разными странами) неизбежны. Но преодолев этот трудный период, человечество вступит в эпоху, которая с точки зрения современных представлений является золотым веком. Подобно тому, как наше время покажется золотым веком нашим предкам из прошлого, когда эпидемии косили половину населения, жители захваченных городов подвергались тотальному истреблению или уводились в рабство, а неурожай или падеж скота обрекал на голодную смерть целые семьи и селения. Современные люди (во всяком случае городские жители относительно развитых и мирных стран) настолько привыкли ежемесячно получать зарплату или пенсию, ходить за продуктами в близлежащий супермаркет, безопасно ездить в комфортабельных электричках, пользоваться всеми коммунальными благами и видеть весь мир через экран своего гаджета, что уже не представляют иной жизни — но такой она была не всегда. Как знать — может быть даже нынешнее поколение будет жить при коммунизме застанет время, когда у каждого человека (во всяком случае живущего в относительно развитой и мирной стране) будут бесплатные или, по меньшей мере, доступные комфортное и просторное жилье, образование, интересный досуг на любой вкус, хорошее здоровье и масса свободного времени, чтобы всем этим распоряжаться. Как бы невероятно это сейчас не звучало, такое будущее не более невероятно, чем нынешние блага, которых были лишены наши предки.

Но этот золотой век может оказаться в истории человечества не только последним, но и коротким. Еще недавно разговоры о самосознании искусственного интеллекта вызывали у скептиков снисходительную усмешку, но по мере того как ИИ все больше приближается к разумности человека, вопрос о преднамеренном или даже спонтанном зарождении в нем самосознания становится все более актуальным. Природа и происхождение сознания — одна из величайших научных загадок, трудность разрешения которой обусловлена прежде всего субъективностью этого ощущения. Его можно описать по внешним проявлениям — но они будут и у имитации сознания. И можно почти не сомневаться, что в случае появления в ИИ признаков чего-то подобного, нынешние споры вокруг имитации разума плавно перейдут в споры вокруг имитации сознания. Но проблема, конечно, не в спорах, а в реальном возникновении самосознания у ИИ — если это случится, то станет для человечества экзистенциальной угрозой, степень которой сейчас оценить невозможно.

Говоря о ближайшем будущем, некоторые разработчики ИИ отмечают, что социальные изменения будут происходить постепенно даже с появлением AGI. Выступая на саммите DealBook в The New York Times три недели назад, Сэм Олтмен заявил, что появление AGI будет «иметь гораздо меньшее значение» для среднестатистического человека, чем принято считать в настоящее время. Аналогичное мнение высказал вчера сотрудник Google Логан Килпатрик, работающий, по его словам, над AGI:

Через 5 лет мир будет выглядеть до ужаса похожим [на нынешний], несмотря на масштабные технологические инновации, внедряемые искусственным интеллектом.

Мы всё равно получим AGI, но в отличие от консенсуса четырехлетней давности о том, что это будет переломным моментом в истории, вероятно, это будет больше похоже на выпуск продукта, с множеством итераций и похожими вариантами на рынке в короткий период времени (что, кстати, вероятно, является лучшим исходом для человечества, поэтому лично я рад этому).»

Коснулся он и темы искусственного сверхразума:

Прямой путь к ASI (искусственному суперинтеллекту) выглядит всё более вероятным с каждым месяцем… это то, что видел Илья [Суцкевер].

Как бы то ни было, мы живем в эпоху технологических и, как следствие, социальных перемен, скорость и масштабы которых за всю историю существования человечества абсолютно беспрецедентны. С точки зрения накопления знаний и роста численности образованного населения это процесс вполне естественный — но ИИ придаст ему дополнительный и невероятный по силе импульс. Мы были свидетелями революционных изменений в уходящем году — есть все основания полагать, что в следующем их будет не меньше.

Авторский коллектив Gadgets News поздравляет вас с наступающим Новым годом и Рождеством, желает здоровья, радости и неиссякаемого интереса к жизни!