Итоги 2023 года и новогоднее поздравление от Gadgets News

В предверии Нового года Gadgets News традиционно подводит итоги года уходящего — применительно к темам, которые мы освещаем в своем блоге.

Вне всякого сомнения, это был год искусственного интеллекта. Ажиотаж, начавшийся год назад с релизом ChatGPT компании OpenAI, усилился в марте с переходом этого чат-бота с GPT-3.5 на GPT-4. Важнейшей особенностью данной языковой модели стала мультимодальность — в сентябре чат-бот начал работать не только с текстом, но и изображениями. На базе GPT-4 обучен и встроенный в поисковик Bing чат-бот Microsoft. В ноябре OpenAI анонсировала «прокачанную» версию своего детища, GPT-4 Turbo. В этой версии, помимо прочего: 1) значительно увеличился размер контекстного окна (грубо говоря, запроса) — c 32 тыс до 128 тыс токенов (около 300 страниц книжного текста), и 2) обучающий дата-сет был актуализирован на апрель 2023. И что очень важно в плане прикладной функциональности — появился инструментарий для создания персональных и специализированных ботов (например, обученных на отдельном дата-сете). Взаимодействовать с этим инструментарием можно на естественном языке (не владея языками программирования), а созданные таким образом чат-боты будут продаваться в онлайн-магазине, подобно мобильным приложениям App Store и Google Play.

GPT-4 — лучшая на сегодня большая языковая модель, но помимо созданного на её основе чат-бота ChatGPT стоит также отметить Claude 2 (июль, компания Anthropic, созданная выходцем из OpenAI Дарио Амодеем), Meta AI (сентябрь, компания Meta/Facebook) и Grok (ноябрь, компания xAI, созданная Илоном Маском). Под конец года в эту гонку ворвался чат-бот Gemini (декабрь, компания Alphabet/Google), продемонстрировавший впечатляющие способности по пониманию смысла не только в тексте с изображениями, но и визуальных действиях своего пользователя. Правда, как оказалось, на презентации реальные возможности Gemini были сильно преувеличены, но даже с поправкой на ближайшее будущее то, что нам показали — огромный шаг вперед, о котором еще год назад мало кто помышлял.

Говоря о больших языковых моделях, стоит также отметить достижения маленьких и опенсорсных. Опенсорсная Mistral 8x7B достигла уровня GPT3.5 — и значит у себя на компьютере (достаточно мощном для такой модели) любой сможет запустить аналог лучшей языковой модели годовой давности, доступной исключительно онлайн. А созданная в Microsoft и анонсированная в декабре модель Phi-2 с 2.7 млрд параметров соответствует или превосходит в 26 раз более крупную модель Llama-2-70B полугодовой давности. Также в декабре была опубликована работа Apple, в которой описывается метод запуска больших языковых моделей на устройствах с небольшим объемом оперативной памяти за счет более эффективного использования флеш-памяти. С учетом многолетней стагнации голосового ассистента Siri, напрашивается вывод о возможных намерениях Apple развернуть аналоги современных чат-ботов на своих ноутбуках и даже планшетах со смартфонами.

В 2023 шагнули вперед и генеративные модели, создающие изображения по текстовым описаниям — в октябре вышла DALL·E 3 (OpenAI), а в декабре — Midjourney 6. Творения последней стали лучше воспроизводить текстовое описание и отличаются фотореализмом с большой степенью детализации. YouTube продолжает пополняться дипфейками высокого качества — как видео, так и аудио. Например, можно послушать Toxicity (SOAD) в исполнении «Фредди Меркьюри» и «ответное» исполнение «Сержем Танкяном» Богемской рапсодии. Не меньше впечатляет полиглот «Лукашенко», который научился говорить на нескольких языках, включая французский, немецкий, итальянский и китайский. Когда производительность позволит, такими же «полиглотами» станут и рядовые пользователи — сначала мессенджеров, потом аудио- и видеосвязи. По слухам это произойдет сосем скоро — функцию синхронного перевода (когда вы говорите на одном языке, а ваш собеседник читает или даже слышит вашу речь на другом) приписывают Galaxy S24, анонс которого состоится 17 января наступающего года.

В этом году нейросети обогатили науку по меньшей мере двумя достижениями, причем оба были обнародованы в декабре. При помощи созданного Google DeepMind инструмента GNoME были открыты 2.2 млн кристаллических структур — включая 380 тыс стабильных материалов, которые могут сыграть важную роль в будущих технологиях. Например, это 528 потенциальных литий-ионных проводников, которые можно использовать для улучшения характеристик перезаряжаемых батарей. По мнению Google, этот огромный объем данных эквивалентен знаниям, накопленным за 800 лет. А спустя еще несколько дней компания сообщила о решении двух комбинаторных задач (из карточной игры Сет и об упаковке в контейнеры) при помощи метода FunSearch. Последний работает путем объединения предварительно обученной LLM, целью которой является предоставление творческих решений в форме компьютерного кода, с автоматическим оценщиком, который защищает от галлюцинаций и неверных идей. Путем многократного повторения этих двух компонентов первоначальные решения превращаются в новые знания. В Google DeepMind рассчитывают, что совершенствование заложенного в FunSearch подхода способствует решению различных насущных научных и инженерных проблем.

С созданным Google DeepMind оценщиком, который защищает от галлюцинаций и неверных идей, перекликаются слухи про другого ведущего игрока в области ИИ, OpenAI. Во время знаменитой эпопеи скандального увольнения и триумфального возвращения возглавляющего эту компанию Сэма Олтмена, информагенство Reuters сообщило интересную новость. Согласно двум её источникам, пожелавшим остаться неизвестными, за четыре дня до увольнения Олтмена несколько исследователей OpenAI написали совету директоров письмо, в котором сообщили о большом открытии в области ИИ — которое, возможно, станет для человечества угрозой. Некоторые специалисты предположили, что это открытие может быть связано с опубликованной в мае научной работой Let’s Verify Step by Step. Описанный в ней метод предполагает вознаграждение с контролем процесса — в противовес нынешним моделям вознаграждения с контролем результата. Данный подход позволяет сгенерировать множество решений какой-нибудь математической или даже научной задачи и отобрать правильное.

В случае обоих методов речь может идти как о достаточно заурядном событии, так и потенциальном прорыве. Такими прорывами, как показало время, оказались, например, техника получения векторных представлений слов на естественном языке посредством обучения на входных текстах, Word2vec (описанная чешским ученым Томашом Миколовым в 2013), и трансформерная архитектура, изобретенная Google в 2017. В этом году вышли как минимум две работы, предлагающие альтернативу нынешним трансформерам, RetNet от компании Microsoft (опубликована в августе) и Mamba (декабрь). Истинное значение этих и других разработок этого года станет понятным только через несколько лет.

В любом случае 2023 год стал переломным в истории искусственного интеллекта — специалисты всерьез заговорили о зачатках интеллекта человеческого уровня у больших языковых моделей (LLM) — например, см. опубликованную в марте работу научной команды Microsoft под названием Sparks of Artificial General Intelligence: Early experiments with GPT-4. А в опубликованной в августе работе исследователей Массачусетского технологического института Language Models Represent Space and Time утверждается, что LLM усваивают богатые пространственно-временные представления реального мира и обладают основными компонентами модели мира. Эмерджентность (появление новых, неожиданных качеств по мере роста количественных характеристик) LLM, ставшая очевидной с релизом GPT-3 (2020), в этом году вышла на такой уровень, что некоторые ученые стали прогнозировать появление AGI (сильного, человекоподобного, интеллекта) уже в ближайшие годы (см. OpenAI: искусственный сверхразум может появиться уже в этом десятилетии). Такой авторитет как Ян Лекун настроен гораздо скептичнее и отвергает возможность создания AGI через развитие LLM. Но уходящий год ознаменовался еще и появлением больших (в отличие от Gato в 2022) мультимодальных систем, способных познавать мир не только через тексты, но и его пространственное описание в изображениях и видео (GPT-4, Gemini). Попытки достижения AGI напоминают штурм позиций противника сразу по нескольким направлениям — возможно какое-то из них окажется решающим.

Говоря об ИИ, приходится в очередной раз с сожалением констатировать, что и в этом году не появились по-настоящему беспилотные автомобили, а глава Tesla (не единственного, но самого заметного игрока в этой отрасли) даже перестал обещать их скорый релиз. Зато Tesla в этом году начала долгожданные продажи своего футуристического пикапа Cybertruck и представила второе поколение человекоподобного робота Optimus Gen 2. Разумеется, он гораздо дальше от практического применения, чем нынешние «беспилотные» автомобили, но еще год назад Илон Маск выразил уверенность, что «Optimus в конечном итоге будет стоить больше, чем автомобильный бизнес, и больше, чем 100% автопилот». В связке с мультимодальными системами вроде Gemini (по крайней мере той, что нам показали на презентации) роботов действительно ожидает большое будущее — вопрос лишь в том как скоро оно наступит.


Упоминание Илона Маска плавно подводит нас к достижениям другого его начинания, SpaceX. В этом году впервые состоялись тестовые испытания полностью многоразового двухступенчатого монстра Starship — самой большой ракеты в истории человечества, наряду с успешным Сатурном-5 (США) и провальным Н-1 (СССР). В апреле Starship относительно успешно оторвался от стартовой площадки (отказ 3 из 33 двигателей увел ракету немного в сторону), но из-за проблем с тягой разделение ступеней не состоялось, и после нескольких кувырков, спустя четыре минуты после запуска, ракета взорвалась. При этом в процессе полета отказали еще несколько двигателей, а стартовая площадка была частично разрушена. Испытание было признано успешным, поскольку его главной задачей был отрыв от стартовой площадки. Ноябрьское испытание стало значительным шагом вперед — при взлете и в полете не отказал ни один из 33 двигателей первой ступени, состоялось успешное отделение второй ступени по «горячей» схеме (одновременное отключение большей части двигателей первой ступени с одновременным включением двигателей второй ступени), стартовый стол (основательно переделанный) не пострадал, Все 6 двигателей второй ступени также отработали успешно, подняв её на 148 км. Заданной высоты вторая ступень не достигла — после запланированного отключения двигателей телеметрия была потеряна, и вторая ступень подорвана дистанционно, через 8 мин полета Starship. Первая ступень успешно выполнила разворот для торможения, но незапланированно взорвалась через 3.5 мин полета, на высоте 90 км.

Очередным достижением может похвастать и «рабочая лошадка» SpaceX, Falcon 9 — в декабре одна и та же ступень выполнила 19(!) успешных взлетов и посадок. Для сравнения, год назад компания могла похвастать достижением 15-кратного количества запусков и посадок одного и того же экземпляра первой ступени Falcon 9. Правда, во время транспортировки была штормовая погода, и ступень-рекордсменка опрокинулась. У более новых экземпляров первой ступени Falcon 9 самовыравнивающиеся опоры, поэтому со временем таких происшествий будет меньше.

Многоразовость первой ступени Falcon 9 способствует рентабельности не только сторонних заказов по выводу спутников на орбиту, но и одного из самых грандиозных проектов SpaceX, да и всего человечества в целом — Starlink. По данным блогера Everyday Astronaut, на сегодня группировка спутников для обеспечения широкополосного Интернета в любой, в перспективе, точке Земли, достигает 5249 экземпляров (из 5627 выведенных на орбиту). Достижения Falcon 9 особенно впечатляющи на фоне новостей об успешном полете первой ступени ракеты-носителя Hyperbola-2 китайской компании iSpace. В ходе декабрьского, уже второго по счету, испытания, первая ступень поднялась на высоту 343 м и с большой точностью вертикально приземлилась на соседней площадке. Для сравнения, гораздо более грузоподъемная Falcon 9 (5.8 т на НОО в многоразовом варианте против 1.9 т у Hyperbola-2) свою первую посадку после полноценного орбитального полета выполнила 8 лет назад. Технологические достижения SpaceX вполне согласуются с ростом её рыночной оценки — она достигла $180 млрд.


Вслед за искусственным интеллектом и космонавтикой, в 2023 отметилась еще одна инновационная индустрия — виртуальная и дополненная реальность. В этом году состоялся анонс, которого ждали несколько лет — Apple Vision Pro. Пожалуй, это самый инновационный на сегодня продукт такого назначения. По мнению известного аналитика TF International Securities Минг-Чи Куо, несмотря на скромный прогноз по продажам (500 тыс шт), Vision Pro станет главным продуктом Apple 2024 года.


Следующим по значимости продуктом Apple уходящего года стало анонсированное в октябре 3-е поколение её процессоров для планшетов, ноутбуков и настольных компьютеров — M3. Спустя полтора месяца Intel ответила на него первыми, для ноутбуков, процессорами семейства Meteor Lake. Их главная особенность — новейший техпроцесс Intel 4, эквивалентный TSMC 5 нм. Таким образом, Intel сократила отставание от TSMC до 3-3.5 лет (первым 5-нм чипом, Apple A14 Bionic, были оснащены iPhone 12 (осень 2020). Что касается перспектив закона Мура, то в декабре сразу две ведущие полупроводниковые компании, TSMC и Intel, объявили, что благодаря трехмерной, многоуровневой компоновке плотность размещения транзисторов на монолитном чипе к 2030 году достигнет 1 трлн — более чем в десять раз больше, чем на самых крупных современных процессорах (Apple M3 Max — 92 млрд).


В этом году исполнилось 40 лет гаджету, без которого невозможно представить современную жизнь — мобильному телефону. Поступивший в 1983 году в продажу Motorola DynaTAC 8000X стоил $4 тыс, что в переводе на современные деньги составляет $12 тыс. А еще он весил целый килограмм и заряжался 10 ч — при этом зарядки хватало всего на полчаса телефонного разговора. И тем не менее это был прорыв — до тех пор находящиеся в продаже «мобильные» телефоны весили 14 кг и могли устанавливаться разве что в автомобилях.

За эти сорок лет доступные лишь состоятельным бизнесменам огромные и тяжелые «трубы», способные только звонить, превратились в полноэкранные компьютеры, которые носит с собой практически каждый обыватель независимо от достатка. Если в 1983 года самый быстрый суперкомпьютер в мире, Cray X-MP, достигал 800 мегафлопс, то сегодня производительность среднего смартфона составляет (если абстрагироваться от точности вычислений, FP32 или FP64) несколько терафлопс. Представьте какое впечатление 40 лет назад произвело бы на мир чудо-устройство, выполняющее функции не только телефона (который, в отличие от тогдашних, имеет видеосвязь и может бесплатно звонить в любую страну мира), но также почты, радио, телевизора. видеомагнитофона и магнитофона с миллионами записей, газетного киоска с тысячами газет, библиотеки с миллионами книг (включая словари с энциклопедиями), фото- и видеокамеры, записной книжки, диктофона, платежной системы, карт с GPS-навигацией, игровой приставки (с невообразимо более качественной, чем тогда, графикой) и т.д. И при этом в тысячи раз производительнее самого быстрого в мире суперкомпьютера ценой $15 млн ($45 млн в современных деньгах). А ведь по меркам истории сорок лет — срок ничтожный. Например, вторая, после изобретения письменности, информационная революция началась с изобретения книгопечатания в Европе в 15 в., откуда до России эта технология добралась более ста лет спустя. Не говоря уже про Корею, где в 8 в. первыми изобрели книгопечатание. Как и многие другие изобретения (например, Геронов шар, созданный в I в. прототип паровой турбины), книгопечатание должно было созреть для независимого открытия там, где это заложило предпосылки для будущей индустриальной революции. Нынешние изобретения, благодаря глобализации и уже свершившимся этапам информационной революции (включая Интернет), внедряются куда быстрее.


Еще одно заметное событие 2023 года — анонс долгожданной GTA 6. Эта франшиза стала одной из самых популярных в истории игровой индустрии — одной только GTA 5 на сегодня продано почти 200 млн экземпляров. Релиз 6-й части состоится еще не скоро, в 2025, но уже сейчас не терпится пофантазировать на тему того какой могла бы стать будущая игра с открытым миром и множеством персонажей. Первое, что приходит на ум помимо более реалистичной графики — это конечно же задействование ИИ для реалистичного поведения ботов в игре. Если разбегаться при звуках выстрелов они уже умеют, то вести полноценные диалоги пока нет. И как раз большие языковые модели с этой задачей отлично справляются — а к 2025 году у них это будет получаться еще лучше. Причем не исключено, что к тому времени общаться с персонажами игры можно будет не только текстом, но и голосом.


В заключение перечислим некоторые из важных событий, ожидаемых в следующем году. В конце 2024 с достаточно большой вероятностью может состояться релиз игровых графических ускорителей следующего поколения, Nvidia GeForce RTX 50 и AMD Radeon RX 8000. Впрочем, гарантировать этого нельзя, поскольку из-за бума, связанного с искусственным интеллектом, обе компании вполне могут проигнорировать чаяния геймеров в пользу профессиональных графических ускорителей. А уже на днях, в рамках проходящей 9-12 января выставки CES 2024, будет представлено семейство Nvidia GeForce RTX 40 Super — «прокачанные» версии моделей нынешнего поколения. Также в следующем году ожидаются дискретные графические ускорители Intel Arc с кодовым именем Battlemage. Первое поколение вышло осенью 2022, и в среднеигровой производительности самая старшая модель (Arc A770, $350) немного уступает выпущенной летом 2023 RTX 4060 ($300), самой младшей модели Nvidia последнего поколения. Из ожидаемых в следующем году процессоров можно назвать AMD Ryzen 8000 с архитектурой Zen 5 и, вероятно, десктопные модели процессоров Intel семейства Meteor Lake с техпроцесс Intel 4.

Как мы уже говорили выше, по мнению известного аналитика Минг-Чи Куо Vision Pro станет главным продуктом Apple 2024 года, и очевидно от его успеха или провала в немалой степени будет зависеть ближайшее будущее всей индустрии дополненной и виртуальной реальности.

Ну а главным ньюсмейкером, судя по всему, в следующем году опять будет искусственный интеллект. Даже если в 2024 не случится каких-либо заметных прорывов, исследований и разработок накопилось столько, что и за счет небольших улучшений прогресс в этой области будет значительным. В частности можно рассчитывать на новые успехи в области генерации видео по текстовым описаниям — технологии, которая пока находится в зачаточном состоянии (например, см. представленную на днях модель VideoPoet, которую разработали в Google). Такое явление как кибер-инфлюенсер (например, Лил Микела с 2.7 млн подписчиков) уже несколько лет как перестало быть фантастикой, но пока это касается в основном фотографий и коротких видеороликов. Никого не удивишь и виртуальным диктором на телевидении. В следующем году сюжет научно-фантастического к/ф 2002 года «Симона», где живую актрису заменили компьютерной моделью, станет еще ближе к тому, чтобы стать реальностью. Сначала подобными технологиями воспользуются кино- и телестудии, а впоследствии и рядовые пользователи.

Также в следующем году можно рассчитывать на еще более тесную интеграцию мобильных гаджетов и компьютеров с искусственным интеллектом — на фоне достаточно однообразного нынешнего функционала именно ИИ может предоставить пользователям продуктов той или иной компании какие-нибудь особенные возможности. Например, приписываемый Galaxy S24 синхронный перевод звонков с одного языка на другой. Теоретически возможности современных больших языковых моделей позволяют гораздо большее:

  • принять звонок с незнакомого номера (и «отшить» спамера);
  • заказать столик в ресторане (Google демонстрировала две эти функции еще в 2018 и 2019);
  • найти, по описанию, нужную информацию в переписке (будь то почта или мессенджеры);
  • кратко пересказать содержимое публикации по такой-то ссылке;
  • найти в Интернете нужную информацию, но не по совпадению контекста, а по смыслу — как искали бы вы сами, перечитывая тысячи нагугленных ссылок (мы подробно коснулись этой темы в публикации 2019 года Будущее информационной революции: что нас ожидает в ближайшие десятилетия?);
  • поговорить на любую тему — будь то флирт с виртуальной подругой (виртуальным другом) или профессиональная консультация. Если, как рассчитывает глава OpenAI Сэм Олтмен, в ближайшие два года будет решена проблема галлюцинаций, то это станет очередным прорывом, открывающим большим языковым моделям дорогу к персонифицированным образованию и здравоохранению.

В конце уходящего года искусственный интеллект отметился очередными научными достижениями — изобретением новых материалов и даже математическими открытиями — возможно в следующем году этот тренд продолжится.

И как мы уже говорили выше, интеграция с мультимодальными системами вроде Gemini сулит больше будущее робототехнике — роботы смогут понимать окружающее их трехмерное пространство с тысячами объектов и их взаимодействие между собой, предсказывать поведение этих объектов, предотвращать и устранять негативные последствия от этого поведения, ну и наконец взаимодействовать с людьми на естественном языке. Это один из главных трендов будущих десятилетий, который сейчас очевиден не только потому, что это очень нужно, но и потому, что это становится все более возможным. Возможно в следующем поколении человекоподобных роботов Tesla, Optimus Gen 3, мы увидим еще более впечатляющие элементы человеческого поведения в автономном режиме.

Но даже если ничего из этого не произойдет в 2024, он точно не станет последним в начавшейся около десяти лет назад весне искусственного интеллекта.

Авторский коллектив Gadgets News поздравляет вас с наступающим Новым годом и Рождеством, желает мира, здоровья, счастья и побольше новостей, делающих таким интересным и удивительным время, в которое мы живем!