Новые способности Tesla Bot, ChatGPT начинает видеть, слышать и разговаривать, Amazon вкладывает $4 млрд в разработчика Claude 2, а Microsoft работает над ядерным реактором для дата-центров и обучения ИИ
Итак, сегодня вышло сразу несколько интересных новостей на тему искусственного интеллекта. Прежде всего, OpenAI объявила о значительном расширении возможностей ChatGPT. В ближайшие две недели мобильные приложения (iOS и Android) чат-бота обзаведутся голосовым интерфейсом (т.е. будут воспринимать голосовые команды и голосом же отвечать на них), а мобильные и десктопные приложения будут уметь отвечать на запросы по загруженным изображениям. Вот как последнюю опцию (она реализована на базе мультимодальной версии GPT-4, GPT-4V) описывает OpenAI:
Сфотографируйте какую-нибудь достопримечательность во время путешествия и заведите разговор о том, что в ней интересного. Когда вы дома, сфотографируйте холодильник и кладовую, чтобы узнать, что приготовить на ужин (и задайте последующие вопросы для получения пошагового рецепта). После ужина помогите ребенку решить математическую задачу: сделайте фотографию, обведите задачу кружком и попросите поделиться подсказками.
В другом примере пользователь загружает в чат-бот фото велосипеда и просит подсказать как опустить сиденье. ChatGPT пишет инструкцию и в числе прочего упоминает быстросъемный рычаг. Пользователь загружает фото с обведенным велосипедным болтом и задает вопрос: «Это быстросъемный рычаг?» ChatGPT отвечает, что нет, и приводит дополнительные пояснения. Пользователь фотографирует набор инструментов, и чат-бот поясняет, где лежит интересующий пользователя быстросъемный рычаг… Пожалуй самое важное на сегодня применение этой технологии — помощь слепым. На сегодня уже 16 тыс бета-тестеров из их числа работают с ИИ-версией приложения Be My Eyes, в которой для пользователя автоматически распознаются и описываются окружающие его предметы. Вообще же интеграция больших языковых моделей с распознаванием изображений некоторыми специалистами рассматривается как серьезная предпосылка к созданию AGI, искусственного разума.
Как и в случае с анонсированной на днях интеграцией чат-бота Bard с сервисами Google, а также ИИ-помощника Copilot с Windows и Microsoft 365, можно не сомневаться, что первое время всё это будет сырым и ненадежным. Но нельзя не отметить скорость, с которой происходит практическая реализация того, что еще недавно казалось фантастикой.
Вторая интересная новость казалось бы относится сугубо к робототехнике, но на самом деле напрямую связана с ИИ. Tesla опубликовала видео с демонстрацией очередных навыков, которыми овладел её андроид Tesla Bot (Optimus) — в частности, способность сортировать предметы разного цвета. Особенность этой нехитрой, на первый взгляд, операции состоит в том, что она выполняется полностью автономно, на базе искусственной нейронной сети, способной понимать входящую видео-информацию. Своим навыкам мелкой и крупной моторики Optimus также обязан ИНС, при помощи который происходит автокалибровка его движений. Гуманоидный робот Tesla был анонсирован два года назад, и по мнению некоторых специалистов за такой короткий срок компания демонстрирует впечатляющие достижения.
Две другие новости иллюстрируют масштабы будущего распространения ИИ. Во-первых, Amazon объявила об инвестировании $4 млрд в Anthropic — компанию, разработавшую чат-бот Claude 2. А во-вторых, Microsoft открыла вакансию для главного менеджера программы по ядерным технологиям. Его задачей станет интеграция малых модульных реакторов с дата-центрами, на которых работают облачные сервисы компании и её приложения на базе искусственного интеллекта.