DeepMind выложила в открытый доступ трехмерные модели 200 млн белков
Сегодня компания DeepMind объявила, что совместно с Европейской молекулярно-биологической лабораторией выкладывает в свободный и бесплатный доступ трехмерные модели более чем 200 млн белков. Модели были созданы разработанной в недрах DeepMind программой AlphaFold (1-е поколение вышло в 2018, 2-е — в 2020), которая умеет достаточно точно предсказывать пространственную структуру белков. На сегодня база AlphaFold представлена практически всеми существующими в природе белками. Чтобы оценить динамику прогресса, достаточно вспомнить какое количество белков было в банке данных, созданном американскими учеными в 1971 — 150 тыс на 1 апреля 2020. Благодаря технологиям искусственного интеллекта, спустя два с небольшим года биологи и фармацевты получают в свое распоряжение в тысячу с лишним раз больше данных.
По форме белка можно определить его функцию и способность взаимодействовать с другими белками. До появления многочисленных и отличающихся невысокой точностью технологий предсказания структуры белков, на протяжении десятилетий она определялась экспериментально, посредством рентгеноструктурной кристаллографии — точно, но дорого и долго (вплоть до нескольких лет). Причем в случаях, когда белки не кристаллизуются, узнать их структуру было просто невозможно.
В силу этих сложностей и предпринимались попытки построения трехмерных моделей белков посредством предсказания. С 1994 года в рамках проекта CASP стали проводиться конкурсы, на которых различные научно-исследовательские команды соревнуются в способности как можно точнее предсказать известную структуру какого-нибудь белка. В 2020 этот конкурс с большим отрывом (244 баллов против 92 у ближайшего соперника) выиграла AlphaFold 2. По шкале 100 баллов медианный результат AlphaFold 2 составил 92 балла. Для сравнения, предыдущая версия программы набрала меньше 60 баллов, а лучшие результаты других систем едва превышали 40 баллов.
В 2020 в моделировании белков произошла революция — вроде той, что в 2012 произвела AlexNet на соревнованиях по распознаванию изображений из базы ImageNet. Выложенные в открытый доступ 200 млн трехмерных моделей белков позволяют надеяться, что плоды этой революции мы увидим довольно скоро.