27 Марта 2008

Торжество компьютерных методов: предсказание строения белков

Знание пространственной организации белковых молекул является ключом не только к пониманию их функций и механизма работы, но и основой для разработки эффективных и безопасных лекарственных средств. В то же время, определять структуру белков в прямом эксперименте не всегда возможно или целесообразно – из-за сложности, дороговизны и ограниченности возможностей экспериментальных методик. Однако иногда удаётся преодолеть эти сложности, подойдя к проблеме «с другого конца»: структуру биомакромолекул можно предсказать, используя теоретические подходы, основанные на физических или эмпирических приближениях. В этой статье даётся теоретическое обоснование возможности предсказывать структуру белков и коротко рассматриваются основные подходы к этой задаче.

Для чего требуется знать структуру белков?

Белки – универсальные биополимеры, из которых строится жизнь, – выполняют весь спектр биологических функций: от структурной до каталитической. (Их роль для жизни в целом признана даже классиками марксистско-ленинской философии.) Конечно, незаменимы и многие другие молекулы: «первенство» в хранении и передаче информации принадлежит нуклеиновым кислотам, а изрядную долю структурной и формообразующей функции берут на себя липиды – основные компоненты биомембран живых клеток. Рибонуклеиновым кислотам, кроме уже ставших для них привычными структурной и каталитической функций, приписывают всё новые и новые «роли», подкрепляя гипотезу о «мире РНК», возможно, существовавшем на заре эпохи зарождения жизни на Земле. Несмотря на всё это, именно белки играют максимум ролей в живом мире (по крайней мере, таком, каким мы его знаем теперь), и важность их изучения не ограничивается только фундаментальной наукой: сегодня и медицина, и промышленность – потребители знаний о функциях и структуре белков.

Понимание механизмов функционирования живых систем, а значит, и возможность влиять на них, например, с помощью лекарственных средств [1], требует знания структуры белковых молекул и глубокого понимания их функций. Благодаря работам Кристиана Анфинсена [2] – нобелевского лауреата по химии 1972 года «за работы по рибонуклеазе, в частности, за установление связи между последовательностью аминокислот и конформацией биологически активной молекулы», – нам известно, что «необходимая [для сворачивания белка] информация заключена в линейной последовательности аминокислот пептидной цепочки, и что никакой дополнительной генетической информации, большей, чем та, которая заключена в ДНК, не требуется» [2]. Однако физико-химические аспекты этого сложнейшего процесса, называемого также фолдингом белка, остаются до сих пор понятыми лишь приблизительно.

Кроме учёных, структура белка интересует и специалистов более практического профиля. Фармацевты и врачи, например, заинтересованы в производстве и выпуске на рынок новых поколений лекарственных средств. Однако в наше время уже нельзя рассчитывать на случайный успех, и нужно хорошо разбираться в молекулярных механизмах действия проектируемого лекарства, – направленного, скорее всего, на взаимодействие с каким-нибудь белком (рецептором или ферментом) в человеческом организме. Проектирование нового лекарства с учётом атомарного строения молекул-«мишеней», на которые это лекарство будет действовать – наукоёмкий и сложный процесс, называемый драг-дизайном [1].

В различных отраслях промышленности – например, химической и пищевой, а в перспективе и энергетической, и остальных, – также используются белки. Разработка новых биотехнологических ферментов, способных послужить на благо общества, кроме знания структуры белков и понимания механизмов их работы, требует ещё умения проектировать новые функции в белках, ранее выполнявших какую-то другую работу [3]. Здесь, правда, требуется умение решать обратную задачу – не определять структуру существующего белка, а создавать белок, структура (а значит, и свойства) которого будут заданы заранее, – но ведь решение этой задачи требует схожих знаний и навыков!

В чём же сложность?

По сравнению с периодом времени 30–40 летней давности, когда знание об устройстве биологических молекул было ещё крайне ограниченным, и определение аминокислотной последовательности инсулина или пространственного строения миоглобина было настоящим научным прорывом, сейчас поток биологической информации нарастает год от года стремительными темпами. Завершение геномных проектов, следующих один за другим [4], фактически избавило исследователей от рутины по «классическому» секвенированию белковых молекул – последовательности всех белков конвертируются из прочтённых геномов множества организмов в аннотированные базы данных, доступные через интернет. Так, число последовательностей в базе Swiss-Prot (версия 55.1 от 18 марта 2008 года), курируемой и аннотируемой специалистами вручную (!), составляет ≈360 000, а число записей в базе TrEMBL (версия 38.1), аннотированных автоматически по доступной геномной информации, приближается к 5.5 миллионам.

Получить такое фантастическое число последовательностей стало возможным благодаря современным высокопроизводительным технологиям секвенирования геномов [5], делающим задачу прочтения всей (ну или почти всей) ДНК нового вида (или даже отдельной особи!) лишь вопросом времени. Другая ситуация складывается с определением пространственного строения белковых молекул: инструментарий для решения этой задачи – рентгеноструктурный анализ (РСА) и спектроскопия ядерного магнитного резонанса (ЯМР) – ещё не достиг той степени зрелости, чтобы можно было получить структуру любого интересующего исследователей белка с ограниченными временными и материальными затратами.

Сложность заключается в получении нужных количеств белка, подготовке препарата, пригодного для изучения дифракции рентгеновских лучей или намагниченности в меченном изотопами образце, и в анализе данных. Каждый этап этой задачи часто требует уникального подхода и поэтому не может быть полностью автоматизирован. Особенно сложно охарактеризовать структуру белков, образующих сложные молекулярные комплексы, и интегральные белки биологических мембран (составляющих до трети от общего числа белков в большинстве организмов). Поэтому, даже с учётом того, что расшифровкой структур белков занимаются не только научные коллективы по собственной инициативе, но и международный консорциум PSI (Protein Structure Initiative ), задачей которого является максимально полная и широкая структурная характеризация всего белкового разнообразия в живом мире, число белков с известной структурой сравнительно невелико. По состоянию на 25 марта 2008 года, число структур в Брукхэйвенском банке белковых структур (PDB ) немногим меньше 50 000, но если из этого множества исключить повторные эксперименты на одних и тех же белкáх в различных условиях, а также структуры искусственно модифицированных и близкородственных белков, это число сократится до менее чем 10 000, составляя ≈1–2% от общего числа практически важных белков.

Выход из сложившейся ситуации могут дать методики теоретического предсказания пространственной структуры, решающим преимуществом которых является сравнительно высокая скорость и низкая трудоёмкость получения моделей строения белков. Оборотной стороной этого преимущества оказывается «качество» моделей – точность предсказания, которая не всегда является достаточной для практически важных задач (например, изучения взаимодействия рецептора с лигандами). Однако, как уже было сказано, в условиях ограниченной доступности структурных данных по интересующему исследователей объекту, молекулярная модель оказывается разумной заменой – особенно учитывая тот факт, что более-менее реалистичные модели могут быть построены для >50% всех белков с неизвестной структурой.

Разумеется, работая с теоретически предсказанными моделями белков, надо критически относиться к полученным результатам и быть готовым к тому, что полученные результаты необходимо проверять с помощью независимых методов – что, в прочем, касается большинства научных областей, работа в которых ещё не превратилась в чистую технологию.

Далее мы рассмотрим базовые теоретические предпосылки, делающие предсказание трёхмерного строения молекул белков возможным и в общем виде основные методики, использующиеся сегодня в этой области.

Фолдинг: можно ли предсказать структуру белка на компьютере?

Фолдинг – сворачивание белков (и других биомакромолекул) из развёрнутой конформации в «нативную» форму – физико-химический процесс, в результате которого белки в своей естественной «среде обитания» (растворе, цитоплазме или мембране) приобретают характерные только для них пространственную укладку и функции [6]. Фолдинг причисляют к списку крупнейших неразрешённых научных проблем современности – поскольку процесс этот далёк от окончательного понимания [7].

С термодинамической точки зрения самосворачивание белкá является переходом белковой молекулы в наиболее статистически вероятную конформацию (что практически можно приравнять к конформации с наименьшей потенциальной энергией). С кинетикой же фолдинга связывают так называемый парадокс Левинталя [8], согласно которому, если бы молекула белкá длиной хотя бы 100 аминокислотных остатков «перебирала» все возможные конформации, прежде чем свернуться в нативную форму, этот процесс потребовал бы времени, превышающего время существования Вселенной. Однако из практики известно, что максимальное время сворачивания ограничивается минутами, типичное время – порядка миллисекунд, а кратчайший требуемый срок, зарегистрированный для трёхлистового β-слоя – всего 140 нс [9]!

Само собой, парадокс Левинталя – кажущийся. Решение его заключается в том, что молекула, конечно, никогда не принимает подавляющего большинства теоретически возможных конформаций. Кооперативные эффекты фолдинга – одновременное формирование «зародышей» вторичной структуры, являющихся энергетически стабильными и уже не изменяющимися в процессе дальнейшего сворачивания – приводят к тому, что молекула белка находит «кратчайший путь» на воображаемой гиперплоскости потенциальной энергии к точке, соответствующей нативной конформации белка. Нативная конформация при этом отделена заметным «энергетическим промежутком» ( potential energy gap ) от подавляющего числа несвёрнутых форм, а ближайшая её «окрестность» (очень «узкая», впрочем) определяет естественную конформационную подвижность молекулы.

Ограниченность понимания механизмов фолдинга связана ещё и с тем, что его сложно наблюдать экспериментально: это достаточно быстрый динамический процесс, «разглядывать» который нужно на уровне отдельных молекул! И хотя сейчас уже проводят изучение сворачивания (а точнее, разворачивания) на отдельных молекулах [10], это не пока не привело к принципиально новому уровню понимания механизма фолдинга – а ведь такое понимание могло бы дать эффективный алгоритм теоретического моделирования этого процесса.

Биологические молекулы моделируют чаще всего с применением подхода эмпирических силовых полей [11], позволяющего, в отличие от «абсолютно корректного» квантово-химического подхода (см. врезку), рассчитывать энергетические характеристики и динамические свойства биомакромолекул в обозримые сроки. Однако такое радикальное ускорение времени расчётов не может даваться даром: хотя многие компьютерные эксперименты в эмпирических силовых полях и дают реалистичные результаты, некоторые важнейшие для фолдинга кооперативные взаимодействия – такие как гидрофобный эффект или влияние молекул растворителя – не сводятся к парным взаимодействиям между отдельными атомами и не могут быть корректно учтены в этом подходе.

Квантовая химия в расчётах свойств белковых молекул

Как известно, уравнение Шрёдингера – «плоть и кровь» квантовых физики и химии – наиболее точный на сегодняшний день способ описать строение и динамику молекул. Однако точное (аналитическое) решение возможно получить лишь для крайне простых систем – например, атома гелия. Во всех более сложных случаях прибегают к численному решению приближений этого уравнения – так называемым полуэмпирическим методам квантовой химии.

Самое бóльшее, для чего обычно используют эти полуэмпирические методы в моделировании белков – оптимизация геометрии и зарядового состояния остатков реакционного центра белка, потому что системы бóльшего размера становятся «неподъёмными» для этих чрезвычайно сложных и ресурсоёмких подходов.

Методы эмпирических силовых полей (такие как молекулярная динамика [11]) не имеют никакого отношения к квантовой химии и «обращаются» с атомами моделируемых молекул (в частности, белков) как с классическими упругими частицами, связанными системой парных взаимодействий. Параметры этих взаимодействий (очень простых, надо отметить) как раз и называются силовым полем и определяют поведение системы при моделировании.

Электронные эффекты, такие как поляризуемость атомов, перенос электрона, образование и разрыв химических связей, а также кооперативные гидрофобные взаимодействия смоделированы в этом подходе быть не могут.

Существует два основных препятствия тому, чтобы запустить моделирование молекулярной динамики (МД) какого-нибудь белка в необходимом окружении и «в кремнии» пронаблюдать фолдинг, получив в конце процесса желанную структуру. Во-первых, характерные времена сворачивания всё же находятся на уровне миллисекунд, а максимально достижимое время моделирования на данном этапе развития вычислительной техники редко превышает одну микросекунду. Но, даже если представить, что мы не ограничены в мощностях компьютеров, всё равно остаются сомнения в возможности современных энергетических функций эффективно справиться с фолдингом – точность этих функций, управляющих эволюцией молекулы внутри компьютера, может оказаться недостаточной для того, чтобы направить сворачивание в нужном направлении. Кроме того, алгоритм, моделирующий подвижность, может навсегда «зациклить» молекулу в локальном энергетическом минимуме, чего никогда не случается в реальном процессе сворачивания. (Однако определённые успехи в моделировании фолдинга с помощью молекулярной динамики всё же есть: небольшие белки – вроде 36-аминокислотного фрагмента виллина – удаётся свернуть в МД длительностью около микросекунды, запуская расчёты на суперкомпьютере или в распределённой вычислительной сети [12].)

Итак, использование метода молекулярной динамики как средства моделирования процесса фолдинга пока что нецелесообразно и практически не достижимо. Однако существует возможность предсказать результат фолдинга – то есть, трёхмерную структуру белка. Теоретические подходы, служащие этой цели, делятся на две большие группы: “ab initio” (или “de novo” ) фолдинг – методики, не использующие в явном виде данных о структуре других белков, – и сопоставительное моделирование (или моделирование на основании гомологии ). Далее обе эти группы будут рассмотрены подробнее с бóльшим акцентом на последнюю как учитывающую феномен белковой эволюции.

Фолдинг «из первых принципов»

Необходимо сразу отметить, что термин “ab initio” фолдинг, часто применяемый для обозначения методов компьютерного предсказания структуры белка без использования структурных данных о других белках, не имеет отношения к тому “ab initio”, которое бытует в квантовой химии. Квантово-химический термин “ab initio” (лат. – «из первых принципов») обозначает расчёт свойств молекул с помощью решения уравнения Шрёдингера (точнее, одного из его приближений), а в области моделирования структуры белков тот же термин означает лишь, что в предсказании не используют в явном виде информации о структуре других белков. Однако все вычисления, как правило, производятся в эмпирических силовых полях, описывающих парные взаимодействия в классической системе частиц, представляющей молекулу белка. Сами же эти силовые поля в неявном виде включают данные о структуре молекул (не обязательно белковых) – такие как парциальные заряды и массу атомов, а также длины и углы валентных связей, – и к квантово-механическим методам отношения не имеют. Поэтому целесообразно будет в дальнейшем использовать термин “de novo” фолдинг (лат. – заново, с начала).

Наиболее «физически корректные» подходы из этой группы заключаются в основном в расчётах МД для моделирования процесса и результата фолдинга (см. тремя абзацами выше), однако эти методы из-за их огромной вычислительной сложности и неточности функций потенциальной энергии достигают успеха лишь для некоторых очень небольших белков. В остальных же случаях – тоже, впрочем, относящихся к маленьким белкам (не более 150 аминокислотных остатков), – прибегают к дополнительным приближениям с целью уменьшить вычислительную сложность расчёта.

Для увеличения вычислительной эффективности, в de novo подходах часто используются упрощённые модели представления белка – отдельные аминокислотные остатки, присутствующие в модели, представлены не так подробно, как в «полноатомных» подходах: вся боковая цепь моделируется лишь одним-двумя центрами («псевдоатомами»). Так, например, боковая цепь триптофана содержит 16 атомов, а в упрощённом виде их может быть всего два-три (и только один – для менее объемных остатков).

De novo фолдинг проводится в специальном силовом поле (также упрощённом по сравнению, например, с используемыми в МД), оценивая огромное количество вариантов укладки сворачиваемой молекулы по значению потенциальной энергии. Идентификация конформации, значительно (с «зазором») более «низкой» по потенциальной энергии, чем остальные, может служить признаком конца поиска – аналогично тому, как нативная конформация с некоторым отрывом отстоит от несвёрнутых промежуточных состояний.

Конечно, кроме корректной функции потенциальной энергии, требуется преодолеть «комбинаторный взрыв», создаваемый парадоксом Левинталя. Очевидно, что перебрать все конформации, чтобы выбрать самую низкую по энергии, невозможно, а из-за слабого понимания механизмов сворачивания белка повторить тот «кратчайший путь», который ведёт к нативной структуре, на компьютере пока не удаётся.

Чтобы как-то приблизиться к природному механизму сворачивания, исследователи пытаются выделить в последовательности моделируемого белка структурно консервативные фрагменты (аналогичные тем, что в природе сворачиваются первыми и в дальнейшем уже остаются неизменными) и как бы «собирают мозаику» из этих фрагментов. Эта процедура, тоже чрезвычайно ресурсоёмкая (всё равно требуется перебрать астрономическое число вариантов!), позволяет существенно сократить время расчётов, и для небольших белков уже получены обнадёживающие результаты (рис. 1).

Рисунок 1. De novo фолдинг: предсказание пространственной структуры небольших белков [14]. Программа Rosetta генерирует ансамбль моделей, получающихся после «сборки» структурно-консервативных фрагментов молекулы в специализированном силовом поле. Короткие (4–10 аминокислотных остатков) фрагменты последовательности моделируемого белка выступают «зародышами» структуры будущей модели (причём в разных моделях они различаются и «перекрываются»), а конформацию этим фрагментам «назначают», используя конформации гомологичных фрагментов из белков с уже известной структурой. (В этом смысле, “de novo” не является моделированием «заново» в полном смысле слова, но «заимствование» локальных структурных фрагментов такой небольшой длины в данном случае не считается использованием структуры белков-гомологов целиком.)
Сверху на рисунке показаны наложенные экспериментальная структура белка Hox-B1 (красным) и соответствующая низкоэнергетическая структура, предсказанная программой Rosetta (синим). Видно практически идеальное совпадение конформаций ароматических остатков в центральной области белка. Внизу показана зависимость энергий моделей из полученного в расчёте ансамбля от среднеквадратичного отклонения (СКО) моделей от нативной структуры. (СКО в молекулярном моделировании используется в качестве меры пространственной близости двух моделей: низкое СКО (<1–2 Å) обозначает близость двух структур.) Синим цветом показаны модели, сгенерированные из нативной структуры в качестве «контроля» (и естественно получившиеся очень близкими к ней по значению СКО), чёрным – модели, созданные в процессе предсказания. Красной стрелкой отмечена модель, структура которой дана сверху.
В данном случае, хотя чёткая зависимость СКО от энергии отсутствует, самая низкоэнергетическая конформация оказалась очень близка к нативной структуре; однако другая модель с энергией, очень близкой к оптимальной, имеет СКО от нативной структуры уже 4 Å (что достаточно много). Этот факт иллюстрирует не очень высокую надёжность предсказаний в практических применениях – потому что в реальных задачах, когда предсказываемая структура действительно неизвестна, сравнивать СКО модели будет уже не с чем – руководствоваться придётся только значениями энергии.

Одним из научных коллективов, активно занимающихся предсказанием структуры белков de novo, является вашингтонская лаборатория Дэвида Бэйкера (David Baker), также являющегося профессором Медицинского института имени Ховарда Хьюза. Разрабатываемая ими программа Rosetta уже неоднократно показывала себя с хорошей стороны в предсказании структуры белков небольшой длины (рис. 1) – ~100–150 аминокислотных остатков [13], а также в дизайне ферментов с новыми функциями [3].

Похожий подход используется в программе TASSER [15], где короткие структурные фрагменты «собираются» в специализированном силовом поле, а результат (модель, предположительно близкая к нативной) выбирается из ансамбля предсказаний с помощью идентификации наиболее плотного структурного кластера – являющегося, по мнению исследователей, «гнездом» физически реалистичных моделей.

Упомянутые методы очень требовательны к вычислительным ресурсам – предсказание структуры белка длиной 112 остатков с помощью метода Rosetta [13] потребовало использования суперкомпьютера и распределённой сети Rosetta@Home из ≈70 000 персональных компьютеров. (Конечно, все эти мощности пошли не только на предсказание одной структуры – в исследование был включен не один белок.) Эта ресурсоёмкость лишний раз подчёркивает, что понимание механизмов фолдинга находится не на высоте: способ направленно двигаться в сторону нативной структуры, не перебирая множества нереалистичных вариантов, пока не найден. Да и функции оценки потенциальной энергии часто дают промашки: ведь на одно удачное предсказание, становящееся поводом к публикации в одном из ведущих журналов [13–17], приходится множество неудачных попыток!..

Но и для предсказаний с не очень высокой точностью находится своё применение: ведь упомянутые алгоритмы могут не только предсказывать структуру «с нуля», но и оптимизировать модель, если в качестве отправной точки задать экспериментальную структуру, требующую уточнения – например, ЯМР-модель или данные из криоэлектронной микроскопии. Кроме того, предсказание структуры всех белков подряд из какого-нибудь организма может помочь идентифицировать белки с ещё неизвестным типом укладки – чтобы экспериментаторы могли сконцентрироваться именно на них и «расшифровать» строение ещё одного структурного семейства.

Итак, методики de novo фолдинга для небольших белков уже достигли определённой зрелости [17], а возможность создать белок с не встречающимся в природе типом укладки «с нуля» [18] дополнительно подчёркивает потенциал этой области – ведь свернуться способна далеко не каждая последовательность!

Однако для белков бóльшей длины успехи de novo подходов пока более чем скромны, и предсказать устройство таких белков без использования дополнительной информации и эмпирических подходов уже невозможно. И тут на помощь приходит сама Природа – ведь белки не независимы друг от друга, и между ними есть «родственные» отношения! Предсказание структуры белков, использующее эти отношения, называется сопоставительным моделированием, или моделированием на основании гомологии.

Сопоставительное моделирование

«Вселенная» белков велика (как уже было сказано, на сегодняшний день известно уже более пяти миллионов белков, идентифицированных в геномах множества организмов), но не безгранична. Многие белки имеют типичные мотивы пространственной организации – то есть, принадлежат к различным семействам, образуя «родственные» группы. Все белки с известной структурой подразделяются на ≈3 500 структурных семейств, образующих ≈1000 типов пространственной укладки (согласно классификации SCOP – Structural Classification of Proteins).

«Родство» между белками (обычно измеряемое степенью идентичности их аминокислотных последовательностей) не случайно: одна из наиболее распространённых гипотез белковой эволюции объясняет «родственные отношения» дупликацией генов, произошедшей когда-то в процессе эволюции организма и приведшей к появлению белка с новой функцией [19]. И, хотя «новый» белок приобретает другую функцию, а его последовательность понемногу эволюционирует и меняется, пространственная структура его остаётся до какого-то момента достаточно консервативной [20]!

Эмпирически установлено, что если последовательности двух белков идентичны друг другу более чем на 30%, то белки почти наверняка являются «родственниками» и степень эволюционной дивергенции ещё не столь велика, чтобы их структуры утратили общность. Эти наблюдения и являются основой методики предсказания пространственной структуры, называемой моделированием на основании гомологии.

Моделирование на основании гомологии

На настоящий момент моделирование по гомологии позволяет установить структуру более половины белков, чьё строение ещё неизвестно. Если же выбирать мишени для экспериментального определения структуры таким образом, чтобы в результате для каждого белка был получен хотя бы один структурный гомолог (с идентичностью последовательностей >30%), то окажется, что достаточно получить всего 16 000 структур [21], а «степень покрытия» при этом составит >90%, включая и мембранные белки. Моделирование по гомологии в этом случае поможет установить структуры бóльшей части оставшихся белков.

Процесс моделирования по гомологии [22, 23] включает несколько шагов (рис. 2), главными из которых являются поиск структурного шаблона и построение аминокислотного выравнивания. Решающим фактором, определяющим качество получаемых моделей, является степень гомологии (или идентичности) последовательностей моделируемого белка и шаблона. Высокая идентичность обозначает, что эволюционное расхождение обоих белков от общего «предка» произошло не настолько давно, чтобы эти белки утратили структурную общность.

Рисунок 2. Схема моделирования по гомологии на примере рецептора мелатонина MT₁ человека [24]:

Идентификация структурного шаблона – белка с известной пространственной структурой, гомологичного моделируемому (идентичность последовательностей >30%). Поиск производится с помощью серверов FASTA или PSI-BLAST (или их аналогов) в базе структур белков PDB (едином депозитарии структурных данных для биомакромолекул);
Построение выравнивания аминокислотных последовательностей шаблон-модель. Парное выравнивание служит «инструкцией» программам, осуществляющим моделирование. Множественное выравнивание может быть полезно для выявления консервативных остатков во всём семействе (показаны звёздочкой) или отдельных подсемействах белков (три верхних последовательности – рецепторы мелатонина). Множественное выравнивание и профили последовательностей позволяют идентифицировать более слабые гомологии, чем «обыкновенное» парное выравнивание. Выравнивание проводят с помощью сервера CLUSTALW (или его аналогов);
Построение модели заключается, главным образом, в «натягивании» последовательности моделируемого белка (рецептора мелатонина MT₁) на «остов» шаблона (зрительного родопсина) согласно выравниванию. «Петлевые» участки (не имеющие гомологии с шаблоном) достраиваются независимо, положение боковых цепей оптимизируется с помощью методов эмпирических силовых полей. В первом трансмембранном сегменте наложенных структур модели и шаблона показаны боковые цепи остатков, «подсвеченных» на выравнивании.
Моделирование проводят с помощью программы Modeller (и аналогичных ей) или сервера Swiss-Model (и ему подобных). В онлайн-базах ModBase и Swiss-Model Repository содержатся автоматически построенные модели для всех белков из базы Swiss-Prot, для которых удаётся найти структурный шаблон;
Оценка качества, оптимизация и использование модели. Самый сложный этап моделирования по гомологии – оптимизировать модель с учётом всей доступной биологической информации по моделируемому белку. Вообще, моделирование структуры по гомологии с белком, выполняющим отличную функцию, не способно автоматически дать модель, пригодную для практически важных задач. Обязательно требуется аккуратная оптимизация, превращающая «заготовку» (которой, по сути, является модель «нулевого приближения») в рабочий инструмент, – задача, зависящая скорее от интуиции и опыта исследователя, чем от конкретных компьютерных методик.

В процессе проводимого уже около 15 лет с двухгодичным интервалом всемирного «соревнования» по предсказанию структуры белков – CASP (Critical Assessment of Techniques for Protein Structure Prediction) – выяснилось, что эмпирическим «барьером» можно считать 30%-идентичность. То есть, если последовательности белков идентичны более чем на 30% – то, скорее всего, их структуры будут похожими и качество итоговых моделей будет удовлетворительным (рис. 3). Если же гомология низка, то накопившиеся структурные отличия, скорее всего, уже слишком велики для аккуратного моделирования, или – больше того – реальной гомологии между двумя белками нет никакой, а наблюдаемый уровень идентичности последовательностей является лишь случайным событием.

Рисунок 3. Качество и сфера пригодности компьютерных моделей белков, основанных на различной степени гомологии [16, 22]. Чем выше идентичность последовательностей моделируемого белка и шаблона – тем более высококачественными получаются модели, и область их пригодности расширяется на чувствительные к точному расположению атомов приложения – такие как объяснение каталитического механизма, докинг лигандов и разработка новых лекарств.
Вертикальная ось представляет долю идентичности шаблон-мишень на выравнивании. Слева от вертикальных стрелок указаны методики, способные идентифицировать этот уровень гомологии. В правой части перечислены возможные сферы применения моделей, причём все «роли» моделей, основанных на низкой гомологии, относятся и к более «качественным» структурам. Слева от шкалы указана типичная точность моделей (даны среднеквадратичное отклонение от «нативной» структуры и доля остатков модели, удовлетворяющая этому качеству). В левой части рисунка показаны наложенные друг на друга кристаллографические структуры нескольких ядерных рецепторов в зависимости от идентичности по отношению к прогестероновому рецептору (дан красным сверху и на каждом совмещении): 54% – глюкокортикоидный рецептор (зелёным), 24% – эстрогеновый рецептор α (фиолетовым), 15% – рецептор трийодтиронина (голубым) [22]. Из сравнения структур видно, что, хотя структурная общность несомненно тем выше, чем выше идентичность последовательностей, внутри этого семейства рецепторов существует консервативный структурный мотив, сохраняющийся даже у низкогомологичных по последовательности белков.

Низкая гомология (<30% идентичности) часто уже не может быть корректно идентифицирована с помощью парного выравнивания последовательностей из-за слишком большого числа накопившихся замен, «маскирующих» последовательность белка, который, возможно, всё же сохранил определённое структурное сходство с каким-либо известным белком-«шаблоном». В этом случае часто используют методики поиска по профилям последовательностей, в которых для «запроса» к базе последовательностей используется не одиночная последовательность, а профиль, сконструированный на основе множественного выравнивания – своеобразная метапоследовательность, кодирующая в себе эволюционную вариабельность данного белка [25]. С помощью этой методики иногда удаётся «вычислить» пригодный для моделирования структурный шаблон, несмотря на то, что идентичность последовательностей с ним составляет лишь 10–15%. Если же ни с помощью «традиционных» подходов поиска гомологичных последовательностей, ни с помощью профилей найти структурный гомолог не удаётся, единственный способ получить предсказание – это de novo методы, о которых уже говорилось выше.

Область применения предсказанных структур белков довольно разнообразна (рис. 3), и они оказываются полезными на различных этапах процесса разработки фармацевтических препаратов [1] (рис. 4).

Рисунок 4. Применение теоретических моделей белков в разработке новых лекарств [22]. Возрастающее количество структурной информации интенсифицирует не только идентификацию и оптимизацию соединения-«прототипа», но и более ранние стадии – такие как выбор мишени для фармакологического воздействия и проверка её «причастности» к изучаемым процессам ( валидация мишени).

Ограничения сопоставительного моделирования

В некоторых случаях основополагающая концепция метода моделирования по гомологии – «близкие последовательности упаковываются в близкие структуры» – нарушается. Белки, чьи последовательности практически идентичны и содержат лишь несколько замен, иногда могут принимать различные конформации. Некоторые белки при ди- или олигомеризации обмениваются доменами, в результате чего структура мономеров в составе олигомера и отдельно взятого мономера совершенно не похожи. За этими явлениями стоят очень тонкие эффекты, сопровождающие сворачивание белков, приводящие к тому, что небольшие замены в последовательности или молекулярном окружении стабилизируют различные конформации белка. Увы, прогнозирование таких событий пока что совершенно неподвластно ни сопоставительному моделированию, ни другим теоретическим методам предсказания пространственной структуры.

Вообще, как показывает анализ множества предсказаний структуры «вслепую», в подавляющем большинстве случаев структура моделей, созданных по гомологии, оказывается не ближе к нативной, чем шаблон, на котором она базировалась [26] – если сравнивать укладку белковых «остовов» в пространстве. Происходит это, очевидно, из-за того, что в структуре шаблона не может содержаться отличительных черт моделируемого белка, а используемые методы оптимизации скорее отдаляют структуру модели от нативной, нежели приближают к ней – опять-таки, из-за несовершенства современных эмпирических полей, неспособных воспроизводить тонкие конформационные явления, происходящие «вблизи» нативной структуры. Предпринимаются, впрочем, попытки преодолеть этот изъян, позволяя оптимизации взаиморасположения участков белкового остова модели протекать только в «эволюционно разрешённых направлениях», извлекаемых из семейства структур родственных белков [27], но этот подход пока не получил большого распространения.

Дух соревнования (Есть ли прогресс в моделировании структуры?)

В 1993 году впервые было проведено «соревнование» среди членов научного сообщества, занимающихся моделированием пространственной структуры белков – «Экспертиза методов по предсказанию структуры белкá» (CASP, Critical Assessment of Techniques for Protein Structure Prediction ). Целью этого соревнования, проводимого с тех пор каждые два года, является протоколирование прогресса в данной наукоёмкой области. Чтобы не подвергать участников соревнования соблазну сфабриковать результаты, «на старт» выносятся белки с действительно неизвестной структурой – поскольку экспериментаторы, занимающиеся изучением этих белков, либо ещё не завершили работу над их структурами, либо «под честное слово» не раскрывают её результатов до окончания «забега». По результатам соревнования – когда все модели от всех участников получены и «правильные ответы» выложены в онлайн – определяется победитель и выпускается специальный номер журнала Proteins [26] с описанием достижений участников «соревнования». И, кстати, именно по итогам нескольких мероприятий CASP был установлен 30% эмпирический «рубеж», при опускании идентичности последовательностей ниже которого начинается «сумеречная зона», в которой найти шаблон для моделирования тем труднее, что не может быть чёткой уверенности в том, что он вообще существует.

Аналогичное испытание – «Экспертиза полностью автоматических методов предсказания структуры белка» (CAFASP, Critical Assessment of Fully Automated Structure Prediction ) – проводится и для серверов, предлагающих свои услуги по 100%-автоматическому моделированию через интернет. «Состязание» среди серверов позволяет исключить из соревнования человеческий фактор и сравнивать чистые технологии.

И – что же вы думаете? – преимущество пока прочно удерживается за людьми, успех которых во многом зависит от интуиции и неформального опыта, нежели от технологий и программ, которые они используют. Для серверов же характерна другая закономерность: так называемые метапредсказатели – роботы, которые сами не моделируют строение белков, а, собрав результаты с других серверов в интернете, комбинируют их предсказания в собственные, – выдают результаты в среднем более правильные, чем сервера-«одиночки». Механизм как электронной «интуиции», так и многоопытности учёных мужей ещё предстоит обобщить, чтобы, может быть, ещё на один шажок приблизиться к пониманию механизмов фолдинга белка и к умению корректно предсказывать их структуру.

Протеомное моделирование

Хотя точность полностью автоматического моделирования, как правило, оставляет желать лучшего (как в абсолютном представлении, так и по сравнению с моделями, полученными «вручную»), прогресс в развитии «поточных» методов предсказания неизбежен. Во-первых, он позволяет суммировать весь накопленный опыт в одной технологической платформе, которой могут воспользоваться исследователи, не занимающиеся молекулярным моделированием, в том числе и через интернет. А во-вторых, «роботы» неутомимы, что позволяет им строить модели огромного количества белков – например, всех белков, идентифицированных в геноме какого-нибудь отдельно взятого организма – что вряд ли было бы под силу людям (если не рассматривать незаконную эксплуатацию азиатских студентов и аспирантов).

Сейчас уже существуют интернет-ресурсы, содержащие компьютерные модели огромного числа белков, полученные автоматически в результате запуска такого масштабного «геномно-протеомного» моделирования – и среди них уже упомянутые базы ModBase и Swiss-Model Repository. И если в этих базах содержатся модели, главным образом основанные на гомологии со структурами из базы PDB, то аналогичные инициативы с использованием de novo -«предсказателей» – упомянутых выше программ Rosetta и TASSER – моделируют и малоизученные белки, не имеющие ни структурных гомологов, ни ещё чётко определённой функции в клетке. De novo предсказания, помимо собственно моделирования структуры, могут оказать дополнительное подспорье проектам по структурной геномике, указывая белки с не найденным ранее типом укладки и, следовательно, являющиеся первоочередными «кандидатами» на экспериментальное изучение (в рамках стратегии структурно-геномных проектов).

Смысл такого крупномасштабного моделирования созвучен целям глобального проекта по структурной геномике, направленного на получение трёхмерной структуры всех известных белков – в результате прямых экспериментов или компьютерных расчётов. При этом стратегия выбора приоритетных мишеней для экспериментального изучения такова, чтобы «обеспечить» структурными шаблонами практически все известные белки – потому что ведь даже, несмотря на огромные усилия биологов-структурщиков, структура подавляющего числа белков будет смоделирована, а не получена экспериментально.

Не Здоровый скепсис

В заключение следует добавить небольшую ложку дёгтя в радужную перспективу использования компьютерных моделей в практически важных научных задачах. Питер Мур (Peter Moore) – один из ведущих специалистов по структуре рибосомы – в своём эссе в ноябрьском номере Structure за 2007 год, озаглавленном созвучно популярной некогда песенке на мелодию Гершвина «Давай прекратим всё это» (Let’s Call the Whole Thing Off) [28], выражает скепсис относительно структурной инициативы (Protein Structure Initiative), финансируемой Национальными институтами здоровья США (NIH). Мур считает, что выбранная стратегия – определение строения максимального числа белков, концентрируясь в первую очередь на новых структурных мотивах, даже если функции соответствующих белков до сих пор неизвестны, – порочна по своей сути. Согласно Муру, лучше бы немаленький бюджет этой программы был потрачен на поддержку отдельных учёных, занимающихся изучением структуры белков, чья практическая значимость очевидна уже сегодня, и не рассчитывать, что эти структуры, когда они потребуются, могут быть получены на основе теоретических расчётов.

Он аргументирует свою позицию тем, что, если научные планы лаборатории связаны со структурой какого-то белка, то полагаться на компьютерную модель – с которой, скорее всего, придётся работать, потому что даже в случае выполнения задач инициативы PSI, бóльшую часть белков будет всё же смоделирована, а не изучена экспериментально, – было бы очень опрометчиво. «Если ваша лаборатория начинает исследование, основанное знании структуры какого-либо белка, и всё, что у вас есть – это только компьютерная модель, полученная из его последовательности, не лучше ли вам всё же ещё до начала этой работы задаться целью получить экспериментальную структуру этого белка? Я считаю, что вы будете просто сумасшедшими, если не сделаете этого», – пишет Мур. «Не важно, получена ли стартовая модель вашего белка с помощью сопоставительного моделирования или нет, – но вам всё равно нужно будет оптимизировать её, чтобы прийти к точному расположению всех остатков в модели, а делать это нужно будет с помощью эмпирических силовых полей. Но эти подходы базируются на парных взаимодействиях атомов, что просто не соответствует истине! В твёрдом теле поляризация атомов существенно влияет на поведение системы, но учесть этого вам никак не удастся.... Только самые точные атомные модели, в которых положение отдельных атомов определено с точностью 0.5 Å или более высокой, достойны называться „структурами“, и только они могут быть полезными для высокоточных научных задач, основанных на знании структуры белка». Питер Мур считает, что нет смысла определять структуры максимума белков только потому, что они организованы ещё не описанным образом, – ведь в реальном исследовании, чтобы удостовериться в точности молекулярной модели, всё равно потребуется определить структуру интересующего белкá. «Однако если вы соберётесь делать это [определять структуру], зачем же тратить силы на то, чтобы моделировать его строение исходя из гомологии со структурами, полученными PSI? Вот из-за этого-то я и сомневаюсь, что „рай“, обещанный нам организаторами PSI, когда-нибудь наступит. Превед, Сизив!» – восклицает Мур, намекая на тщетность усилий этой международной программы. (Перевод мой. – А. Ч. )

Так или иначе, кое-какая польза от компьютерных предсказаний всё же есть, а станут ли они когда-нибудь надёжной заменой экспериментальным методам, – нам предстоит увидеть в будущем.

Литература

1. биомолекула: «Драг-дизайн: как в современном мире создаются новые лекарства»;
2. Нобелевские лауреаты. Кристиан Анфинсен. Электронная библиотека «Наука и техника»;
3. биомолекула: «Дизайнерские ферменты на службе общества»;
4. биомолекула: «Геном человека: как это было и как это будет»;
5. биомолекула: «454-секвенирование (высокопроизводительное пиросеквенирование ДНК)»;
6. Финкельштейн А. В., Птицын О. Б. Физика белка: Курс лекций с цветными и стереоскопическими иллюстрациями и задачами с решениями. М.: Университет, 2005 (См. курс лекций по физике белка на сайте пущинского Института белка);
7. Dill K.A., Ozkan S.B., Weikl T.R., Chodera J.D., Voelz V.A. (2007). The protein folding problem: when will it be solved? Curr. Opin. Struct. Biol. 17, 342–346 (в интернете);
8. Levinthal C. (1968). Are there pathways for protein folding. J. Chim. Phys. 65, 44–45 (pdf, 8 Кб);
9. Xu Y., Purkayastha P., Gai F. (2006). Nanosecond folding dynamics of a three-stranded beta-sheet. J. Am. Chem. Soc. 128, 15836–15842 (в интернете);
10. биомолекула: «Фолдинг „воочию“»;
11. биомолекула: «Молекулярная динамика биомолекул. Часть I. История полувековой давности»;
12. Zagrovic B., Snow C.D., Shirts M.R., Pande V.S. (2002). Simulation of folding of a small alpha-helical protein in atomistic detail using worldwide-distributed computing. J. Mol. Biol. 323, 927–937 (в интернете);
13. биомолекула: «Новые успехи в предсказании пространственной структуры белков»;
14. Bradley P., Misura K.M.S., Baker D. (2005). Toward High-Resolution de Novo Structure Prediction for Small Proteins. Science 309, 1868–1871 (в интернете);
15. Zhang T., Skolnick J. (2004). Automated structure prediction of weakly homologous proteins on a genomic scale. Proc. Natl. Acad. Sci. U.S.A. 101, 7594–7599 (в интернете);
16. Baker D., Šali A. (2001). Protein Structure Prediction and Structural Genomics. Science 294, 93–96 (в интернете);
17. Schueler-Furman O., Wang C., Bradley P., Misura K., Baker D. (2005). Progress in Modeling of Protein Structures and Interactions. Science 310, 638–642 (в интернете);
18. Kuhlman B., Dantas G., Ireton G.C., Varani G., Stoddard B.L., Baker D. (2003). Design of a Novel Globular Protein Fold with Atomic-Level Accuracy. Science 302, 1364–1367 (в интернете);
19. биомолекула: «Откуда пошло зрение»;
Lesk A.M., Chothia C. (1986). The response of protein structures to amino-acid sequence changes. Philos. Trans. R. Soc. Lond. Boil. Sci. 317, 345–356;
20. Lesk A.M., Chothia C. (1986). The response of protein structures to amino-acid sequence changes. Philos. Trans. R. Soc. Lond. Boil. Sci. 317, 345–356;
21. Vitkup D., Melamud E., Moult J., Sander C. (2001). Completeness in structural genomics. Nat. Struct. Biol. 8, 559–566 (в интернете);
22. Hillisch A., Pineda L.F., Hilgenfeld R. (2004). Utility of homology models in the drug discovery process. Drug Discov. Today 15, 659–669 (в интернете);
23. Ginalski K. (2006). Comparative modeling for protein structure prediction. Curr. Opin. Struct. Biol. 16, 172–177 (в интернете);
24. Chugunov A.O., Chavatte P., Farce A., Efremov R.G. (2006). Differences in binding sites of two melatonin receptors help to explain their selectivity to some melatonin analogs: a molecular modeling study. J. Biomol. Struct. & Dynamics 24, 91–108 (в интернете);
25. Dunbrack R.L. Jr. (2006). Sequence comparison and protein structure prediction. Curr. Opin. Struct. Biol. 16, 374–384 (в интернете);
26. Tress M., Ezkurdia I., Graña O., López G., Valencia A. (2005). Assessment of predictions submitted for the CASP6 comparative modeling category. Proteins 61 Suppl. 7, 27–45 (в интернете);
27. Qian B., Ortiz A.R., Baker D. (2004). Improvement of comparative model accuracy by free-energy optimization along principal components of natural structural variation. Proc. Natl. Acad. Sci. U.S.A. 101, 15346–15351 (в интернете);
28. Moore P. (2007). Let’s call the whole thing off: Some thoughts on the Protein structure initiative. Structure 15, 1350–1352 (в интернете).

Портал «Вечная молодость» www.vechnayamolodost.ru
27.03.2008

Торжество компьютерных методов: предсказание строения белков

Статьи по теме

Фолдинг in silico

«Борода» ищет мутации

Белки – в ноты и наоборот

Лекарства из компьютера

Машинное обучение ускорит поиск мишеней для лекарств