06 Февраля 2008

Полку генов убыло

По мере изучения человеческого генома число генов в нем уменьшилось чуть ли не в 2 разаСколько генов кодирует человеческая ДНК? За последние двадцать лет звучали самые разнообразные ответы на этот вопрос. К моменту обнародования «черновой» последовательности генома человека в 2001 году общепринятой считалась цифра 35000, сейчас же генетические каталоги включают примерно 24500 генов. Новое биоинформатическое исследование свидетельствует, что число «реальных» генов ещё меньше: около 20500, а остальное в нынешних базах данных – попавшие туда по недосмотру некодирующие последовательности ДНК.

Уже давно всему прогрессивному человечеству известно, что нашумевший проект «геном человека» завершён, и что последовательность ДНК, делающая нас людьми, общедоступна [1]. Однако если оставить в стороне сенсационность, нужно сказать, что полученные тогда данные продолжают уточняться по сегодняшний день и, мало того, что остаются не полными (последовательность некоторых участков хромосом с трудом поддаётся секвенированию), но и не дают отчётливой картины даже относительно числа генов, входящих в геном. Что же говорить о том, чтобы понять все их функции!..

«Генетические атласы» (например, Ensembl) содержат информацию о генах, составляющих геномы различных организмов. Однако как из многомегабайтного генетического текста вычленить последовательности, соответствующие генам – участкам хромосомы, на которых происходит считывание генетической информации? Ведь подавляющее количество ДНК, хотя и может выполнять важные функции, вроде регуляции транскрипции «истинных» генов, ничего не кодирует! (Из-за этого такая ДНК получила обидное название «мусорной».)

Обычно для поиска генов (и, соответственно, занесения их в «атласы») используются биоинформатические методы, идентифицирующие в тексте ДНК открытые рамки считывания (ОРС), соответствующие участкам хромосомы, на которых происходит связывание РНК-полимеразы и синтез мРНК. Говоря грубо, любая достаточно протяжённая (>300 пар оснований в сплайсированной форме) ОРС, идентифицированная на компьютере, является геном в «генетическом атласе».

Однако жизнь всегда сложнее схемы: не все такие ОРС соответствуют генам – видимо, в силу особенностей упаковки ДНК на хромосоме, облигатной супрессии промоторов и по ряду других малоизученных причин. Таким образом, генетические базы данных содержат как «реальные» (существование которых подтверждено на уровне белкового продукта), так и «потенциальные» гены. Причём среди последних наверняка есть как те, активность которых крайне мала в данном месте и в данное время, так и некодирующие последовательности, содержащие «мнимую» рамку считывания и лишь сбивающие с толку исследователей. (Кстати, знать точный перечень генов важно хотя бы для того, чтобы можно было проводить масштабные эксперименты с участием абсолютно всех человеческих белков [2].)

В трёх основных генетических «атласах» – Ensembl, Vega и RefSeq – на настоящий момент в сумме содержится около 24500 генов, но уже в 2002-м году, после сравнения геномов человека и мыши стало понятно, что довольно много генов человека не имеют гомологов в мышином геноме, и наоборот. Исследования же показывают, что за время эволюции млекопитающих вряд ли могло возникнуть и исчезнуть такое количество генов. Вывод напрашивался сам собой: аннотация генетических текстов недостаточно совершенна. Однако сейчас не существует стандартных механизмов «чистки» генетических банков с целью удалить из них «самозванцев».

Решение этой проблемы предлагает группа американских учёных во главе с Мишелем Клампом (Michele Clamp) и Эриком Лэндером (Eric Lander), основываясь на эволюционном родстве генов и сравнении нескольких геномов между собой [3]. Ген считался «истинным», если удавалось идентифицировать гомологичные ему в геномах двух других млекопитающих – мыши и собаки (или были найдены «истинные» гены-гомологи в самом человеческом геноме). Таким образом, из 22218 генов, содержащихся в «атласе» Ensembl v35, около 19000 было признано «реальными», а 1177 – «сиротскими» (orphan genes). Еще примерно 1500 генов было классифицировано как ретротранспозоны или псевдогены; кроме того, были выявлены очевидные ошибки в аннотации некоторых генов.

Однако одно лишь то, что у «сиротских» генов нет мышиных и собачьих гомологов, не позволяет, конечно, утверждать, что это и не гены вовсе. Можно предположить, что эти гены возникли в процессе эволюции приматов и специфичны именно для этой группы млекопитающих, или же были утеряны у мыши и собаки, но сохранились у приматов. К счастью, проверить можно и эту гипотезу: ведь на сегодняшний день уже известны геномы макаки [4] и шимпанзе! Но и в этом случае, применив методику, способную аккуратно выявлять родство генов, учёные лишь подтвердили прозвище «сиротских» генов: для подавляющего большинства из них не найдено гомологов ни в одном из геномов «родственничков» человека.

Аналогичный анализ, проведённый на всех трёх упомянутых каталогах генов, «убрал» из списка белок-кодирующих генов около 5000 последовательностей ДНК, а общее число «реальных» генов стало равным 20470. Исследователи допускают, что эта цифра будет постепенно увеличиваться (вряд ли, впрочем, превысив 21000): ведь ограничение на минимальную длину ОРС наверняка отсеивает гены малых пептидных гормонов, а в сам анализ не была включена Y-хромосома, митохондриальные хромосомы и оставшиеся «неразмеченными» по хромосомам участки секвенированной ДНК.

Описанное исследование, кроме того, что предложило существенно пересмотренный список генов, также определяет процедуру по будущему добавлению генов в каталоги. Учёные предлагают включать новый, не имеющий гомологов в геномах других млекопитающих, «претендент» в гены, только если удаётся экспериментально доказать его существование (например, идентифицировав его белковый продукт). Таким образом, кстати, в описанной работе было «реабилитировано» всего 12 генов из 1177 «сирот» – для них поиск по литературе выявил факт экспрессии in vivo. В остальных случаях рекомендуется не верить «самозванцу».

«Не имея под рукой геномов других приматов, нам вряд ли удалось бы забить последний гвоздь в крышку гроба этих „сиротских“ генов», – подчёркивает значимость секвенирования геномов Кламп [5].

В ходе работы получены довольно веские доказательства того, что со времени расхождения приматов с другими ветвями млекопитающих, в геноме не появилось большого числа новых генов (да и старых не особо поубавилось). Фактически, это означает, что люди отличаются от мышей и собак вовсе не числом, функцией и структурой генов как таковых, а чем-то значительно более тонким, находящимся за гранью доступных нам на сегодняшний день свойств генома. А вот чем именно – предстоит выяснять, скорее всего, ещё не одному поколению биологов.

Литература
биомолекула – «Геном человека: как это было и как это будет»;
биомолекула – «Подножка для вируса СПИДа»;
Clamp M., Fry B., Kamal M., Xie X., Cuff J., Lin M.F., Kellis M., Lindblad-Toh, K., Lander E.S. (2007). Distinguishing protein-coding and noncoding genes in the human genome. Proc. Natl. Acad. Sci. U.S.A. 104, 19428–19433 (в интернете);
биомолекула – «Время обезьяньих исследований: расшифрован геном макаки резус»;
ScienceDaily – “Human Gene Count Tumbles Again”.

Автор: Чугунов Антон, «Биомолекула»

Портал «Вечная молодость» www.vechnayamolodost.ru
06.02.2008

Нашли опечатку? Выделите её и нажмите ctrl + enter Версия для печати

Статьи по теме