02 Февраля 2021

Аннотация генома

Genome Annotation

Tim Hubbard, Serious Science
Перевод: Ирина Линева, ПостНаука

Обработка геномных данных – это сравнительно молодая область исследований: первый геном организма был секвенирован только в 1995 году, а к 2000 году мы получили полный геном человека. Но если мы хотим использовать наши знания о геноме, самое важное здесь – понять, какие части генома функциональны и за что отвечают. Конечно, мы давно поняли, что гены – основные единицы работы генома, но где они расположены? Если вы взглянете на геном человека, вы увидите просто длинную цепочку букв – оснований ДНК, всего их 3 миллиарда. Но как понять, где здесь находятся гены?

Интроны: «лишние буквы» в словах 

Если вы работаете с геномом бактерий, то как минимум компьютеры могут напрямую вычислить расположение генов, поскольку они уложены очень простыми блоками: можно увидеть начало гена, основную часть, которая кодирует белок, и завершающую часть. Если прицельно искать эти блоки, можно установить расположение генов. Но у позвоночных, почти у всех сложных животных гены не устроены блоками – они разбиты на фрагменты: экзоны, интроны и фрагменты между ними. У людей такие промежуточные фрагменты могут быть очень длинными, так что с высокой точностью выявить расположение гена оказывается сложно.

Специалисты разработали компьютерные программы, которые могут определять расположение генов, но результаты такого анализа не очень надежны: даже сейчас, через двадцать лет после того, как мы секвенировали геном, единственный способ локализовать гены – проанализировать содержимое клетки. 

Работа гена начинается в ДНК: создается РНК-копия гена, затем эта РНК обрабатывается и транслируется в белок. Можно найти в клетке эти РНК и соотнести их с соответствующими участками ДНК – по этой информации вы сможете локализовать гены. Это единственный рабочий способ определять расположение генов: для него нужны компьютеры, но тем не менее идентификация генов основана на анализе фрагментов РНК. 

Клеточный шум

В чем же состоит проблема? Во-первых, в клетке полно шума, то есть незавершенных РНК и других молекул, так что у вас нет абсолютно ясной картины. Во-вторых, в клетках разных типов активен разный набор генов. Это значит, что из разных клеток можно получить разные наборы РНК, и, таким образом, сколько клеток вы бы ни проанализировали, у вас никогда не будет полного набора. 

Так знаем ли мы расположение всех человеческих генов? Ответ на этот вопрос: не вполне, поскольку мы не можем быть уверены, что проверили все существующие клетки. В человеческом организме 37 триллионов клеток, и мы не знаем, на сколько типов их можно разделить. Но даже если бы у вас были образцы всех типов клеток, в каждой из них в каждый момент времени активны только некоторые гены. Мы всегда знаем, что некоторые из активных в данный момент генов в любое другое время будут выключены, так что, когда мы анализируем РНК, мы всегда получаем несколько неполную картину расположения генов. 

Тем не менее, опираясь на эти данные, мы сильно продвинулись вперед. За последние годы мы собрали довольно обширный массив генетической информации, которая сейчас доступна в базах данных наподобие Ensembl и других геномных браузеров по всему миру: они позволяют проанализировать фрагмент генома и увидеть, какие гены в нем содержатся. 

Что кодируют гены (не только белки!)

С идентификацией генов связана еще одна проблема: как определить функцию гена? На протяжении долгого времени предполагалось, что все начинается с ДНК, потом создается РНК, затем синтезируется белок, и в конце этой цепочки всегда должен быть белок. Когда мы выделяем конкретные гены, мы всегда порываемся начать искать, какая часть этого гена отвечает за синтез белка. Но как мы узнали из анализа РНК, во многих случаях в конечном счете белок не синтезируется. До того как мы секвенировали геном человека, специалисты приблизительно оценивали число генов человека в 100 тысяч, и это было своеобразное соревнование – угадать, сколько всего генов человека мы насчитаем, когда завершим секвенирование генома. После первичного анализа оценка числа генов упала до 30 тысяч, и это число со временем все снижалось и снижалось, и в итоге мы пришли примерно к 20 тысячам генов, но это гены, кодирующие белки. Сейчас мы понимаем, что может оказаться еще до 20 тысяч генов (а возможно, больше), которые кодируют не белок, а РНК, и эти РНК сами по себе выполняют в клетке важные функции.  

Как можно определить, кодирует ли ген белок или нет? Можно искать повторяющиеся фрагменты по три буквы – триплеты, которые уточняют, как РНК (четыре буквы) транслируется в белок (20 аминокислот). Это статистический метод анализа геномной последовательности. Бывают очень-очень короткие белки. Если посмотреть на все экспрессированные РНК, вы обнаружите множество потенциальных возможностей создать очень короткие белки, хотя многие из них на самом деле не синтезируются. В настоящий момент, поскольку наши предсказательные способности невелики, нам нужны дополнительные экспериментальные данные, чтобы понять, кодируется ли в этой геномной последовательности белок или нет.

Открытые вопросы

Ученые, которые работают над аннотацией генома, сейчас все чаще обращаются также и к данным масс-спектроскопии, поскольку она позволяет увидеть, синтезируется ли белок в данной последовательности или нет. В некоторых случаях после этого они корректируют выводы: например, исключают гены, которые по нашей теории кодируют белок, но на самом деле нет, или те гены, про которые мы думали, что они кодируют РНК, но потом оказалось, что они кодируют небольшой белок. Так что процесс аннотации генома не прекращается, поскольку до тех пор, пока мы не сможем обработать полный геном человека при помощи компьютера и напрямую определить расположение всех генов, нам придется полагаться на экспериментальные данные об РНК и белках, а эти данные всегда будут неполны, поскольку мы получаем их из конкретных клеток, в которых синтезируются конкретные белки и РНК.

Полагаю, самые важные открытые вопросы в этой сфере связаны с тем, сколько генов можно выделить в геноме человека и что делают гены, кодирующие РНК. Очевидно, что некоторые из них выполняют определенные функции, но непонятно, сколько РНК функциональны, а сколько просто шум и в каких процессах клеточной жизнедеятельности они нужны. Это сравнительно новая область: мы узнали об их существовании в таких количествах только 5–10 лет назад. Разумеется, все это связано с эпигенетикой, которая позволит нам получить более полное представление о том, какие молекулы связываются с ДНК и регулируют активацию процессов производства РНК. 

Таким образом, будущие направления исследований в области аннотации генома связаны с генами, кодирующими РНК, их количеством и функциями: нам известны функции некоторых из них, но таких мало. Задача точно выявить все гены человека займет много времени. Возможно, мы нашли бо́льшую часть генов, кодирующих белки, но мы знаем, что есть альтернативные формы этих генов, альтернативный сплайсинг, и чем больше типов клеток мы проанализировали, тем больше новых альтернативных форм мы узнаем. Существует целое сообщество, проект под названием GENCODE, который управляет процессом аннотации генома и в течение многих лет будет заниматься этой задачей.

Портал «Вечная молодость» http://vechnayamolodost.ru


Нашли опечатку? Выделите её и нажмите ctrl + enter Версия для печати

Статьи по теме