Геномы России
«Главное применение нашей работы — это диагностика редких наследственных заболеваний»
Недавно сбылась мечта российских медицинских генетиков — учёные создали базу данных генетического разнообразия популяции нашей страны. В этой базе давно нуждались специалисты по генетическим заболеваниям, онкогенетике, неонатальному скринингу и другие врачи. Как именно проект поможет медицине, почему частные компании долгое время не хотели делиться данными о своих пациентах с коллегами, как генетика влияет на появление заболеваний и каким образом диета позволяет некоторым детям нормально развиваться, рассказывает один из авторов исследования — биоинформатик Александр Предеус.
Россия — очень многонациональная и этнически своеобразная страна, а наше государство не совсем интегрировано в мировую медико-генетическую науку. Из-за этих двух факторов отечественные медицинские генетики долгое время плохо понимали генетическое разнообразие жителей страны.
О самом важном в нашей ДНК
Люди, далёкие от науки, плохо понимают, что такое гены и генетическое разнообразие. Во многом это происходит от того, что генетика — сложная и неинтуитивная наука. К тому же, в последние 20 лет генетика очень сильно «эволюционировала» — самые большие революции сейчас происходят именно в геномике, молекулярной биологии и вообще науках о живом. Успевать следить за прогрессом и честно изучать основы трудно — в итоге нередко высказываются весьма диковатые суждения о генетике вообще и генетике человека в частности.
Итак, небольшой экскурс в биологию: у каждого человека есть геном — это наша ДНК. На основании заключённой в ней наследуемой информации строятся все клетки, РНК, белки. Именно ДНК определяет программу развития любого организма. В грубом смысле, «с высоты птичьего полета», последовательность ДНК определяет наш биологический вид. То, что мы люди, хомо сапиенс, определяется нашей последовательностью ДНК и набором генов — участками ДНК, которые служат «чертежом» для синтезирующихся РНК, которые, в свою очередь, могут транслироваться в белки. У нас есть около 20 тыс. различных белок-кодирующих генов, и именно их последовательности определяют то, что мы являемся людьми.
При этом ДНК постоянно меняется, потому что в неё непрерывно закрадываются разные ошибки (мутации) — которые могут потом передаваться по наследству следующим поколениям. Некоторые ошибки несут очень серьёзные последствия, а некоторые — не очень. Некоторые вообще не несут никаких последствий и являются просто нейтральной вариативностью. Это приводит к тому, что внутри каждого вида — включая людей — есть некоторое разнообразие ДНК. Иными словами, мы не только сильно отличаемся от китов или обезьян, но и различаемся между собой — хотя и в намного меньшей степени. Различия между двумя людьми можно оценить примерно в 1/1000 от всего генома; в некоторых участках генома вариативность больше, а в некоторых — меньше.
Наш геном состоит из 3 млрд нуклеотидов, и три-пять миллионов из них обычно отличаются от «среднего», которое называется референсным геномом. Это, с одной стороны, очень много, с другой — не очень: примерно 99,9% ДНК, не относящейся к половым хромосомам, у любых двух людей совпадает.
Ещё важно понимать, что мы — диплоидные организмы. У нас две копии ДНК — от мамы и от папы. Это важно для понимания природы генетических заболеваний, а наша работа делалась именно для этого.
Где лежат причины генетических заболеваний
Вообще, в биологии и медицине часто встречается такая ситуация: из множества факторов, которые теоретически могут влиять на разные признаки и болезни, лишь небольшая часть действительно важна. И люди, которые изучают вопрос, первым делом определяют, какие факторы важны, а какие — нет.
Вариативность в разных участках генома может быть немного разной. Или сильно разной — если участок генома у нас сделан достаточно неудачно и нашим биологическим механизмам сложно его копировать. Упомянутые раньше 20 тысяч белок-кодирующих генов являются заметно более важными и менее вариативными, чем остальные участки генома. Может показаться удивительным, но они занимают довольно небольшой процент от общей ДНК — порядка 1%. То есть из 3 млрд оснований нашего генома лишь около 35 млн пар нуклеотидов кодируют белки. Обычно генетики фокусируются именно на этих участках — может быть, ещё с добавлением прилежащих регуляторных регионов — потому что подавляющее большинство известных нам генетических заболеваний вызываются изменениями ДНК именно там. Вот так вот мы можем сузить проблему, примерно в 100 раз. Это уже неплохо.
Вернёмся к подсчётам: у нас есть 35 млн пар нуклеотидов, вариативность примерно 1/1000, сколько это получается вариантов? В кодирующей части вариантов, если эту математику применять, будет 35 тысяч — но это неправильно, потому что в кодирующей части мутаций происходит меньше. В основном потому, что к ним меньше толерантность — то есть многие мутации неодинаковы по своему эффекту. Если в нейтральной и не очень нужной нам части ДНК что-то происходит, организм может этого вообще не заметить. А если происходит в жизненно важном белке, то организм это, скорее всего, так или иначе заметит. Может быть, не сразу, а может быть сразу. А может, с таким вариантом вообще невозможно родиться — с таким вариантом дети не могут существовать чисто теоретически. Потому вариантов в белок-кодирующих областях обычно меньше — около 25 тысяч для европейцев, до 30 тысяч у африканцев, и где-то между — у остальных глобальных популяций Земли.
Генетика и фенотипы: где тут связь?
Индивидуальный набор генетических вариантов влияет на фенотипы — то, что мы можем наблюдать. Рост, вес, болезни — это всё наш фенотип. В зависимости от того, о каком признаке идёт речь, наша генетика определяет фенотипы в очень разной степени. Некоторые болезни она определяет практически стопроцентно — например, муковисцидоз, одно из типичных генетических заболеваний. И то: даже если в гене есть мутация, отвечающая за эту болезнь, вероятность проявления болезни несколько меньше 100%. Это называется пенетрантность. Вокруг этого термина идёт много дискуссий — как, впрочем, вокруг многих тем в биологии и медицине.
Есть фенотипы, которые очень мало определяются генетикой. Типичный пример — инфекции. То есть если человек заразился ВИЧ, это почти никак не связано с его генетикой. Есть, конечно, люди, которые на ВИЧ меньше реагируют или не реагируют вообще — это уже другой вопрос. А вот заразится человек инфекцией или нет, вопрос не генетики, а скорее того, был он подвергнут заражению или нет. На заражение ВИЧ большинство людей реагирует довольно одинаково.
Генетические заболевания — это те, при которых генетика объясняет подавляющее большинство наблюдаемых явлений. То есть в возникновении болезни «виноваты» гены. При этом формально такие заболевания можно подразделить на моногенные — или менделевские, в честь отца-основателя генетики Грегора Менделя, и полигенные. Иногда к заболеванию приводит поломка только в одном гене. Бывает, что заболевание вызывается, например, поломкой в метаболическом пути или клеточном типе, который можно испортить, сломав несколько генов. А бывают заболевания полигенные — например, многие виды аутизма, аутоиммунные заболевания вроде волчанки, или диабет второго типа. Есть много болезней, которые возникают в результате сложного взаимодействия между развитием человека и его генетическим «бэкграундом».
Как диета спасает ребёнку мозг
Наша работа полезна в первую очередь для неонатальной диагностики классических моногенных менделевских заболеваний. Моногенные заболевания — это в основном те, на которые производится скрининг прямо в роддоме у новорождённых. Это муковисцидоз, фенилкетонурия и прочие болезни. Широко распространённой синдром Дауна — трисомия в 21 хромосоме — к ним относится тоже, но занимает в ряду наследуемых заболеваний особое место. Синдром Дауна — это не просто замена одного нуклеотида на другой, а целая лишняя хромосома.
Фенилкетонурия — это заболевание, при котором человек не может усваивать аминокислоту фенилаланин, и, если пациент ест пищу, содержащую эту аминокислоту, его мозг начинает страдать от попадания в него токсичных веществ. Однако, если ребёнка с этим диагнозом посадить на специальную диету с первой недели жизни, то он будет развиваться и расти практически нормально. Если же он будет потреблять пищу, содержащую эту абсолютно безопасную для остальных людей аминокислоту, то малыш будет развиваться с интеллектуальной недостаточностью.
Поэтому, одно из применений нашей работы — это разноплановый скрининг. Например, при планировании беременности. Если в семье есть наследственные заболевания, то при помощи этого анализа и ЭКО вы можете просто сделать так, чтобы ваши дети их не унаследовали. Также во многих странах набирает ход скрининг новорожденных на все больше количество наследуемых болезней, в которых критически важно раннее вмешательство — как с упомянутой выше фенилкетонурией. Хотя такие подходы недешевы, в будущем они экономят государству огромные суммы на лечении.
О разных типах наследования заболеваний
Вернемся к тому, в чём вообще проблема моногенных заболеваний. Выше мы упоминали, что мы несём две копии неполовых хромосом, что называется диплоидностью. По сути, у нас есть две копии ДНК, две копии каждого гена, и они могут немножко отличаться. За счёт этого возможны разные типы наследования, зависящие от функции гена; наиболее популярными из которых являются аутосомно-доминантный и аутосомно-рецессивный. Обычно в анализе наследуемых заболеваний мы подразумеваем, что в болезни виноват конкретный ген. Так вот, как мы писали ранее, некоторые варианты «ломают» ген — и «сломанной» может оказаться только одна копия. Для некоторых белков это не представляет большой проблемы — вторая копия просто производит работающий белок, и всё отлично. Мы живём, не замечая этого. А в некоторых случаях обе копии важны для правильной работы всех систем. И если даже одна копия сломана, возникает болезнь, сопровождаемая аутосомно-доминантным типом наследования. В данном случае, как правило, один вариант в каком-то гене будет отвечать за данное заболевание.
В случае с аутосомно-рецессивным типом наследования надо, чтобы обе копии были сломаны. Именно для профилактики таких заболеваний, с медицинской точки зрения, не рекомендуются близкородственные браки. Все мы носим поломанные копии разных генов — по разным оценкам, из 20 тыс. до 100 генов у каждого человека несут в себе практически нефункциональные копии, из которых около 20 жизненно важны для работы нашего организма. При определённой степени родства родителей, фрагменты геномов будут совпадать, несмотря на рекомбинацию (процесс, в котором копии ДНК при производстве половых клеток «перегруппировываются»). Есть шанс, что длинные участки ДНК будут совпадать практически полностью — и возрастает вероятность того, что будут сломаны обе копии ряда генов, вызывая наследственные болезни с аутосомно-рецессивным наследованием.
Но даже при неблизкородственных браках есть много вариантов, когда такие совпадения будут происходить. И перед нами возникает проблема, перед которой часто стоят медицинские генетики — проблема «иголки в стоге сена»: у нас есть 25 тыс. белок-кодирующих вариантов, а мы ищем всего один вариант — именно тот, который виноват в данном генетическом заболевании. Это, мягко говоря, непросто. И для решения этой задачи есть масса логических уловок, которые применяли медицинские генетики десятилетиями — во многом до развития секвенирования и молекулярной биологии.
Генетическая подпись каждого человека — уникальна
Нужно отметить, что я использую термины вариант, мутация, полиморфизм в практически взаимозаменяемом значении. Медицинские генетики могут меня за это побить — но я биоинформатик, мне можно так говорить. Иногда под мутацией понимается вариант, который вызывает заболевание, а под полиморфизмом вариант, который нейтрален. С точки зрения классической генетики, любое изменение генома есть результат мутации. Тем не менее, здесь я использую эти термины примерно одинаково.
Главным инструментом медицинской генетики остаётся сравнение генетических данных больных и здоровых людей. Однако методы, которыми осуществляются эти сравнения, постоянно эволюционируют. Недавно мы (в смысле, человечество) научились секвенировать геном человека — определять его последовательность — причём очень быстро, эффективно и за разумную цену. Много из того, о чём раньше учёные только догадывались, стало очевидным в виде буквальной нуклеотидной последовательности. Такой прорыв в методах дал нам возможность делать секвенирование очень большого количества как больных, так и здоровых людей.
Как это помогает нам в поиске причинных вариантов в моногенных заболеваниях? Допустим, мы знаем, что у рассматриваемого заболевания чёткий тип наследования — доминантный или рецессивный, которые мы обсуждали ранее. Тогда, как правило, мы либо из частоты данного варианта (для доминантного наследования), либо из квадрата частоты (для рецессивного) можем оценить, как много случаев данного генетического заболевания мы должны увидеть в популяции, и сравнить его с наблюдаемой частотой, известной из эпидемиологических исследований.
А откуда мы узнаем частоту обсуждаемого варианта? Именно тут и лежит главная польза от нашей работы. Если мы отсеквенируем 10 тыс. человек, увидим, что конкретный вариант встречается 20 раз. Значит, частота варианта будет 20, делённая на 20 тысяч (мы же диплоиды, помните?) — 0,001. Это — весьма редкий вариант; в каждом конкретном геноме таких и ещё более редких вариантов великое множество. Именно это делает геном каждого человека весьма уникальным. Большинство известных генетических вариантов в мире встречаются всего у 1, 10, 100 или 1000 человек. Правда, есть варианты, которые встречаются у половины планеты или даже у 95%. Но они — песчинка в общем море редких и уникальных вариантов.
Так вот, именно эта частота позволяет оценить, может вариант вызывать заболевание или нет. Потому что для большинства «подозреваемых» оценка частоты заболевания получается слишком высокой. Логика такая: если вариант встречается у 1% людей и мы подразумеваем, что он виноват в доминантном заболевании, то 1% людей должен иметь это заболевание. Но 1% — это шокирующе много для конкретного моногенного заболевания. Моногенных заболеваний известно около 7 тыс., ими в сумме болеют от 3 до 5% людей. Некоторые заболевания проявляются слабо — и можно даже не подозревать, что человек от него страдает. А некоторые заболевания не заметить невозможно. Но, всё-таки, в целом, каждое моногенное заболевание — это редкость, и его частота в популяции варьирует от 1 на миллион и ниже, до сотен случаев на 100 000. Потому представить себе индивидуальное моногенное заболевание с популяционной частотой 1% практически невозможно.
Таким образом, в подавляющем большинстве случаев мы можем использовать эти частоты для фильтрации ложноположительных ассоциаций. Если вам говорят: «Вариант А вызывает заболевание Б». Вы спрашиваете: «Какая частота варианта А?» Вы проверяете описанным выше способом, и частота оказывается слишком высокой. Так вы понимаете, что вариант А тут ни при чём.
«Большая выборка — это очень хорошо»
Зачем мы делали свой проект, если в мире уже есть такие проекты с частотами в открытом доступе с выборками в 150 тыс. человек? Ответ простой. Этносы и популяции отличаются — и по частым, и по редким вариантам. Если вы видели картинки генетического определения популяций, например, на 23andMe, нужно пояснить, что обычно для такого анализа используются очень частые варианты — например, с популяционной частотой более 5%. Именно такие варианты наиболее информативны для определения происхождения человека, но наименее интересны с медицинской точки зрения, т.к. заведомо не могут вызывать наследственные болезни ни в одной популяции. Нас же интересуют варианты с частотами от 1% и ниже.
У нас в стране большое генетическое разнообразие — и описываемые выше частоты будут отличаться именно в тех диапазонах, которые для нас важны. Для российских медицинских генетиков такой ресурс был очень нужен — именно для того, чтобы лучше работать с нашими пациентами.
Как я писал в самом начале, к сожалению, Россия не очень интегрирована в научное мировое сообщество. Но в нашей стране есть деньги и навыки для создания такого проекта. Кроме того, в частных коммерческих компаниях такая диагностика делается уже давно. Цена полногеномного секвенирования сейчас больше 90 тыс. рублей, а полный экзом — секвенирование тех самых 35 миллионов белок-кодирующих нуклеотидов — обойдётся около 40 тыс. Это, конечно, недёшево. Но это делается быстро, эффективно и потоком — причём не только в Питере и Москве. Собрав некоторую выборку, компания может получить собственные выводы и оценки. Но очень важно понимать: чем выборка больше — тем лучше вы можете оценить интересующую вас частоту, и тем более редкие варианты вы сможете охарактеризовать надёжно. Большая выборка — это очень хорошо.
Почему учёным важно объединяться
Была очень интересная работа, которая выяснила, сколько надо отсеквенировать людей до насыщения определённых позиций, чтобы мы увидели каждую позицию изменённой хотя бы раз. Нужно от многих сот тысяч до миллионов образцов. Мы ещё не там, и мировая генетика ещё не там.
Необходимость в такой базе данных в России была ясна всем уже довольно давно. Но коммерческие структуры не хотели делиться данными, потому что боялись, что они будут использованы нецелевым способом, и опасались потерять конкурентное преимущество. Тем не менее, пока всё говорит об обратном: репутация компаний, объединившихся в нашем проекте, становится сильнее, доступ к ценной и надёжной информации — эффективнее и быстрее. Вместе мы определенно стали сильнее. Мы в Петербурге давно работаем с компанией «Сербалаб», с Андреем Глотовым. По мере их работы у них копилось всё больше и больше данных — у них скопилось больше 2 тыс. упоминавшихся выше полных экзомов. А в Москве есть лаборатория «Генетико», которую возглавлял Артур Исаев, проявивший заинтересованность в общем проекте. И мы решили объединить усилия. Научный результат нашего проекта скромный — мы нашли известные варианты для 18 заболеваний, которые встречаются в наших популяциях чаще, чем в остальном мире, нашли ряд новых вариантов, обработали всё одним способом, уменьшив количество ошибок, потенциально опасных для интерпретации.
Однако основной наш результат — идеологический и, так сказать, политический. Полученные данные совершенно точно важны практикующим генетикам. Мы успешно показали, что очень классно так объединяться — можно делать это законно, эффективно и выгодно для всех вовлечённых сторон. Мы разработали стандартные договоры, которые облегчат вступление в наш консорциум новых организаций. Мы придумали биоинформатические подходы, которые минимизируют обмен сырыми данными, оставляя их под полным контролем собственников. А на базовом уровне нашим результатом, популяционными частотами в российской популяции, могут пользоваться все, кто подпишет соответствующее соглашение. Мы планируем дальше развивать сайт, на котором представлены результаты — ruseq.ru. Добро пожаловать!
Портал «Вечная молодость» http://vechnayamolodost.ru