454-секвенирование (высокопроизводительное пиросеквенирование ДНК)
Натальин Павел, "Биомолекула" .
Скорость является одним из главных преимуществ нового метода секвенирования. Не потому ли название метода отсылает нас к легендарному Chevrolet Chevelle SS 454 1970-го года с двигателем мощностью 360 лошадиных сил? Коллаж на основе картинки dotsara @ Flickr.
Новое поколение технологий расшифровки последовательности ДНК, позволяющее осуществлять прочтение генетических текстов с беспрецедентной скоростью и производительностью, нашло широкое применение в биомедицинских исследованиях и стало предпосылкой для впечатляющих научных достижений.
Оглавление
- Классический подход к расшифровке последовательностей ДНК
- Принцип высокопроизводительного пиросеквенирования ДНК
- На службе у всего прогрессивного человечества
- Перспективы
- Литература
Словарик
ДНК-микрочип (DNA microarray) — небольшая поверхность, на которую с большой плотностью в определённом порядке нанесены фрагменты одноцепочечной синтетической ДНК с известной последовательностью. Эти фрагменты выступают в роли зондов, с которыми гибридизуются (образуют двуцепочечные молекулы) комплементарные им цепи ДНК из исследуемого образца, обычно меченные флуоресцентным красителем. Чем больше в образце молекул ДНК с определенной последовательностью, тем большее их количество свяжется с комплементарным зондом, и тем сильнее будет сигнал в точке микрочипа, куда был «посажен» соответствующий зонд. После гибридизации поверхность микрочипа сканируется, и в результате каждой последовательности ДНК ставится в соответствие тот или иной уровень сигнала, пропорциональный числу молекул ДНК с данной последовательностью, присутствующих в смеси. Технология ДНК-микрочипов находит самые разнообразные применения в современной биологии и медицине для анализа сложных смесей ДНК — например, совокупности всех транскриптов (матричных РНК) в клетке.
ПЦР — полимеразная цепная реакция, ферментативная реакция репликации молекул ДНК in vitro, катализируемая термостабильной ДНК-полимеразой. Реакция, разработанная в 1983 г. Кэри Муллисом (Kary Mullis), ныне широко применяется во всех сферах современной молекулярной биологии. Реакция состоит из повторяющихся циклов, в течение которых происходит ступенчатая смена температуры реакционной смеси, что управляет стадиями реакции. Сначала фрагменты двуцепочечной ДНК-матрицы разделяются (стадия денатурирации) при высокой температуре (94° С). Затем температура понижается до 55–65° С и каждый одноцепочечный фрагмент гибридизуется с комплементарным олигонуклеотидом-затравкой (стадия «отжига» затравки). Далее температура повышается вновь до 72° С (температурный оптимум термостабильной ДНК-полимеразы), и фермент достраивает затравку до конца, создавая полноценную двуцепочечную копию молекулы ДНК-матрицы (стадия синтеза). Поскольку по окончанию цикла из каждой молекулы ДНК образуется две (обе цепи идут в дело) и количество молекул растет в геометрической прогрессии, реакция называется цепной. При помощи ПЦР можно из одной молекулы ДНК-матрицы получить достаточно большое количество вещества.
Микрофлюидика — междисциплинарная область исследований, возникшая в начале 80-х годов на пересечении физики, химии, биологии и микротехники. Изучает поведение микро- и нанолитровых объёмов жидкостей, пространственно ограниченных до субмиллиметровых размеров. При таких условиях жидкости обладают рядом интересных свойств. В системе начинают доминировать такие факторы, как сила поверхностного натяжения, диссипация энергии, сопротивление жидкости. Практически исчезает турбулентный ток (остаётся только ламинарный), и поэтому смешивание двух жидкостей затруднено и происходит преимущественно за счёт диффузии. Прикладная микрофлюидика занимается конструированием различных устройств — от струйных принтеров до высокоэффективных жидкостных хроматографов и «лабораторий на микрочипах».
Прибор с зарядовой связью (CCD-сенсор) — предназначен для преобразования энергии электромагнитного излучения оптического диапазона в электрическую. Он обладает высокой чувствительностью, разрешающей способностью и быстродействием. Используется в качестве фотоприемника в видеокамерах, цифровых фотоаппаратах, сканерах и т. д. Конструктивно имеет матричное (многоплощадочное) исполнение, включающее от одной до нескольких линеек фоточувствительных микроповерхностей.
Фредерик Сэнгер, род. 18 апреля 1918 г., OM, CH, CBE, FRS — английский биохимик и корифей молекулярной биологии, дважды лауреат Нобелевской премии по химии: за определение аминокислотной последовательности инсулина (1955 г.) и за разработку метода секвенирования ДНК (1980 г.). Говорят, необычайно скромный и обаятельный человек.
Поразительные успехи современной биологии во многом были определены стремительным прогрессом биологического приборостроения. Автоматизация рутинных процедур, миниатюризация, объединение различных модулей в интегрированные многофункциональные системы — всё это привело к стремительному увеличению производительности отдельного биологического эксперимента и, в целом, к поднятию исследований на качественно новый уровень. Активное использование конструкторских решений из других областей техники значительно облегчило и ускорило этот процесс. Так, технология изготовления струйных принтеров была использована при создании машин, «печатавших» первые ДНК-микрочипы. Вообще, нанотехнологии, изначально разработанные для электронной промышленности, в сочетании с достижениями микрофлюидики, применяются для производства инструментов для биомедицинских исследований и уже сегодня позволяют создавать «лаборатории на микрочипах» (от англ. “lab on а chip”).
Пожалуй, самым ярким примером прорыва в биологии, неосуществимого без соответствующего технологического обеспечения, является расшифровка геномов группы организмов, которая постоянно расширяется, вбирая все новых членов. Сегодня разве что глухие пенсионеры не слышали о проекте «Геном человека» [1]. (Осенью 2005 года мне довелось посетить Сэнгеровский институт в Кэмбридже, где была расшифрована значительная часть генома человека. Там есть лаборатория размером с баскетбольный спортзал, набитая автоматическими секвенаторами, непрерывно работающими в формате микротитровальных плашек с 384 лунками... Интересно, перешли они уже на 1536-луночные плашки?..) Автоматизация процесса секвенирования сделала возможным прочтение 3 253 037 807 пар оснований ДНК человека. И позволила учёным пойти ещё дальше.
Зайдите на http://www.ensembl.org — и вы увидите, что новые виды с частично или полностью расшифрованным геномом появляются там чуть ли не каждый месяц. Невозможно представить себе современную биологию (не только молекулярную биологию и биохимию, но и систематику, теорию эволюции, антропологию, медицину, в конце концов!) без мегабайтов прочитанных последовательностей ДНК, этой плоти и крови биоинформатики, самой динамично развивающейся области биологической науки.
Не только компьютеры становятся лучше и дешевле с каждым днем. Цены на расшифровку геномов тоже находятся в «свободном падении». Первый черновой вариант генома человека, законченный в 2001 году, стоил около 300 миллионов долларов (а окончательный вариант, вместе с технологиями, сделавшими его возможным, обошёлся примерно в 3 миллиарда). Расшифровка третьего генома примата Macaca mulatta, черновой вариант последовательности которого был получен в феврале прошлого года, стоил уже 22 миллиона [2]. Ожидается, что в скором времени как минимум одна из биотехнологических компаний «дочитает» последовательность генома млекопитающего (т. е. большого, сложного генома) всего за 100 тысяч долларов. Имеем 3000-кратное снижение стоимости всего за 6 лет! И это не предел. Скорее всего, вскоре будут доступны технологии, позволяющие сбросить цену последовательности генома до тысячи долларов.
Научные лаборатории и биотех-компании активно соревнуются друг с другом в стремлении первыми предоставить «геном за 1000 $». Результатом этой жесткой конкуренции является бурное развитие технологий и снижение стоимости расшифровки последовательности ДНК. Группа, первой прочитающая геном человека за 1000 $, получит мгновенное признание и выгоду: Научный фонд Крэйга Вентера в сентябре 2003 г. посулил 500 000 $ за такое достижение. Позднее, чтобы привлечь как можно больше исследователей к решению проблемы, фонд Вентера объединил усилия с X Prize Foundation и 4 октября 2006 г. ими было объявлено о премии в 10 миллионов долларов. (Это вторая премия от X Prize Foundation; первая была присуждена компании Mojave Aerospace Ventures за разработку прототипа первого частного космического корабля.) Премия достанется группе, сумевшей расшифровать 100 человеческих геномов за 10 дней по цене не более 10 000 $ за геном. Само соревнование началось еще раньше, после того, как Национальный институт здравоохранения США в 2004 г. запустил программу поддержки исследований (с 70 миллионными грантами) по удешевлению стоимости расшифровки больших геномов до 100 000–1000 $.
Классический подход к расшифровке последовательностей ДНК
Рисунок 1. Центры, осуществляющие крупные проекты по расшифровке геномов млекопитающих методом Сэнгера, напоминают фабрики своими размерами и количеством обслуживающего персонала. Фото Nature Methods.
Самый распространенный на сегодняшний день способ секвенирования ДНК — «метод терминации цепи», или «дидезокси метод», разработанный в 70-х гг. прошлого века Фредериком Сэнгером. Дешевизна, точность, а также сравнительная простота автоматизации делает этот метод своеобразным «золотым стандартом» среди всех существующих способов определения последовательности нуклеотидных остатков ДНК. Так был расшифрован весь геном человека, и именно метод Сэнгера до сих пор является рутинным в повседневной лабораторной практике (рис. 1).
Вначале фрагменты ДНК, последовательность которых предстоит определить, многократно копируются (амплифицируются), затем нарезаются на короткие куски, которые затем служат матрицей для синтеза полностью комплементарных цепей ДНК. Синтез в общих чертах напоминает процесс копирования ДНК в живой клетке. Особенность метода заключается в использовании химически модифицированных разновидностей четырех дезоксирибонуклеотидов, составляющих цепи ДНК. Каждая разновидность «помечена» флуоресцентной молекулой-маркером, на жаргоне «краской». (Раньше вместо флуоресцентных маркеров для мечения использовался радиоактивный изотоп фосфора 32P, что делало всю процедуру не особенно полезной для здоровья.)
Короткий фрагмент ДНК, называемый затравкой, или праймером, инициирует синтез ДНК в определённой точке цепи ДНК-матрицы. Синтезирует комплементарную цепь особый фермент — ДНК-полимераза. При этом видоизменённые разновидности нуклеотидов, которые присутствуют в реакционной смеси в значительно меньших количествах, чем обычные нуклеотиды, обрывают синтез, когда один из них оказывается на конце растущей ДНК-цепи. (Все дело в том, что видоизмененные нуклеотиды не имеют той самой химической группы, к которой должен присоединяться следующий нуклеотид для продолжения цепи.) В результате получается смесь, содержащая полный набор ново-синтезированных фрагментов ДНК, каждый из которых начинается в одном и том же месте, но заканчивается во всех возможных положениях вдоль цепи ДНК-матрицы.
Современные автоматизированные секвенаторы разделяют эти фрагменты, пропуская всю смесь через тончайшие капилляры, наполненные гелем. Чем короче фрагмент, тем быстрее он движется в геле по капилляру под действием электрического поля. (Фрагменты ДНК — по сути, ионы, движущиеся в электрическом поле от «минуса» к «плюсу».) Процесс, называемый капиллярным электрофорезом, настолько эффективен, что фрагмент, только что вышедший из капилляра, оказывается ровно на один нуклеотид длиннее, чем предшествующий ему. По мере того как фрагмент появляется, он освещается лазером, что заставляет светиться меченый нуклеотид на его конце. Компьютер определяет разновидность этих нуклеотидов и регистрирует последовательность их появления, складывая «буквы» (нуклеотиды) в «текст» (последовательность ДНК). В случае расшифровки целого генома так нарабатываются миллиарды коротких «текстов», которые поступают в специальную программу, запускаемую на суперкомпьютерах. Программа находит места перекрывания «текстов» и, располагая их в нужном порядке, выстраивает полную последовательность генома.
Большинство новых технологических разработок направлено на миниатюризацию, мультиплексирование (в данном случае, параллельное соединение низкопроизводительных блоков системы для повышения общей производительности) и автоматизацию процесса секвенирования. Все они могут быть разделены на два класса. Первый объединяет методы «секвенирования синтезом», в которых основания определяются по мере того, как они встраиваются в растущую цепь ДНК. Ко второму классу относятся технологии расшифровки последовательности оснований единичной молекулы ДНК. Некоторые из них достаточно экзотичны — как, например, чтение нуклеотидных остатков ДНК электронным или оптическим способом по мере того, как молекула «протискивается» через нанопору. Длинный перечень улучшений системы капиллярного электрофореза в сочетании с возрастающей автоматизацией и усовершенствованием программного обеспечения позволили снизить стоимость секвенирования в 13 раз с тех пор, как первые автоматические секвенаторы появились в прошлом десятилетии.
Но все это выглядит несколько бледно на фоне возможностей нового метода секвенирования синтезом — изощрённого варианта пиросеквенирования, разрабатываемого и внедряемого компанией 454 Life Sciences.
И в этом случае, как писал С. Довлатов, жизнь обгоняет мечту.
Принцип высокопроизводительного пиросеквенирования ДНК
Технология, разработанная компанией 454 Life Sciences, называется пирофосфатным секвенированием, или пиросеквенированием. Сама идея пиросеквенирования, надо сказать, не нова: она возникла ещё в начале 90-х годов прошлого века, но опубликованный тогда метод не сумел вытеснить традиционный дидеокси метод Сэнгера. Однако разработчики из 454 Life Sciences дополнили его возможностями современных нанотехнологий, и, как сказали бы любители диамата, количество перешло в качество. Поэтому, точнее будет назвать метод «пиросеквенированием ДНК в плотно сфабрикованных пиколитровых реакторах». Весь геном, все его молекулы ДНК, случайным образом фрагментируются на кусочки по 300–500 пар оснований. Затем комплементарные цепи фрагмента разделяются, к каждой цепи фрагментов пришивается одинаковый для всех олигонуклеотид-«адаптер», который позволяет отдельным цепям налипать на пластиковые бусинки. (Последовательность этого олигонуклеотида позволяет позднее в процессе секвенирования распознавать ДНК-матрицу.) При этом смесь разъединённых на комплементарные цепи фрагментов разбавляют таким образом, что каждая бусинка получает лишь по одной (!) индивидуальной цепи. Каждая бусинка оказывается заключённой в капельку, окруженную маслом и содержащую смесь для осуществления полимеразной цепной реакции (ПЦР), которая и проходит отдельно в каждой капельке эмульсии (так называемая эмульсионная ПЦР, эПЦР). Это приводит к «клональной амплификации» цепей ДНК, а говоря по-русски, к тому, что на поверхности бусинки удерживается уже не одна, а около 10 млн. копий («клонов») уникальной ДНК-матрицы. Далее эмульсия разрушается, вновь двуцепочечные фрагменты ДНК (образовавшиеся в ходе ПЦР) разделяются, и бусинки, несущие одноцепочечные копии ДНК-матрицы, помещаются в лунки «предметного стекла» — слайда особой конструкции. Каждая лунка такого слайда образует отдельный пиколитровый «реактор», в котором и будет происходить реакция секвенирования.
Слайд представляет собой срез блока, полученного путём нескольких раундов вытягивания и сплавления оптических волокон. В результате каждой итерации, диаметр индивидуальных волокон уменьшается по мере того, как волокна формируют пучки шестигранной упаковки увеличивающегося поперечного диаметра. Каждое волокно имеет сердечник диаметром 44 мкм, окружённый 2–3 мкм слоем плакировки (оболочки). Затем сердечники вытравливаются, и в результате получаются лунки ≈55 мкм глубиной, с расстоянием ≈50 мкм между центрами соседних лунок. Объём таких «реакторов» — 75 пиколитров; плотность размещения на поверхности слайда — 480 лунок на квадратный миллиметр. Каждый слайд несёт около 1,6 миллионов лунок, в каждую из которых попадает одна (!) бусинка с ДНК-матрицей. Слайд помещается в проточную камеру таким образом, что над отверстиями лунок создаётся канал высотой 300 мкм, по которому в лунки поступают необходимые реактивы.
Доставляемые в проточную камеру реактивы текут в слое, перпендикулярном оси лунок. Такая конфигурация позволяет одновременно осуществлять реакции на бусинках, несущих ДНК-матрицы, внутри отдельных лунок. Добавление и удаление реагентов и продуктов реакции происходит за счёт конвекционного и диффузионного переноса. Временные рамки диффузии между потоком и лунками составляют порядка 10 секунд и зависят от высоты проточной камеры и глубины лунок. Глубина лунок тщательным образом рассчитана исходя из следующих соображений:
Лунки должны быть достаточно глубокими, чтобы бусинки, несущие ДНК-матрицу, не выскакивали из них под действием конвекции;
Они должны быть достаточно глубокими, чтобы исключить диффузию продуктов реакции из лунок, где имело место включение нуклеотида, в лунки, где включения не произошло (см. ниже);
Лунки должны быть мелкими настолько, сколько требуется для осуществления быстрой диффузии нуклеотидов в лунку и быстрого вымывания оставшихся нуклеотидов и продуктов реакции в конце каждого цикла, что, в свою очередь, необходимо для обеспечения высокой продуктивности секвенирования и снижения расходов реактивов.
Помимо бусинок с ДНК-матрицей, в каждую лунку «насыпают» ещё бусинок помельче — каждая с «сидящими» на её поверхности (иммобилизованными) ферментами, необходимыми для пирофосфатного секвенирования. Нуклеотиды (одного вида за раз) и другие реактивы, необходимые для реакции секвенирования, подаются последовательно в проточную камеру, куда помещается слайд. Каждый раз, когда определённый нуклеотид встраивается в растущую цепь ДНК в какой-нибудь из лунок, в ней высвобождается молекула пирофосфата, которая, в свою очередь, является необходимым предшественником компонента другой ферментативной реакции. Её катализирует особый фермент, люцифераза светлячка Photinus pyralis. Но для её осуществления необходим аденозинтрифосфат (АТФ). Новообразованный пирофосфат превращается в лунке в АТФ под действием ещё одного фермента — АТФ-сульфурилазы. И тогда люцифераза окисляет люциферин до оксилюциферина, а эта реакция сопровождается хемилюминесценцией — по-простому, маленькой вспышкой света. Дно слайда находится в оптическом контакте с оптико-волоконным световодом, подключённым к прибору с зарядовой связью (CCD-сенсор, charge coupled device). Это позволяет регистрировать излучаемые фотоны со дна каждой индивидуальной лунки, в которой произошло встраивание известного нуклеотида. Общая схема пиросеквенирования дана на рис. 2.
Рисунок 2. Схема пиросеквенирования. А — ДНК фрагментируется, к фрагментам пришиваются олигонуклеотиды-«адаптеры»; полученные двуцепочечные молекулы ДНК разделяются на две комплементарные цепи. Б — Одноцепочечные молекулы ДНК прикрепляются к бусинкам в условиях, стимулирующих попадание лишь одной молекулы на бусинку. Отдельные бусинки заключаются в капли реакционной смеси, окруженные маслом. Количество молекул на бусинке увеличивается в миллионы раз в результате эмульсионной полимеразной цепной реакции (эПЦР). В — Эмульсия разбивается, и цепи ДНК-фрагментов, образовавшиеся в результате эПЦР, разделяются. Бусинки, несущие на своей поверхности миллионы одноцепочечных копий первоначального фрагмента ДНК, помещаются в лунки оптико-волоконного слайда, по одной в каждую лунку. Г — В каждую лунку добавляются бусинки поменьше, несущие на своей поверхности ферменты, необходимые для пиросеквенирования. Д — Микрофотография эмульсии, изображающая «пустые» капли и капли, содержащие бусинки с ДНК-матрицей. Толстая стрелка указывает на 100-мкм каплю, тонкая — на 28-мкм бусинку. Е — Микрофотография фрагмента оптико-волоконного слайда, полученная при помощи сканирующего электронного микроскопа. Видна плакировка оптических волокон и пустые лунки.
Связывая зарегистрированные от каждой лунки вспышки с типом нуклеотида, присутствующего в проточной камере в данный момент времени, компьютер последовательно отслеживает рост цепочек ДНК в сотнях тысяч лунок одновременно. Время, необходимое для протекания ферментативной реакции, производящей детектируемую «вспышку», составляет порядка 0,02–1,5 секунд. Таким образом, скорость реакции определяется скоростью массопереноса, что оставляет место для улучшений за счёт ускорения доставки реактивов. После поступления в проточную камеру каждого нуклеотида, она промывается раствором, содержащим фермент апиразу. Таким образом перед тем, как «запустить» в камеру следующий нуклеотид, из всех лунок удаляются любые нуклеотиды, остававшиеся там от предыдущего раунда.
Включение того или иного нуклеотида детектируется в результате высвобождения неорганического пирофосфата и последующего излучения света. Определить лунки, содержащие бусинки с ДНК-матрицей, можно, прочитав «последовательность-ключ» адаптерного олигонуклеотида, пришитого к началу каждой ДНК-матрицы. Из регистрируемого сигнала вычитается уровень фона, затем сигнал нормализуется и корректируется. Интенсивность нормализованного сигнала для каждой конкретной лунки во время поступления в проточную камеру определённого нуклеотида пропорциональна числу встроенных нуклеотидов, если таковые имеются. Линейность зависимости сохраняется для гомополимеров длиной как минимум в восемь нуклеотидов. При таком секвенировании синтезом очень небольшое число ДНК-матриц на каждой бусинке теряет синхронизм, т. е. вырываются вперёд или начинают отставать от других матриц. Причиной этому прежде всего служат остающиеся в лунке нуклеотиды или неполное удлинение цепи. Исправление таких сдвигов необходимо, поскольку потеря синхронизма создаёт кумулятивный эффект, сильно снижающий качество прочтения при увеличении его длины. Исходя из подробной модели лежащих в основе этого эффекта физических процессов, сотрудники компании 454 разработали особый алгоритм, позволяющий оценивать и вносить поправки на «перелёт» и неполную достройку цепи, происходящие в отдельных лунках.
Перед тем, как составить и «записать» окончательную последовательность прочитанной ДНК, из всего массива данных для дальнейшей работы необходимо отобрать высококачественные прочтения и отбросить некачественные. Отбор основывается на наблюдении, что в прочтениях низкого качества велика доля сигналов, не позволяющих отличить циклы, в течение которых произошло включение нуклеотида, от циклов без включения. Такие двусмысленные сигналы — причина ошибок в записи последовательности отдельных прочтений. Чтобы увеличить число пригодных для использования прочтений, компанией 454 была разработана особая мера, позволяющая оценивать ab initio вероятность правильного определения нуклеотида в каждой конкретной позиции отдельных прочтений.
Высокая точность расшифровки последовательности достигается тем, что система осуществляет многочисленное прочтение одного и того же фрагмента, что позволяет построить единую обобщённую (так называемую консенсусную) последовательность. Отдельные прочтения одного и того же участка ДНК выравниваются относительно друг друга исходя из интенсивности сигналов в момент протекания через камеру того или иного нуклеотида, а не на основе последовательности этих прочтений. Затем соответствующие сигналы усредняют, и только тогда записывают полученную последовательность. Такой подход значительно улучшает качество расшифровки последовательности и предоставляет возможность оценки её качества.
В 2005 году учёные из 454 Life Sciences, используя свою технологию, сумели расшифровать 600000-нуклеотидный геном бактерии Mycoplasma genitalium с точностью 99,4%, а также 2100000-нуклеотидный геном Streptococcus pneumoniae. Майкл Эгхольм (Michael Egholm), вице-президент компании, отвечающий за молекулярно-биологическую часть, на конференции во Флориде в начале 2006 г. доложил, что с тех пор в компании отсеквенировали ещё четыре микробных генома, каждый с более чем 99,99% точностью. «За шесть месяцев мы значительно улучшили качество получаемых данных», — сообщил Эгхольм.
В статье, в которой впервые был представлен и опробован новый метод [3], сообщается, что весь геном Mycoplasma genitalium был прочтён за один раз! Сначала весь геном был фрагментирован и превращён в библиотеку кусочков ДНК, как описано выше (труд одного человека на протяжении 4-х часов). После полимеразной цепной реакции в эмульсии (эПЦР) и помещения полученных бусинок с ДНК-матрицами на слайд площадью 60 кв.мм. (на что одному сотруднику потребовалось 6 часов), процесс завершился 4-х часовой автоматической работой инструмента, состоящей из 42 циклов. В результате сборки прочитанных последовательностей (каждый около 108 пар оснований) было получено 25 отдельных непрерывных фрагментов, так называемых контигов, средней длиной в 22,4 тысяч пар оснований. Эти фрагменты покрыли около 96,54% всего генома микоплазмы. Из оставшихся не прочтёнными 4,6% генома 3% приходились на неразрешимые повторы. Таким образом, за один раз было отсеквенировано 99,5% уникальной последовательности генома.
На службе у всего прогрессивного человечества
Хотя первая версия инструмента от компании 454 Life Sciences легко могла заменить более 50 капиллярных секвенаторов Applied Biosystem 3730XL по цене в шесть раз меньшей, реакция научного сообщества была на удивление прохладной. Вместо того чтобы принять новую технологию и начать использовать её неисчерпаемый потенциал, многие учёные, привыкшие к использованию метода Сэнгера, заговорили о таких проблемах, как точность расшифровки, длина отдельных прочтений, стоимость инфраструктуры... А кто-то просто восставал против необходимости работать с большими массивами информации, производимыми с использованием новой технологии.
Большинство критиков, однако, не заметили, что множество препятствий, стоящих на пути метода секвенирования следующего поколения, преграждали на первых порах путь и методу Сэнгера. Тогда длина прочтений составляла всего 25 пар оснований, и достигла 80 только после появления терминирующих дидезокси-нуклеотидов Фреда Сэнгера. Технология «секвенирования синтезом», основанная на выделении пирофосфата, изначально позволяла прочитывать отрезки длиной не более 100 нуклеотидов. Спустя 16 месяцев на биотехнологическом рынке, этот показатель был улучшен до 250 пар оснований. Последние разработки позволяют считывать уже более 400 пар оснований, приближая новый метод к методу Сэнгера с его ≈750 нуклеотидами.
Другим важным фактором, помимо длины отдельных прочтений, является их число, производимое в результате одного «прогона» секвенатора, нормированное на стоимость такого «прогона». Этот вопрос хорошо решается конкурентами 454 Life Sciences, системы которых производят в десять раз больше прочтений, платя за это укорочением их длины, составляющей всего 35 (или меньше) нуклеотидов. Сегодня на рынке существует три коммерческих системы нового поколения для секвенирования ДНК:
- Roche (454) GS FLX Genome Analyzer (рис. 3), распространяемый Roche Applied Sciences. (Компания 454 LIfe Sciences выкуплена гигантом Roche Diagnostics в марте 2007 г. за 154,9 млн. долларов, но продолжает оставаться независимым подразделением);
- секвенатор Illumina Solexa 1G и
- наиболее свежая система SOLiD от Applied Biosystems.
Рисунок 3. Вверху — так выглядит система для высокопроизводительного пиросеквенирования ДНК — секвенатор Roche (454) Genome Sequencer FLX (2007). Изображение с сайта 454 Life Sciences.
Внизу — схема секвенатора. Инструмент состоит из трех основных блоков: А — система микронасосов для подачи реактивов; Б — проточная камера, содержащая оптико-волоконный слайд с лунками-реакторами; В — оптико-волоконная система с CCD-сенсорами для регистрации сигналов. Прибор также включает в себя встроенный компьютер с необходимым программным обеспечением для управления всем процессом. Другие системы для расшифровки ДНК, появление которых на рынке ожидается в течение 1–2 лет, относятся уже к «третьему поколению» и основываются на анализе одиночных молекул. Они разрабатываются компаниями VisiGen и Helicos.
И хотя прочтение бактериального генома за раз было впечатляющим достижением, по началу не было ясно, какие биологические задачи, недоступные старому доброму методу Сэнгера, можно будет решать, взяв на вооружение новый метод пиросеквенирования.
И действительно, первые проекты с участием инструмента Roche 454 GS20 заключались лишь в «перечитывании» уже расшифрованных бактериальных геномов и подкреплении дополнительными данными уже идущих больших «Сэнгеровских проектов». В то же время исследования в области метагеномики, помимо работы с огромными массивами данных, порою бóльшими, чем геном человека, страдали от искажений, вносимых на стадиях конструирования библиотек и клонирования фрагментов для секвенирования. В этом смысле технология 454, сочетающая эПЦР и пиросеквенирование, обладает неоспоримым преимуществом перед методом Сэнгера. Эмульсионная ПЦР позволяет амплифицировать без всяких предпочтений единичные молекулы ДНК, заключая их в капельку эмульсии и устраняя конкуренцию со стороны других ДНК-матриц за ограниченное число ДНК-полимераз. Пиросеквенирование, в свою очередь, осуществляет параллельное прочтение этих матриц со световым сигналом на выходе, который может считываться компьютером. Первые подобные исследования, опубликованные в 2006 году, показали необыкновенную гибкость метода нового поколения, использованного при изучении микробного многообразия подземных экосистем глубокой шахты [4], глубоководных морских экосистем [5], морских вирусных «сообществ» («виромов») в нескольких океанах [6].
Рисунок 4. Прибор для секвенирования ДНК нового поколения может производить за сутки столько же данных, сколько несколько сотен сэнгеровских капиллярных секвенаторов, но управляется одним человеком.
Интересное исследование, сочетающее в себе метагеномный анализ и «ДНК-палеонтологию», было проведено в конце 2005 г. Одного запуска инструмента Roche (454) GS20 было достаточно для анализа 13 млн. пар оснований последовательности генома 28000-летнего мамонта [7]. Эта работа проложила дорогу для технически более трудного проекта расшифровки генома неандертальца [8, 9]. Трудность такого проекта состоит в том, что количество выделяемой из образцов древней ДНК неандертальца составляет всего лишь 5% от количества, получаемого из «свежего материала». Следовательно, секвенировать приходится в 20 раз больше, чем это необходимо для генома современного человека. Кроме того, вклад разрушения ДНК в образцах, сохраняемых при умеренных температурах, в сочетании с ошибками, присущими новому методу пиросеквенирования, часто превосходит уровень различия, установленный для геномов неандертальца и современного человека. Поэтому утверждать, что полученная последовательность действительно древняя, а не случайно залетевшая современная ДНК, значительно легче в случае с мамонтом — современные слоны, в отличие от людей, не часто встречаются в лабораториях. Для того чтобы получить настоящую последовательность древнего генома млекопитающего, необходимо провести множество раундов прочтения каждого участка генома, а также удостовериться в происхождении прочитанных участков. Все это станет возможным только после значительного удешевления проектов подобного рода.
Вместе с прорывом в области секвенирования сложных смесей ДНК, такие проекты сделают возможным изучение любой экосистемы на планете на уровне последовательностей ДНК. Это откроет доступ к флоре и фауне 100-тысячелетней давности — возможности, превосходящие самые смелые ожидания совсем недалекого прошлого.
На клеточном уровне секвенирование нового поколения (здесь и далее речь идёт не только о пиросеквенировании, но и о других новых методах секвенирования синтезом) впервые позволяет учёным идентифицировать мутации в любом организме для всего генома. Так были найдены аллели, отвечающие за устойчивость к антибиотику у Mycobacterium tuberculosis [10], а также идентифицированы все мутации в геноме размером в 9 млн. пар оснований у штамма бактерии, эволюционировавшей на протяжении 1000 поколений [11]. Эти ранние попытки не только продемонстрировали способность новой технологии обнаруживать мутации и ошибки в опубликованных научных статьях [11], но и связанные с её использованием трудности, такие как ошибки прочтения гомополимерных последовательностей при пиросеквенировании (454) или быстрое уменьшение качества прочтения ближе к 3’-концу последовательности в системах с короткой длиной индивидуальных прочтений (Solexa или SOLiD от Applied Biosystem).
Раньше для преодоления этих трудностей данные, полученные пиросеквенированием, дополняли информацией, полученной классическим сэнгеровским путём [12]. Но поскольку стоимость и затраты, требуемые сэнгеровской составляющей эксперимента, остаются отталкивающе высокими, многие лаборатории сегодня полагаются только на методы нового поколения, обычно сочетая относительно длинные прочтения пиросеквенирования с короткими, но дешевыми (а значит и многочисленными) прочтениями, осуществляемыми системами Solexa и SOLiD. Такое сочетание различных платформ позволяет производить независимую оценку качества их работы, а также «проверять на вшивость» эталонные последовательности, хранящиеся в общественных базах данных.
Получение большого количества последовательностей ДНК из различных близкородственных организмов движет вперед и развивает подход, названный повторным секвенированием (resequencing), в котором работа с последовательностями ведётся иначе, чем при сборке свежесеквенированного генома. При повторном секвенировании сборка направляется уже имеющейся под рукой эталонной последовательностью, и поэтому требует значительно меньшего покрытия (8–12-кратного), чем при сборке генома de novo (25–70-кратного). Этот подход был применён в работе по расшифровке 10 митохондриальных геномов млекопитающих [13], которая сделала возможными исследования в области генетики популяций, основанные не на коротких отрезках последовательности, а на полных геномах митохондрий. В настоящий момент многочисленные проекты по расшифровке микробных геномов ведутся не только для расширения списка доступных геномов, но и для проведения будущих сравнительных исследований, сопоставляющих генотип и фенотип организма на геномном уровне.
Далеко может продвинуться также и работа по изучению организмов, которые не стоят в планах по геномному секвенированию — благодаря возможностям новых методов секвенирования напрямую расшифровывать последовательности транскриптов (точнее, кДНК — ДНК-копий матричных РНК) в клетке. Изучение транскриптов посредством прямого секвенирования обладает рядом преимуществ перед методом гибридизации на ДНК-микрочипах. Главное здесь то, что секвенирование не требует никаких знаний о геномной последовательности организма a priori, поскольку последовательность транскрипта может быть немедленно сравнена с эталонной последовательностью близкородственного вида из базы данных, используя стандартные алгоритмы биоинформатики. Знание последовательностей транскриптов может в корне изменить исследования организмов, геномы которых сегодня не стоят в очереди на расшифровку, а в некоторых случаях никогда там и не окажутся. Первые работы в этой области показали, что существует возможность сопоставлять последовательности (кДНК и геномные, соответственно) двух таких далёких друг от друга видов, как бобовое Meticago truncatula и растение-эталон Arabidopsis thaliana [14]. Также было обнаружено множество неописанных ранее транскриптов кукурузы Zea mays [15].
Прямой анализ транскриптов поможет обойти проблему, которую ставят перед учёными организмы с непомерно большими геномами. Несмотря на успешно проведённые проекты по расшифровке вирусных, бактериальных и больших геномов млекопитающих, метод Сэнгера оставил задачу по расшифровке геномов полиплоидных растений своим преемникам. Эти гигантские геномы, частенько принадлежащие важным хозяйственным растениям (например, геном пшеницы составляет 16 млрд. пар оснований), делали все предыдущие попытки по расшифровке бесплодными. Однако перспектива дешёвого секвенирования экспрессируемых участков генома (то есть транскриптов) позволяет надеяться на успешное изучение геномов растений хотя бы на функциональном уровне [15].
И наконец, новые методы секвенирования имеют практическое применение и в медицине. Например, в генетике раковых заболеваний, специфические раковые аллели могут быть отслежены в тканях посредством высокопроизводительного секвенирования геномной ДНК в тех случаях, когда метод Сэнгера терпит поражение [16]. И здесь большим преимуществом нового метода оборачивается многократное прочтение последовательности.
Перспективы
Не смотря на то, что новые методы секвенирования ДНК уже стимулировали большое количество всевозможных исследований, осуществление которых было невозможно ещё в недалёком прошлом, учёным и инженерам, занимающимися разработкой этих технологий — а равно как и компаниям, продвигающим эти технологии на рынке, — предстоит многое сделать для её улучшения. Прежде всего, снизить стоимость. Уменьшение цены на один-два порядка необходимо для осуществления надежд на персональную геномику, цель которой — повторное секвенирование индивидуальных геномов по цене, не превышающей 1000 $. В дополнение к этому, снижение процента ошибок будет также горячо приветствоваться — не только для методов следующего поколения, но и для метода Сэнгера, который будет продолжать вносить вклад и в обозримом будущем. Возможно, появятся искусственно изменённые специализированные ДНК-полимеразы, предоставляющие информацию о последовательности ДНК в виде испускаемого светового сигнала. По мере того, как стоимость технологий будет снижаться, количество накапливаемой информации будет расти лавинообразно, что может создать «узкое место» в исследованиях. Поэтому часть усилий по разработке новых технологий секвенирования необходимо направить на биоинформатический фронт.
Имея в багаже более ста публикаций менее чем за два года, следующее поколение методов секвенирования убедительно продемонстрировало свой необъятный потенциал каждому, кто работает в биологии и смежных с ней науках — в то самое время, когда многие верили в наступление пост-геномной эры [1]. Более того, новые технологии вернули геномные исследования в отдельные лаборатории или небольшие академические консорциумы, о чём свидетельствует тот факт, что большинство статей, сработанных с их использованием, вышли не из крупных геномных центров.
Глядя назад из недалёкого будущего, можно лишь удивиться, почему применение новых технологий поначалу не было тепло встречено научным сообществом, и, что более важно, агентствами, распределяющими финансы. Остаётся только надеяться, что урок будет усвоен и у третьего поколения приборов для расшифровки последовательностей ДНК будет более счастливая судьба.
Литература
- биомолекула — «Геном человека: как это было и как это будет»;
- биомолекула — «Время обезьяньих исследований: расшифрован геном макаки резус»;
- Margulies M., Egholm M., Altman W.E. et al. (2005). Genome sequencing in microfabricated high-density picolitre reactors. Nature 437, 376–380 ;
- Edwards R.A., Rodriguez-Brito B., Wegley L., Haynes M., Breitbart M., Peterson D.M., Saar M.O., Alexander S., Alexander E.C. Jr, Rohwer F. (2006). Using pyrosequencing to shed light on deep mine microbial ecology. BMC Genomics 7, 57;
- Sogin M.L., Morrison H.G., Huber J.A., Mark Welch D., Huse S.M., Neal P.R., Arrieta J.M., Herndl G.J. (2006). Microbial diversity in the deep sea and the underexplored “rare biosphere”. Proc. Natl. Acad. Sci. U.S.A. 103, 12115–12120 ;
- Angly F.E., Felts B., Breitbart M., Salamon P., Edwards R.A., Carlson C., Chan A.M., Haynes M., Kelley S., Liu H., Mahaffy J.M., Mueller J.E., Nulton J., Olson R., Parsons R., Rayhawk S., Suttle C.A., Rohwer F. (2006). The marine viromes of four oceanic regions. PLoS Biol. 4, e368 ;
- Poinar H.N., Schwarz C., Qi J., Shapiro B., Macphee R.D., Buigues B., Tikhonov A., Huson D.H., Tomsho L.P., Auch A., Rampp M., Miller W., Schuster S.C. (2006). Metagenomics to paleogenomics: large-scale sequencing of mammoth DNA. Science 311, 392–394 ;
- Green R.E., Krause J., Ptak S.E., Briggs A.W., Ronan M.T., Simons J.F., Du L., Egholm M., Rothberg J.M., Paunovic M., Pääbo S. (2006). Analysis of one million base pairs of Neanderthal DNA. Nature 444, 330–336;
- Noonan J.P., Coop G., Kudaravalli S., Smith D., Krause J., Alessi J., Chen F., Platt D., Pääbo S., Pritchard J.K., Rubin E.M. (2006). Sequencing and analysis of Neanderthal genomic DNA. Science 314, 1113–1118 ;
- Andries K., Verhasselt P., Guillemont J., Göhlmann H.W., Neefs J.M., Winkler H., Van Gestel J., Timmerman P., Zhu M., Lee E., Williams P., de Chaffoy D., Huitric E., Hoffner S., Cambau E., Truffot-Pernot C., Lounis N., Jarlier V. (2005). A diarylquinoline drug active on the ATP synthase of Mycobacterium tuberculosis. Science 307, 223–227;
- Velicer G.J., Raddatz G., Keller H., Deiss S., Lanz C., Dinkelacker I., Schuster S.C. (2006). Comprehensive mutation identification in an evolved bacterial cooperator and its cheating ancestor. Proc. Natl. Acad. Sci. U.S.A. 103, 8107–8112;
- Goldberg S.M., Johnson J., Busam D., Feldblyum T., Ferriera S., Friedman R., Halpern A., Khouri H., Kravitz S.A., Lauro F.M., Li K., Rogers Y.H., Strausberg R., Sutton G., Tallon L., Thomas T., Venter E., Frazier M., Venter J.C. (2006). A Sanger/pyrosequencing hybrid approach for the generation of high-quality draft assemblies of marine microbial genomes. Proc. Natl. Acad. Sci. U.S.A. 103, 11240–11245 ;
- Gilbert M.T., Tomsho L.P., Rendulic S., Packard M., Drautz D.I., Sher A., Tikhonov A., Dalén L., Kuznetsova T., Kosintsev P., Campos P.F., Higham T., Collins M.J., Wilson A.S., Shidlovskiy F., Buigues B., Ericson P.G., Germonpré M., Götherström A., Iacumin P., Nikolaev V., Nowak-Kemp M., Willerslev E., Knight J.R., Irzyk G.P., Perbost C.S., Fredrikson K.M., Harkins T.T., Sheridan S., Miller W., Schuster S.C. (2007). Whole-genome shotgun sequencing of mitochondria from ancient hair shafts. Science 317, 1927–1930 ;
- Cheung F., Haas B.J., Goldberg S.M., May G.D., Xiao Y., Town C.D. (2006). Sequencing Medicago truncatula expressed sequenced tags using 454 Life Sciences technology. BMC Genomics 7, 272 ;
- Ohtsu K., Smith M.B., Emrich S.J., Borsuk L.A., Zhou R., Chen T., Zhang X., Timmermans M.C., Beck J., Buckner B., Janick-Buckner D., Nettleton D., Scanlon M.J., Schnable P.S. (2007). Global gene expression analysis of the shoot apical meristem of maize (Zea mays L.). Plant J. 52, 391–404 ;
- Thomas R.K., Baker A.C., Debiasi R.M., et al. (2007). High-throughput oncogene mutation profiling in human cancer. Nat Genet. 39, 347–351.
Портал «Вечная молодость» www.vechnayamolodost.ru
19.02.2008