06 Июля 2015

EMC и Академический университет создают ПО для биоинформатических расчетов

Геном как коллайдер

Александра Борисова, «Чердак»

Биология в XXI веке почти полностью перешла из описательных наук в точные: все особенности организмов объясняются данными их генома. Но вместе с логичностью пришла и необходимость хранить и обрабатывать огромные объемы данных: анализ геномных данных – такая же big data, как социальные сети или данные Большого адронного коллайдера. Для этого EMC вместе с Академическим университетом создает и тестирует платформу для биоинформатических вычислений.

Очень много данных

Один из главных поставщиков данных – системная биология. Это наука, изучающая работу организма (в общем, любого) на основании данных о его геноме – устройстве ДНК. В длинных цепях ДНК закодирована информация обо всех белках, которые могут существовать в этом организме: фактически, ДНК «знает» об устройстве этого организма и о том, как он может реагировать на те или иные условия среды.

Работать с «извлеченной» из ДНК информацией очень сложно по многим причинам, но главная – ее очень много. Такой объем данных очень сложно хранить и обрабатывать, так как каждая молекула ДНК состоит из 3,1 млрд нуклеотидов. В переводе на язык данных геном каждого человека в сжатом виде «весит» 0,5 ТБ, а в развернутом, который нужен для работы с ним, – втрое больше. Более того, сама последовательность генов никак не говорит об их назначении: для этого нужно сличить геномы большого количества людей и выделить те участки, которые встречаются всегда и только в случае наличия у человека, например, определенного заболевания. Тогда можно с некой долей вероятности говорить о связи болезни и определенного участка генома, однако для точно установления соответствия нужны дополнительные исследования, требующие одновременного хранения и обработки данных об очень большом числе геномов.

В рамках Human Genome Project в 1984–2003 годах (проект по расшифровке полного генома человека – прим. «Чердака») 20 университетских центров в США, Великобритании, Японии, Франции, Германии, Китае прочли и обработали 3,2 млрд пар нуклеотидов (и потратили на это около $2,7 млрд). Сейчас проект «100 000 геномов» (The 100,000 Genomes Project) ведет Великобритания, США и Китай готовят проекты по расшифровке миллиона геномов. Такое количество данных нужно, чтобы набрать качественную статистику по связи каждого конкретного заболевания с определенным участком ДНК. Технически эта ситуация похожа на поиск редких элементарных частиц (например, бозона Хиггса) на мега-ускорителях вроде Большого адронного коллайдера: из миллионов соударений частиц лишь в одном-двух рождается искомый объект, но чтобы его найти, нужно проанализировать и обработать весь массив данных.



В науке по изучению генома объемы данных, которые нужно хранить и анализировать, достигают десятков и сотен тысяч терабайт. Это и есть big data – большие данные, которые не обработать усилиями одного лишь человеческого мозга. Задачи такого класса – как с точки зрения «железа», так и с точки зрения программного обеспечения, – не могут быть решены силами людей, имеющих классическое биологическое образование.

На фоне генетического бума в биологию пришли люди из математики, физики и IT. Специалистов с пониманием биологической проблематики и сильной математической базой называют биоинформатиками и готовят на нескольких специализированных факультетах (первый из них был открыт в МГУ).

«Омиксы»

Что же включают эти большие данные, откуда получаются и почему их трудно анализировать? 

Самая известная биологическая молекула – это, безусловно, ДНК, а самая известная наука в этой области – геномика, которая занимается секвенированием, то есть расшифровкой, определением последовательности нуклеотидов в ДНК. Секвенирование генома сегодня стало почти поточной процедурой: определить последовательность нуклеотидов (без интерпретации) для человека стоит сегодня всего 900 долларов, и цена все время падает.

Но не стоит бежать и секвенировать ДНК из своей слюны (это стандартный источник генетической информации) прямо сейчас: простой расшифровки не хватит, чтобы сказать что-то определенное о вашем здоровье с клинической точки зрения (а отчасти эти данные и избыточны, потому что «интересна», то есть полезна для практического применения, только небольшая часть генома). Одного знания последовательности нуклеотидов в ДНК совершенно недостаточно, чтобы понимать, как функционирует организм. Большая часть ДНК является некодирующей, то есть не несет информации о белках, зато в ней много последовательностей, которые регулируют работу генома. Кроме того, из данных о ДНК мы не можем сказать, какая ее часть «действует», то есть производит белки, сейчас, а какая «спит». 

Чтобы понять, что действительно происходит в клетке, ученые разбираются со строением, функцией и количеством производимых в ней белков. Их еще называют протеинами – это калька с английского protein, что означает «белок», а область знаний, изучающая их, называется протеомикой.

Однако и комбинации этих данных недостаточно: часть важных белков может синтезироваться при воздействии определенных факторов (например, стресса). Такие белки живут очень недолго, а затем распадаются, поэтому мы не можем их зарегистрировать. Но информация о них остается в особых молекулах РНК, которые копируют тот или иной участок ДНК, чтобы потом на его основе мог синтезироваться белок. Такие РНК изучает наука транскриптомика.

Все эти названия в английском языке заканчиваются на -omics (genomics, transcriptomics, proteomics, metabolomics – наука о метаболитах, lipidomics – наука о жирах и липидах и так далее), поэтому вместе их принято называть омиксными технологиями. Для понимания работы организма, причин генетически обусловленных заболеваний, а также реакции на раздражители, инфекции и прочие воздействия внешней среды необходимо анализировать данные омиксных технологий комплексно.

Эти данные очень объемны, так что 0,5 Тб генома увеличиваются еще в несколько раз. Кроме того, данные получаются в разных форматах, традиционно обрабатываются разными программами. Все это требует не только выделения суперкомпьютерных мощностей для хранения и обработки данных, но еще и создания специализированной среды, которая «переводила» бы информацию разных омиксных данных, интегрировала их и позволяла анализировать на одном экране.

Биоинформатическая «клюква»

В России за создание такой среды (с рабочим названием cranberry – «клюква») взялась компания EMC, традиционно известная как поставщик систем хранения данных. Физически суперкомпьютерные мощности (1,5 тысяч виртуальных машин) расположены в Санкт-Петербурге на Васильевском острове в здании бывшей табачной фабрики. Оно оказалось очень подходящим, потому что было построено достаточно прочным, чтобы выдерживать тяжелые станки: каждая плитка пола выдерживает вес до двух тонн. Теперь фабрика приняла мощную IT-инфраструктуру: суперкомпьютеры не сильно легче промышленных станков.

Сразу несколько научных групп тестирует «клюкву» на своих задачах. В их числе лаборатория всемирно известного биоинформатика Павла Певзнера, созданная на средства первой волны мегагрантов в академическом университете Петербурга. Другие пользователи – центр геномной биоинформатики СПбГУ им. Добржанского и Parseq Lab – частная компания, продвигающая биоинформатические данные в клиническую практику для медицинской диагностики.

«Мы работаем с открытыми данными или данными наших коллег, коллабораторов. Мы создаем системы сборки генома и РНК и тестируем их на своих серверах и платформе, разработанной центром исследований и разработок EMC Сколково. Это облако, но облако специализированное, доработанное под наши нужды, и это делает его значительно более эффективным, чем доступные на рынке универсальные облачные платформы» – Алла Лапидус, заместитель руководителя лаборатории алгоритмической биологии СПбАУ РАН.

Лаборатория, возглавляемая Павлом Певзнером, была создана в 2011 году на средства мегагранта, но уже хорошо известна в мире биоинформатики: программный пакет по сборке генома SPAdes используют более 1500 лабораторий по всему миру, в том числе в институте Крейга Вентера – передовом центре по синтетической биологии, где впервые в мире была получена синтетическая бактериальная клетка.

SPADes и его «младший брат» – rnaSPADes, разработанный той же группой для анализа транскриптомных данных, развернутые на среде EMC, позволяют эффективно проанализировать одновременно геномные, транскриптомные и протеомные данные, чтобы, в частности, качественно улучшить генетических анализ раковых клеток и выявить причины возникновения болезни. Не за горами и применение в клинической практике: качественное улучшение анализа генома позволит выявить больше мутаций-маркеров (таких, как у Анджелины Джоли, например), которые являются индикаторами сверхвысокого риска развития определенного заболевания и позволят их носителям принять превентивные меры, чтобы избежать болезни и продлить свою здоровую жизнь.

Портал «Вечная молодость» http://vechnayamolodost.ru
06.07.2015
Нашли опечатку? Выделите её и нажмите ctrl + enter Версия для печати

Статьи по теме