19 Июня 2012

Облачная биоинформатика для «-омиков»

Анализы в облаках

Марина Аствацатурян, Медновости

1 июля 2012 года DELSA Global, новый глобальный альянс, имеющий целью повышение эффективности использования данных в биомедицине и науках о жизни, запускает несколько масштабных научно-прикладных проектов DELSA Endorsed Projects. Это международные проекты, в рамках которых будет происходить обмен, анализ и распределение огромных массивов данных, находящихся в он-лайновых облачных хранилищах. Один из таких проектов основан на протеомике, науке, которая изучает белки и их взаимодействия в различных организмах и средах обитания, в том числе и в человеке. Биомедицина возлагает на протеомику большие надежды.

Протеомика и пр.

Исследования в области протеомики сейчас ведутся во многих научных центрах мира, каждый из которых применяет свой подход, а потому сопоставление получаемых в разных местах необработанных и хранящихся на жестких дисках данных часто связано с принципиальными трудностями. Как поясняет один из экспертов, Евгений Колкер (Eugene Kolker), соучредитель и президент DELSA Global, Главный специалист по данным (Chief Data Officer) Детской больницы Сиэтла (Seattle Children's Hospital) и профессор биомедицинской информатики Университета Вашингтона, «это все равно, что сравнивать яблоки и апельсины». Однако, данные, находящиеся в свободном доступе в сети и соответствующим образом атрибутированные, могут стать сопоставимыми и, следовательно, информативными для широкого круга специалистов.

Для разработки простого пользовательского интерфейса к базам данных по протеомике необходимо знать, в каком организме, в каких тканях и при каких условиях экспрессируется тот или иной белок. Исходя из этого запроса в лаборатории Евгения Колкера была создана уникальная и общедоступная база данных по белкам – MOPED, Model Organism Protein Expression Database, которой пользуются более 2000 лабораторий во всем мире. Пользователи, сравнивая свои собственные данные с данными MOPED, которые содержат информацию о белках разных организмов, в том числе человека, получают статистически достоверный результат. В частности, обнаруживая новый белок, связанный с тем или иным нарушением в организме, они могут с помощью такого программного инструмента как MOPED отличить действительно новое от уже известного, открытого другими исследователями.

Так, сами создатели базы MOPED совместно со своими коллегами из Университета Пенсильвании, США, и Страсбургского университета, Франция, открыли две белковые молекулы, связанные с развитием диабета второго типа. Оказалось, что это регуляторные белки, которые можно использовать для восстановления продукции инсулина организмом по мере необходимости. Один из этих белков в настоящее время проходит доклинические испытания.

База данных MOPED используют в своей работе и российские исследователи – члены альянса DELSA. Это коллектив ученых под руководством академика РАМН Александра Арчакова, директора ГУ НИИ биомедицинской химии им. В.Н. Ореховича РАМН, принимающий участие в глобальном проекте, пришедшем на смену Геному человека. Речь идет о проекте Протеом человека (Human Proteome Project), в котором Россия отвечает за белки человеческого организма, кодируемые 18-й хромосомой.

Один из новых масштабных проектов DELSA Global – Глобальный атлас белков (Global Protein Atlas). Члены международного альянса впервые заговорили он нем совсем недавно, на своей встрече в мае этого года в Бетесде, США. Его цель – охарактеризовать на основании геномных данных всевозможные белковые молекулы по ряду параметров как то: в какой ткани экспрессируется тот или иной белок, при каком заболевании, в каком окружении и в какой концентрации. Для реализации проекта участники DELSA воспользуются, в частности, данными другого масштабного проекта – Микробиома человека, в работе над которым исследователи установили, что организм человека населяют около 10 тысяч различных видов микробов. Все вместе они экспрессируют около 8 миллионов кодирующих белки генов. Для обработки и хранения этой информации точно понадобятся особые условия.

Спасение в облачных технологиях

На вопросы где хранить, как хранить и как обеспечить доступ к данным, которые получает протеомика, геномика, микробиомика и прочие так называемые «-омики» позволяют ответить биоинформационные технологии. «Если эти данные будут храниться в компьютере, к которому нет доступа вообще или доступ есть, но в ненадлежащей скорости, то никто не сможет эти данные анализировать, и с точки зрения налогоплательщика это работа в никуда», – говорит член-корреспондент РАМН, заместитель директора по научной работе ГУ НИИ биомедицинской химии им. В.Н. Ореховича РАМН Андрей Лисица.

«Человек сгенерировал терабайты данных, из них удалось набрать материал на одну-две статьи по тому частному направлению, в котором он является специалистом, но все остальное оказалось закрыто для научного сообщества. Поэтому сейчас условием любого высокоэффективного эксперимента является размещение данных в так называемых общедоступных репозиториях» – считает ученый.

Подобную точку зрения высказывает и Евгений Колкер: «от 20 до 40 тысяч лабораторий во всем мире производят количество данных в эксабайтах (эксабайт – единица измерения количества информации, равная 10¹⁸ или 2⁶⁰ байтам), которые используются в пределах лишь 10 процентов – не более того, а не используются они потому, что нигде не размещены и недоступны. И явно что-то надо делать по-другому. А кто может что-то сделать разумное с огромным количеством данных, которые нигде не лежат? Компании типа Google, типа Amazon, типа Яндекса, типа китайского поисковика Baidu. У них другие технологии, у них есть распределительные центры и последнее время они стали исключительно эффективно использовать облачные технологии. Эти компании умеют анализировать данные, хотя биологические данные отличаются огромным разнообразием – это не анализ данных о наших покупках и поездках», – поясняет Колкер. Общедоступные репозитории, о которых говорит Андрей Лисица, и предоставляют т.н. облачные сервисы, или облачные технологии. Они обеспечивают повсеместный и удобный сетевой доступ по требованию к общему пулу данных. «Облака – это очень разумный партнер научных исследований», – считает Колкер.

Дальнейшее развитие протеомики связывают с совершенствованием методов биоинформатики и развитием кластерных вычислительных систем, на которых будут применяться сложные алгоритмы обработки данных.

Однако никакие действия с данными сами по себе не вскроют заложенного в них смысла без участия человека. По мнению Андрея Лисицы, это прекрасная иллюзия: «слева у нас стоит хранилище, в котором свалены эти данные, справа у нас стоит мощный вычислительный кластер, «головастики» загружают туда алгоритмы, которые сначала разрабатывают, кластер берет данные, как в мясорубке их перерабатывает, и выдает нам ответы на фундаментальный вопрос, как организована жизнь». Пока что все не так просто, и человека-ученого из этого процесса ни на одном этапе не исключить.

Портал «Вечная молодость» http://vechnayamolodost.ru
19.06.2012

Облачная биоинформатика для «-омиков»

Анализы в облаках

Статьи по теме

Рецепт, записанный в ваших генах

Искусственный интеллект made in China

EMC и Академический университет создают ПО для биоинформатических расчетов

Выбор сервиса для облачной геномики

23andMe запустит производство лекарств