30 Октября 2015

«-Омики» и старение: от биомаркеров до системной биологии (4)

Перевод Евгении Рябцевой
(Окончание, начало статьи – здесь.)

Анализ систем, основанных на данных «-омик»

Несмотря на успешное применение, все представленные ранее подходы опираются на использование заданных статических систем. Первым шагом, который следует сделать для преодоления ограничений таких систем, является конструирование систем непосредственно из оцениваемых данных.

Взвешенный анализ системы коэкспрессии генов

При проведении взвешенного анализа системы коэкспресси генов (Zhang & Horvath, 2005) системы межгенных взаимодействий конструируются непосредственно из данных транскриптомики. Miller et al. (2008) применили этот метод к обработке упомянутому ранее массиву данных, содержащему информацию по экспрессии генов в образцах ткани лобной коры головного мозга 30 человек разного возраста. Полученные при этом результаы сопоставили с системой, полученной при изучении транскриптомных особенностей болезни Альцгеймера. Сопоставление продемонстрировало значительную степень совпадения между здоровым старением и болезнью Альцгеймера, что указывает на возможное существование общей молекулярной основы для обоих процессов. Три модуля, характерные для болезни Альцгеймера, перекрывались с модулями системы старения, содержащими преимущественно гены, ассоциированные с регуляцией функционирования синапсов, транспорта молекул и транскрипции.

Графические модели по Гауссу

Несмотря на успешное применение взвешенного анализа системы коэкспресси генов к транскриптомным данным, Krumsiek et al. (2011) продемонстрировали, что ординарные корреляции не подходят для анализа метаболомных данных, полученных в крупных когортных исследованиях. Они проанализировали концентрации метаболитов в более чем 1000 образцов и установили, что выявили значимые корреляции для более чем половины от всех пар для 151 метаболита, даже при использовании ограничивающей поправки Бонферрони при уровне значимости 0,01. Это в значительной степени обусловлено косвенными ассоциациями, которые невозможно отличить от прямых ассоциаций с помощью коэффициента корреляции Пирсона. 

Графические модели, также известные как графики условной независимости, были предложены для преодоления этой проблемы и получения биологически значимых систем на основе метаболомных данных (Steuer, 2006; Krumsiek et al., 2011), а также данных, полученных с помощью других «-омик» (de la Fuente et al., 2004; Yuan et al., 2011; Mangin et al., 2012). Графические модели представляют собой вероятностные модели, в которых соединяющая две переменные линия отражает их условную зависимость с учетом всех других переменных в модели. Косвенным образом отсутствие линии свидетельствует об условной независимости соответствующих переменных. В свободном доступе имеются несколько алгоритмов для построения графических моделей на основе исключительно двоичных данных, представленных в форме R-пакетов (Wainwright et al., 2006; Höfling & Tibshirani, 2009; Guo et al., 2010; Ravikumar et al., 2010). 

Их эквивалентами для полностью аналоговых данных являются графические модели по Гауссу, в которых для построения графиков используются частные корреляции. Частная корреляция двух переменных X и Y, зависящих от набора переменных Z, количественно определяет долю корреляции между X и Y, не объясняемую Z. Для построения графических моделей по Гауссу существует несколько алгоритмов (d'Aspremont et al., 2006; Meinshausen & Bühlmann, 2006; Yuan & Lin, 2007; Friedman et al., 2008; Mazumder & Hastie, 2012). Часть из них, такие как хорошо отработанный метод графического лассо (Friedman et al., 2008; Mazumder & Hastie, 2012), используют регуляризацию для дальнейшего уменьшения количества линий на графике. Это позволяет исследователям концентрировать внимание на меньшем количестве имеющих высокую достоверность взаимодействий.

Графические модели по Гауссу можно использовать для реконструирования биологических механизмов на основании данных метаболомики и транскриптомики, однако они до сих пор не применялись для изучения старения. Тем не менее, их применение может помочь уменьшить избыток результатов до меньшего количества значимых ассоциаций. Главный недостаток графических моделей заключается в том, что их можно использовать только для чисто гауссовых или чисто бинарных данных. Shin et al. (2014) решили эту проблему посредством конструирования первой в своем роде графической модели на основе данных о концентрациях метаболитов, последующего добавления генетических вариантов в качестве узлов и соединения их с ассоциированными метаболитами. Получившаяся в результате интуитивно-понятная схема иллюстрирует генетический контроль метаболизма. Однако она уже не является графической моделью, а ее линии не являются отражением условной зависимости.

Смешанные графические модели

Недавние разработки позволяют интегрировать разные типы данных, сохраняя положительные качества графических моделей по Гауссу, в результате чего получаются смешанные графические модели (Tur & Castelo, 2012; Chen et al., 2013; Fellinghauer et al., 2013; Lee & Hastie, 2015). Fellinghauer et al. (2013) предложили очень гибкий алгоритм, основанный на отборе стабильности (Meinshausen & Bühlmann, 2010). Он использует традиционные методы, такие как алгоритмы случайного леса или регрессионные модели для ранжирования взаимодействий между переменными различных типов. Таким образом он позволяет обрабатывать множество типов данных, таких как болезненные состояния, уровни метаболитов и генетические варианты. В силу использования отбора стабильности этот подход изначально имеет контроль погрешности. Смешанные графические модели являются мощным инструментом для мультивариантного анализа многокомпонентных массивов данных, который однако до сих пор не применялся в биологических исследованиях. Применение этих моделей может пролить свет на сложные взаимосвязи между старением и заболеваниями.

Графические модели по Гауссу, также как и смешанные графические модели, являются ненаправленными моделями. Поэтому они непригодны для выведения причинно-следственных направлений. В эпидемиологических исследованиях менделевская рандомизация традиционным подходом к определению причинной связи на основе данных наблюдений. Она использует неизменность генетических вариантов для разделения изучаемой популяции на группы, имитируя таким образом контролируемое рандомизированное исследование (более подробно см. Brion et al., 2014). Менделевскую рандомизацию можно использовать для дальнейшего изучения представляющих интерес взаимодействий («линий»), предварительно идентифицированных с помощью графических моделей. Однако этот метод опирается на стабильные ассоциации с генетическими вариантами и допущение, что рассматриваемый генетический вариант не взаимосвязан с какими-либо другими факторами, потенциально способными искажать результаты. Из-за этих ограничений данный метод не подходит для работы с крупномасштабными системами.

Байесовские сети

Еще один подход, позволяющий выявлять причинность на основе данных наблюдений при определенных допущениях, основан на байесовских сетях. Также как и графические модели по Гауссу, байесовские сети представляют собой вероятностные модели, в которых линии символизируют условную независимость переменных друг от друга. Однако байесовские сети являются ориентированными ациклическими графами, то есть они разграничивают влияние X на Y от влияния Y на X. В свою очередь, ацикличность причинно-следственного графа является допущением, которое может не распространяться на биологические системы. Применение байесовских сетей к данным транскриптомики, полученным с помощью методов с высокой пропускной способностью, Friedman et al. (2000) продемонстрировало потенциал этого метода в отношении вычленения биологически значимых ассоциаций без наводящей информации. В распоряжении ученых имеются несколько различных методов, таких как R-пакеты bnlearn, позволяющих оценить структуру байесовских сетей из бинарных, непрерывных и даже смешанных данных (Scutari, 2010).

Обзор методов системной биологии и их применение в изучении старения 

Метод: Анализ представленности
Предварительные условия: Определяющий модуль (например, массивы генов из Gene Ontology)
Применимо к: геномике, транскриптомике, протеомике, метаболомике
Доступность: несколько R-пакетов например, GSEABase, GAGE, MSEA), online-инструменты DAVID и Enrichr
Применение: Lu et al. (2004), de Magalhães et al. (2009)

Метод: Картирование системы
Предварительные условия: Заданная система, такая как система межбелковых взаимодействий, система регуляции генов или метаболическая система
Применимо к: данным всех «-омик»
Доступность: R-пакет igraph, Cytoscape с различными дополнительными модулями
Применение: Wang et al. (2009), Bell et al. (2009), West et al. (2013), Faisal & Milenković (2014)

Метод: Негативно-позитивные системы
Предварительные условия: Система межбелковых взаимодействий
Применимо к: транскриптомике
Доступность: – 
Применение: Xue et al. (2007)

Метод: Взвешенный анализ системы коэкспресси генов (WGCNA)
Предварительные условия: –
Применимо к: транскриптомике (и, возможно, другим непрерывным данным)
Доступность: R-пакет WGCNA
Применение: Miller et al. (2008)

Метод: Графические модели по Гауссу
Предварительные условия: –
Применимо к: любым многопараметрическим данным, подчиняющимся закону нормального распределения (Гаусса).
Доступность: несколько R-пакетов (например, ggm или glasso)
Применение: применялись к метаболомным данным Krumsiek et al. (2011)

Метод: Смешанные графические модели
Предварительные условия: –
Применимо к: бинарным, непрерывным и смешанным данным.
Доступность: 
Применение: –

Метод: Байесовские сети
Предварительные условия: –
Применимо к: бинарным, непрерывным и смешанным данным.
Доступность: несколько R-пакетов (например, bnlearn, gRain, abn, deal)
Применение: применялись к транскриптомным данным Friedman et al. (2000)

Представленные здесь методы являются лишь подборкой доступных подходов к извлечению сведений из графиков. Для моделирования биологических систем широко используется целый ряд других методов, таких как булевы схемы (Shmulevich et al., 2002) и системы дифференциальных уравнений (Chen et al., 1999; Lorenz et al., 2009).

Разработка новых подходов облегчает извлечение данных из графиков, построенных с использованием многокомпонентных массивов данных, а упомянутые исследования демонстрируют их применимость в биологических исследованиях. Однако большинство методов извлечения информации из графиков опираются на большие объемы выборок и обычно требуют, чтобы количество образцов превышало количество переменных. При анализе данных «-омик», в особенности геномных и транскриптомных, это во многих случаях невозможно. Данная ситуация известна как проблема «n намного меньше p». 

Еще одна распространенная проблема заключается в чрезмерной загруженности моделей из большого количества параметров. Для смягчения этих ограничений и уменьшения перегруженности было предложено несколько подходов, таких как регуляризация. Тем не менее, для того, чтобы избежать получения ошибочных результатов, следует прибегать к тщательной перекрестной проверке и воспроизведению результатов с использованием независимых когорт. И наконец, многие методы с высокой пропускной способностью страдают от значительных технических отклонений и сильных групповых эффектов. Перед объединением различных массивов данных исследователи должны тщательно стандартизировать все измерения в соответствии с существующими стандартами.

Модельные биологические системы

Конечная цель системной биологии заключается не только в качественном изучении, но и в количественном моделировании организма для облегчения компьютерного моделирования экспериментов, построения гипотез и прогнозов.

Первая и на сегодняшний день единственная попытка моделирования целого организма была предпринята Karr et al. (2012). Они создали модель клетки микоплазмы (mycoplasma genitalium), позволяющую симулировать клеточный цикл и прогнозировать концентрации метаболитов. Однако эта модель далека от совершенства (Freddolino & Tavazoie, 2012) и слишком примитивна для того, чтобы ее можно было адаптировать для более сложных организмов. На сегодняшнем этапе моделирование эукариотических клеток и целых организмов невозможно. Такие процессы, как старение, также слишком сложны для полноценного моделирования. Однако были предприняты определенные усилия для создания системных образом более мелких подсистем, а также определенных аспектов процесса старения. 

Например, Gillespie et al. (2004) симулирование старение дрожжей на основе накопления экстрахромосомных рибосомальных кольцевых ДНК. Также Oda & Kitano (2006) объединили результаты нескольких сотен исследований с целью создания модели сигнальной сети, опосредуемой Toll-подобным рецептором. Эта же группа создала аналогичную модель для сигнального механизма, опосредуемого рецептором к фактору роста эпидермиса (Oda et al., 2005). Оба исследования продемонстрировали глобальные структуры, по форме напоминающие галстук-бабочку и имеющие один важный ключевой регулятор. Однако обе системы являются лишь качественными описаниями, не имеющими кинетических параметров. Поэтому их нельзя использовать для компьютерных симуляций.

Другие группы сосредотачивались даже на еще более мелких подсистемах, облегчающих количественное моделирование. В одном из исследований изучалось влияние повышенных уровней кортизола на активность гиппокампа (McAuley et al., 2009). Количественная модель была создана для симуляции возрастного угасания функции гиппокампа и ускорения этого процесса при острых и хронических повышениях уровней кортизона. Симуляции с использованием ординарных дифференциальных уравнений показали, что хроническое повышение уровня кортизола ведет к более быстрому угасанию гиппокампальной функции, чем острые всплески, однако лучше поддается лечению. Sozou & Kirkwood (2001) смоделировали физиологическое старение клетки на основе данных об укорочении теломер и окислительном стрессе. Эта же группа описала влияние белков-шаперонов и накопления неправильно свернутых белковых молекул с возрастом (Proctor et al., 2005). Другие группы изучали различные прочие аспекты процесса старения, такие как слияние и деление митохондрий, а также накопление дефектных митохондрий (Kowald et al., 2005; Figge et al., 2012), неполная репликация эпигенетической информации (Przybilla et al., 2014) и возрастные нарушения метаболизма липидов (McAuley & Mooney, 2015). Коррекция кинетики подобных моделей в зависимости от экспериментальных наблюдений позволяет формулировать правдоподобные гипотезы о причинах старения.

В противоположность описанным ранее системам, создающим крупномасштабные системы на основании данных (нисходящий подход), данные подходы моделируют малые подсистемы с высокой степенью детализации на основании заранее известной достоверной информации (восходящий подход). Такие восходящие модели открывают механистическое видение процесса старения, которого невозможно добиться с помощью отдельных исследований ассоциаций. Более того, они облегчают разработку новой гипотезы и тестирование достоверности существующей гипотезы.

Выводы и задачи

Наиболее важные недавние достижения технологий «-омик» позволяют одновременно проводить оценку миллионов биологических параметров. Исследования ассоциаций вскрыли множество ассоциаций между данными «-омик» и старением, а также возрастными болезнями. После десятилетий упрощенческих исследований специалисты начали прицельно применять системный анализ и интегрированный анализ данных «-омик» к процессу старения на системном уровне. В результате некоторые исследования также принимают во внимание эффекты взаимодействия между переменными. Однако, учитывая сложность процесса старения, для дальнейшей расшифровки многочисленных взаимодействий необходимы новые методы.

Системная биология уже располагает такими методами, однако их применение к реальным биологическим проблемам несколько запаздывает. Например, графические модели по Гауссу уже адаптированы к смешанным данным разных типов и могут применяться в изучении старения. Кроме этого в ряде исследований были разработаны модели способствующих старению процессов. Это предоставляет детализованную информацию о важных компонентах процесса старения и их взаимодействиях. Целью основанных на этих результатах будущих исследований должна быть интеграция этих разных компонентов для приобретения более полного системного понимания процесса старения.

Однако во многих случаях возможности ограничиваются имеющимися в распоряжении данными. Специалисты сталкиваются с такими проблемами, как неполные данные, асинхронные эксперименты, сильные групповые эффекты и недостаточный объем выборок. Еще одним вопросом является ограниченное количество доступных мульти«-омных» массивов данных, осложняющее воспроизведение результатов в данной области, которое затруднено также из-за разнообразия применяемых методов, протоколов и платформ. Учитывая критичность воспроизведения для предотвращения получения ошибочных результатов и ложноположительной валидации, исследователям следует чаще рассматривать целесообразность применения таких методов, как разделение доступных данных на отдельные массивы для обнаружения и репликации.

Несмотря на эти затруднения, было проведено несколько крупных популяционных исследований, предоставивших мульти«-омные» данные, пригодные для анализа с помощью подходов системной биологии. Например, целью проекта GTEx является сбор данных по экспрессии и метилированию генов в мультитканевых образцах (The Gtex Consortium 2013). Одновременно с этим разработка новых методов должна помочь при проведении анализа существующих частично неполных массивов данных и облегчить анализ мультитканевых и мультиорганных данных, упрощая тем самым изучение реальных системных эффектов. 

Решение этих проблем и разработка интегрированных моделей старения должно улучшить наше понимание процесса старения, что, в свою очередь, позволит разработать стратегии улучшения состояния здоровья в преклонном возрасте.

Список литературы см. в оригинале статьи.

Портал «Вечная молодость» http://vechnayamolodost.ru
30.10.2015
Нашли опечатку? Выделите её и нажмите ctrl + enter Версия для печати

Статьи по теме