Алгоритм для точного поиска связей между генами и болезнями

Higher education
in St. Petersburg

Источник фотоматериала: https://news.itmo.ru/ru/official/education/news/9629/

23.11.2021

Исследователи Центра геномного разнообразия ИТМО и НЦМУ «Персонализированной медицины» создали алгоритм под названием GPrior (от английского Gene Prioritizer), который использует массив данных, полученных в результате полногеномного исследования ассоциаций (GWAS), и находит конкретные гены, которые отвечают за ту или иную болезнь. В качестве примера ученые рассматривали шизофрению, коронарную болезнь сердца и воспалительные заболевания кишечника.

GWAS и его недостатки

Метод поиска полногеномных ассоциаций (GWAS) позволил накопить значительный массив отдельных ДНК-вариантов, ассоциированных с риском развития заболеваний. Однако он не дает представление о конкретных генах, нарушение функции которых становится причиной «поломки» в организме. Дело в том, что благодаря использованию GWAS можно получить результат, ограниченный возможностями технологии микрочипового генотипирования ― он позволяет лишь уточнить участки генома (локусы), которые ассоциированы с заболеванием. Но эти участки могут включать десятки генов, из которых только один или несколько действительно связаны с болезнью, поэтому использовать такой метод в разработке тех или иных медицинских решений довольно трудно.

Чтобы получать более конкретные и точные результаты, ученые всего мира разрабатывают методы постпроцессинга информации, полученной от GWAS. Но сложность в том, что исследователям приходится работать с очень большим массивом неизвестных данных ― не понятно, на какие из генов в ассоциированных геномных локусах нужно обратить внимание, а какие ― проигнорировать.

Сотрудники Центра геномного разнообразия ИТМО совместно с НЦМУ «Персонализированной медицины» разработали собственный подход к решению проблемы. GPrior ― это инструмент на основе машинного обучения, который помогает приоритезировать гены, связанные с риском заболевания. В архитектуре инструмента используется нестандартный метод ― positive unlabeled learning. Его отличительной особенностью является возможность обучения модели только на положительных примерах.

«В большинстве случаев сложно с уверенностью говорить о том, что один какой-то ген в большом множестве не отвечает за развитие фенотипа. Когда мы работаем с данными GWAS, мы имеем дело с ограниченным числом положительных примеров (генов, роль которых в развитии фенотипа мы точно знаем) и большим количеством генов, про которые ничего нельзя сказать конкретно (то есть они скрыто-положительные или скрыто-отрицательные). Задача нашего алгоритма состоит в разгадывании этого ребуса ― мы стремимся разметить все эти неизвестные данные», ― рассказывает Никита Колосов, автор исследования, сотрудник Международной лаборатории «Компьютерные технологии», программист Центра геномного разнообразия и НЦМУ «Персонализированной медицины».

Отделить зёрна от плевел

Но как научить компьютерный алгоритм понимать, что важно в множестве данных? В классическом подходе к классификаторам машинного обучения (например, если алгоритм тренируют на распознавание опухоли по фотографии) для обучения модели используется множество положительных примеров (фотографий, на которых опухоль точно есть) и множество отрицательных примеров (фотографий, на которых опухоли точно нет). Для генетической приоритезации этот способ не подходит ― здесь слишком много неразмеченных и неустановленных данных на входе.

Поэтому ученые пошли по другому пути: они используют целых пять классификаторов, которые последовательно анализируют сет данных и позволяют «навесить» на каждый ген в сете функциональную аннотацию. При этом используются два типа признаков, которые сами авторы назвали SNP-level и gene-level. На уровне SNP (от английского Single Nucleotide Polymorphism) исследуются очень схожие цепочки нуклеотидов на гомологичном участке хромосом. На более высоком, генном, уровне функциональные аннотации присваиваются уже самим генам ― это позволяет создать некую таблицу со всеми генами и их функциями.

«Мы берем результаты полногеномного поиска ассоциаций и те варианты, которые скоррелированы с тем или иным фенотипом (например заболевания), а затем соединяем с определенными генами посредством присвоения разных функциональных аннотаций. Для генов мы используем дополнительные аннотации, например уровень экспрессии в какой-то ткани (почках, печени и так далее). И потом на основании этих признаков мы приоритезируем все эти исследуемые гены. В итоге получается список, который говорит о том, какие гены вероятнее всего потенциально ответственны за развитие этого фенотипа», ― объясняет Никита Колосов.

Универсальный ансамбль

Как подчеркивают авторы работы, предлагаемый ими метод не только демонстрирует высокую эффективность, но и является гибким универсальным инструментом, который позволяет индивидуально подходить к каждому новому набору данных. Именно потому, что в его основе ― ансамбль из пяти классификаторов, которые последовательно анализируют множество данных.

Разработанная учеными программа находится в открытом доступе ― ею может пользоваться любой исследователь из любой точки мира. Разработчики планируют заниматься непрерывной поддержкой алгоритма и его дальнейшим улучшением.

Но в целом, подчеркивают авторы, пока что удовлетворительного решения такой сложной задачи, как поиск риск-генов для полигенных заболеваний, нет. Ученым все еще приходится сталкиваться с большим количеством специфических проблем.

По словам Никиты Колосова, шаг от полногеномного поиска ассоциаций к конкретным генетическим элементам, которые потенциально ответственны за развитие заболевания, сам по себе весьма нетривиален. Но это важная задача, ведь, зная генетические причины болезни, можно выработать и эффективные фармацевтические решения.

«Понять генетическую структуру и определить ту совокупность генов, из-за которой развивается заболевание ― это было бы прорывным открытием, ― рассуждает исследователь. ― Ведь многие полигенные болезни ― шизофрения или коронарная болезнь сердца ― обусловлены совместным эффектом мутаций в большом количестве генов, которые между собой как-то взаимодействуют. Деконструирование таких сложных признаков, выявление их генетических причин ― это важный момент для медицины. Совместная работа ведущих геномных и биоинформатических центров, таких как ИТМО, НЦМУ "Персонализрованной медицины", Института Броада, в нашем случае ― ключ для создания эффективных решений».

Подробнее об исследовании: Nikita Kolosov, Mark J. Daly, Mykyta Artomov. Prioritization of disease genes from GWAS using ensemble based positive-unlabeled learning. European Journal of Human Genetics, 29, 1527–1535 (2021).

Source: https://news.itmo.ru/ru/science/it/news/9933/

Алгоритм для точного поиска связей между генами и болезнями

GWAS и его недостатки

Отделить зёрна от плевел

Универсальный ансамбль

Read next