Компания группы Института Стволовых Клеток Человека (ИСКЧ) — Центр Genetico и лаборатория Сербалаб создали и разместили в открытом доступе первую российскую открытую базу данных генетических вариантов (полиморфизмов, мутаций) и их встречаемости в российской популяции. Работа проводилась в сотрудничестве с Институтом биоинформатики. База доступна по веб-адресу: http://ruseq.ru.
База данных основана на статистической обработке результатов секвенирования (расшифровки) более 6000 образцов ДНК человека и содержит в себе перечень всех генетических вариантов, встретившихся у людей, включенных в выборку, и информацию о том, у какого количества человек был выявлен тот или иной вариант. В базу данных вошло более 500000 новых (ранее не описанных) вариантов. При этом генетическая информация отдельных индивидуумов в базе отсутствует.
Для достижения достоверности выборки и репрезентативности по популяциям, проживающим на территории страны, при создании популяционной базы данных генетических вариантов необходимо исследовать достаточно большое количество образцов. В лаборатории Генетико к настоящему времени было исследовано более 5000 образцов методом секвенирования нового поколения (NGS) в формате полных экзомов и полных геномов. Работа проводилась при поддержке фонда «Сколково». В лаборатории Сербалаб было секвенировано более 2000 образцов. В состав объединенной выборки вошли как пациенты с подозрением на наследственное заболевание, так и здоровые доноры.
По словам руководителя отдела Биоинфоматики Центра Генетико, Дарьи Хмельковой:
Этот проект по созданию и развитию базы может повысить качество диагностики и, в перспективе, позволит более точно ставить диагнозы по результатам генетических исследований. Мы планируем и дальше работать над наполнением базы, и приглашаем другие лаборатории вступить в этот открытый проект и внести вклад в его развитие — предоставить данные по геномам и полным экзомам.
Подобные базы данных имеют большую ценность для исследователей в разных областях биологии и медицины. Особенно важно наличие таких баз для корректной интерпретации результатов секвенирования ДНК в медицинских целях: с целью поиска возможных причин наследственных заболеваний у пациентов и при постановке диагноза. С учетом того, что наследственные заболевания встречаются в популяции сравнительно редко, важно уметь отличать редкие генетические варианты от часто встречающихся; популяционная частота служит одним из критериев патогенности (способности вызывать заболевание) вариантов.
Один из первых значимых проектов по изучению генетического разнообразия человечества назывался «1000 геномов» и был начат в 2008 году. Результаты проекта были опубликованы в 2012 году. Как следует из названия, в ходе работы над проектом было секвенировано более 1000 образцов ДНК человека из 14 популяций разных стран. Далее в 2016 году были опубликованы результаты проекта ExAC, в ходе которого были проанализированы экзомы (участки генома, которые кодируют белки) более 60000 человек. Результаты этих проектов позднее были включены в состав базы данных gnomAD, включающей в себя на сегодняшний день результаты статистической обработки последовательности ДНК более 140000 индивидуумов.
При всей масштабности этих проектов следует отметить, что разные популяции в них представлены неравномерно. В частности, российская популяция, несмотря на свою многочисленность и многонациональность, в выборках ExAC и gnomAD практически не представлена. По этой причине в разных странах действуют национальные проекты, нацеленные на изучение генетического разнообразия населения; в качестве примера можно привести национальные базы данных популяционных частот вариантов, созданные в Великобритании, Нидерландах, Китае, Иране.
Более подробно про анализ данных в ходе создания базы можно почитать в предварительной публикации научной статьи по ссылке https://www.medrxiv.org/content/10.1101/2021.11.02.21265801v1.
Лаборатории планируют продолжать работу по наполнению базы данных вариантами с учетом секвенирования новых образцов.