УДК: 579.835.12:575.113.12(476)
Год издания: 2019
Алгоритм функциональной аннотации транслируемых последовательностей в геноме клинически значимых для Беларуси штаммов Helicobacter pylori
Воропаев Е.В., Осипкина О.В.
Рубрики: 34.15.23, 34.27.00, 76.35.33
Гомельский государственный медицинский университет
Тема НИР: «Изучение молекулярно-генетических механизмов реализации инфекционного канцерогенного риска на модели заболеваний органов пищеварения, ассоциированных с Helicobacter pylori» (№ госрегистрации 20190388 от 29.03.2019).
Сроки выполнения НИР: январь 2019 г. — декабрь 2021 г.
Научный руководитель: канд. мед. наук, доц. Е. В. Воропаев.
Источник финансирования: госбюджет.
Цель исследования - разработка алгоритма функциональной аннотации транслируемых последовательностей в геноме клинически значимых для Беларуси штаммов Helicobacter pylori.
Для анализа структурно-функциональной организации генома любого исследуемого биологического объекта необходима его полная аннотация. Основные структурно-функциональные единицы генов могут быть вычислены с высокой точностью только на основе анализа исключительно геномной последовательности, тогда как другие, например, элементы промотора или некодирующие РНК, анализировать значительно сложнее. Последние технологические достижения открывают перед современным исследователем беспрецедентные возможности для полногеномного секвенирования и последующего анализа различных популяций патогенных и условно патогенных видов микроорганизмов как при вспышках заболеваний, так и для широкомасштабных исследований разнообразия, направленных на расширение наших знаний во всей области прокариот. Для решения проблемы интерпретации структуры, функции и значения получаемой генетической информации необходим комплексный подход к автоматической аннотации генома. В настоящее время существует ряд биоинформатических инструментов, позволяющих решать такого рода задачи. Одним из таких инструментов является конвейер аннотации прокариотического генома PGAP NCBI разработанный NCBI в сотрудничестве с компанией Georgia Tech. Данный подход к аннотации генома сочетает в себе методы, основанные на выравнивании, с методами прогнозирования белкового кодирования генов РНК и других функциональных элементов непосредственно из последовательности. Новый инструмент генного поиска GeneMarkS+ использует комбинированные данные о размещении белков и РНК по гомологии в качестве исходной карты аннотации для генерирования и прогнозирования генетической структуры целого генома. Данный аннотационный конвейер в большей степени опирается на схожесть последовательностей при наличии достоверных сравнительных данных, тогда как при отсутствии внешних данных он в большей степени использует статистические прогнозы и обеспечивает основу для создания и анализа аннотаций по всему спектру прокариотической таксономии.
В ходе исследований с применением технологии высокопроизводительного секвенирования Ion Torrent на базе геномного анализатора Ion PGM System (Thermo Scientific, США) выполнено секвенирование геномов изолятов 42К и 45 бактерии Helicobacter pylori.
Используемый в нашем исследовании алгоритм функциональной аннотации основывался на комбинированном подходе, включающем идентификацию кодирующих последовательностей на основе сравнительного анализа с EST-локусами референсных геномов Helicobacter pylori, представленных в базе данных GenBank NCBI, с последующим de novo поиском открытых рамок считывания (ORF) в неаннотированных регионах. Биоинформационные исследования выполнялись с помощью онлайн-сервисов, находящихся в открытом доступе, или на основе составленных оригинальных скриптов.
Отдельным аспектом анализа функциональных характеристик изолятов Helicobacter pylori явилась диагностика клинически значимых локусов, ассоциированных с патогенезом - cagA - гена c определением мотивов EPIYA и ДНК-мотивов AATAAGATA, vacA, oipA генов с определением их текущего аллельного состояния и доменной структуры.
Поиск de novo открытых рамок считывания включал построение транслируемых последовательностей на основе использования универсального бактериального кода выбора точки инициации (+1, +2,+3 и -1, -2, -3) и элиминацию последовательностей размером менее 100 н.о. Обязательные атрибуты ORF - наличие во фланкирующей части - 10 и -35 элементов (обязательные компоненты для промоторного участка бактерии, с которой связывается РНК-полимераза), а текже стартового кодона ATG (реже аналогов ATT, ATA, ACG и CTG) и предшествующей ему последовательности Шайна-Дальгарно (AGGAGG).
Функция анонимных транслируемых последовательностей устанавливалась на основе поиска функциональных доменов на базе данных консервативных доменов (CDD) GeneBank NCBI с помощью онлайн-сервиса RPS-BLAST.
Для предикции открытых рамок считывания также использовались онлайн-модули, основанные на применении скрытых марковских моделей и цепей. Базисными параметрами для вычислительных экспериментов являлись частоты встречаемости различных триплетов в референсных геномах Helicobacter pylori, включая кодирующие и некодирующие регионы, а также вариации размеров открытых рамок считывания.
Отдельным этапом работы с аннотацией открытых рамок считываний являлся поиск псевдогенов, основанный на текущих ab initio методах и подходах сравнительной геномики, включая выявление нонсенс-мутаций, и сдвига рамки считывания, нарушающих экспрессию функциональной последовательности ДНК. Дополнительным критерием анализа являлось выявление различий в статистических параметрах между описанными генами и псевдогенами Helicobacter pylori.
В результате исследования выявлено несколько значимых особенностей геномной организации клинически значимых для Беларуси изолятов 42К и 45 бактерии Helicobacter pylori, касающихся их патогенного потенциал, не связанных с канцерогенезом. Полученные аннотированные данные геномного анализа депонированы в базе данных GenBank NCBI (депоненты CP034314., CP034313.1, CP034312.1. и NZ_SZUB00000000.1).
Область применения: лабораторная диагностика, молекулярная генетика, микробиология.
Рекомендации по использованию: может быть использован для решения аналогичных задач по аннотированию геномов прокариот.
Предложения по сотрудничеству: совместные исследования по указанной тематике.