Биоинформатики ФИЦ «Институт цитологии и генетики СО РАН», Новосибирского государственного университета и университета им. Мартина Лютера (Германия) разработали уникальный программный комплекс, позволяющий повысить эффективность анализа дорогостоящих геномных экспериментов. Статья об этом опубликована в журнале Nucleic Acids Research.
Как поясняют ученые, комплекс предназначен для поиска в ДНК совместно встречающихся мотивов — участков, на которые «садятся» белки, управляющие транскрипцией, то есть считыванием закодированной в молекуле ДНК информации. Расположенные рядом мотивы, как правило, функционируют вместе, поэтому выявление таких пар позволит ученым предсказывать взаимодействия белков уже на этапе распознавания последовательности ДНК, а также исследовать роль этих взаимодействий в физиологических процессах.
Миллионы клеток организма синтезируют белки, которые непрерывно работают: переносят кислород, защищают от вторжения чужеродных агентов, сокращают и расслабляют мышечные волокна и выполняют массу других функций. Сведения о том, где и когда должны выполняться эти действия, зашифрованы в молекуле ДНК, причем информация записана при помощи всего четырех «букв» — нуклеотидов. Нуклеотиды объединяются в «слова» — гены, и каждый ген несет в себе сведения о белке, который может с него синтезироваться.
Структуру и функцию клетки определяет уникальная комбинация белков, и какой ей быть «решают» регуляторные элементы ДНК. Их структурные единицы: короткие последовательности «букв"-нуклеотидов или мотивы — опознаются белками-регуляторами (транскрипционными факторами), что приводит к запуску или, наоборот, блокированию процесса считывания генетической информации.
Чтобы найти все мотивы определенного белка-регулятора в геноме, используется дорогостоящий эксперимент, который называется ChIP-seq. Важно, что белки-регуляторы никогда не работают в одиночку: активность и специфичность каждого модулируется многочисленными партнерскими белками-регуляторами, и результат работы мотива зачастую определяется именно этими взаимодействиями. Поиск же потенциальных партнеров, как правило, сопряжен с проведением дополнительных ChIP-seq экспериментов, что многократно повышает стоимость исследования. Именно эту проблему с успехом решает новый программный комплекс.
«Наш метод позволяет по результатам лишь одного ChIP-seq эксперимента определить пары белков-регуляторов, работающих вместе, и описать соответствующие им участки связывания ДНК. Причем обнаруживаются и те пары мотивов, последовательности которых в ДНК перекрываются: то есть часть „букв“ общая. В традиционно существующих методах обработки отсутствует анализ перекрывания или требуется проводить множество дополнительных экспериментов ChIP-seq для потенциальных партнерских белков-регуляторов. Нужно отметить, что стоимость такого эксперимента довольно высока (несколько сотен тысяч рублей), поэтому возможность извлечь максимум информации из одного пула данных экономит деньги и время», — прокомментировал старший научный сотрудник лаборатории эволюционной биоинформатики и теоретической генетики ИЦиГ СО РАН, старший научный сотрудник лаборатории компьютерной транскриптомики и эволюционной биоинформатики НГУ кандидат биологических наук Виктор Левицкий.
Качество работы программы исследователи проверили, проанализировав уже имеющиеся в открытом доступе данные 164 ChIP-seq экспериментов.
«Новый программный комплекс может использоваться и теми специалистами, которые исследуют белок-белковые взаимодействия на молекуле ДНК. Транскрипционные факторы — это белки: они взаимодействуют, если находятся рядом, что и происходит, когда они „cадятся“ на близко расположенные мотивы. Изучение белок-белковых взаимодействий активно развивается, эксперименты в этой области дорогостоящие, поэтому наш алгоритм, обеспечивающий получение предварительных сведений о том, на какие белки стоит обратить внимание, будет востребован», — отметила заведующая лабораторией регуляции экспрессии генов и лабораторией эпигенетики стресса ФИЦ ИЦиГ СО РАН доктор биологических наук Татьяна Меркулова.
Новосибирские ученые получили патент на свою программу, она готова к практическому применению. В последние несколько лет появились и продолжают пополняться открытые базы, насчитывающие уже несколько десятков тысяч ChIP-seq экспериментов для разнообразных типов тканей, клеток и для разных белков-регуляторов. Алгоритм сибирских ученых может использоваться для поиска новых партнеров уже известных белков-регуляторов, ключевых для выполнения важных физиологических функций организма, например, иммунного ответа.
Работа выполнялась при поддержке Российского фонда фундаментальных исследований.