Вероятность превращения человеческой ДНК в левозакрученную форму оценили с помощью нейросетей.
ДНК – это двуцепочечная спираль. Две цепи, которые состоят из множества нуклеотидов, соединены между собой водородными связями. Сами нуклеотиды – тоже сложные молекулы, в состав которых входят азотистые основания аденин, гуанин, тимин и цитозин , те самые четыре буквы генетического кода А, Т, Г и Ц. Именно водородные связи между ними держат обе цепи вместе, причём водородные связи образуются по принципу комплементарности, то есть напротив А в одной цепи будет стоять Т, а напротив Г – Ц.
Пространственная структура ДНК зависит от физико-химических взаимодействий атомов и групп атомов внутри самой молекулы и от их взаимодействий со средой – ведь ДНК существует не в вакууме, вокруг неё вода, ионы, и пр. Взаимодействия эти не жёсткие, условия среды могут быть разные, и поэтому у ДНК есть несколько пространственных форм. Обычно говорят о В-ДНК – закрученной вправо спирали двух цепочек нуклеотидов с определёнными параметрами; ДНК в форме В встречается чаще всего. При этом она может превращаться в Z-ДНК, главная особенность которой в том, что она – левозакрученная.
ДНК – огромная молекула, и её разные участки могут существовать в разных пространственных формах. То есть, например, форма Z может возникать там и сям посреди формы В. С ДНК постоянно работают разнообразные белки, которые синтезируют новые цепи ДНК или же считывают информацию из генов в молекулы РНК, чтобы те потом послужили инструкцией для сборки белковых молекул. Свойства пространственной структуры влияют на её биологию: переход из В-формы в Z-форму влияет на активность генов, то есть на количество РНК, но также это влияет на вероятность мутаций – Z-DNA химически менее стабильна и более подвержена мутациям; весной мы писали, что противовирусная защита в клетке включается в ответ на появление Z-ДНК.
Чтобы лучше понимать, что происходит в клетке, желательно уметь предсказывать, какие зоны ДНК более всего склонны становиться «левыми». Свойства того или иного участка ДНК зависят от последовательности нуклеотидов, от того, какого рода генетический текст в них записан. Анализируя последовательности ДНК, можно с определённой точностью угадать, где ДНК с большей охотой переходит в Z-форму.
Но так можно обнаружить далеко не все зоны, склонные к Z-форме. Чтобы лучше их распознать, нужно ещё учитывать и активность генов, и ряд других параметров. Сотрудники Национального исследовательского университета «Высшая школа экономики» (НИУ ВШЭ) попробовали решить эту задачу с помощью искусственного интеллекта; результаты эксперимента описаны в Scientific Reports. Нейронные сети трёх типов – свёрточная (которую обычно используют для распознавания образов), рекуррентная (которая используют для распознавания текста) и их гибрид – учили видеть Z-ДНК на большом массиве биологических данных.
Всего в эксперименте была 151 модель нейросетей, из них одна, относящаяся к рекуррентному типу, показала наилучший результат. И дальше этой нейросетью прочесали уже весь человеческий геном – для каждого отдельного нуклеотида или группы нуклеотидов нейросеть показывала, с какой вероятностью он может оказаться в Z-форме.
В перспективе новые данные должны сильно помочь всем, чьи исследования в той или иной мере касаются молекулярной биологии – поскольку, как было сказано, превращения ДНК из одной формы в другую и обратно влияют на активность генов, а от активности генов у нас зависит вся жизнь.
Комметарии