Ученые из Института исследования рака Даны-Фарбер, Массачусетского технологического института и Колумбийского университета разработали модель искусственного интеллекта EpiBERT, способную определять "грамматику" генома человека и выявлять мутации, связанные с различными заболеваниями. Результаты исследования опубликованы в журнале Cell Genomics.
Новая модель основана на BERT — системе глубокого обучения, ранее использовавшейся для анализа человеческого языка. Используя аналогичный подход к анализу, EpiBERT предсказывает, какие гены будут активны в клетках различных типов.
По словам ученых, EpiBERT обучалась на данных сотен типов человеческих клеток, используя геномную последовательность длиной около трех миллиардов пар оснований, а также карты доступности хроматина. Эти карты показывают, какие участки ДНК "разворачиваются" и считываются клеткой.
Модель сначала изучила взаимосвязь между последовательностью ДНК и доступностью хроматина в разных типах клеток, а затем использовала эти данные для предсказания активности генов. В результате EpiBERT точно идентифицировала регуляторные элементы генома, которые управляют экспрессией генов, и построила "грамматику", которая предсказуемо объясняет, какие гены активируются в конкретных клетках.
Этот процесс аналогичен тому, как языковые модели, такие как ChatGPT, обучаются строить осмысленные предложения из текста.
Ученые пояснили, что все клетки организма содержат одинаковую генетическую информацию, но различаются относительно того, какие гены активируются в каждый момент времени. Примерно 20% генома составляют регуляторные элементы, которые определяют, какие гены будут активными, но эти элементы и их влияние на клеточную функцию до сих пор плохо изучены. Модель EpiBERT может пролить свет на то, как работает эта регуляция и как ее нарушения могут приводить к заболеваниям, таким как рак.
Свежие комментарии