Лекция. Предсказание структур генов эукариотических организмов. Методы прогнозирования генных структур.


Но и это не позволяет надежно определять структуру генов. Можно применить статистику кодонов и тем самым значительно улучшить качество предсказания до 70 %


Download 447.22 Kb.
bet6/7
Sana16.03.2023
Hajmi447.22 Kb.
#1278888
TuriЛекция
1   2   3   4   5   6   7
Bog'liq
6-7 Лекция. Предсказание структур генов эукариотических организмов. Методы прогнозирования генных структур.

Но и это не позволяет надежно определять структуру генов. Можно применить статистику кодонов и тем самым значительно улучшить качество предсказания до 70 %.

Тем не менее, применение статистических методов предсказания структуры генов при анализе больших геномных фрагментов имеет несколько трудно преодолимых недостатков. Во-первых, нет возможности локализовать границы генов и предсказания часто объединяют несколько генов, закодированных в последовательности, в один очень большой ген, или, напротив, расщепляют гены на два и более.

Во-вторых, применение этих методов затруднительно при наличии ошибок в геномной последовательности. Особенно они чувствительны к сдвигу рамки. Наконец, в-третьих, эти методы позволяют предсказывать только одну изоформу, игнорируя альтернативный сплайсинг.

Сравнительная геномика

Благодаря секвенированию большого числа геномов различных организмов, стал возможен поиск генов путём сравнительной геномики. Этот подход основан на том, что гены и регуляторные элементы мутируют медленней, чем прочие элементы генома, поскольку находятся под большим давлением естественного отбора. Это позволяет детектировать гены как консервативные последовательности, сравнивая геномы близкородственных видов. Этот подход впервые был применён на человеческом и мышином геномах и реализован в программах SLAM, SGP, TWINSCAN/N-SCAN и CONTRAST.

Множественные информанты

Программа TWINSCAN для поиска ортологичных генов учитывает только синтению человеческого и мышиного геномов. Такие программы, как N-SCAN и CONTRAST, позволяют совмещать данные из множества организмов. Использование множества источников данных приводит к значительному улучшению точности.

Программа CONTRAST состоит из двух частей. Первая — классификатор, опознающий сайты сплайсинга, старт- и стоп-кодоны. Вторая часть строит окончательную модель при помощи машинного обучения, принимая на вход данные от первого классификатора и множественных выравниваний с другими геномами. Разделение задачи надвое позволяет снизить объём обучающей выборки и размер окна. Использование уже готового классификатора значительно сокращает время работы программы.


Download 447.22 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling