Предсказа́ние ге́нов

Download 42.39 Kb.

bet	1/5
Sana	18.06.2023
Hajmi	42.39 Kb.
	#1582998

1 2 3 4 5

Bog'liq
Реферат на тему “Современные системы управления базами данных”

Предсказание геномной структуры.
Предсказа́ние ге́нов — это определение кодирующих и регуляторных последовательностей ДНК в геноме: белковых генов и генов некодирующих РНК, промоторов, энхансеров и прочее.
Ранние методы поиска генов основывались на трудоёмких экспериментах с живыми организмами и клетками, которые давали лишь приближённый результат. Статистический анализ частот кроссинговера между известными генами позволял узнать, как они расположены на хромосоме относительно друг друга, и в итоге составить генетическую карту. Сегодня же, благодаря развитию компьютерной техники и методов полногеномного секвенирования^[en], предсказание генов стало рутинной задачей в биоинформатике.
Необходимо различать предсказание функциональных участков от предсказания функции или продукта гена. Строгое определение функции или доказательство существования какого-либо белка может основываться только на экспериментальной работе^[1], хотя современной биоинформатике уже удаётся с высокой точностью определять функцию гена только по его последовательности.
Предсказание генов — один из ключевых этапов в аннотации генома^[en] вида, следующий за маскированием повторов и оценкой качества его сборки^[2].
Существует множество алгоритмов, разработанных в последние десятилетия, позволяющих определить точное положение гена в геноме. Существуют три основных подхода к предсказанию генов в геноме: эмпирический (внешний), неэмпирический (внутренний, ab initio) и смешанный^[3].
мпирический подход наиболее универсальный. В базах данных присутствует огромное количество уже описанных мРНК, белков, гомологичных последовательностей, что создает огромное количество информации для использования в процессе предсказания генов^[3].
Эмпирические средства поиска генов, которые также упоминаются как «средства поиска генов на основе сходства последовательностей», обнаруживают гены путем выравнивания известных последовательностей кДНК и белка по нехарактеризованным последовательностям генома^[4].
Особенно полезно знать белковые последовательности других видов, так как полипептидные последовательности часто являются более консервативными, чем лежащие в основе нуклеотидные последовательности и могут быть легко выровнены. Последовательности аминокислот полезны при определении наличия генных локусов, но не всегда дают информацию о точной структуре гена^[3].
Информация о транскриптах РНК дает очень точную информацию для правильного предсказания структуры генов, но эти данные гораздо менее полны и часто сильно зашумлены. Кроме того, транскрипты известны не для всех генов. Иногда в них могут присутствовать интроны из-за неполного созревания мРНК. Ключевым является точное выравнивание внешних данных: транскрипты должны быть выровнены с учётом сплайсинга сплайсингу (экзон-интронной структуры для генов эукариот), а белковые последовательности должны сравниваться с шестью каркасами трансляции нуклеотидных последовательностей. Также необходимо задать пороговые значения и пропускать слишком или менее консервативные гены^[3].

Download 42.39 Kb.

Do'stlaringiz bilan baham:

1 2 3 4 5