Предсказа́ние ге́нов
Download 42.39 Kb.
|
Реферат на тему “Современные системы управления базами данных”
Предсказание геномной структуры. Предсказа́ние ге́нов — это определение кодирующих и регуляторных последовательностей ДНК в геноме: белковых генов и генов некодирующих РНК, промоторов, энхансеров и прочее. Ранние методы поиска генов основывались на трудоёмких экспериментах с живыми организмами и клетками, которые давали лишь приближённый результат. Статистический анализ частот кроссинговера между известными генами позволял узнать, как они расположены на хромосоме относительно друг друга, и в итоге составить генетическую карту. Сегодня же, благодаря развитию компьютерной техники и методов полногеномного секвенирования[en], предсказание генов стало рутинной задачей в биоинформатике. Необходимо различать предсказание функциональных участков от предсказания функции или продукта гена. Строгое определение функции или доказательство существования какого-либо белка может основываться только на экспериментальной работе[1], хотя современной биоинформатике уже удаётся с высокой точностью определять функцию гена только по его последовательности. Предсказание генов — один из ключевых этапов в аннотации генома[en] вида, следующий за маскированием повторов и оценкой качества его сборки[2]. Существует множество алгоритмов, разработанных в последние десятилетия, позволяющих определить точное положение гена в геноме. Существуют три основных подхода к предсказанию генов в геноме: эмпирический (внешний), неэмпирический (внутренний, ab initio) и смешанный[3]. мпирический подход наиболее универсальный. В базах данных присутствует огромное количество уже описанных мРНК, белков, гомологичных последовательностей, что создает огромное количество информации для использования в процессе предсказания генов[3]. Эмпирические средства поиска генов, которые также упоминаются как «средства поиска генов на основе сходства последовательностей», обнаруживают гены путем выравнивания известных последовательностей кДНК и белка по нехарактеризованным последовательностям генома[4]. Особенно полезно знать белковые последовательности других видов, так как полипептидные последовательности часто являются более консервативными, чем лежащие в основе нуклеотидные последовательности и могут быть легко выровнены. Последовательности аминокислот полезны при определении наличия генных локусов, но не всегда дают информацию о точной структуре гена[3]. Информация о транскриптах РНК дает очень точную информацию для правильного предсказания структуры генов, но эти данные гораздо менее полны и часто сильно зашумлены. Кроме того, транскрипты известны не для всех генов. Иногда в них могут присутствовать интроны из-за неполного созревания мРНК. Ключевым является точное выравнивание внешних данных: транскрипты должны быть выровнены с учётом сплайсинга сплайсингу (экзон-интронной структуры для генов эукариот), а белковые последовательности должны сравниваться с шестью каркасами трансляции нуклеотидных последовательностей. Также необходимо задать пороговые значения и пропускать слишком или менее консервативные гены[3]. Download 42.39 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling