Предсказа́ние ге́нов

Неэмпирические методы[править | править код]

bet	2/5
Sana	18.06.2023
Hajmi	42.39 Kb.
	#1582998

1 2 3 4 5

Bog'liq
Реферат на тему “Современные системы управления базами данных”

Неэмпирические методы[править | править код]

Неэмпирический подход заключается в использовании структуры генов в качестве шаблона для обнаружения генов, что также называется ab initio-предсказанием. Этот метод более трудоёмкий, поскольку для него необходимо создавать статистические модели. Генные предсказания ab initio основаны на двух типах информации о последовательности: датчики сигналов и датчики контента (под датчиком здесь понимается некий набор признаков). Датчики сигнала относятся к мотивам коротких последовательностей, таким как места сплайсинга, точки разветвления, полипиримидиновые тракты^[en], стартовые и стоп-кодоны. Обнаружение экзона должно опираться на датчики контента, учитывающие модели использования кодонов^[5].
Генные искатели ab initio не используют сходство последовательностей и вместо этого полагаются на собственные генные измерения, включая датчики сигнала и содержимого^[4].
Первостепенное значение в нем имеет обучающий набор структурно хорошо аннотированных генов, используемых для построения моделей и обучения программного обеспечения. Поскольку каждый геном уникален, эти модели и программное обеспечение должны быть специфичными для каждого генома и, следовательно, должны быть перестроены и переобучены для каждого нового вида. Это, однако, также является большим преимуществом этого подхода, так как он способен предсказывать быстро развивающиеся и видоспецифичные гены^[3].
У прокариот гены содержат характерные и хорошо изученные консенсусные элементы -35 и -10 (Прибнов-бокс), которые легко обнаружить, а также сайты связывания транскрипционных факторов. Кроме того, белок-кодирующие гены состоит из одной непрерывной рамки считывания длиной от сотен до нескольких тысяч пар оснований, заканчивающихся стоп-кодоном^[6]. В случайных последовательностях стоп-кодоны встречаются гораздо чаще (3 из 64 кодонов — стоп-кодоны, то есть в среднем 1 стоп-кодон на 20—25 кодонов, или 60—75 нуклеотидов), поэтому наличие длинных рамок считывания — уже признак гена. Прочие статистические параметры белок-кодирующей ДНК также легко заметны на последовательностях такой длины. Как следствие, системы предсказания прокариотических генов действуют весьма прямолинейно и обладают высокой точностью^[6].
У эукариот из-за сплайсинга белок-кодирующие последовательности ДНК (экзоны) прерываются некодирующими участками (интронами). Сайты сплайсинга — ещё один сигнал для распознавания генов. Типичный белок-кодирущий ген человека может быть разделён на десяток экзонов, длина каждого из которых обычно составляет 100—200 нуклеотидов. На таких коротких участках гораздо сложнее заметить отличия белок-кодирующей ДНК от случайной^[7].
Программы для поиска генов как у про-, так и у эукариот обычно используют скрытые марковские модели (НММ) и машинное обучение, чтобы объединить информацию от различных сигналов и выявленных закономерностей. GLIMMER — широко используемая и высокоточная система поиска генов в прокариотах, GeneMark — ещё одна популярная система. В сравнении с прокариотическими, неэмперический поиск генов эукариот достиг более скромных результатов. Лучшие программы для эукариот — GENSCAN и geneid. SNAP, как и Genscan, основана на НММ и является попыткой создать универсальный искатель генов, который может работать на геноме, в котором ему не была дана обучающая выборка^[8]. В других программах, как например, mSplicer^[9], CONTRAST^[10], или mGene^[11] применяется машинное обучение и метод опорных векторов. Они строят различающую модель^[en] с применением методов НММ, SVM или марсковских случайных полей^[en] (от англ. Conditional random field, CRF) для составления функции вероятности наличия гена^[8].

Download 42.39 Kb.

Do'stlaringiz bilan baham:

1 2 3 4 5