Предсказа́ние ге́нов
Неэмпирические методы[править | править код]
Download 42.39 Kb.
|
Реферат на тему “Современные системы управления базами данных”
Неэмпирические методы[править | править код]Неэмпирический подход заключается в использовании структуры генов в качестве шаблона для обнаружения генов, что также называется ab initio-предсказанием. Этот метод более трудоёмкий, поскольку для него необходимо создавать статистические модели. Генные предсказания ab initio основаны на двух типах информации о последовательности: датчики сигналов и датчики контента (под датчиком здесь понимается некий набор признаков). Датчики сигнала относятся к мотивам коротких последовательностей, таким как места сплайсинга, точки разветвления, полипиримидиновые тракты[en], стартовые и стоп-кодоны. Обнаружение экзона должно опираться на датчики контента, учитывающие модели использования кодонов[5]. Генные искатели ab initio не используют сходство последовательностей и вместо этого полагаются на собственные генные измерения, включая датчики сигнала и содержимого[4]. Первостепенное значение в нем имеет обучающий набор структурно хорошо аннотированных генов, используемых для построения моделей и обучения программного обеспечения. Поскольку каждый геном уникален, эти модели и программное обеспечение должны быть специфичными для каждого генома и, следовательно, должны быть перестроены и переобучены для каждого нового вида. Это, однако, также является большим преимуществом этого подхода, так как он способен предсказывать быстро развивающиеся и видоспецифичные гены[3]. У прокариот гены содержат характерные и хорошо изученные консенсусные элементы -35 и -10 (Прибнов-бокс), которые легко обнаружить, а также сайты связывания транскрипционных факторов. Кроме того, белок-кодирующие гены состоит из одной непрерывной рамки считывания длиной от сотен до нескольких тысяч пар оснований, заканчивающихся стоп-кодоном[6]. В случайных последовательностях стоп-кодоны встречаются гораздо чаще (3 из 64 кодонов — стоп-кодоны, то есть в среднем 1 стоп-кодон на 20—25 кодонов, или 60—75 нуклеотидов), поэтому наличие длинных рамок считывания — уже признак гена. Прочие статистические параметры белок-кодирующей ДНК также легко заметны на последовательностях такой длины. Как следствие, системы предсказания прокариотических генов действуют весьма прямолинейно и обладают высокой точностью[6]. У эукариот из-за сплайсинга белок-кодирующие последовательности ДНК (экзоны) прерываются некодирующими участками (интронами). Сайты сплайсинга — ещё один сигнал для распознавания генов. Типичный белок-кодирущий ген человека может быть разделён на десяток экзонов, длина каждого из которых обычно составляет 100—200 нуклеотидов. На таких коротких участках гораздо сложнее заметить отличия белок-кодирующей ДНК от случайной[7]. Программы для поиска генов как у про-, так и у эукариот обычно используют скрытые марковские модели (НММ) и машинное обучение, чтобы объединить информацию от различных сигналов и выявленных закономерностей. GLIMMER — широко используемая и высокоточная система поиска генов в прокариотах, GeneMark — ещё одна популярная система. В сравнении с прокариотическими, неэмперический поиск генов эукариот достиг более скромных результатов. Лучшие программы для эукариот — GENSCAN и geneid. SNAP, как и Genscan, основана на НММ и является попыткой создать универсальный искатель генов, который может работать на геноме, в котором ему не была дана обучающая выборка[8]. В других программах, как например, mSplicer[9], CONTRAST[10], или mGene[11] применяется машинное обучение и метод опорных векторов. Они строят различающую модель[en] с применением методов НММ, SVM или марсковских случайных полей[en] (от англ. Conditional random field, CRF) для составления функции вероятности наличия гена[8]. Download 42.39 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling