Особенно полезно знать белковые последовательности других видов, так как полипептидные последовательности часто являются более консервативными, чем лежащие в основе нуклеотидные последовательности и могут быть легко выровнены. Последовательности аминокислот полезны при определении наличия генных локусов, но не всегда дают информацию о точной структуре гена. Информация о транскриптах РНК дает очень точную информацию для правильного предсказания структуры генов, но эти данные гораздо менее полны и часто сильно зашумлены. Кроме того, транскрипты известны не для всех генов. Иногда в них могут присутствовать интроны из-за неполного созревания мРНК. Ключевым является точное выравнивание внешних данных: транскрипты должны быть выровнены с учётом сплайсинга сплайсингу (экзон-интронной структуры для генов эукариот), а белковые последовательности должны сравниваться с шестью каркасами трансляции нуклеотидных последовательностей. Также необходимо задать пороговые значения и пропускать слишком или менее консервативные гены. Неэмпирические методы Неэмпирический подход заключается в использовании структуры генов в качестве шаблона для обнаружения генов, что также называется ab initio-предсказанием. Этот метод более трудоёмкий, поскольку для него необходимо создавать статистические модели. Генные предсказания ab initio основаны на двух типах информации о последовательности: датчики сигналов и датчики контента (под датчиком здесь понимается некий набор признаков). Датчики сигнала относятся к мотивам коротких последовательностей, таким как места сплайсинга, точки разветвления, полипиримидиновые тракты, стартовые и стоп-кодоны. Обнаружение экзона должно опираться на датчики контента, учитывающие модели использования кодонов. Генные искатели ab initio не используют сходство последовательностей и вместо этого полагаются на собственные генные измерения, включая датчики сигнала и содержимого. Первостепенное значение в нем имеет обучающий набор структурно хорошо аннотированных генов, используемых для построения моделей и обучения программного обеспечения. Поскольку каждый геном уникален, эти модели и программное обеспечение должны быть специфичными для каждого генома и, следовательно, должны быть перестроены и переобучены для каждого нового вида.
Do'stlaringiz bilan baham: |