Для предсказания генов используются статистики k-меров, GC-состав, равномерность, энтропия участков ДНК, длина рамок считывания, наборы сайтов связывания рибосом, а также промоторных, экзонно-интронных сайтов и сайтов сплайсинга, фрактальная размерность, Фурье-преобразование закодированной цифрами ДНК и параметры Z-кривой. Качество предсказаний можно улучшить, применяя не только непосредственно детектируемые сигналы. Например, вторичная структура РНК может помочь с поиском сайтов сплайсинга и других регуляторных мотивов. Нейронные сети Пример такой сети — нейронная сеть, определяющая положения сайтов сплайсинга в заданной последовательности ДНК. В этой сети применяется метод скользящего окна, при котором из общей последовательности извлекаются пересекающиеся подпоследовательности (окна) с некоторым шагом. Полученный от каждого окна сигнал сглаживается и фильтруется, после чего для каждого нуклеотида определяется вероятность того, что он входит в сайт сплайсинга. Больший размер окна позволяет повысить точность предсказания, но увеличивает время вычислений. В сеть не было заложено никаких априорных знаний, но в результате обучения на сайтах 16965 генов специфичность и чувствительность распознавания превысили 80 %. Совмещённый подход Совмещенный подход является наиболее широко используемым, так как он сочетает лучшее из эмпирического и неэмпирического методов, дополняя результаты ab initio внешней информацией. Программы MAKER и MAKER-P могут быть применены для аннотирования генов во вновь собранных геномах, обновления или объединения устаревших аннотаций в свете новых данных. MAKER и MAKER-P могут быстро аннотировать геномы любого размера и масштабировать в соответствии с доступными вычислительными ресурсами. MAKER и MAKER-P комментируют и маскируют повторяющиеся элементы в геноме и сопоставляют данные о белках и РНК со сборкой с учетом сплайсинга для точной идентификации сайтов сплайсинга. Они также запускают несколько предсказателей генов ab initio, сравнивают все предсказанные генные модели с данными о выравнивании РНК и белков, а затем пересматривают модели генов ab initio в свете этих данных. Модели генов с наилучшей поддержкой выбираются с использованием показателя качества, называемого расстояние редактирования аннотации (англ. annotation edition distance, AED) .
Do'stlaringiz bilan baham: |