Информация о конотоксинах
Выравнивание слов конечной температуры
Download 75.03 Kb.
|
Molekulyar biologiya fanidan tayyorlagan (1)
2.2 Выравнивание слов конечной температуры
Наш подход похож на недавно разработанный метод белок-белковых взаимодействий (PPI) , который, как было показано, очень эффективен при использовании парного сходства (PS) [40 ]. В PPI-PS авторы использовали алгоритм Смита-Уотермана [41 ] для извлечения признаков для последовательностей X. В этом случае каждый компонент вектора признаков определяется оценкой локального выравнивания последовательности X относительно t-подпоследовательности, сгенерированной окном сдвига . Алгоритм Смита-Уотермана подходит для задач, где ожидается один регион с высоким сходством в пространстве поиска. Такая ситуация показана на рисунке 1( а). За исключением незначительных изменений, преобладает одно выравнивание, при этом каждый сдвиг имеет больший балл в следующей последовательности. Однако в нашем случае это не то сходство, которое мы хотим измерить по двум причинам. Во-первых, использование переменного окна в объединенной базе данных может привести к тому, что в одном окне будет несколько областей с высокой оценкой из-за сходства последовательности X с отдельными записями в исходной базе данных . Во-вторых, если гомология слабая, могут быть почти оптимальные совпадения даже при сравнении X с одной записью в базе данных . Такие ситуации можно объяснить так называемой опережающей оценкой в HMM [42 ]. Однако HMM обычно полагаются на больший набор параметров, чем сглаживание на основе оценок. Поэтому мы экспериментировали с выравниванием по конечной температуре, которое является прямым обобщением классического точечного выравнивания [43 , 44]. Оптимальное выравнивание и конечное выравнивание температуры. (а) Один очень похожий регион в области поиска (б) Много конкурирующих схожих регионов в области поиска в каждом окне. В этой структуре мы рассмотрели не только оптимальное выравнивание, но и полный набор возможных выравниваний входных последовательностей X и W t . Каждому выравниванию был присвоен экспоненциальный вес на основе его оценки и одного свободного параметра, «температуры» T . Оценка была рассчитана обычным способом и путем суммирования записей матрицы оценок (здесь BLOSUM62) для всех выровненных позиций с учетом отрицательного вклада для пробелов (-11 для открытия пробела, -1 для расширений) . Такое распределение называется распределением Больцмана. Эффективный алгоритм позволяет вычислить коэффициент нормализации (или статистическую сумму ) . Без необходимости перечисления всех выравниваний (см. ниже вариант этих алгоритмов выравнивания слов ограниченного размера). Взяв термины из статистической физики. Эти значения формируют компоненты векторов признаков в классификаторе SVM. Вкратце, f обладает следующими свойствами: • При T → 0 f равно оптимальной оценке (оптимальной при всех весах). • Каждое выравнивание имеет одинаковый вес при T → ∞. • Существует значительный ТС, при котором пустые баллы увеличиваются линейно (а не логарифмически) с увеличением длины последовательности [39 , 45–47]. Кроме того, длина выравнивания растет, не ограничиваясь его длиной. Это означает, что T можно рассматривать как параметр контраста, который позволяет размещать большую или меньшую массу в субоптимальных выравниваниях. Температур выше Tc следует избегать, потому что пары родственных и неродственных последовательностей больше нельзя различить, и выравнивание становится бессмысленным. Однако наши первые эксперименты показали, что SVM хорошо работает в сочетании со свободным скорингом, но мы получили неожиданно большую оптимальную температуру , даже большую, чем T css ≈ 2,5 [39], при которой классификация SVM работала лучше всего. Чтобы лучше понять это, мы перетасовали последовательности перед классификацией и добились практически одинаковой производительности. Следовательно, аминокислотный состав, взвешенный с помощью экспоненциального фактора, такого как аминокислотная последовательность, более важен, чем выравнивание аминокислот . Здесь s представляет собой матрицу оценок, а h X (a ), h W (b) представляют частоту появления аминокислот a и b в последовательности. Чтобы избежать идеи рассмотрения множества альтернативных выравниваний с эффектами последовательного порядка, мы ограничили набор возможных выравниваний следующим образом. Вместо того, чтобы допускать выравнивания произвольной длины, учитывались только все выравнивания без пробелов между парами слов максимальной длины k max. Сформулировать алгоритм динамического программирования, вычисляющий ZT за полиномиальное время, несложно. Поэтому для подзадачи X 1 ... X i определим вспомогательную статистическую сумму, определенную так, чтобы сумма по всем словам была словом длины k, оканчивающимся на позициях i и j. Эти величины можно рассчитать с помощью рекурсивного соотношения. Поэтому я = 1 ... | X |, j = 1 ... | Вт т | и k знак равно 1 ... k макс . Суммарная статистическая сумма задается как ZT . Свободная точка обладает подходящими граничными свойствами для неограниченного сглаживания при T → 0 и T → ∞, но произвольно длинное сглаживание выше TC становится невозможным. Download 75.03 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling