Информация о конотоксинах


Download 75.03 Kb.
bet4/9
Sana24.12.2022
Hajmi75.03 Kb.
#1051763
1   2   3   4   5   6   7   8   9
Bog'liq
Molekulyar biologiya fanidan tayyorlagan (1)

2.1 Извлечение признаков
Классификация с помощью SVM основана на разделении векторов в n-мерном пространстве путем нахождения гиперплоскостей. Таким образом, первым шагом является присвоение интересующим объектам X имен векторов признаков . Это относится к этапу выпуска функции. Обучающий набор S представлен матрицей m × n, где строки X ∈ S представляют векторы признаков FX обучающих последовательностей. Элементы этой матрицы вычисляются следующим образом. Сначала мы объединяем базу данных обучающих последовательностей S в одну длинную последовательность D длины ℓ. Например, из S = {} мы получаем последовательность D = длина ℓ = 14 admn, qghk, il, gedkket . Во-вторых, мы перемещаем окно длиной ℓ V вдоль D так, чтобы оно перемещалось вдоль своей длины на каждом шаге. Длина этого окна определяет размерность n векторов признаков как n = ⌈ ℓ/ℓ W ⌉ , где ⌈ x ⌉ обозначает округление до следующего целого числа, большего или равного x . Для приведенного выше примера мы получаем admnqghkilgedkℓ W = 4 для выбора n = 4. Пусть W t обозначает t-ю последовательность (t = 1 ... n), сгенерированную скользящим окном, т. е. В методах выделения признаков на основе последовательностей каждому компоненту FX присваивается число, которое измеряет сходство между X и t следующего W t . Этой мерой может быть, например, оценка оптимального выравнивания, как в SVM-Pairwise [20 ], или так называемая свободная оценка здесь.
Перемещение окна на одну позицию также распространено в исследованиях в области компьютерных наук. Однако это создает больше подпоследовательностей W t , чем простое смещение окна по размеру, и , следовательно, значительно большее векторное пространство. Например, перемещение окна размера 4 по D дает n = ℓ -ℓ W + 1 = 11 последовательностей, а не просто .to change = 4. Способность к обучению зависит от размера Хотя это может быть просто, вычислительная сложность является важным вопросом для эффективное управление большим количеством белковых последовательностей. Кроме того, использование скользящего окна для объединенных последовательностей обучающего набора может привести к окнам, состоящим только из фрагментов исходных последовательностей. Однако это не проблема, поскольку все интересующие белковые последовательности оцениваются по отношению к одним и тем же подпоследовательностям. Мы протестировали оба подхода , и результаты не показали существенной разницы в точности.

Download 75.03 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling