Информация о конотоксинах

Классификация с использованием SVM

bet	6/9
Sana	24.12.2022
Hajmi	75.03 Kb.
	#1051763

1 2 3 4 5 6 7 8 9

Bog'liq
Molekulyar biologiya fanidan tayyorlagan (1)

2.4 Сбор данных

2.3 Классификация с использованием SVM
Имея прочную основу в статистической теории обучения, машины опорных векторов (SVM) [19 ] успешно применяются во многих областях вычислительной биологии. Как показано Vapnik et al. [18 ], SVM реализует оптимальный предельный классификатор для систематической минимизации риска и предлагает несколько связанных вычислительных преимуществ, таких как отсутствие локальных минимумов в оптимизации. Кроме того, масштабируемость и способность к обобщению SVM [19 ] делают его более подходящим для классификации белков. Чтобы проиллюстрировать идею использования SVM, предположим, что мы хотим распознать последовательности белков конотоксинов, принадлежащих к суперсемейству « SA» . длина m, где si ∈ {A, R, N, D, C, Q, E, G, H, I, L, K, M, F, P, S, T, W, Y, V} и r = ( r 1 , r 2 , ..., rn ) обозначает входной вектор признаков, где ri ∈ ℜ n. Классификация последовательности как «SA» или «не-SA» ℜ находит оптимальное отображение из пространства n в {+ 1, -1}, где +1 и -1 — это «SA» и «нет». A "классы соответственно. Пусть {(rj, qj), j = 1, 2,..., N} обозначает набор обучающих выборок, где qj представляет желаемый класс для входного вектора признаков ("SA" или " non-SA") обозначает rj последовательности j ; N обозначает номер обучающей последовательности. SVM сначала преобразует входные данные в многомерное пространство с функцией ядра, а затем линейно объединяет их с вектором весов w для получения выходных данных. на этапе классификации SVM строит дискриминантную функцию, решая следующую задачу оптимизации:
2.4 Сбор данных
Оценка метода SVM-Freescore основана на двух наборах данных. Первый набор данных был разработан Mondal et al. [ 8 ] и в этой статье он упоминается как «НАБОР ДАННЫХ-1». Последовательность конотоксина была получена из выпуска 47.1 Swiss-Prot [48 ]. Суперсемейства с несколькими последовательностями, такие как P-конотоксин и S-конотоксин, не были включены в анализ. Суперсемейство I-конотоксинов также не было включено, поскольку ранее оно было разделено на два отдельных суперсемейства генов, а именно I1-конотоксин и I2-конотоксин. Результатом этого процесса стал набор данных, содержащий 156 последовательностей зрелых конотоксинов из надсемейств A (SA), M (SM), O (SO) и T (ST ) . Зрелые пептидные последовательности часто гораздо менее консервативны, чем сигнальные последовательности [49 ]. Избыточность данных была удалена с помощью жадного алгоритма сложения [50 ] , реализованного в программе CD-HIT (CD-HIT — программа для кластеризации больших белковых баз данных при высоких порогах идентичности последовательностей) . Окончательный набор данных состоял из 116 записей из четырех суперсемейств конотоксинов . Отрицательный набор данных N ( S N ), включающий последовательности, не принадлежащие ни к одному из четырех упомянутых выше суперсемейств, был получен от разных эукариот с разными функциями. Программу CD-HIT снова использовали для скрининга отрицательного набора, в результате чего было получено 60 последовательностей с идентичностью последовательностей менее 40%. Согласно экспериментальным аннотациям последовательностей, 116 последовательностей можно разделить на четыре подмножества для каждого надсемейства. Ниже приведен раздел общего множества C :
В целях обобщения наш метод нужно было оценить по базе данных высокого качества. Насколько нам известно, ConoServer http://www.conoserver.org является единственной общедоступной базой данных, специализирующейся на конопептидных последовательностях и трехмерных структурах [3 ]. ConoServer предоставляет актуальную информацию о шестнадцати известных суперсемействах генов. Большинство последовательностей и структур, найденных в ConoServer, связаны с рецензируемыми статьями [ 3 ]]. По состоянию на март 2011 г. ConoServer содержит данные о 3660 последовательностях конопептидов. Были получены только полные последовательности предшественников, разделенные на уровне белка зрелого пептида. Определенная идентификация надсемейства генов требует полных последовательностей предшественников. Из этого исследования были исключены суперсемейства с незначительным количеством последовательностей (<15) (G, I3, J, L, P, S и Y). Последовательности, содержащие неизвестные аминокислоты, также были исключены. Наконец, мы получили набор данных, содержащий 858 последовательностей из девяти суперсемейств. Количество полученных белковых последовательностей представлено в таблице 2. Таблица 2. Окончательный набор данных упоминается в этой статье как «DATASET-2».
После создания эталонных наборов данных DATASET-1 и DATASET-2 следующей задачей является поиск эффективного механизма прогнозирования для их обучения и предоставления образцов белков для прогнозирования.
В нашей первой экспериментальной работе мы проверили производительность SVM-Freescore на DATASET-1. Был использован тест перекрестной проверки складного ножа, поскольку он является наиболее строгим среди других и поэтому широко использовался исследователями [8 , 9, 51]. Производительность SVM-Freescore измерялась тем, насколько хорошо система могла распознавать членов каждого из суперсемейств конотоксинов. Чтобы проанализировать меры оценки, мы сначала объясним таблицу непредвиденных обстоятельств, как показано в Таблице 3.3. Записи в четырех ячейках таблицы непредвиденных обстоятельств описываются следующим образом:
• tp: последовательность родственных белков конотоксинов, классифицированных как «родственные».
• fn: неродственные последовательности белка конотоксина, классифицированные как «родственные».
• fp: последовательность родственных белков конотоксинов, классифицированных как «неродственные».
• tn: неродственная последовательность белка конотоксина, классифицированная как «неродственная».
• all : общее количество белковых последовательностей конотоксинов.
Данные, закодированные в таблице сопряженности, использовались для расчета следующих индексов оценки: чувствительность (SN) = tp /(tp + fn), специфичность (SP) = tn / (tn + fp) и точность (AC) = (tp + fn). тн )/ все .
Следуя процедуре, используемой в тесте перекрестной проверки складного ножа, мы проанализировали поведение и описали способность SVM-Freescore вычислять сходство между последовательностями белка конотоксина. Цель экспериментов заключалась в наблюдении за влиянием переменных параметров температуры ( T ), максимального размера слова ( k max ) и переменного размера окна ( ℓ W ) на систему классификации. Эти параметры представлены в разделе 2. Напомним, что ℓ W зависит от размера векторного пространства признаков. Что касается параметров SVM, параметр масштабирования ядра g установлен на 0,04, а параметр штрафа C установлен на 0,100. Атрибуты обучения и тестирования были линейно масштабированы между -1 и +1 перед применением SVM. Основное преимущество масштабирования состоит в том, чтобы избежать доминирования атрибутов в больших числовых диапазонах над атрибутами в меньших числовых диапазонах [52 ]. В этом случае мы использовали библиотеку Support Vector Machines [53 ], доступную на http://www.csie.ntu.edu.tw/~cjlin/libsvm, для классификации белков контоксинов.

Download 75.03 Kb.

Do'stlaringiz bilan baham:

1 2 3 4 5 6 7 8 9