Понятие биоинформатики. Биоинформатика и проект генома Биоинформатика


Download 163.17 Kb.
bet2/3
Sana18.10.2023
Hajmi163.17 Kb.
#1707624
1   2   3
Bog'liq
Биоинформатика

Секвенатор MinION. Принцип работы основан на изменение силы тока по мере прохождения цепи через нанопору.
Чем больше становилось референсных данных, тем больше была точность работы программ. Конечно, развивались и алгоритмы, обрабатывающие эти данные. И постепенно интерес в биоинформатике сместился с изучения отдельных частиц к исследованию взаимодействий разных генов. Отсюда даже выделился новый раздел биоинформатики — системная биология (объект — как система связанных процессов и компонентов взаимодействующих друг с другом).
Новые технологии позволили получать все больше данных, в свою очередь, эти массивы охватить человеческим сознанием уже было невозможно, а многие расчёты на компьютерах до сих пор занимают дни и недели (например, сборки больших геномов).
Чтобы не быть голословным, приведём несколько примеров исследований с использованием методов биоинформатики:
Так, команда DeepMind буквально год назад решила вопрос по предсказанию трёхмерной структуры белка по его аминокислотной последовательности. Хотя сама проблема считалась буквально фундаментальной и сформулированной ещё в 1970-х.Сама идея о том, что аминокислотная последовательность белка несёт в себе информацию о его функциях была высказана нобелевским лауреатом по химии Кристианом Анфинсном. С тех пор это стало вызовом для компьютерных технологий, поскольку альтернативой для выяснения трёхмерной структуры (а значит, и функции белка) были лишь долгие эксперименты, тянувшиеся порой десятки лет для выяснения функции лишь одного белка. В 1969 году проблему обозначил Сайрус Левинталь, оценивший количество конформаций для типичного белка как 10 в 300 степени вариантов. Разработанный программистами ИИ AlphaFold позволяет весьма быстро (2–3 дня расчётов для типичного белка на не самом мощном компьютере) решать вопрос третичной конформации белка, а значит и его функции. Конечно, и здесь остаются проблемы, одна из основных — ИИ обучался на тех белках, для которых третичной структуры уже известны и верификация расчётов для отличных белков остаётся под вопросом. Но даже так, это однозначно прорыв в фундаментальной, структурной биологии. И, однозначно, найдёт своё применение в разработке многих лекарств. Больше можно почитать про ИИ на этом сайте .
Наверняка многие слышали про NGS — секвенирование нового поколения. Методы NGS позволяют получать огромные нуклеотидные последовательности. При этом для того или иного участка по итогу секвенирования может существовать много тысяч прочтений и выравнивание этих фрагментов относительно друг друга сделать человеческими силами просто невозможно. Однако же существует ряд программ, в которых любой исследователь может получить консенсусные последовательности, просто внеся нужные параметры и переложив все вычисления на компьютер.
Изображения из статьи (Kuzmin I. et al., 2020). Фрагмент сосудистой сети головного мозга Bissektipelta archibaldi.
Иным примером использования биоинформатики в традиционных исследованиях может послужить орнитологическая работа исследователей из СПбГУ (Bojarinova J. & Babushkina O., 2015). Ещё в 2006 году были начаты эксперименты по влиянию фотопериоду на двигательную активность воробьиных птиц ( сначала длиннохвостых синиц, а после, и иных видов). Отловленные на Ладожской Орнитологической станции птицы помещались в цилиндрические клетки, с установленными камерами и лампами на таймере. Все движения птиц записывались, а отдельная программа обсчитывала, в какую сторону движения птиц были наиболее активными. Безусловно, сбор такого материала мог быть проведён и самими исследователями, путём ежедневного наблюдения за клетками, но это отняло бы гораздо больше времени, а также сильно увеличилась бы погрешность в данных.
Простая иллюстрация модели Лотки-Вольтерра.
Ранее мы уже упоминали, что одно из применений биоинформатика находит в области молекулярной биологии. Работы, основанные на сборке геномов, сравнении и аннотировании и анализе последовательностей, так или иначе, прибегают к методам биоинформатики. Однако же в приближении, оказывается, что решение многих задач берёт своё начало в поиске наибольших совпадений между двумя последовательностями белковыми или нуклеотидными. В случае белковых рассматриваются последовательности аминокислот, в случае нуклеотидных — последовательности нуклеотидов соответственно. Одним из самых первых алгоритмов можно назвать алгоритм Нидлмана–Вунша, разработанный и опубликованный в 1970 году. Иные его названия: алгоритм оптимального соответствия или метод глобального выравнивания. Он применим для выравнивания любых двух строк, будь то аминокислотная, нуклеотидная последовательность или же просто набор букв, цифр.
Эвристические алгоритмы основаны на функции, которая ранжирует альтернативы на каждом шаге ветвления вариантов (ранжирование происходит на основе изначально установленных и введённых данных, то есть, основываясь на уже имеющейся информации) и, таким образом, конечный ответ будет приблизительно соответствовать оптимальному варианту. Такое решение не является абсолютно верным, но остаётся ценным в силу скорости получения ответа. На сходном принципе основана вся эвристика.
Вероятностные же методы, помимо использования основных алгоритмов выравнивания учитывают разные вероятности тех или иных замен. В этом случае строятся так называемые матрицы замен. Разные аминокислоты заменяются в процессе эволюции с разной вероятностью. И для учёта этой неравной вероятности замен используются матрицы. Не вдаваясь в частности, отметим, что и у этих методов есть свои недостатки. Так, точность вероятностных методов сильно уменьшается с увеличением дистанции между таксонами.
WinClada — одна из программ, используемая при работе с матрицами
Мы уже писали про использование матриц признаков выше. Как правило, такой подход используется в морфологических исследованиях. Метод используется в описательной биологии, когда, к примеру, мы хотим установить весь комплекс признаков для 2 или более видов. Безусловно, в приближении идея выглядит довольно просто. Давая количественную или качественную оценку разным признакам у представителей разных видов, мы можем достаточно быстро составить нужную матрицу. Однако же при работе с большими коллекциями или множеством видов (или признаков, а может быть и того и другого) проанализировать получившиеся данные становится крайне затруднительно человеческими силами. И на помощь приходят разные программы для обработки таких данных: TNT, WinClada, PAUP. С помощью них любой человек может провести кладистический анализ имеющихся матриц признаков.
Учитывая разнообразие задач, встающих перед биоинформатиками в разных областях биологии — появление огромного спектра самых разнообразных программ для обеспечения расчётов и анализа моделей — становится неизбежным. Зачастую эти программы не адаптированы для использования обывателем, содержат ошибки, а их оптимизация недостаточно хороша. Примером может служить программа PAST, используемая изначально для обсчёта палеонтологических данных, а в дальнейшем и для решения самых разных статистических задач, притом что там остаются ошибки в алгоритмах некоторых вычислений.

Конечно, для стандартных задач уже существует немало понятных программ, с доступным руководством. Большое количество библиотек на таких языках программирования как Python или R. Но всё же круг задач в биологии, для которых использование методов биоинформатике могло бы сильно продвинуть исследования в этих областях — остаётся весьма широк. И востребованность специалистов в этой сфере всё ещё очень высока.



Download 163.17 Kb.

Do'stlaringiz bilan baham:
1   2   3




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling