Обычно алгоритмы машинного обучения разделяют на 4 категории.
1. Контролируемое обучение. Обучение алгоритмов контролируется разработчиком в процессе работы. Для этого он маркирует данные и устанавливает правила и границы, которым должен следовать алгоритм.
2. Обучение без учителя. Обучение алгоритмов не предполагает участие разработчика. В этом случае желаемые результаты неизвестны и определяются самим алгоритмом.
3. Полу-контролируемое обучение. Обучение алгоритма сочетает принципы как контролируемого, так и обучения без учителя. Например, при подготовке алгоритма маркируется только часть тренировочных данных и предоставляются лишь некоторые правила.
4. Обучение с подкреплением. В этом типе алгоритма применяется техника исследование/освоение. Его работа проста: машина совершает действие, анализирует результаты, а затем опирается на них при выполнении следующего действия.
Каждая из этих категорий предназначена для определённой задачи. Например, контролируемое обучение используется, чтобы масштабировать тренировочные данные, а затем прогнозировать значения на их основе или создавать новые наборы. В то же время с помощью обучения без учителя данные сортируют и фильтруют, чтобы разобраться в них.
В основе каждой из этих категорий лежат разнообразные алгоритмы, составленные для выполнения определённых задач. В этой статье мы разберём 5 алгоритмов, которые должен знать каждый специалист по обработке данных.
Классификация в машинном обучении — это процесс группирования объектов по категориям на основе предварительно классифицированного тренировочного набора данных.
Классификация относится к алгоритмам контролируемого обучения. В них используется категоризация тренировочных данных, чтобы рассчитать, с какой вероятностью новый объект попадёт в одну из заданных категорий. Известный всем пример алгоритмов классификации — это сортировка входящих электронных писем как спам или не спам.
Есть разные типы алгоритмов классификации. Рассмотрим 4 лучших:
1. К-ближайших соседей(KNN). Это алгоритм, в котором используются тренировочные наборы данных для поиска k ближайших точек в определённом наборе.
2. Дерево решений. Его можно представить в виде блок-схемы, где каждые точки данных по очереди разбиваются на два подмножества, а затем каждое из них разбивается ещё на два и так далее.
3. Наивный Байес. С помощью теоремы условной вероятности алгоритм вычисляет шанс, с которым объект попадёт в определённую категорию.
4. Метод опорных векторов. В этом алгоритме данные классифицируются согласно их степени полярности, которая может выходить за пределы X/Y прогнозирования.
Do'stlaringiz bilan baham: |