Методические указания к лабораторным занятиям Интеллектуальные системы обработки информации и машинное обучение Ставрополь, 2017


Download 4.3 Mb.
Pdf ko'rish
bet52/121
Sana27.10.2023
Hajmi4.3 Mb.
#1727451
TuriМетодические указания
1   ...   48   49   50   51   52   53   54   55   ...   121
Bog'liq
78Metod IntelectSysObrInf 10.05.03 12.02.2017

1 этап. Выборка данных. Этот этап заключается в подготовке 
набора данных, в том числе из различных источников, выбора 
значимых параметров и т.д. Для этого должны быть различные 
инструменты доступа к различным источникам данных – конверторы, 
запросы, фильтрация данных и т.п. В качестве источника 
рекомендуется использовать специализированное хранилище данных, 
агрегирующее всю необходимую для анализа информацию. 
 
2 этап. Очистка данных. Реальные данные для анализа редко 
бывают хорошего качества. Поэтому для эффективного применения 
методов Data Mining следует обратить серьезное внимание на вопросы 
предобработки данных. Данные могут содержать пропуски, шумы, 
аномальные значения и т.д. Кроме того, данные могут быть 
противоречивы, избыточны, недостаточны, содержать ошибки и т.д. 
124 


Для решения каждой из этих проблем есть отработанные методы. 
Конечно, ошибки можно править и вручную, но при больших объемах 
данных это становится довольно проблематично. Поэтому рассмотрим 
варианты решения этих задач в автоматическом режиме при 
минимальном участии человека. 
Противоречивость информации. Для начала нужно решить, что 
именно считать противоречием. Как ни странно, это задача 
нетривиальная. Например, пенсионную карточку в России нужно 
менять в случае изменения фамилии, имени, отчества и пола. 
Оказывается, в том, что человек родился женщиной, а вышел на 
пенсию мужчиной, противоречия нет! 
После того, как мы определимся с тем, что считать 
противоречием и найдем их, есть несколько вариантов действий. 
При обнаружении нескольких противоречивых записей, удалять 
их. Метод простой, а потому легко реализуемый. Иногда этого бывает 
вполне достаточно. Тут важно не переусердствовать, иначе мы можем 
вместе с водой выплеснуть младенца. 
Исправить противоречивые данные. Можно вычислить 
вероятность появления каждого из противоречивых событий и 
выбрать наиболее вероятное. Это самый грамотный и корректный 
метод работы с противоречиями. 
Пропуски в данных. Очень серьезная проблема. Это вообще бич 
для большинства хранилищ данных. Большинство методов 
прогнозирования
исходят из предположения, что данные поступают 
равномерным постоянным потоком. На практике такое встречается 
крайне редко. Поэтому одна из самых востребованных областей 
12



применения хранилищ данных – прогнозирование – оказывается 
реализованной некачественно или со значительными ограничениями. 
Для борьбы с этим явлением можно воспользоваться следующими 
методами: 
Аппроксимация
.
Т.е.
если нет данных в какой-либо
точке, мы 
берем ее окрестность и вычисляем по известным формулам значение в 
этой точке, добавляя соответствующую запись в хранилище. Хорошо 
это работает для 
упорядоченных данных
.
Например,
сведения об 
ежедневных
продажах продуктов. 
Определение наиболее правдоподобного значения. Для этого 
берется не окрестность точки, а все данные. Этот метод применяется 
для неупорядоченной информации, т.е. случаем, когда мы не в 
состоянии определить, что же является окрестностью исследуемой 
точки. 
Аномальные значения
.
Довольно часто происходят события, 
которые сильно выбиваются из общей картины. И лучше всего такие 
значения откорректировать. Это связано с тем, что средства 
прогнозирования ничего не знают о природе процессов. Поэтому 
любая аномалия будет восприниматься как совершенно нормальное 
значение. Из-за этого будет сильно искажаться картина будущего. 
Какой-то 
случайный 
провал 
или 
успех 
будет 
считаться 
закономерностью. 
Есть метод борьбы и с этой напастью – это робастные оценки. 
Это методы устойчивые к сильным возмущениям. Мы оцениваем 
имеющиеся данные ко всему, что выходит за допустимые границы, и 
применяем одно из следующих действий: 
Значение удаляется; 
12



Заменяется на ближайшее граничное значение. 
Шум. Почти всегда при анализе мы сталкиваемся с шумами. Шум не 
несет никакой полезной информации, а лишь мешает четко разглядеть 
картину. Методов борьбы с этим явлением несколько. 
Спектральный анализ
.
При помощи него мы можем
отсечь 
высокочастотные составляющие данных. Проще говоря, это частые и 
незначительные колебания около основного сигнала. Причем, изменяя 
ширину спектра, можно выбирать какого рода шум мы хотим убрать. 
Авторегрессионые методы. Этот довольно распространенный 
метод 
активно
 применяется при анализе временных рядов и сводится 
к нахождению функции, которая описывает процесс плюс шум. 
Собственно шум после этого можно удалить и оставить основной 
сигнал. 
Ошибки ввода данных. Вообще это тема для отдельного 
разговора, т.к. количество типов такого рода ошибок слишком велико, 
например, опечатки, сознательное искажение данных, несоответствие 
форматов, и это еще не считая типовых ошибок, связанных с 
особенностями работы приложения по вводу данных. Для борьбы с 
большинством из них есть отработанные методы. Некоторые вещи 
очевидны, например, перед внесением данных в хранилище можно 
провести проверку форматов. Некоторые более изощренные. 
Например, можно исправлять опечатки на основе различного рода 
тезаурусов. Но, в любом случае, очищать нужно и от такого рода 
ошибок. 
К задачам очистки данных относятся: заполнение пропусков, 
подавление аномальных значений, сглаживание, исключение 
дубликатов и противоречий и пр. 
12



Ошибочно предполагать, что если подать данные на вход системы в 
существующем виде, то на выходе будут получены полезные знания. 
Входные данные должны быть качественны и корректны. 

Download 4.3 Mb.

Do'stlaringiz bilan baham:
1   ...   48   49   50   51   52   53   54   55   ...   121




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling