Учебное пособие Москва • Санкт-Петербург 2013 А94 ббк 32. 973 А94
Download 113.08 Kb. Pdf ko'rish
|
afanasieva
- Bu sahifa navigatsiya:
- 1.2. подготовка данных
Глава 1. Основные понятия интеллектуального анализа данных
1.1. постановка задачи Первым шагом процесса интеллектуального анализа данных является четкое определение бизнес-задачи. Этот шаг включает анализ бизнес-требований, определение масштаба проблемы, метрик, по которым будет выполняться оценка модели, а также определение конечной цели проекта ин- теллектуального анализа данных. Эти задачи можно сформулиро- вать в виде следующих вопросов: • Что необходимо найти? • Какой атрибут набора данных необходимо предсказать? • Какие типы связей необходимо найти? • Надо ли делать прогнозы на основании модели интеллек- туального анализа данных или просто найти интересу- ющие шаблоны и связи? • Каким образом распределяются данные? • Как связаны столбцы, а в случае с несколькими таблица- ми — как связаны таблицы? Чтобы ответить на эти вопросы, возможно, потребуется иссле- довать уровень доступности данных, изучить потребности пользо- вателей в отношении доступных данных. Если данные не поддер- живают потребностей пользователей, то может возникнуть необ- ходимость в изменении определения проекта. 1.2. подготовка данных Вторым шагом процесса интеллектуального анализа данных является объединение и очистка данных, которые были опреде- ленны во время первого шага. Службы Microsoft SQL Server 2005 Integration Services (SSIS) со- держат все средства, необходимые для завершения данного шага, включая преобразования для очистки и объединения данных. Данные могут находиться в разных частях компании и хра- ниться в различных форматах или содержать такие ошибки согла- сования, как дефектные или отсутствующие записи. Например, согласно данным может оказаться, что клиент купил продукт еще до своего рождения или регулярно делает покупки в 12 С.В. А фАнАСьеВА . Т ехнология инТеллекТуАльного АнАлизА дАнных магазине, расположенном за 2000 километров от дома. Прежде чем перейти к разработке моделей, необходимо устранить эти несоот- ветствия. Обычно пользователь работает с очень большим набором дан- ных и не может просмотреть каждую транзакцию. Следовательно, для просмотра данных и выявления несогласованности в них не- обходимо использовать какой-либо вид автоматизации, например тот, который имеется в службах Integration Services. Download 113.08 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling