Основы информационных технологий

bet	33/49
Sana	15.12.2022
Hajmi	1.75 Mb.
	#1008307
Turi	Учебное пособие

1 ... 29 30 31 32 33 34 35 36 ... 49

Bog'liq
Интеллектуальный анализ данных Чернышова

ГЛАВА 3

ПРОЦЕСС ПРИМЕНЕНИЯ
ИНТЕЛЛЕКТУАЛЬНЫХ ТЕХНОЛОГИЙ

§3.1. Основные этапы интеллектуального анализа
В общем случае процесс интеллектуального анализа и обработки
данных состоит из следующих шести этапов: отбор данных, очистка,
обогащение, кодирование, извлечение знаний и сообщение (рис.18).
Пятый этап является фазой реального извлечения знаний. Процесс
носит итеративный характер: на каждом шаге возможен возврат на один
или более этапов. Например, на этапе извлечения знаний можно вер-
нуться к этапу очистки.
Рис. 18. Процесс интеллектуального анализа и обработки данных
Отбор
данных
Обогащение
Сообщение
Информа-
ционные
требования
Действие
Операционные
данные
Внешние
данные
Обратная связь
Обнаружение
знаний:
• кластеризация
• сегментация
• предсказание
Очистка:
• область
совместимости
• устранение
дублирования
• устранение
противоречий
ГЛАВА 3

Кодирование

– 72 –
Для иллюстрации процесса извлечения знаний рассмотрим пример,
связанный с извлечением знаний из базы данных издателя журнала. Из-
датель продает пять типов журналов – автомобильный, о доме, спортив-
ный, музыкальный и комиксы. Цель процесса извлечения знаний в дан-
ном примере состоит в том, чтобы найти новые значимые группы клиен-
тов, чтобы установить рыночную конъюнктуру. Следовательно, множе-
ство запросов включает такие запросы: «каков типичный профиль чита-
теля автомобильного журнала?», «существует ли корреляция между ин-
тересом к автомобилям и интересом к комиксам?» и т.д.
Отбор данных.
Как правило, для решения конкретной задачи нужны
не все данные из хранилища данных. Сначала необходимо выбрать то их
подмножество, которое будет подвергнуто анализу. При этом, возможно,
потребуется объединить несколько таблиц, а полученные записи от-
фильтровать. В нашем примере начнем с общей базы данных, содержа-
щей записи о подписке журналов. Она содержит выборку операционных
данных из системы издательских счетов-фактур и информацию о людях,
которые подписались на журнал. Записи состоят из номера клиента,
имени, адреса, даты подписки и типа журнала (табл.9).
Очистка.
Существует несколько типов очистки данных (удаление дуб-
лирующих записей, исправление типографских ошибок, добавление от-
сутствующей информации и т.д.). Некоторые из них могут выполняться
заранее, в то время как другие вызываются только после обнаружения
загрязнения на этапах кодирования или обнаружения. Очень важным
элементом очистки является устранение дублирования записей
(табл.10). В базе данных клиентов некоторые клиенты могут быть пред-
ставлены несколькими записями, хотя во многих случаях это результат
небрежности или следствие того, что, например, клиенты перемещаются
с одного места на другое без извещения об изменении адреса. Важно
избегать таких аномалий в базе данных.
Таблица 9

Download 1.75 Mb.

Do'stlaringiz bilan baham:

1 ... 29 30 31 32 33 34 35 36 ... 49