Основы информационных технологий


Download 1.75 Mb.
Pdf ko'rish
bet34/49
Sana15.12.2022
Hajmi1.75 Mb.
#1008307
TuriУчебное пособие
1   ...   30   31   32   33   34   35   36   37   ...   49
Bog'liq
Интеллектуальный анализ данных Чернышова

 
Первичные данные 
 
Номер 
клиента 
Имя 
Адрес 
Дата 
подписки 
Тип журнала 
23003 
Дженсон 
1 Downing Street 
04-15-94 
Автомобильный 
23003 
Дженсон 
1 Downing Street 
06-21-93 
Музыкальный 
23003 
Дженсон 
1 Downing Street 
05-30-92 
Комиксы 
23009 
Клинтон 
Boulevard 
01-01-01 
Комиксы 
23013 
Кинг 
3 High Road 
02-30-95 
Спортивный 
23004 
Джонсон 
1 Downing Street 
01-01-01 
Дом 


– 73 – 
Таблица 10 
 
Устранение дублирования 
 
Номер 
клиента 
Имя 
Адрес 
Дата 
подписки 
Тип журнала 
23003 
Дженсон 
1 Downing Street 
04-15-94 
Автомобильный 
23003 
Дженсон 
1 Downing Street 
06-21-93 
Музыкальный 
23003 
Дженсон 
1 Downing Street 
05-30-92 
Комиксы 
23009 
Клинтон 
2 Boulevard 
01-01-01 
Комиксы 
23013 
Кинг 
3 High Road 
02-30-95 
Спортивный 
23003 
Дженсон 
1 Downing Street 
01-01-01 
Дом 
В примере в атрибуте имени БД присутствуют значения Дженсон и 
Джонсон. Они имеют различные клиентские номера, но один и тот же 
адрес, что достаточно сильно свидетельствует о том, что эти двое – 
один и тот же человек, но что в имени одного существует ошибка. Ко-
нечно, нельзя быть уверенным до конца, что это так, но алгоритм 
устранения дублирования, используя технику анализа образцов, мог бы 
идентифицировать ситуацию и представить ее пользователю для при-
нятия решения.
Этот тип ошибок встречается часто: это создает впечатление, что ор-
ганизация имеет больше клиентов, чем есть на самом деле. Это пред-
ставляет серьезную проблему в маркетинговой деятельности. 
Второй распространенный тип загрязнения – это недостаток области 
совместимости (табл. 11). Обратите внимание, что в табл.9 мы имеем 
две записи, датированные 1 января 1900 года, хотя организация, веро-
ятно, даже не существовала в это время. Этот тип загрязнения особенно 
опасен, поскольку его трудно проследить, но он будет оказывать огром-
ное влияние на процедуры обнаружения знаний.
Таблица 11

Download 1.75 Mb.

Do'stlaringiz bilan baham:
1   ...   30   31   32   33   34   35   36   37   ...   49




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling