дома
(ВД)
Регион
(Р)
Месяц
под-
писки
Тип
журнала
23003
20
18,5
17,8
0
0
1
52
Автомобильный (А)
23003
20
18,5
17,8
0
0
1
42
Музыкальный (М)
23003
20
18,5
17,8
0
0
1
29
Комиксы (К)
23009
25
36,0
26,6
1
0
1
Нуль
Комиксы (К)
23003
20
18,5
17,8
0
0
1
48
“Дом” (Д)
Однако таблица в таком формате не очень полезна, если необходимо
найти взаимосвязи между различными журналами. Каждая подписка
представляется одной записью, хотя было бы более эффективно иметь
краткий обзор всех журналов, подписанных каждым читателем. Поэтому
выполняем заключительное преобразование таблицы и создаем только
одну запись для каждого читателя. Вместо того чтобы иметь один атри-
бут – " журналы" с пятью возможными значениями, мы создаем пять би-
нарных атрибутов по одному для каждого журнала. Значение атрибута
"1" означает, что читатель – подписчик, значение "0" означает, что чи-
татель не является подписчиком. Такая операция называется "декомпо-
зицией": атрибут с кардинальным числом
n
заменяется на
n
бинарных
атрибутов.
Теперь имеем окончательный вариант закодированного множества
данных: номер клиента, возраст, доход, кредит, информация относи-
тельно собственности автомобиля и дома, код области и пять битов, ука-
зывающих на какие журналы подписался заказчик (табл.16).
Таблица 16
Окончательная таблица
Номер
клиента
Возраст
Do'stlaringiz bilan baham: |