Разделить доход по 1000.
Это не только упрощает информацию о
доходах, но также создает классы по доходу с тем же самым порядком
величины, что и классы по возрасту. После этой операции большинство
людей будет иметь класс по доходу где-нибудь между 10 и 100, так что
будет намного проще сравнивать эту информацию с созданными нами
классами по возрасту, так как эти числа близки друг другу;
4.
Разделить кредит по 1000.
Рассуждение для этого случая такое же,
как и для классов по доходу;
5.
Преобразовать информацию об автомобилях да – нет в информа-
цию 1 – 0.
В приложениях обнаружения знаний иногда полезно кодиро-
вать бинарные атрибуты в один бит, поскольку это облегчает эффектив-
ное выполнение алгоритмов распознавания образцов;
6.
Преобразовать дату приобретения в число месяцев, начиная с
1990 года.
Покупка в январе 1990 г. соответствует месяцу номер 1; при-
обретение в декабре 1991
–
месяцу номер 24. Эта последняя операция
помогает выполнять анализ временных отрезков на данных. Снова это
творческое решение: кодирование в днях, вероятно, слишком детально,
– 77 –
чтобы раскрыть общие временные зависимости. С другой стороны, сле-
дует кодировать в днях, чтобы определить нетипичное поведение заказ-
чика по специальным дням, например в праздники. Результаты процесса
кодирования представлены в табл. 15.
Таблица 15
Промежуточная стадия кодировки Номер клиента Воз- раст Доход, тыс. дол. Кредит, тыс. дол. Вла- делец авто (ВА) Вла- делец