Основы информационных технологий


Таблица с удаленными строками и столбцами


Download 1.75 Mb.
Pdf ko'rish
bet37/49
Sana15.12.2022
Hajmi1.75 Mb.
#1008307
TuriУчебное пособие
1   ...   33   34   35   36   37   38   39   40   ...   49
Bog'liq
Интеллектуальный анализ данных Чернышова

 
Таблица с удаленными строками и столбцами 
 
Номер 
клиента 
Дата 
рожде-
ния 
До-
ход, 
тыс. 
Кре-
дит, 
тыс. 
Владе-
лец 
авто 
Вла-
делец 
дома 
Адрес 
Дата 
под-
писки 
Тип
журнала 
23003 
04-13-76 $18,5 $17,8 Нет 
Нет 
1 Downing 
Street 
04-15-94 Автомобильный 
23003
04-13-76 $18,5 $17,8 Нет 
Нет 
1 Downing 
Street 
06-21-93 Музыкальный 
23003
04-13-76 $18,5 $17,8 Нет 
Нет 
1 Downing 
Street 
05-30-92 Комиксы 
23009
10-20-71 $36,0 $26,0 Да 
Нет 
2 Boulevard нуль 
Комиксы 
23003
04-13-76 $18,5 $17,8 Нет 
Нет 
1 Downing 
Street 
12-20-94 Дом 
Информация об адресах слишком детализирована для алгоритмов 
распознавания образцов, и в этом случае нам необходимо записывать 
адреса в кодах регионов. Способ, которым кодируется информация, в 
значительной степени определит результат. Например, дата подписки 
слишком детализирована, но существуют различные способы записи 
этих дат так, чтобы обнаружились ценные образцы. Одним из решений 
могла бы быть трансформация даты приобретения в месяцы, начиная с 
1990 года. Таким образом, мы могли бы найти образцы во временной по-
следовательности транзакций наших заказчиков, например, зависимости, 
подобные следующим правилам: 


– 76 – 
Заказчик с кредитом > 13 000 и в возрасте между 22 и 31, который 
подписался на комиксы во время T, пятью годами позже с большой веро-
ятностью подпишется на автомобильный журнал
Число журналов о доме, проданных заказчикам с кредитом между
12 000 и 31 000, проживающим в регионе 4, увеличивается; 
Заказчик с кредитом между 
5 000
и 10 000, читающий комиксы после 
12 лет, с большой вероятностью станет заказчиком с кредитом между
12 000 и 
31 000
, читающим спортивный журнал и журнал о доме. 
Однако иногда мы интересуемся не временными отрезками, а такой 
информацией, как сезонное влияние на поведение заказчика. В таких 
случаях можно изменить даты подписки на коды сезона. 
В нашем примере можно применить следующие шаги кодирования: 
1. 
Адресовать к региону.
В регионе, который исследуется, могут быть 
миллионы различных адресов, которые слишком детальны для наших 
целей. Поэтому необходимо сжать информацию об адресах в четыре ко-
да различных областей; 
2. 
Дату рождения преобразовать к возрасту.
Это подразумевает раз-
деление информации о дне рождения на дискретные значения прибли-
зительно 100 классов по возрасту (люди в среднем не живут намного 
больше 100 лет). Здесь мы также могли бы выбрать меньшее или боль-
шее число классов, например, десять классов по 10 лет; 
3.
Download 1.75 Mb.

Do'stlaringiz bilan baham:
1   ...   33   34   35   36   37   38   39   40   ...   49




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling