Основы информационных технологий
Таблица с удаленными строками и столбцами
Download 1.75 Mb. Pdf ko'rish
|
Интеллектуальный анализ данных Чернышова
Таблица с удаленными строками и столбцами Номер клиента Дата рожде- ния До- ход, тыс. Кре- дит, тыс. Владе- лец авто Вла- делец дома Адрес Дата под- писки Тип журнала 23003 04-13-76 $18,5 $17,8 Нет Нет 1 Downing Street 04-15-94 Автомобильный 23003 04-13-76 $18,5 $17,8 Нет Нет 1 Downing Street 06-21-93 Музыкальный 23003 04-13-76 $18,5 $17,8 Нет Нет 1 Downing Street 05-30-92 Комиксы 23009 10-20-71 $36,0 $26,0 Да Нет 2 Boulevard нуль Комиксы 23003 04-13-76 $18,5 $17,8 Нет Нет 1 Downing Street 12-20-94 Дом Информация об адресах слишком детализирована для алгоритмов распознавания образцов, и в этом случае нам необходимо записывать адреса в кодах регионов. Способ, которым кодируется информация, в значительной степени определит результат. Например, дата подписки слишком детализирована, но существуют различные способы записи этих дат так, чтобы обнаружились ценные образцы. Одним из решений могла бы быть трансформация даты приобретения в месяцы, начиная с 1990 года. Таким образом, мы могли бы найти образцы во временной по- следовательности транзакций наших заказчиков, например, зависимости, подобные следующим правилам: – 76 – Заказчик с кредитом > 13 000 и в возрасте между 22 и 31, который подписался на комиксы во время T, пятью годами позже с большой веро- ятностью подпишется на автомобильный журнал; Число журналов о доме, проданных заказчикам с кредитом между 12 000 и 31 000, проживающим в регионе 4, увеличивается; Заказчик с кредитом между 5 000 и 10 000, читающий комиксы после 12 лет, с большой вероятностью станет заказчиком с кредитом между 12 000 и 31 000 , читающим спортивный журнал и журнал о доме. Однако иногда мы интересуемся не временными отрезками, а такой информацией, как сезонное влияние на поведение заказчика. В таких случаях можно изменить даты подписки на коды сезона. В нашем примере можно применить следующие шаги кодирования: 1. Адресовать к региону. В регионе, который исследуется, могут быть миллионы различных адресов, которые слишком детальны для наших целей. Поэтому необходимо сжать информацию об адресах в четыре ко- да различных областей; 2. Дату рождения преобразовать к возрасту. Это подразумевает раз- деление информации о дне рождения на дискретные значения прибли- зительно 100 классов по возрасту (люди в среднем не живут намного больше 100 лет). Здесь мы также могли бы выбрать меньшее или боль- шее число классов, например, десять классов по 10 лет; 3. Download 1.75 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling