Основы информационных технологий
§1.3. Набор данных и их атрибутов
Download 1.75 Mb. Pdf ko'rish
|
Интеллектуальный анализ данных Чернышова
- Bu sahifa navigatsiya:
- Представление набора данных
§1.3. Набор данных и их атрибутов
В широком понимании данные представляют собой факты, текст, графики, картинки, звуки, аналоговые или цифровые видео-сегменты. Данные могут быть получены в результате измерений, экспериментов, арифметических и логических операций. Данные должны быть представлены в форме, пригодной для хране- ния, передачи и обработки. Иными словами, данные – это необработан- – 8 – ный материал, предоставляемый поставщиками данных и используемый потребителями для формирования информации на основе данных. Набор данных может быть представлен двухмерной таблицей (табл. 2). Атрибут – свойство, характеризующее объект: цвет глаз человека, температура воды и т.д. Атрибут также называют полем таблицы, изме- рением. Таблица 2 Представление набора данных Код Возраст Семейное положение Доход Класс 1 18 Single 125 1 2 22 Married 100 1 3 30 Single 70 1 4 32 Married 120 1 5 24 Divorced 95 2 6 25 Married 60 1 7 32 Divorced 220 1 8 19 Single 85 2 9 22 Married 75 1 10 40 Single 90 2 При анализе данных, как правило, нет возможности рассмотреть всю интересующую нас совокупность объектов. Изучение очень больших объемов данных является дорогостоящим процессом, требующим боль- ших временных затрат, к тому же неизбежно приводящим к ошибкам, связанным с человеческим фактором. Вполне достаточно рассмотреть некоторую часть всей совокупности, то есть выборку, и получить интересующую нас информацию на ее осно- ве. Однако размер выборки зависит от разнообразия объектов, пред- ставленных в генеральной совокупности. В выборке должны быть пред- ставлены различные комбинации и элементы генеральной совокупности. Измерение – процесс присвоения чисел характеристикам изучаемых объектов согласно определенному правилу. В процессе подготовки дан- ных измеряется не сам объект, а его характеристики. Шкала – правило, в соответствии с которым объектам присваиваются числа. Объекты Атрибуты – 9 – Многие инструменты Data Mining при импорте данных из других ис- точников предлагают выбрать тип шкалы для каждой переменной и/или выбрать тип данных для входных и выходных переменных (символьные и числовые, дискретные и непрерывные). Переменные могут являться числовыми данными либо символьными. Числовые данные, в свою очередь, могут быть дискретными и непрерыв- ными. Дискретные данные являются значениями признака, общее число ко- торых конечно либо бесконечно, но может быть подсчитано при помощи натуральных чисел от одного до бесконечности. Пример дискретных данных: продолжительность маршрута троллейбуса (количество вариан- тов продолжительности конечно): 10, 15, 25 минут. Непрерывные данные – данные, значения которых могут принимать какое угодно значение в некотором интервале. Измерение непрерывных данных предполагает большую точность. Пример непрерывных данных: температура, высота, вес, длина и т.д. Существует пять типов шкал измерений: номинальная, порядковая, интервальная, относительная и дихотомическая (табл.3). Таблица 3 Download 1.75 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling