Основы информационных технологий
Download 1.75 Mb. Pdf ko'rish
|
Интеллектуальный анализ данных Чернышова
Методы визуализации
Методы визуализации в зависимости от количества используемых из- мерений принято классифицировать на две группы: - представление данных в одном, двух и трех измерениях; - представление данных в четырех и более измерениях. При использовании двух- и трехмерного представления информации пользователь имеет возможность увидеть закономерности набора данных: - его кластерную структуру и распределение объектов на классы (например, на диаграмме рассеивания); - топологические особенности; - наличие трендов; - информацию о взаимном расположении данных; - существование других зависимостей, присущих исследуемому набору данных. Если набор данных имеет более трех измерений, то возможны такие варианты: - использование многомерных методов представления информации; - снижение размерности до одно-, двух- или трехмерного представ- ления. Существуют различные способы снижения размерности, один из них – факторный анализ. Для снижения размерности и одновременного ви- зуального представления информации на двухмерной карте используют- ся самоорганизующиеся карты Кохонена. Представления информации в четырехмерном и более измерениях недоступны для человеческого восприятия. Однако разработаны специ- альные методы, позволяющие создавать возможности для отображения и восприятия человеком такой информации. Наиболее известные спосо- бы многомерного представления информации: - параллельные координаты; - "лица Чернова"; - лепестковые диаграммы. – 66 – В параллельных координатах переменные кодируются по горизонта- ли, вертикальная линия определяет значение переменной (рис.15). Этот метод представления многомерных данных был изобретен Альфредом Инселбергом в 1985 году. Рис. 15. Набор данных в параллельных координатах и в декартовых координатах Основная идея представления информации в "лицах Чернова" состо- ит в кодировании значений различных переменных в характеристиках или чертах человеческого лица (рис.16). Рис. 16. "Лицо Чернова" Для каждого наблюдения рисуется отдельное "лицо". На каждом "ли- це" относительные значения переменных представлены как формы и – 67 – размеры отдельных черт лица (например, длина и ширина носа, размер глаз, размер зрачка, угол между бровями). Анализ информации при по- мощи такого способа отображения основан на способности человека ин- туитивно находить сходства и различия в чертах лица. На рис.17 пред- ставлен набор данных, каждая запись которого выражена в виде "лица Чернова". Рис. 17. Пример многомерного изображения данных при помощи "лиц Чернова" Перед использованием методов визуализации необходимо: 1) проанализировать, следует ли изображать все данные или же ка- кую-то их часть; 2) выбрать размеры, пропорции и масштаб изображения; 3) выбрать метод, который может наиболее ярко отобразить законо- мерности, присущие набору данных. Многие современные средства анализа данных позволяют строить сотни типов различных графиков и диаграмм. Приведем рекомендации по использованию этих наиболее простых и популярных средств визуализации. При помощи линейного графика можно отобразить тенденцию, передать изменения какого-либо призна- ка во времени. Для сравнения нескольких рядов чисел такие графики наносятся на одни и те же оси координат. Гистограмму применяют для сравнения значений в течение некоторого периода или для соотношения величин. Круговые диаграммы используют, если необходимо отобразить соотношение частей и целого, т.е. для анализа состава или структуры явлений. Составные части целого изображаются секторами окружности. Секторы рекомендуют размещать по их величине: вверху – самый круп- ный, остальные – по движению часовой стрелки в порядке уменьшения – 68 – их величины. Круговые диаграммы также применяют для отображения результатов факторного анализа, если действия всех факторов являются однонаправленными. При этом каждый фактор отображается в виде од- ного из секторов круга. В связи с ростом требований к средствам визуализации, а также необходимости сравнивания их между собой, был сформирован ряд принципов качественного визуального представления информации. Принципы Тафта (Tufte's Principles) графического представления дан- ных высокого качества гласят: предоставляйте пользователю самое большое количество идей, в самое короткое время, с наименьшим коли- чеством чернил на наименьшем пространстве; говорите правду о данных. Основные принципы компоновки визуальных средств представления информации: 1) принцип лаконичности; 2) принцип обобщения и унификации; 3) принцип акцента на основных смысловых элементах; 4) принцип автономности; 5) принцип структурности; 6) принцип стадийности; 7) принцип использования привычных ассоциаций и стереотипов. Принцип лаконичности говорит о том, что средство визуализации должно содержать лишь те элементы, которые необходимы для сообще- ния пользователю существенной информации, точного понимания ее значения или принятия (с вероятностью не ниже допустимой величины) соответствующего оптимального решения. Визуализация пространственных характеристик осуществляется путем выделения на карте отдельных регионов и обозначения их различными цветами в зависимости от значения анализируемого показателя. Карта представлена в виде графического интерфейса, отображающего данные в виде трехмерного ландшафта произвольно определенных и позицио- нированных форм (столбчатых диаграмм, каждая с индивидуальными высотой и цветом). Такой способ позволяет наглядно показывать коли- чественные и реляционные характеристики пространственно-ориен- тированных данных и быстро идентифицировать в них тренды. Основные тенденции в области визуализации – это разработка слож- ных видов диаграмм, повышение уровня взаимодействия с визуализаци- ей пользователя, увеличение размеров и сложности структур данных, представляемых визуализацией. – 69 – Разработка сложных видов диаграмм. Большинство визуализаций данных построено на основе диаграмм стандартного типа (секторные диаграммы, графики рассеяния и т.д.). Поскольку потребности пользова- телей весьма многообразны, инструменты визуализации поддерживают самые различные типы диаграмм, например: графики рассеяния; диа- граммы констелляции; карты и прочие трехмерные представления дан- ных; наглядная визуализация в виде "спидометров", "термометров" и "светофоров". Повышение уровня взаимодействия с визуализацией пользователя. Еще совсем недавно большая часть средств визуализации представляла собой статичные диаграммы, предназначенные исключительно для про- смотра. Сейчас широко используются динамические диаграммы, уже са- ми по себе являющиеся пользовательским интерфейсом, в котором пользователь может напрямую и интерактивно манипулировать визуали- зацией, подбирая новое представление информации. Например, базовое взаимодействие позволяет пользователю вращать диаграмму или изме- нять ее тип в поисках наиболее полного представления данных. Кроме того, пользователь может менять визуальные свойства, например, шрифты, цвета и рамки. В визуализациях сложного типа (графиках рассеяния или диаграммах констелляции) пользователь может выбирать информационные точки с помощью мыши и перемещать их, облегчая тем самым понимание пред- ставления данных. Более совершенные методы визуализации данных часто включают в себя диаграмму или любую другую визуализацию как составной уровень. Сложное взаимодействие позволяет пользователю изменять визуализа- цию для нахождения альтернативных интерпретаций данных. Взаимо- действие с визуализацией подразумевает минимальный по своей слож- ности пользовательский интерфейс, в котором пользователь может управлять представлением данных, перетаскивая и помещая представ- ления объектов данных или выбирая пункты меню. Инструменты OLAP или Data Mining превращают непосредственное взаимодействие с визуализацией в один из этапов итерационного анали- за данных. Визуальный запрос является наиболее современной формой сложного взаимодействия пользователя с данными. В нем пользователь может, например, видеть крайние информационные точки графика рас- сеяния, выбирать их мышкой и получать новые визуализации, представ- ляющие именно эти точки. Приложение визуализации данных генериру- – 70 – ет соответствующий язык запроса, управляет принятием запроса базой данных и визуально представляет результирующее множество. Увеличение размеров и сложности структур данных, представляемых визуализацией. Элементарная секторная диаграмма или гистограмма ви- зуализирует простые последовательности числовых информационных точек. Однако новые усовершенствованные типы диаграмм способны ви- зуализировать тысячи таких точек и даже сложные структуры данных, например нейронные сети. Новые визуализационные программы обнов- ляют контент за счет периодически повторяющегося считывания дан- ных. Фактически пользователи визуализационных программ, отслежива- ющие линейные процессы (колебания фондового рынка, показатели ра- боты компьютерных систем, сейсмограммы, сетки полезности и др.), нуждаются в загрузке данных в режиме реального времени или близком к нему режиме. Пользователи инструментов Data Mining обычно анализируют очень большие наборы численных данных. Традиционные типы диаграмм для бизнеса (секторные диаграммы и гистограммы) плохо справляются с представлением тысяч информационных точек. Поэтому инструменты Data Mining почти всегда поддерживают некую форму визуализации данных, способную отражать структуры и закономерности исследуемых наборов данных в соответствии с тем аналитическим подходом, который используется в инструменте. |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling