Основы информационных технологий
§2.9. Задача визуализации
Download 1.75 Mb. Pdf ko'rish
|
Интеллектуальный анализ данных Чернышова
§2.9. Задача визуализации
Визуализация – это инструментарий, который позволяет увидеть ко- нечный результат вычислений, организовать управление вычислитель- ным процессом и даже вернуться назад к исходным данным, чтобы определить наиболее рациональное направление дальнейшего движе- ния. В результате использования визуализации создается графический образ данных. Применение визуализации помогает в процессе анализа данных увидеть аномалии, структуры, тренды. При рассмотрении задачи прогнозирования мы использовали графическое представление времен- ного ряда и увидели, что в нем присутствует сезонная компонента. Главное преимущество визуализации – практически полное отсут- ствие необходимости в специальной подготовке пользователя. С возрас- танием количества накапливаемых данных, даже при использовании мощных и разносторонних алгоритмов Data Mining, становится все слож- нее интерпретировать полученные результаты. К способам визуального или графического представления данных от- носят графики, диаграммы, таблицы, отчеты, списки, структурные схемы, карты и т.д. Визуализация традиционно рассматривалась как вспомога- тельное средство при анализе данных, однако сейчас все больше иссле- дований говорит о ее самостоятельной роли. Традиционные методы визуализации могут находить следующее при- менение: - представлять пользователю информацию в наглядном виде; - компактно описывать закономерности, присущие исходному набору данных; - снижать размерность или сжимать информацию; - восстанавливать пробелы в наборе данных; - находить шумы и выбросы в наборе данных. Каждый из алгоритмов Data Mining использует определенный подход к визуализации: - для деревьев решений это визуализатор дерева решений, список правил, таблица сопряженности; - для нейронных сетей в зависимости от инструмента это может быть топология сети, график изменения величины ошибки, демонстрирующий процесс обучения; - для карт Кохонена: карты входов, выходов, другие специфические карты; – 64 – - для линейной регрессии в качестве визуализатора выступает линия регрессии; - для кластеризации: дендрограммы, диаграммы рассеивания. Все эти способы визуального представления или отображения данных могут выполнять одну из функций: - являются иллюстрацией построения модели (например, представ- ление структуры (графа) нейронной сети); - помогают интерпретировать полученный результат; - являются средством оценки качества построенной модели; - сочетают перечисленные выше функции (дерево решений, дендро- грамма). Существует такой распространенный и наиболее простой способ представления модели, как "черный ящик". В этом случае пользователь не понимает поведения той модели, которой пользуется. Однако, не- смотря на непонимание, он получает результат – выявленные законо- мерности. Классическим примером такой модели является модель нейронной сети. Другой способ представления модели – представление ее в интуи- тивном, понятном виде. Таким образом можно обеспечить непосред- ственное участие пользователя в процессе. Понимание модели ведет к пониманию ее содержания. В результате понимания возрастает доверие к модели. Классическим примером является дерево решений. Построен- ное дерево решений действительно улучшает понимание модели, т.е. используемого инструмента Data Mining. Примерами средств визуализации, при помощи которых можно оце- нить качество модели, являются диаграмма рассеивания, таблица со- пряженности, график изменения величины ошибки. Диаграмма рассеивания представляет собой график отклонения зна- чений, прогнозируемых при помощи модели, от реальных. Эти диаграм- мы используют для непрерывных величин. Визуальная оценка качества построенной модели возможна только по окончании процесса построе- ния модели. Таблица сопряженности используется для оценки результатов клас- сификации. Такие таблицы применяются для различных методов клас- сификации. Оценка качества построенной модели возможна только по окончании процесса построения модели. График изменения величины ошибки демонстрирует изменение вели- чины ошибки в процессе работы модели. Например, в процессе работы – 65 – нейронных сетей пользователь может наблюдать за изменением ошибки на обучающем и тестовом множествах и остановить обучение для недопу- щения "переобучения" сети. Здесь оценка качества модели и его измене- ния может оцениваться непосредственно в процессе построения модели. Примерами средств визуализации, которые помогают интерпретиро- вать результат, являются: линия тренда в линейной регрессии, карты Кохонена, диаграмма рассеивания в кластерном анализе. Download 1.75 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling