Москва 2008 предисловие


Download 442 Kb.
bet31/41
Sana04.04.2023
Hajmi442 Kb.
#1326878
1   ...   27   28   29   30   31   32   33   34   ...   41
Bog'liq
portal.guldu.uz-Informacionnaya biologiya 1

Извлечение данных (Data Mining)
Понятие «извлечение данных» приобрело особенно высокую популярность примерно с первой половины 1990-х гг. в связи с тем, что вследствие бурного развития технологий записи и хране­ния данных на человечество обрушились колоссальные потоки «информационной руды» в самых разных сферах. В этой ситуации выявились ограничения традиционной математической статисти­ки, долгое время претендовавшей на роль основного инструмента анализа данных. Главное ограничение статистических методов — концепция усреднения по выборке, приводящая к операциям над несуществующими величинами (типа «средней температуры по больнице»).
Современные процедуры извлечения данных соответствуют следующим условиям: 1) данные имеют неограниченный объем; 2) данные разнородны (количественные, качественные, катего­риальные); 3) результаты процедур должны быть конкретными и понятными; 4) инструменты для обработки «сырых» данных долж­ны быть простыми в использовании.
В основу технологий извлечения данных положена концепция шаблонов (паттернов) и зависимостей, отражающих фрагменты многоаспектных взаимоотношений среди данных. Поиск паттер­нов производится автоматическими методами, которые не огра­ничены рамками априорных предположений о структуре выборки в виде распределений значений анализируемых показателей. Важ­но, что разыскиваемые паттерны должны отражать неочевидные, неожидаемые (unexpected) регулярности в глубинном пласте «скры­тых знаний» (hidden knowledge), которые необходимо грамотно «раскопать».
Итак, технология извлечения данных (data mining) — это про­цесс отыскания в сырых данных ранее неизвестных, нетривиаль­ных, практически полезных, доступных для интерпретации зна­ний, нужных для принятия решений в различных сферах деятель­ности человека [19].
Методы извлечения данных позволяют выделять пять стандарт­ных типов закономерностей [19]. Если несколько событий связаны друг с другом, то имеет мес­то ассоциация. Цепочка событий соответствует последовательности. С помощью классификации выделяются признаки, характеризую­щие группу, к которой принадлежит объект; выделение осуще­ствляется путем анализа уже классифицированных объектов и формулирования некоторого набора правил. Кластеризация отли­чается от классификации тем, что группы не заданы заранее; сред­ства Data Mining самостоятельно выделяют различные однород­ные группы данных. Разнообразные системы прогнозирования ос­нованы на исторической информации, хранящейся в базах дан­ных в виде временных рядов. Если удается построить шаблоны (паттерны), адекватно отражающие динамику поведения целевых показателей, то с их помощью можно предсказать будущее пове­дение системы.

Download 442 Kb.

Do'stlaringiz bilan baham:
1   ...   27   28   29   30   31   32   33   34   ...   41




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling