Москва 2008 предисловие

Download 442 Kb.

bet	31/41
Sana	04.04.2023
Hajmi	442 Kb.
	#1326878

1 ... 27 28 29 30 31 32 33 34 ... 41

Bog'liq
portal.guldu.uz-Informacionnaya biologiya 1

Извлечение данных (Data Mining)
Понятие «извлечение данных» приобрело особенно высокую популярность примерно с первой половины 1990-х гг. в связи с тем, что вследствие бурного развития технологий записи и хранения данных на человечество обрушились колоссальные потоки «информационной руды» в самых разных сферах. В этой ситуации выявились ограничения традиционной математической статистики, долгое время претендовавшей на роль основного инструмента анализа данных. Главное ограничение статистических методов — концепция усреднения по выборке, приводящая к операциям над несуществующими величинами (типа «средней температуры по больнице»).
Современные процедуры извлечения данных соответствуют следующим условиям: 1) данные имеют неограниченный объем; 2) данные разнородны (количественные, качественные, категориальные); 3) результаты процедур должны быть конкретными и понятными; 4) инструменты для обработки «сырых» данных должны быть простыми в использовании.
В основу технологий извлечения данных положена концепция шаблонов (паттернов) и зависимостей, отражающих фрагменты многоаспектных взаимоотношений среди данных. Поиск паттернов производится автоматическими методами, которые не ограничены рамками априорных предположений о структуре выборки в виде распределений значений анализируемых показателей. Важно, что разыскиваемые паттерны должны отражать неочевидные, неожидаемые (unexpected) регулярности в глубинном пласте «скрытых знаний» (hidden knowledge), которые необходимо грамотно «раскопать».
Итак, технология извлечения данных (data mining) — это процесс отыскания в сырых данных ранее неизвестных, нетривиальных, практически полезных, доступных для интерпретации знаний, нужных для принятия решений в различных сферах деятельности человека [19].
Методы извлечения данных позволяют выделять пять стандартных типов закономерностей [19]. Если несколько событий связаны друг с другом, то имеет место ассоциация. Цепочка событий соответствует последовательности. С помощью классификации выделяются признаки, характеризующие группу, к которой принадлежит объект; выделение осуществляется путем анализа уже классифицированных объектов и формулирования некоторого набора правил. Кластеризация отличается от классификации тем, что группы не заданы заранее; средства Data Mining самостоятельно выделяют различные однородные группы данных. Разнообразные системы прогнозирования основаны на исторической информации, хранящейся в базах данных в виде временных рядов. Если удается построить шаблоны (паттерны), адекватно отражающие динамику поведения целевых показателей, то с их помощью можно предсказать будущее поведение системы.

Download 442 Kb.

Do'stlaringiz bilan baham:

1 ... 27 28 29 30 31 32 33 34 ... 41