Москва 2008 предисловие


Алгоритмы ограниченного перебора


Download 442 Kb.
bet35/41
Sana04.04.2023
Hajmi442 Kb.
#1326878
1   ...   31   32   33   34   35   36   37   38   ...   41
Bog'liq
portal.guldu.uz-Informacionnaya biologiya 1

Алгоритмы ограниченного перебора. В середине 1960-х гг. М. М. Бонгард предложил алгоритмы ограниченного перебора для поиска логических закономерностей в данных. С тех пор метод показал свою эффективность при решении многих задач из самых различных областей. Эти алгоритмы вычисляют частоты комбинаций простых логи­ческих событий в подгруппах (классах) данных [20]. Примеры про­стых логических событий: Х- С,; Х< С2; Х> С3; С4< X< С5 и др., где Xкакой-либо параметр (поле), С, — константы. Ограниче­нием служит длина комбинации простых логических событий (у Бонгарда она была равна 3). На основании сравнения вычис­ленных частот в различных подгруппах данных делается заключе­ние о полезности той или иной комбинации для установления ассоциации в данных, для классификации, прогнозирования и т.д.
Представителем подхода, реализующего ограниченный перебор, является система WizWhy предприятия WizSoft (http://wizsoft.com). Разработчики WizWhy выделяют следующие свойства системы: выявление ВСЕХ if-then-правил; вычисление вероятности ошиб­ки для каждого правила; определение наилучшей сегментации числовых переменных; вычисление прогностической силы каж­дого признака; выявление необычных феноменов в данных; ис­пользование обнаруженных правил для прогнозирования; выра­жение прогноза в виде списка релевантных правил; вычисление ошибки прогноза; прогноз с учетом стоимости ошибок. Дополни­тельные достоинства системы таковы: на прогнозы системы не влияют субъективные причины; пользователям системы не требу­ются специальные знания в области прикладной статистики; вы­числения более точны и быстры, чем у других методов Data Mining.
В специальном исследовании [20] были выявлены существен­ные недостатки известных систем для поиска логических правил. Все известные системы делают принципиальную ошибку уже на первом шаге своей работы. Алгоритмы построения деревьев решений наивно пытаются найти наилучший признак (корень дерева), который оптимальным образом разделяет выборку на части. Ни­какие математические ухищрения не способны исправить основ­ной дефект подобного подхода, связанный с тем, что признак вырывается из целостной системы описания многомерного объекта (записи базы данных). В системах перебора принципиальная ошибка первого шага связана с поиском «оптимальной» сегментации ко­личественных признаков. Нельзя найти наилучшее разбиение ко­личественных признаков на интервалы, рассматривая каждый признак изолированно от всей системы признаков. Отмеченная проблема «первого шага» является производной от главной клю­чевой проблемы поиска if-then-правил в данных. Эта проблема связана с тем, что в принципе мы имеем здесь дело с задачей полного перебора комбинаций элементарных логических условий. Считается, что данная задача при высокой размерности простран­ства признаков не может быть решена за приемлемое время в обо­зримом будущем даже с помощью суперкомпьютеров. Поэтому известные подходы к поиску if-then-правил вынуждены исполь­зовать те или иные эвристические ограничения, и их результаты нередко представляют собой усеченные фрагменты истинных ре-гулярностей в данных — «осколки знаний».
Поскольку заранее нельзя предугадать, какие интервалы исход­ных признаков (элементарные события) окажутся наилучшими для искомых if-then-правил, первый шаг работы алгоритма, претенду­ющего на высокий результат, должен заключаться в максимально мелком (с учетом доступных вычислительных мощностей) разбие­нии исходных признаков на интервалы. Это, конечно, касается глав­ным образом количественных признаков. По-видимому, нет иного пути для решения задачи сегментации признаков.
Эффективность какой-либо системы для поиска if-then-пра­вил определяется способностью находить за приемлемое время лучшие (наиболее полные при заданной точности) правила для каждой записи базы данных. По мнению В.А.Дюка [19, 20], эта способность является главным критерием для оценки систем из­влечения данных.

Download 442 Kb.

Do'stlaringiz bilan baham:
1   ...   31   32   33   34   35   36   37   38   ...   41




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling