Предварительная обработка данных является важным шагом в процессе интеллектуального анализа данных. Фраза «мусор на входе — мусор на выходе»


Download 25.19 Kb.
Sana28.02.2023
Hajmi25.19 Kb.
#1236948
Bog'liq
Предварительная обработка данных


Предварительная обработка данных
[править | править код]
Материал из Википедии — свободной энциклопедии
Перейти к навигацииПерейти к поиску
Предварительная обработка данных является важным шагом в процессе интеллектуального анализа данных. Фраза «мусор на входе — мусор на выходе» применима, в частности, и для проектов интеллектуального анализа данных и машинного обучения. Здесь имеется в виду то, что даже самый изощренный анализ не принесет пользы, если за основу взяты сомнительные данные[1].

Содержание

  • 1Необходимость

  • 2Методы

  • 3См. также

  • 4Примечания

  • 5Литература

  • 6Ссылки

Необходимость[править | править код]
Методы сбора данных часто плохо контролируются. Это приводит к появлению недопустимых значений (к примеру: доход, равный −100), комбинаций данных, которые невозможны (к примеру: «мужской пол при наличии беременности»), отсутствию значений и прочее. В результате анализа данных, которые не защищены от такого рода проблем, можно прийти к неверным выводам. Качество данных является первостепенной задачей при проведении анализа [2]. Часто, предварительная обработка данных становится важной фазой проекта обучения машины. Это особенно касается процессов вычислительной биологии[3].
Во время тренировки машины, при большом количестве лишней информации, «зашумлённых» и недостоверных данных, извлечение знаний становится затруднительным. Этап подготовки и фильтрации данных может занять много времени. Предварительная подготовка данных включает в себя:

  • очистку

  • отбор экземпляров[en]

  • нормализацию

  • преобразование данных[en]

  • выделение признаков

  • отбор признаков

и прочие манипуляции с данными.
Результатом предварительной обработки данных является конечный тренировочный набор[en].
Методы[править | править код]
Ниже приведено краткое описание методов, которые применяются на этапе предварительной обработки данных.

  • Очистка данных используется для обнаружения, исправления или удаления ошибочных записей в наборе данных[4];

  • Нормализация данных используется для стандартизации диапазона значений независимых переменных или признаков данных (например, сведение к интервалам [0, 1] или [-1, +1]);

  • Преобразование данных[en] используется для приведения данных в формат, который ожидает аудитория;

  • Выделение признаков используется для преобразования входных данных в набор признаков, которые они хорошо представляют;

  • Уплотнение данных[en] используется для преобразования числовых данных в исправленный, упорядоченный и упрощённый вид. Это помогает уменьшить количество и/или размерность данных.

См. также[править | править код]

  • Очистка данных

  • Редактирование данных[en]

  • Уплотнение данных[en]

  • Первичная обработка данных[en]

Примечания[править | править код]

    1.  Чарльз Уилан. Голая статистика. — 2-е издание. — Москва: Манн, Иванов и Фербер, 2017. — С. 152—153. — 341 с. — ISBN 978-5-00100-823-1.

    2.  Pyle, 1999.

    3.  Chicco, 2017, с. 1—17.

    4.  Wu, 2013.

Литература[править | править код]

  • Dorian Pyle. Data Preparation for Data Mining. — Los Altos, California: Morgan Kaufmann Publishers, 1999.

  • Wu S. A review on coarse warranty data and analysis // Reliability Engineering and System. — 2013. — Вып. 114. — doi:10.1016/j.ress.2012.12.021.

Download 25.19 Kb.

Do'stlaringiz bilan baham:




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling