Аналитика больших данных – жизненный цикл данных


Download 54.39 Kb.
bet4/7
Sana28.12.2022
Hajmi54.39 Kb.
#1069924
1   2   3   4   5   6   7
Bog'liq
Аналитика больших данных – жизненный цикл данных

Методология SEMMA
SEMMA – это еще одна методология, разработанная SAS для моделирования интеллектуального анализа данных. Он обозначает S достаточно, E xplore, M odify, M odel и A sses. Вот краткое описание его этапов –

  • Выборка – процесс начинается с выборки данных, например, с выбора набора данных для моделирования. Набор данных должен быть достаточно большим, чтобы содержать достаточную информацию для извлечения, но достаточно маленьким, чтобы его можно было эффективно использовать. Этот этап также касается разделения данных.

  • Исследовать – Эта фаза охватывает понимание данных путем обнаружения ожидаемых и непредвиденных связей между переменными, а также отклонений с помощью визуализации данных.

  • Modify – фаза Modify содержит методы для выбора, создания и преобразования переменных при подготовке к моделированию данных.

  • Модель. На этапе модели основное внимание уделяется применению различных методов моделирования (интеллектуального анализа данных) к подготовленным переменным с целью создания моделей, которые могут обеспечить желаемый результат.

  • Оценка – Оценка результатов моделирования показывает надежность и полезность созданных моделей.

Выборка – процесс начинается с выборки данных, например, с выбора набора данных для моделирования. Набор данных должен быть достаточно большим, чтобы содержать достаточную информацию для извлечения, но достаточно маленьким, чтобы его можно было эффективно использовать. Этот этап также касается разделения данных.
Исследовать – Эта фаза охватывает понимание данных путем обнаружения ожидаемых и непредвиденных связей между переменными, а также отклонений с помощью визуализации данных.
Modify – фаза Modify содержит методы для выбора, создания и преобразования переменных при подготовке к моделированию данных.
Модель. На этапе модели основное внимание уделяется применению различных методов моделирования (интеллектуального анализа данных) к подготовленным переменным с целью создания моделей, которые могут обеспечить желаемый результат.
Оценка – Оценка результатов моделирования показывает надежность и полезность созданных моделей.
Основное различие между CRISM-DM и SEMMA заключается в том, что SEMMA фокусируется на аспекте моделирования, тогда как CRISP-DM придает большее значение этапам цикла, предшествующим моделированию, таким как понимание бизнес-проблемы, подлежащей решению, понимание и предварительная обработка данных, подлежащих обработке. используется в качестве входных данных, например, алгоритмы машинного обучения.

Download 54.39 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling