Основные этапы анализа исходных данных, интеграции и изменения данных
4 лекОсновные этапы анализа исходных данных
ID
|
ID предка | |
Объект | ||
1 |
|
Хлебобулочные изделия |
2 |
1 |
Хлеб |
3 |
1 |
Булки |
4 |
2 |
Батон "Рязанский" |
5 |
2 |
Хлеб "Бородинский" |
6 |
|
Молочные продукты |
7 |
6 |
Молоко |
8 |
6 |
Йогурты |
9 |
8 |
Йогурт Чудо 0,4 |
10 |
8 |
"Растишка персиковый 0,25" |
ID – уникальный номер объекта. ID предка – номер родительского объекта. Если объект корневой, то это поле должно быть пустым. В поле "Объекты" находятся как группы, так и товар.
Таблица с иерархией объектов соответствует следующей диаграмме.
Анализ транзакций целесообразно производить на большом объеме данных, иначе могут быть выявлены статистически необоснованные правила. Алгоритмы поиска ассоциативных связей способны быстро перерабатывать огромные массивы информации, т.к. основное достоинство алгоритмов поиска ассоциативных правил заключается именно в масштабируемости, т.е. способности обрабатывать большие объемы данных.
Примерное соотношение между количеством объектов и объемом данных:
300-500 объектов – более 10 тыс. транзакций;
500-1000 объектов – более 300 тысяч транзакций;
При недостаточном количестве транзакций целесообразно уменьшить количество анализируемых объектов, например, сгруппировать их.
Построение моделей – анализ
существует большое количество механизмов построения моделей, и их описание выходит за рамки данной статьи. Но каждый из них имеет свои ограничения и решает определенный класс задач, поэтому на практике, чаще всего добиться успеха можно, комбинируя методы анализа. При этом, чем раньше будет предпринята попытка испытать полученную модель на практике, тем лучше, т.к. других способов реально оценить ее качество не существует.
В целом, можно дать следующие рекомендации, не зависящие от конкретного алгоритма обработки:
Уделить большое внимание очистке данных. Собрав данные в нужном объеме, нельзя быть уверенным, что они будут хорошего качества. Чаще всего, качество данных оставляет желать лучшего, поэтому необходимо их предобработать. Для этого есть множество методов: удаление шумов, сглаживание, редактирование аномалий и прочее. Дополнительно см. Предобработка и очистка данных;
Комбинировать методики анализа. Это позволяет шире смотреть на проблему. Более того, использование различных методов для решения одной и той же задачи может навести на ценные идеи;
Не гнаться за абсолютной точностью и начать использование при получении первых приемлемых результатов. Все равно идеальный результат получить невозможно. Если мы получили результат, пусть не идеальный, но лучше, чем был ранее, то есть резон начать его использование. Во-первых, это позволяет быстрее получить практическую отдачу. Во-вторых, только на практике можно действительно оценить полученный результат. В-третьих, можно и нужно параллельно работать над совершенствованием модели с учетом полученных на практике результатов;
При невозможности получения приемлемых результатов следует вернуться на предыдущие шаги схемы. К сожалению, ошибки могут быть допущены на любом шаге: может быть некорректно сформулирована первоначальная гипотеза, могут возникнуть проблемы со сбором необходимых данных и прочее. К этому нужно быть готовым. При возникновении такого рода проблем возвращатйтесь на предыдущие пункты и рассматривайте альтернативные варианты решения;
Для оценки адекватности полученных результатов необходимо привлекать экспертов в предметной области. Интерпретация модели, так же как и выдвижение гипотез, может и должно делаться экспертом, т.к. для этого нужно более глубокое понимание процесса, выходящее за пределы анализируемых данных. Кроме того, нужно воспользоваться и формальными способами оценки качества модели: тестировать построенные модели на различных выборках для оценки их обобщающих способностей, т.е. способности давать приемлемые результаты на данных, которые не предоставлялись системе при построении модели. Некоторые механизмы анализа могут "запоминать" предъявленные ей данные и на них демонстрировать прекрасные результаты, но при этом полностью терять способность к обобщению и на тестовых (из неизвестных системе ранее) данных выдавать очень плохие результаты. При формальной оценке можно отталкиваться от идеи, что если на тестовых данных модель дает приемлемые результаты значит она имеет право на жизнь.
Заключение
При получении приемлемых результатов нужно начать использование полученных моделей. Начало применения не является завершением Data Mining проекта. Работать над совершенствованием моделей нужно всегда, т.к. по прошествии времени обязательно наступит момент, когда опять придется проходить описанный цикл. К тому же, после получения первых удовлетворительных результатов, обычно встает вопрос о повышении точности.
Почивать на лаврах нельзя, необходимо периодически оценивать адекватность модели текущей ситуации, потому что даже самая удачная модель со временем перестает соответствовать действительности.
Download 35.75 Kb.
Do'stlaringiz bilan baham:
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling