Основы информационных технологий
§1.5. Основы анализа данных
Download 1.75 Mb. Pdf ko'rish
|
Интеллектуальный анализ данных Чернышова
§1.5. Основы анализа данных
Описательная статистика, включающая технологии сбора и суммиро- вания количественных данных, используется для превращения массы цифровых данных в форму, удобную для восприятия и обсуждения. Цель описательной статистики – обобщить первичные результаты, получен- ные в результате наблюдений и экспериментов. В состав описательной статистики входят такие характеристики: среднее; стандартная ошибка; медиана; мода; стандартное отклонение; дисперсия выборки; эксцесс; асимметричность; интервал; минимум; мак- симум; сумма; счет. Корреляционный анализ применяется для количественной оценки взаимосвязи двух наборов данных, представленных в безразмерном ви- де. Корреляционный анализ дает возможность установить, ассоциирова- ны ли наборы данных по величине. Коэффициент корреляции r, r [0,1], используется для определения наличия взаимосвязи между двумя свой- ствами. Связь между признаками (по шкале Чеддока) может быть силь- ной, средней и слабой; тесноту связи определяют по величине коэффи- циента корреляции: Величина коэффициента корреляции, r 0,1-0,3 0,3-0,5 0,5-0,7 0,7-0,9 0,9-1 Характеристика силы связи Слабая Умеренная Заметная Высокая Весьма высокая Любая зависимость между переменными обладает двумя важными свойствами: величиной и надежностью. Чем сильнее зависимость между двумя переменными, тем больше величина зависимости и тем легче предсказать значение одной переменной по значению другой перемен- ной. Величину зависимости легче измерить, чем надежность. Надеж- ность зависимости не менее важна, чем ее величина. Это свойство свя- зано с представительностью исследуемой выборки. Надежность зависи- – 15 – мости характеризует вероятность, что эта зависимость будет снова найдена на других данных. С ростом величины зависимости переменных ее надежность обычно возрастает. Основная особенность регрессионного анализа : при его помощи мож- но получить конкретные сведения о том, какую форму и характер имеет зависимость между исследуемыми переменными. Последовательность этапов регрессионного анализа: 1. Формулировка задачи. На этом этапе формируются предваритель- ные гипотезы о зависимости исследуемых явлений; 2. Определение зависимых и независимых (объясняющих) перемен- ных; 3. Сбор статистических данных. Данные должны быть собраны для каждой из переменных, включенных в регрессионную модель; 4. Формулировка гипотезы о форме связи (простая или множествен- ная, линейная или нелинейная); 5. Определение функции регрессии (заключается в расчете числен- ных значений параметров уравнения регрессии); 6. Оценка точности регрессионного анализа; 7. Интерпретация полученных результатов. Полученные результаты регрессионного анализа сравниваются с предварительными гипотезами. Оценивается корректность и правдоподобие полученных результатов; 8. Предсказание неизвестных значений зависимой переменной. При помощи регрессионного анализа возможно решение задачи про- гнозирования и классификации. Прогнозные значения вычисляются пу- тем подстановки в уравнение регрессии параметров значений объясня- ющих переменных. Решение задачи классификации осуществляется та- ким образом: линия регрессии делит все множество объектов на два класса, и та часть множества, где значение функции больше нуля, при- надлежит к одному классу, а та часть, где оно меньше нуля, – к другому классу. Основные задачи регрессионного анализа: установление формы за- висимости, определение функции регрессии, оценка неизвестных значе- ний зависимой переменной. Установление формы зависимости . Характер и форма зависимости между переменными могут образовывать следующие разновидности ре- грессии: положительная линейная регрессия (выражается в равномер- ном росте функции); положительная равноускоренно возрастающая ре- грессия; положительная равнозамедленно возрастающая регрессия; от- – 16 – рицательная линейная регрессия (выражается в равномерном падении функции); отрицательная равноускоренно убывающая регрессия; отри- цательная равнозамедленно убывающая регрессия. Определение функции регрессии. Эта задача сводится к выяснению действия на зависимую переменную главных факторов или причин при неизменных прочих равных условиях и при условии исключения воз- действия на зависимую переменную случайных элементов. Функция ре- грессии определяется в виде математического уравнения того или ино- го типа. Оценка неизвестных значений зависимой переменной. Решение этой задачи сводится к решению задачи одного из типов: - оценка значений зависимой переменной внутри рассматриваемого интервала исходных данных, т.е. пропущенных значений; при этом ре- шается задача интерполяции; - оценка будущих значений зависимой переменной, т.е. нахождение значений вне заданного интервала исходных данных; при этом решается задача экстраполяции. Обе задачи решаются путем подстановки в уравнение регрессии найденных оценок параметров значений независимых переменных. Ре- зультат решения уравнения представляет собой оценку значения целе- вой (зависимой) переменной. |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling