Кафедра вычислительных технологий курсовая работа применение методов интеллектуального анализа данных для задач медицинской диагностики


Download 1.57 Mb.
bet7/9
Sana30.04.2023
Hajmi1.57 Mb.
#1405763
TuriКурсовая
1   2   3   4   5   6   7   8   9
Bog'liq
kursovaya1 vashchanov 2019

3 Исследование медицинских данных

3.1 Описание исходных данных


В работе исследуется набор данных о больных диабетом. Данные представляются в виде таблицы формата csv, в каждой строке которой записана информация об одном человеке. Целью анализа в данной задаче является построение модели, способной предсказывать наличие сахарного диабета у пациента по признакам из данного набора данных.
На рисунке 2 показана таблица с краткими статистическими характеристиками исходных данных.

Рисунок 2 – краткая статистика данных

На рисунке 3 показаны первые 5 строк таблицы. Из таблицы видно, что один человек описывается девятью признаками, один из которых (признак res) является меткой класса.



Рисунок 3 – Фрагмент исходной таблицы данных


3.2 Алгоритм решения задачи.


Алгоритм решения поставленной задачи состоит из следующих шагов:
а) с помощью визуального анализа выделить скоррелированные признаки, оценить взаимосвязи всех признаков с целевым, использовать для этого графики scatter plot и boxplot;
б) настроить классификаторы под поставленную задачу;
в) оценить точность классификаторов по кросс-валидации и выбрать наилучший;
г) указать, возможна ли доработка и улучшение классификатора, полученного на шаге в).

3.3 Первичный визуальный анализ.


Прежде чем работать с данными, необходимо как можно глубже понять их природу. Для этого часто используется визуальный анализ. Визуализация производится с помощью библиотеки seaborn. Реализация процесса визуализации находится в файле visual.ipynb.
На рисунке 4 приведены графики scatter plot для всех пар признаков. Оранжевыми точками обозначены больные диабетом, синими – здоровые люди. По диагонали расположены распределения признаков. По этому графику можно визуально определить наличие корреляции между парой признаков. Визуально небольшая корреляция видна только между признаками BMI и SkinThick. Это значит, что признаки достаточно сильно независимы друг от друга, отсутствуют признаки, которые можно вычислить через другие признаки.

Рисунок 4 – Графики scatter plot

На рисунке 5 показаны графики boxplot. По этим графикам можно судить о сходстве и различии некоторых параметров распределений признаков между здоровыми и больными людьми. Например, визуально видно, что средний уровень глюкозы в крови намного выше у больных диабетом, чем у здоровых.





Рисунок 5 – Графики boxplot

Download 1.57 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling