Ma’ruza Regressiya masalalarini yechish uchun ma’lumotlarni birlamchi qayta ishlash reja
Anormal qiymatlar (chiqibiy qiymatlar) va ta'sir nuqtalari
Download 84.48 Kb.
|
2-ma`ruzaMDIBT
- Bu sahifa navigatsiya:
- Chiziqli regressiya gipotezasi.
- Chiziqli regressiya sifatini baholash
- Prognoz qilish uchun regressiya chizigini qollash
- Oddiy regressiya rejasi
- Eng kichik kvadratlar usuli.
Anormal qiymatlar (chiqibiy qiymatlar) va ta'sir nuqtalari
"Ta'sirli" kuzatish, agar o'tkazib yuborilsa, model parametrlarining bir yoki bir nechta bahosini o'zgartiradi (ya'ni, qiyalik yoki kesishish). Chiqib ketish (ma'lumotlar to'plamidagi ko'pgina qiymatlarga zid bo'lgan kuzatish) "ta'sirli" kuzatuv bo'lishi mumkin va 2D tarqalish yoki qoldiq chizmasidan ko'rilganda vizual tarzda yaxshi aniqlanishi mumkin. Chetdan tashqari va “ta’sirli” kuzatishlar (nuqtalar) uchun ham ular bilan, ham ularsiz modellar qo‘llaniladi va ular bahoning o‘zgarishiga (regressiya koeffitsientlari) e’tibor beradi. Tahlilni amalga oshirayotganda, avtomatik ravishda chetlab o'tish yoki ta'sir nuqtalarini tashlamang, chunki oddiy e'tiborsizlik olingan natijalarga ta'sir qilishi mumkin. Har doim bu chiqindilarning sabablarini o'rganish va ularni tahlil qilish kerak. Chiziqli regressiya gipotezasi. Chiziqli regressiyani qurishda regressiya chizig'ining β umumiy qiyaligi nolga teng degan nol gipoteza tekshiriladi. Agar chiziqning qiyaligi nolga teng bo'lsa, x va y o'rtasida chiziqli bog'liqlik yo'q: x ni o'zgartirish y ga ta'sir qilmaydi.Haqiqiy qiyalik β nolga teng degan nol gipotezani tekshirish uchun quyidagi algoritmdan foydalanishingiz mumkin: Erkinlik darajalari bilan taqsimlanishga bo'ysunadigan nisbatga teng bo'lgan statistik mezonni hisoblang, - bu erda koeffitsientning standart xatosi . -bu yerda qoldiqlarning dispersiyasini baholash. Odatda, agar muhimlik darajasiga erishilsa , nol gipoteza rad etiladi. Umumiy qiyalik b uchun 95% ishonch oralig'ini hisoblash mumkin: Qaerdaki t0.05 ulushi nuqtasi t erkinlik darajalari bilan taqsimlash , , 0,05 ikki taraflama test ehtimolini berib,bu 95% ehtimollik bilan umumiy nishabni o'z ichiga olgan oraliq hisoblanadi. Biz katta namunalar uchun 1,96 qiymatini taxmin qilishimiz mumkin (ya'ni, mezon statistikasi normal taqsimlanishga moyil bo'ladi) Chiziqli regressiya sifatini baholash: Chiziqli munosabatlar tufayli x o'zgarganda y o'zgarishini kutamiz va biz bu o'zgarishni regressiya tufayli yuzaga kelgan yoki tushuntirilgan deb ataymiz. Qolgan o'zgarish imkon qadar kichik bo'lishi kerak. Agar shunday bo'lsa, u holda o'zgarishlarning aksariyati regressiyaga bog'liq bo'ladi va nuqtalar regressiya chizig'iga yaqin bo'ladi, ya'ni chiziqli ma'lumotlarga yaxshi mos keladi. Regressiya bilan izohlanadigan umumiy dispersiyaning nisbati deyiladi determinatsiya koeffitsienti , odatda foizda ifodalanadi va R 2 bilan belgilanadi (juftlangan chiziqli regressiyada bu r 2 qiymati , korrelyatsiya koeffitsientining kvadrati). ), regressiya tenglamasining sifatini sub'ektiv baholash imkonini beradi. Farqi regressiya bilan izohlab bo'lmaydigan dispersiya foizidir. Baholash uchun R 2 rasmiy test yo'q, biz regressiya chizig'i mosligi sifatini aniqlash uchun sub'ektiv mulohazaga tayanishimiz kerak. Prognoz qilish uchun regressiya chizig'ini qo'llash Siz kuzatilgan diapazondagi x qiymatdan qiymatni bashorat qilish uchun y regressiya chizig'idan foydalanishingiz mumkin (hech qachon bu chegaralardan tashqarida ekstrapolyatsiya qilmang). Biz ma'lum bir qiymatga ega x bo'lgan kuzatilishi mumkin bo'lgan o'rtacha y qiymatni regressiya chizig'i tenglamasiga kiritish orqali taxmin qilamiz . Shunday qilib, agar biz ushbu x=x0 bashorat qilingan y0 =a+bx0 qiymatdan va uning standart xatosidan populyatsiyadagi haqiqiy o'rtacha ishonch oralig'ini baholash uchun qanday foydalanishimizni taxmin qilsak bo’ladi . Ushbu protsedurani turli qiymatlar uchun takrorlash ushbu chiziq uchun ishonch chegaralarini yaratishga imkon beradi. Bu, masalan, 95% ishonch darajasi bilan, haqiqiy chiziqni o'z ichiga olgan hisoblanadi. Xuddi shunday, biz kutganimizdek, kuzatuvlarning eng katta soni (odatda 95%) joylashgan kengroq maydonni hisoblash mumkin. Oddiy regressiya rejasi Oddiy regressiya qiymatlarida bitta doimiy bashoratchi mavjud. Agar bashorat qiluvchi qiymatlarga ega 3 ta holat bo'lsa , masalan, 7, 4 va 9 va reja birinchi darajali effektni o'z ichiga P ni olsa, reja matritsasi shunday bo'ladi. bu yerda , X1 va P yordamida regressiya tenglamasi quyidagiga o'xshaydi Agar oddiy regressiya rejasi P, masalan, kvadratik effekt uchun yuqori darajali effektni o'z ichiga olsa , u holda reja matritsasidagi ustundagi qiymatlar ikkinchi darajaga ko'tariladi: bu yerda , , va tenglama shaklni oladi Sigma- cheklangan va ortiqcha parametrlangan kodlash usullari oddiy regressiya dizaynlari va faqat uzluksiz bashorat qiluvchilarni o'z ichiga olgan boshqa dizaynlarga taalluqli emas (chunki toifali bashorat qiluvchilar mavjud emas). Tanlangan kodlash usulidan qat'i nazar, uzluksiz o'zgaruvchilarning qiymatlari tegishli darajaga oshiriladi va o'zgaruvchilar uchun qiymatlar sifatida ishlatiladi . Bunday holda, qayta kodlash amalga oshirilmaydi. Bundan tashqari, regressiya dizaynlarini tavsiflashda siz dizayn matritsasini hisobga olmasligingiz mumkin va faqat regressiya tenglamasi bilan ishlashingiz mumkin. 3. Regression tahlil usullarini amaliyotda qo'llash Regressiya muammolarini hal qilish uchun 4 ta ma'lumotlarni qayta ishlash algoritmlari Matematik regressiya funksiyasini qurishda asosiy vazifa barcha variantlar to'plamidan eng yaxshi funksiyani tanlashdir. Gap shundaki, bir xil o'quv majmuasini bir xil tarzda tasniflaydigan ko'plab funksiyalar bo'lishi mumkin. Ushbu muammo rasmda ko'rsatilgan. 2.3. Rasm. 2.3. O'quv namunasini chiziqli bo'linish variantlari Uchta chiziqning har biri barcha nuqtalarni ikkita sinfga muvaffaqiyatli ajratadi (rasmda kvadrat va doiralar bilan ko'rsatilgan), ammo model yangi ob'ektlar uchun muammoni eng yaxshi hal qiladigan bitta funksiya bilan ifodalanishi kerak. Natijada, klassifikatsiya va regressiya funksiyasini eng oddiy shaklda qurish vazifasini minimal xatolik darajasiga ega funksiyani tanlash vazifasi sifatida rasmiy ravishda tavsiflash mumkin: (2.1) bu erda F barcha mumkin bo'lgan funksiyalar to'plami - yo'qotish funksiyasi, unda vektor uchun funksiya yordamida topilgan qaram o'zgaruvchining qiymati va uning aniq (ma'lum) qiymati. Shuni ta'kidlash kerakki, yo'qotish funksiyasi salbiy bo'lmagan qiymatlarni oladi. Bu shuni anglatadiki, juda yaxshi bashorat uchun "mukofot" olish mumkin emas. Agar tanlangan yo'qotish funksiyasi hali ham salbiy qiymatlarni qabul qilsa, bu ijobiy siljishni kiritish orqali osongina tuzatilishi mumkin (ehtimol x ga bog'liq). Xuddi shu oddiy vositalar yordamida siz mutlaqo aniq bashorat bilan nol yo'qotishga erishishingiz mumkin . Yo'qotish funksiyasini bunday cheklashning afzalliklari shundaki, minimal har doim ma'lum va unga erishish mumkinligi ma'lum (hech bo'lmaganda ma'lum bir juftlik uchun ). Klassifikatsiya va regressiya muammolari uchun bunday funksiyalar turli shakllarga ega. Shunday qilib, binar klassifikatsiyada (ob'ekt ikkita sinfdan biriga tegishli; birinchi sinf yana +1 bilan, ikkinchi sinf esa -1 bilan belgilanadi), eng oddiy yo'qotish funksiyasi ("0-1" deb ataladi) Ingliz tilidagi adabiyotda) noto'g'ri bashorat qilishda 1, aks holda 0 qiymatini oladi: Bu erda na xato turi - ijobiy xato, - salbiy xato), va uning kattaligi hisobga olinmaydi . Kichik o'zgarish xatolik xarakteristikasi hisobga oladi: U tasniflangan ob'ektning ko'plab parametrlarini va xatoning tabiatini hisobga olishi mumkin. Ikkitadan ortiq sinfga ega bo'lgan klassifikatsiyada vaziyat yanada murakkablashadi. Umumiy holda, klassifikatsiya xatosining har bir turi o'ziga xos yo'qotish turini kiritadi, shunda k×k o'lchamli matritsa (bu erda k sinflar soni) olinadi . Haqiqiy qiymatlarni qabul qiladigan miqdorlarni baholashda farqni qo'llash tavsiya etiladi - klassifikatsiya sifatini baholash uchun. Regressiya holatida bu farq juda aniq ma'noga ega (masalan, qimmatli qog'ozlar bozorida moliyaviy vositaning qiymati noto'g'ri baholanganda moliyaviy yo'qotishlar miqdori). Lavozimdan mustaqillik shartini hisobga olgan holda, yo'qotish funksiyasi quyidagi shaklga ega bo'ladi: Eng ko'p ishlatiladigan kvadrat farqlarni minimallashtirish . Ushbu parametr, kuzatuv natijalariga ta'sir qiluvchi qo'shimchalar normal taqsimlangan shovqin mavjudligiga mos keladi . Shunga ko'ra biz minimallashtiramiz: (2.2) Eng kichik kvadratlar usuli. Ikki xil funksiya mavjud: chiziqli va chiziqli bo'lmagan. Birinchi holda, o'rnatilgan funksiyalar : mustaqil o'zgaruvchilar uchun koeffitsientlar . Muammo (5.1) shartni qondirish uchun shunday koeffitsientlarni ō topishda. Masalan, regressiya masalasini hal qilishda ō koeffitsientlarini kvadratik yo'qotish funksiyasi (5.2) va chiziqli funksiyalar to'plami yordamida hisoblash mumkin : Download 84.48 Kb. Do'stlaringiz bilan baham: |
ma'muriyatiga murojaat qiling