Vektor modeli va atamalarini baholashlarni hisoblash yóllari
Download 162.78 Kb.
|
жеткербай шпор1
1-variyant Vektor modeli va atamalarini baholashlarni hisoblash yóllari. Hozirgacha biz mantiqiy so'rovlarni qayta ishlashni qo'llab-quvvatlaydigan indekslarni ko'rib chiqdik: hujjat so'rovga mos keldi yoki mos kelmadi. Katta hujjatlar to'plami bilan ishlashda so'rovga mos keladigan hujjatlarning umumiy soni shunchalik katta bo'lishi mumkinki, odam ularning barchasini ko'ra olmaydi. Shunga ko'ra, qidiruv tizimlarining muhim vazifalaridan biri hujjatlarni so'rovga tegishlilik darajasiga ko'ra tartiblashdir. Ushbu muammoni hal qilish uchun har bir topilgan hujjat uchun qidiruv tizimlari uning berilgan so'rovga muvofiqlik darajasini hisoblab chiqadi, ya'ni. (hisoblangan) tegishlilik 2 (bal). Ushbu bobda biz juftlikning (so'rov, hujjat) dolzarbligini hisoblashdan boshlaymiz. Ma'ruza uchta asosiy fikrni ta'kidlaydi. 1. 6.1-bo'lim ikkita maqsadga erishish uchun parametrik va zona indekslarini tavsiflaydi. Birinchidan, ular sizga hujjat yozilgan til kabi metama'lumotlarga asoslangan hujjatlarni indekslash va topish imkonini beradi. Ikkinchidan, ular hujjatlarni so'rovga moslik darajasiga ko'ra tartiblashni nisbatan osonlashtiradi. 2. 6.2-bo'limda atamalarni ularning paydo bo'lishi haqidagi statistik ma'lumotlarga asoslangan hujjatda ahamiyati bo'yicha tortish g'oyasi ishlab chiqiladi. 3. 6.3-bo'lim shuni ko'rsatadiki, agar biz har bir hujjatni bunday og'irliklar vektori deb hisoblasak, unda so'rov va hujjatlarning har biri o'rtasidagi muvofiqlikni hisoblashimiz mumkin. Ushbu yondashuv vektor fazoni baholash deb ataladi. Tartibli indeks modeli, usul va algoritmlari bilan ishlash. Statistikada va tadqiqot dizaynida indeks kompozit statistik ko'rsatkichdir. Boshqacha qilib aytganda, bir nechta ko'rsatkichlarni jamlaydigan murakkab o'lchov[1]. Indekslar - kompozit ko'rsatkichlar sifatida ham tanilgan. Ular aniq kuzatishlarni umumlashtiradi va tartiblaydi[2]. Ijtimoiy fanlar va barqarorlik sohasidagi ko'plab ma'lumotlar Gender farqi indeksi, Inson taraqqiyoti indeksi yoki Dow Jones sanoat o'rtacha indeksi kabi turli indekslarda taqdim etilgan. 2009-yilda Jozef Stiglits, Amartya Sen va Jean-Paul Fitoussi tomonidan yozilgan "Iqtisodiy samaradorlik va ijtimoiy taraqqiyotni o'lchash bo'yicha komissiyaning hisoboti" shuni ko'rsatadiki[3], bu chora-tadbirlar so'nggi yillarda uchta omil tufayli keskin o'sishni boshdan kechirgan. Mos keladigan omillar: savodxonlik darajasini oshirish (shu jumladan statistik) zamonaviy jamiyatlar va iqtisodiyotlarning murakkabligi ortishi axborot texnologiyalarining keng tarqalganligi. Erl Babbining so'zlariga ko'ra, indeksdagi elementlar odatda teng darajada tortiladi, agar bunga qarshi biron bir sabab bo'lmasa (masalan, agar ikkita element o'zgaruvchining deyarli bir xil tomonini aks ettirsa, ularning har birining vazni 0,5 bo'lishi mumkin)[4]. Relevant aloqalardan foydalanish va so’rovlarni kengaytirish yóllari. Muvofiqlikni tushunish sizning sahifangiz potentsial mijoz so'roviga qanchalik to'g'ri javob berishidir. Yandex buni ma'lumot izlayotgan foydalanuvchilar manfaatlariga mos keladigan eng yaxshi variant sifatida belgilaydi. Muvofiqlik - qidiruv tizimlari so'rov bo'yicha sayt yoki alohida sahifaning ko'rinishini va uning qidiruv natijalaridagi o'rnini aniqlaydigan omillardan biridir. Ya'ni, asosiy ibora bo'yicha TOP-da bo'lish uchun sahifa iloji boricha niyatga mos kelishi va qidiruv tizimlarining talablariga javob berishi kerak. Qidiruv mexanizmlari sahifaning soʻrovga aloqadorligini qanday tushunishadi Qidiruv mexanizmlari eng mos natijalarni qanday aniqlashini tushunish va soʻrovlar uchun natijalarni yaratish uchun keling, qidiruv qanday ishlashini koʻrib chiqaylik. Yandex buni qanday qiladi Qidiruv reytingi tamoyillarida Yandex ularning asosiy maqsadi kontent turidan qat'i nazar foydalanuvchilarga tegishli natijalarni (sahifalarni) ko'rsatish ekanligini aytadi. Qidiruv tizimi uchun qidiruv sifati muhim ahamiyatga ega. Agar u yomon qidirsa (ya'ni, ahamiyatsiz natijalarni ko'rsatsa), odamlar undan foydalanishni to'xtatadilar. Yandex qidiruv natijalaridagi sahifalar tartibi quyidagicha aniqlanadi, deb aytadi: Sahifaning foydalanuvchi kiritgan qidiruv iborasiga tegishli ekanligi qidiruv tizimiga so‘rovdagi so‘zlarning kelishidan ma’lum: matnda; muhim teglar va meta teglarda Title, H1, Alt; havolalar (ichki va tashqi). Mantiqiy izlash model, usul va algoritmlari bilan ishlash. ma’lumotarni mantiqiy qidiruv tizimlari, uning qanday modelga asoslanganligi va bir qanvha usullardan foydalanish uchun kerakli algoritmlar haqida ma’lumotlar keltirilgan. Kalit so‘zlar:ma’lumotlar banki va bazasi, ma’lumotlarni markazlashgan holda to‘plash, ma’lumotlar lug‘ati, ma’murlashtirish, kompyuter tizimi, ma’lumotlar modeli.Mantiqiy izlash model, usul va algoritmlari. Ma'lumotni boshqarish bu ma'lumotlarni yaratish, o'zgartirish va yo'q qilish, ularni saqlash va olishni tashkil etish bilan bog'liq jarayon. Ma'lumotni tahlil qilish – bilimlarni eksperimental (ma'noda) olish uchun eng keng tarqalgan matematik usullar va hisoblash algoritmlarini qurish va tadqiq qilish bilan shug'ullanadigan matematika va informatika sohasi; foydali ma'lumotlarni olish va qaror qabul qilish uchun ma'lumotlarni filtrlash, keng miqyosda o'zgartirish va modellashtirish. Ma'lumotni tahlil qilish ko'plab jihatlar va yondashuvlarga ega, fanning turli sohalarida va tadqiqot jarayoni, faoliyat jarayonida turli xil usullarni qamrab oladi. Ma'lumotlarni qidirish bu ma'lumotni tasvirlashdan ko'ra modellashtirish va kashf etishga qaratilgan ma'lumotni tahlil qilishning ixtisoslashgan usuli. Business Intelligence umumlashtirishga asoslangan ma'lumotlar tahlilini o'z ichiga oladi. Statistik ma'noda, ba'zilar ma'lumotlar tahlilini tavsiflovchi statistikaga, ma'lumotlarning izlanish tahliliga va statistik gipotezani sinashga ajratadilar. Izlanish ma'lumotlarini tahlil qilish ma'lumotlarning yangi xususiyatlarini kashf etish va mavjud gipotezalarni tasdiqlash yoki rad etish bo'yicha statistik farazlarni sinash bilan shug'ullanadi. Axborot izlash tizimlarida indeks yaratish yóllari. Indeks (indeks) bu iqtisodiy, shu jumladan, ma'lum miqdorlarning umumiy miqdorining o'zgarishini tavsiflovchi hisoblangan ko'rsatkich. Indekslar tushunchasi sodda va tushunarli bo'lib, ma'lumotlar bazasini loyihalashning eng muhim asoslaridan biridir. Ma'lumotlar bazasining ko'plab asosiy ob'ektlari indekslarga asoslanadi va indekslardan to'g'ri foydalanish ma'lumotlar bazasi dasturlarining ishlashini yaxshilashning kalitidir. Indeks vaqtdagi, makondagi murakkab ijtimoiyiqtisodiy ko'rsatkichlarning ma'lum bazaga nisbatan o'zgarishini tavsiflovchi va ma'lum sharoitlarda o'rganilayotgan hodisa darajasi boshqa sharoitlarda bir xil hodisaning darajasidan necha marta farq qilishini ko'rsatadigan nisbatan nisbiy qiymat. U yoki bu manbaning ko'rsatkichi to'g'ridan-to'g'ri saytning matn tarkibiga, uning havolalariga (tashqi va ichki), grafikaga va boshqalarga bog'liq. Agar foydalanuvchi qidiruv tizimiga so'rov yuborganida, u indeksga murojaat qiladi. Bundan tashqari, qidiruv indeksidagi ma'lumotlarga asoslanib, qidiruv natijalarining reytingi, saytlarning ahamiyati pasayib borishi amalga oshiriladi. Qidiruv indeksining nima ekanligini tushunish uchun oddiy o'xshashlikni ko'rib chiqamiz. Jamoat kutubxonasi haqida o'ylab ko'ring. Har bir kitob o'z kodiga, indeksiga ega. Ushbu shifrlar mavzu, yo'nalish va boshqalar bo'yicha guruhlangan. O'quvchi ma'lum bir kitobni so'raganda, ya'ni so'rov yuborganida, kutubxonachi ma'lum bir bo'limga tegishli barcha kitoblarni ko'rib chiqadi va eng mosini qidiradi. Qidiruv tizim shunga o'xshash tarzda ishlaydi: foydalanuvchi so'rov yuboradi, tizim barcha mavjud sahifalarni ko'rib chiqadi va eng mos bo'lganini ko'rsatadi. Bu robotlar mavjud ma'lumotlarni bitta ma'lumotlar bazasiga qo'shish jarayoni. Keyin ular qayta ishlanadi. Ma'lumot yig'ish, indeksni shakllantirish avtomatik yoki qo'lda sodir bo'lishi mumkin. Birinchi holda, robot saytlarni qidiradi, buning uchun u sitemap.xml faylini skanerlaydi yoki boshqa saytlarning tashqi havolalarini kuzatadi. 2-variyant Sodda Bayes klassifikatori va axborotni ajratishni klassifikatsiyalash yóllari. Sodda Bayes klassifikatori Bayes teoremasini qat'iy (sodda) mustaqillik farazlari bilan qo'llashga asoslangan oddiy ehtimolli klassifikatordir. Ehtimoliy modelning aniq tabiatiga qarab, Naive Bayes klassifikatorlari juda samarali tarzda o'qitilishi mumkin. Ko'pgina amaliy ilovalar naive bayes modellari parametrlarini baholash uchun maksimal ehtimollik usulidan foydalanadi; boshqacha qilib aytganda, sodda Bayes modeli bilan Bayes ehtimolligiga ishonmasdan va Bayes usullaridan foydalanmasdan ishlash mumkin. O'zining sodda ko'rinishi va shubhasiz juda sodda atamalariga qaramay, Naive Bayes klassifikatorlari ko'pincha real hayotdagi ko'plab murakkab vaziyatlarda neyron tarmoqlarga qaraganda ancha yaxshi ishlaydi. Oddiy Bayes klassifikatorining afzalligi - o'qitish, parametrlarni baholash va tasniflash uchun zarur bo'lgan kichik ma'lumotlar miqdori. K lassifikator uchun ehtimollik modeli shartli modeldir u stidan qaram sinf o'zgaruvchisi Bir nechta o'zgaruvchilarga bog'liq bo'lgan bir nechta natijalar yoki sinflarga ega C Muammo shundaki, qachonki xususiyatlar soni n juda katta bo'lsa yoki xususiyat ko'p sonli qiymatlarni olishi mumkin bo'lsa, ehtimollik jadvallarida bunday modelni qurish imkonsiz bo'ladi. Shuning uchun biz uni qayta ishlashni osonlashtirish uchun modelni qayta shakllantiramiz. Bayes teoremasidan foydalanib pastdagini yozamiz Ishonchli axborot izlash tizimlarini baholash bilan ishlash. Axborot izlash nazariyasida axborot-qidiruv tizimining sifatini baholashning turli mezonlari taklif etiladi va qo'llaniladi. Axborotni qidirish sifatini baholash mezonlari majmuasini ishlab chiqish ancha murakkab muammodir: mezonlarning tarkibi va miqdoriy xarakteristikalari ATni amalga oshirishning aniq maqsadi va tamoyillariga bog'liq. Baholash yoki baholash usuli - bu e'lon qilingan hududdagi har qanday baholi ob'ektni baholash qiymati deb ataladigan boshqa ob'ektga tayinlaydigan algoritmik protsedura. To'liq algoritmik baholash jarayoni rasmiy baholash deb ataladi. Baholashning ikki turi mavjud: * Boshqa tizimlardan qat'i nazar, qiymatlari tizimni bevosita tavsiflovchi bahota'riflar; * baholash shkalasi, ularning qiymatlari turli xil qidiruv tizimlarining qiyosiy afzalliklarini belgilaydi. "Baholash-tavsif" dan uning qiymatlari baholanayotgan ob'ektlarning muhim xususiyatlarini etarlicha to'liq baholash, masalan, muayyan muayyan sharoitlarda ularning xatti-harakatlarini bashorat qilish imkonini berishi talab qilinadi. Bunda “baholash-tavsiflash” samarali deb ataladi. "Baholash shkalasi" dan uning qiymatlari baholanayotgan ob'ektlar to'plamini, masalan, turli xil IRSni, ushbu ob'ektlarning qiyosiy afzalliklari haqidagi mavjud mazmundagi g'oyalarimizga zid bo'lmagan holda tartiblashi talab qilinadi. Bunday holda, "reyting-shkalasi" sog'lom deb ataladi. Tizimlarning qiyosiy afzalliklarini mazmunli ifodalash mazmunli baholashdir. Ob'ektiv rasmiy baholash mazmunli baholashga zid kelmasligi kerak. Bulev izlash tizimi funktsiyalari bilan ishlash Mantiqiy funktsiya (yoki mantiqiy funktsiya yoki mantiq algebrasining funktsiyasi) [1] n ta argument - diskret matematikada - Bn → B xaritalash, bu erda B = {0,1} mantiqiy to'plamdir. Mantiqiy to'plamning {1, 0} elementlari odatda "to'g'ri" va "noto'g'ri" mantiqiy qiymatlari sifatida talqin qilinadi, garchi umumiy holatda ular o'ziga xos ma'noga ega bo'lmagan rasmiy belgilar sifatida ko'rib chiqiladi. Argumentlar sonini bildiruvchi manfiy bo'lmagan n butun soni funktsiyaning ariteti yoki lokalligi deyiladi, n = 0 bo'lsa, Mantiqiy funktsiya mantiqiy doimiyga aylanadi. Dekart mahsulotining (n-to'g'ridan-to'g'ri kuch) Bn elementlari mantiqiy vektorlar deyiladi. Har qanday miqdordagi argumentlarning barcha mantiqiy funktsiyalari to'plami ko'pincha P2 bilan, n ta argument P2(n) bilan belgilanadi. Mantiqiy to'plamdan qiymatlarni oladigan o'zgaruvchilar mantiqiy o'zgaruvchilar deb ataladi[2]. Mantiqiy funktsiyalar matematik Jorj Bul sharafiga nomlangan. Mantiqiy funktsiyalar bilan ishlashda takliflar algebrasida qabul qilingan ma'noli ma'nodan to'liq abstraktsiya mavjud [2]. Shunga qaramay, mantiqiy funktsiyalar va taklif algebra formulalari o'rtasida birma-bir moslik o'rnatilishi mumkin, agar[3]: mantiqiy va taklif o'zgaruvchilari o'rtasida birma-bir yozishmalarni o'rnatish; mantiqiy funksiyalar va mantiqiy bog‘lovchilar o‘rtasida aloqa o‘rnatish; operatsiyalarning ustuvorligini o'zgarishsiz qoldiring. Axborotlarni izlash va ajratib olish tushunchalari . Axborotlarni izlash va ajratib olish tushunchalari . Download 162.78 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling