Vektor modeli va atamalarini baholashlarni hisoblash yóllari
Download 162.78 Kb.
|
жеткербай шпор1
Axborotni izlash (ingl. information retrieval) — axborotni qidirish jarayoni bo’lib, axborotga bo’lgan ehtiyojni qondirish uchun strukturalashmagan hujjatlardan zarur ma’lumotlarni izlash haqidagi fan sifatida rivojlanib kelmoqda. Axborot izlash – bu ma’lum bir hujjatlar (matnli) to’plamidan oldindan belgilangan shartli mavzu (so’rov) yoki zarur (axborotga bo’lgan ehtiyojni qondirishga tegishli) ma’lumotlarni, faktlarni, xabarlarni izlash – aniqlash jarayoni. Qidiruv jarayoni ma’lumotlarni to’plash, ularga ishlov berish va taqdim etishga qaratilgan operatsiyalar ketma-ketligini o’z ichiga oladi.
Umumiy holda axborotni qidirish to’rtta etap (bosqich)dan tashkil topgan: - axborotga bo’lgan ehtiyojni aniqlash va axborot so’rovini shakllantrish; - mumkin bo’lgan axborotlar massivining egasini (manbasini) aniqlash; - aniqlangan axborot massividan ma’lumotlarni ajratib olish; - olingan axborot bilan tanishish va qidiruv natijasini baholash. Izlash usullari: to'g'ridan-to'g'ri kuzatish; Asosiy masalalar bo'yicha mutaxassislar bilan aloqa qilish; tegishli adabiyotlarni o'qish; televizor va video dasturlarni kuzatish va ko’rib borish; radioeshittirishlarni va audio lentalarni tinglash; kutubxonalarda, arxivlarda, axborot tizimlarida ishlash va boshqa usullar. Ketma-ket klasterizatsiyaga asoslangan model, usul va algoritmlari bilan ishlash. Klasterlash - ob'ektlarning (kuzatishlarning) berilgan namunasini klasterlar deb ataladigan kichik to'plamlarga (odatda bir-biriga mos kelmaydigan) bo'lish jarayoni bo'lib, har bir klaster o'xshash ob'ektlardan iborat bo'ladi va turli klasterlar ob'ektlari sezilarli darajada farqlanadi. Turli xil ma'lumotlarni klasterlash vositalarini Science Hunter veb-saytida topish mumkin. Klasterlashning maqsadlaridan biri klaster tuzilmasini belgilash orqali ma'lumotlar o'rtasidagi ichki munosabatlarni ochib berishdir. Kuzatishlarni o'xshash ob'ektlar guruhlariga bo'lish har bir klasterga o'z tahlil usuli - "bo'l va hukmronlik" ("bo'l va zabt et" strategiyasini qo'llash orqali keyingi ma'lumotlarni qayta ishlash va qaror qabul qilishni soddalashtirish imkonini beradi). Klasterlashning qo'llanilishidan biri ma'lumotlarni siqish muammosini hal qilishdir. Agar dastlabki namuna haddan tashqari katta bo'lsa, unda har bir klasterdan bir nechta xarakterli vakillarni qoldirib, uni qisqartirish mumkin. Klasterni qo'llashning yana bir sohasi - o'rganilayotgan ob'ektlar to'plamida yangilikni topish. Klasterlarning birortasiga biriktirib bo'lmaydigan atipik ob'ektlar tanlanadi. Klasterlarni tahlil qilish usullari yordamida muammolarni hal qilish uchun klasterlar sonini oldindan belgilash kerak. Bir holatda, ular klasterlar sonini kichikroq qilishga harakat qilishadi. Boshqa holatda, har bir klaster ichidagi ob'ektlarning yuqori darajada o'xshashligini ta'minlash muhimroqdir va klasterlarning soni har qanday bo'lishi mumkin. Uchinchi holatda, klasterlarning birortasiga to'g'ri kelmaydigan alohida ob'ektlar eng katta qiziqish uyg'otadi. Atamalar lug’ati va hodisalar ro’yhati haqida. 7-variyant Ishonchli axborot izlash tizimlarini baholash bilan ishlash. Axborot izlash nazariyasida axborot-qidiruv tizimining sifatini baholashning turli mezonlari taklif etiladi va qo'llaniladi. Axborotni qidirish sifatini baholash mezonlari majmuasini ishlab chiqish ancha murakkab muammodir: mezonlarning tarkibi va miqdoriy xarakteristikalari ATni amalga oshirishning aniq maqsadi va tamoyillariga bog'liq. Baholash yoki baholash usuli - bu e'lon qilingan hududdagi har qanday baholi ob'ektni baholash qiymati deb ataladigan boshqa ob'ektga tayinlaydigan algoritmik protsedura. To'liq algoritmik baholash jarayoni rasmiy baholash deb ataladi. Baholashning ikki turi mavjud: * Boshqa tizimlardan qat'i nazar, qiymatlari tizimni bevosita tavsiflovchi bahota'riflar; * baholash shkalasi, ularning qiymatlari turli xil qidiruv tizimlarining qiyosiy afzalliklarini belgilaydi. "Baholash-tavsif" dan uning qiymatlari baholanayotgan ob'ektlarning muhim xususiyatlarini etarlicha to'liq baholash, masalan, muayyan muayyan sharoitlarda ularning xatti-harakatlarini bashorat qilish imkonini berishi talab qilinadi. Bunda “baholash-tavsiflash” samarali deb ataladi. "Baholash shkalasi" dan uning qiymatlari baholanayotgan ob'ektlar to'plamini, masalan, turli xil IRSni, ushbu ob'ektlarning qiyosiy afzalliklari haqidagi mavjud mazmundagi g'oyalarimizga zid bo'lmagan holda tartiblashi talab qilinadi. Bunday holda, "reyting-shkalasi" sog'lom deb ataladi. Tizimlarning qiyosiy afzalliklarini mazmunli ifodalash mazmunli baholashdir. Ob'ektiv rasmiy baholash mazmunli baholashga zid kelmasligi kerak. Tartibli indeks modeli, usul va algoritmlari bilan ishlash. Statistikada va tadqiqot dizaynida indeks kompozit statistik ko'rsatkichdir. Boshqacha qilib aytganda, bir nechta ko'rsatkichlarni jamlaydigan murakkab o'lchov[1]. Indekslar - kompozit ko'rsatkichlar sifatida ham tanilgan. Ular aniq kuzatishlarni umumlashtiradi va tartiblaydi[2]. Ijtimoiy fanlar va barqarorlik sohasidagi ko'plab ma'lumotlar Gender farqi indeksi, Inson taraqqiyoti indeksi yoki Dow Jones sanoat o'rtacha indeksi kabi turli indekslarda taqdim etilgan. 2009-yilda Jozef Stiglits, Amartya Sen va Jean-Paul Fitoussi tomonidan yozilgan "Iqtisodiy samaradorlik va ijtimoiy taraqqiyotni o'lchash bo'yicha komissiyaning hisoboti" shuni ko'rsatadiki[3], bu chora-tadbirlar so'nggi yillarda uchta omil tufayli keskin o'sishni boshdan kechirgan. Mos keladigan omillar: savodxonlik darajasini oshirish (shu jumladan statistik) zamonaviy jamiyatlar va iqtisodiyotlarning murakkabligi ortishi axborot texnologiyalarining keng tarqalganligi. Erl Babbining so'zlariga ko'ra, indeksdagi elementlar odatda teng darajada tortiladi, agar bunga qarshi biron bir sabab bo'lmasa (masalan, agar ikkita element o'zgaruvchining deyarli bir xil tomonini aks ettirsa, ularning har birining vazni 0,5 bo'lishi mumkin)[4]. Murakkab izlash tizimlarini baholay olish yóllari. Qidiruv tizimining veb-serveri - bu foydalanuvchi va qidiruv tizimining qolgan qismlari o'rtasidagi o'zaro aloqani boshqaradigan veb-server. Qoida tariqasida, qidiruv tizimining (veb-sayt) veb-interfeysi ishlashini ta'minlaydi. Veb-serverda foydalanuvchiga html-sahifa ko'rinishida natijalarni chiqarish uchun sahifa ham mavjud. Rejalashtiruvchi (Crawler yoki "Churt") bu dastur bo'lib, uning asosiy maqsadi manbadan boshqa sahifalar/resurslarga barcha havolalarni olib tashlash va ularni ma'lumotlar bazasida saqlash va shu bilan birga "O'rgimchak" ga yo'l ochishdir. Barcha havolalar topilgandan so'ng, "Reja tuzuvchi" ushbu havolalar bo'yicha tizimli o'tishni boshlaydi va butun jarayon qayta boshlanadi. O'rgimchak (O'rgimchak) qidiruv robotining asosiy qismidir. U "Reja tuzuvchisi" tomonidan rejalashtirilgan marshrutni kuzatib boradi va barcha sahifa kodlarini ma'lumotlar bazasida saqlaydi. Turli xil qidiruv tizimlarida turli xil qidiruv robotlari bo'lishi mumkin, ammo ishlash printsipi hamma uchun bir xil - tarkibni toping va yuklab oling. Qidiruv robotlarining bir nechta kichik toifalari mavjud. Ba'zilar tasvirlarni qidirmoqda, boshqalari tez yangilanadigan saytlarni ko'rib chiqmoqda, boshqalari saytlarning ishlashini tekshirmoqda va hokazo. Sodda Bayes klassifikatori va axborotni ajratishni klassifikatsiyalash yóllari. Sodda Bayes klassifikatori Bayes teoremasini qat'iy (sodda) mustaqillik farazlari bilan qo'llashga asoslangan oddiy ehtimolli klassifikatordir. Ehtimoliy modelning aniq tabiatiga qarab, Naive Bayes klassifikatorlari juda samarali tarzda o'qitilishi mumkin. Ko'pgina amaliy ilovalar naive bayes modellari parametrlarini baholash uchun maksimal ehtimollik usulidan foydalanadi; boshqacha qilib aytganda, sodda Bayes modeli bilan Bayes ehtimolligiga ishonmasdan va Bayes usullaridan foydalanmasdan ishlash mumkin. O'zining sodda ko'rinishi va shubhasiz juda sodda atamalariga qaramay, Naive Bayes klassifikatorlari ko'pincha real hayotdagi ko'plab murakkab vaziyatlarda neyron tarmoqlarga qaraganda ancha yaxshi ishlaydi. Oddiy Bayes klassifikatorining afzalligi - o'qitish, parametrlarni baholash va tasniflash uchun zarur bo'lgan kichik ma'lumotlar miqdori. K lassifikator uchun ehtimollik modeli shartli modeldir u stidan qaram sinf o'zgaruvchisi Bir nechta o'zgaruvchilarga bog'liq bo'lgan bir nechta natijalar yoki sinflarga ega C Muammo shundaki, qachonki xususiyatlar soni n juda katta bo'lsa yoki xususiyat ko'p sonli qiymatlarni olishi mumkin bo'lsa, ehtimollik jadvallarida bunday modelni qurish imkonsiz bo'ladi. Shuning uchun biz uni qayta ishlashni osonlashtirish uchun modelni qayta shakllantiramiz. Bayes teoremasidan foydalanib pastdagini yozamiz Atamalar lug’ati va hodisalar ro’yhati haqida. 8-variyant Mantiqiy izlash model, usul va algoritmlari bilan ishlash. ma’lumotarni mantiqiy qidiruv tizimlari, uning qanday modelga asoslanganligi va bir qanvha usullardan foydalanish uchun kerakli algoritmlar haqida ma’lumotlar keltirilgan. Kalit so‘zlar:ma’lumotlar banki va bazasi, ma’lumotlarni markazlashgan holda to‘plash, ma’lumotlar lug‘ati, ma’murlashtirish, kompyuter tizimi, ma’lumotlar modeli.Mantiqiy izlash model, usul va algoritmlari.Ma'lumotni boshqarish bu ma'lumotlarni yaratish, o'zgartirish va yo'q qilish, ularni saqlash va olishni tashkil etish bilan bog'liq jarayon. Ma'lumotni tahlil qilish -bilimlarni eksperimental (ma'noda) olish uchun eng keng tarqalgan matematik usullar va hisoblash algoritmlarini qurish va tadqiq qilish bilan shug'ullanadigan matematika va informatika sohasi; foydali ma'lumotlarni olish va qaror qabul qilish uchun ma'lumotlarni filtrlash, keng miqyosda o'zgartirish va modellashtirish. Ma'lumotni tahlil qilish ko'plab jihatlar va yondashuvlarga ega, fanning turli sohalarida va tadqiqot jarayoni, faoliyat jarayonida turli xil usullarni qamrab oladi. Ma'lumotlarni qidirish bu ma'lumotni tasvirlashdan ko'ra modellashtirish va kashf etishga qaratilgan ma'lumotni tahlil qilishning ixtisoslashgan usuli. Business Intelligence umumlashtirishga asoslangan ma'lumotlar tahlilini o'z ichiga oladi. Statistik ma'noda, ba'zilar ma'lumotlar tahlilini tavsiflovchi statistikaga, ma'lumotlarning izlanish tahliliga va statistik gipotezani sinashga ajratadilar. Izlanish ma'lumotlarini tahlil qilish ma'lumotlarning yangi xususiyatlarini kashf etish va mavjud gipotezalarni tasdiqlash yoki rad etish bo'yicha statistik farazlarni sinash bilan shug'ullanadi. Bashoratli tahlil statistik yoki tarkibiy modellarni bashoratqilish yoki tasniflash uchun qo'llashga qaratilgan bo'lib, matn tahlili statistik, lingvistik va tuzilmaviy usullarni ma'lumotsiz ma'lumotlardan ajratish va tasniflash usullarini qo'llaydi. Bularning barchasi ma'lumotlarni tahlil qilish manbalaridan matnni ajratib olishning turli xil turlari. Elektron resurslarni sinflash modeli, usul va algoritmlari bilan ishlash. Hozirda deyarli barcha sohaning elektron nashrlari mavjud. Lekin hammasini ham foydali deya olmaymiz. Ma’lumot undan foydalanilgandagina kerakli bo’lishi mumkin. Shunday ekan elektron darsliklar tayyorlashda ham ushbu jihatga e’tibor qaratish zarur bo’ladi. Ayni paytda yangi axborot tеxnologiyalari sohasida gipеrmedia tizimlarini qo’llash rivojlanib bormoqda. Bunday tеxnologiyalar asosida an'anaviy o’quv matnini yanada takomillashtirilgan o’quv matеriali asosida kеngaytirish va chuqurlashtirish hamda kurslar va animatsion lavhalardan foydalanish yo’li bilan almashtirish g’oyasi yotadi. Bunda u yoki bu holda ajratib bеrilgan matn lavhalari orasida o’zaro bog’anish tugunlari barpo etiladi. Mutaxassislarning ta'rifiga ko’ra, gipеrmatn inson intеllеktining katta xajmdagi axborotni esda saqlash kobiliyatini va mazkur axborotlar ichidan kommunikatsiya (muloqot) va tafakkur jarayonlarini assotsiatsiyalash yo’li bilan qidiruv ishlarini olib borishni imitatsiya (o’zida aks) qiladi. Boshqacha qilib aytganda, gipеrmatn murakkab darajada tashkil etilgan o’quv matеriallari tizimi bo’lib, ko’plab statistic va dinamik axborotlarni o’zida mujassamlashtiradi hamda umumlashgan tarmoq tuzilishiga ega bo’ladi. Bunda axborot lavhalari ahamiyatini matn, grafik, sxеma, vidеolavha, ijrochi dastur va animatsiya (qarakatli jarayon)lar o’ynaydi. Matnlar esa, o’z navbatida, yanada kichik matnchalardan tashkil topib, ular «matryoshka» («qo’g’irchoq ichida qo’g’irchoq») ko’g’irchog’i kabi ko’p marta ichma-ich joylashishlari mumkin. Bir matndan ikkinchisiga o’tish (chiqarish) EDning tarkibiga kiruvchi ma'lum munosabat orqali amalga oshiriladi. Bulev izlash tizimi funktsiyalari bilan ishlash Mantiqiy funktsiya (yoki mantiqiy funktsiya yoki mantiq algebrasining funktsiyasi) [1] n ta argument - diskret matematikada - Bn → B xaritalash, bu erda B = {0,1} mantiqiy to'plamdir. Mantiqiy to'plamning {1, 0} elementlari odatda "to'g'ri" va "noto'g'ri" mantiqiy qiymatlari sifatida talqin qilinadi, garchi umumiy holatda ular o'ziga xos ma'noga ega bo'lmagan rasmiy belgilar sifatida ko'rib chiqiladi. Argumentlar sonini bildiruvchi manfiy bo'lmagan n butun soni funktsiyaning ariteti yoki lokalligi deyiladi, n = 0 bo'lsa, Mantiqiy funktsiya mantiqiy doimiyga aylanadi. Dekart mahsulotining (n-to'g'ridan-to'g'ri kuch) Bn elementlari mantiqiy vektorlar deyiladi. Har qanday miqdordagi argumentlarning barcha mantiqiy funktsiyalari to'plami ko'pincha P2 bilan, n ta argument P2(n) bilan belgilanadi. Mantiqiy to'plamdan qiymatlarni oladigan o'zgaruvchilar mantiqiy o'zgaruvchilar deb ataladi[2]. Mantiqiy funktsiyalar matematik Jorj Bul sharafiga nomlangan. Mantiqiy funktsiyalar bilan ishlashda takliflar algebrasida qabul qilingan ma'noli ma'nodan to'liq abstraktsiya mavjud [2]. Shunga qaramay, mantiqiy funktsiyalar va taklif algebra formulalari o'rtasida birma-bir moslik o'rnatilishi mumkin, agar[3]: mantiqiy va taklif o'zgaruvchilari o'rtasida birma-bir yozishmalarni o'rnatish; mantiqiy funksiyalar va mantiqiy bog‘lovchilar o‘rtasida aloqa o‘rnatish; operatsiyalarning ustuvorligini o'zgarishsiz qoldiring. Axborotlarni izlash va ajratib olish tushunchalari . Relevant aloqalardan foydalanish va so’rovlarni kengaytirish yóllari. Muvofiqlikni tushunish sizning sahifangiz potentsial mijoz so'roviga qanchalik to'g'ri javob berishidir. Yandex buni ma'lumot izlayotgan foydalanuvchilar manfaatlariga mos keladigan eng yaxshi variant sifatida belgilaydi. Muvofiqlik - qidiruv tizimlari so'rov bo'yicha sayt yoki alohida sahifaning ko'rinishini va uning qidiruv natijalaridagi o'rnini aniqlaydigan omillardan biridir. Ya'ni, asosiy ibora bo'yicha TOP-da bo'lish uchun sahifa iloji boricha niyatga mos kelishi va qidiruv tizimlarining talablariga javob berishi kerak. Qidiruv mexanizmlari sahifaning soʻrovga aloqadorligini qanday tushunishadi Qidiruv mexanizmlari eng mos natijalarni qanday aniqlashini tushunish va soʻrovlar uchun natijalarni yaratish uchun keling, qidiruv qanday ishlashini koʻrib chiqaylik. Yandex buni qanday qiladi Qidiruv reytingi tamoyillarida Yandex ularning asosiy maqsadi kontent turidan qat'i nazar foydalanuvchilarga tegishli natijalarni (sahifalarni) ko'rsatish ekanligini aytadi. Qidiruv tizimi uchun qidiruv sifati muhim ahamiyatga ega. Agar u yomon qidirsa (ya'ni, ahamiyatsiz natijalarni ko'rsatsa), odamlar undan foydalanishni to'xtatadilar. Yandex qidiruv natijalaridagi sahifalar tartibi quyidagicha aniqlanadi, deb aytadi: Sahifaning foydalanuvchi kiritgan qidiruv iborasiga tegishli ekanligi qidiruv tizimiga so‘rovdagi so‘zlarning kelishidan ma’lum: matnda; muhim teglar va meta teglarda Title, H1, Alt; havolalar (ichki va tashqi). Ketma-ket klasterizatsiyaga asoslangan model, usul va algoritmlari bilan ishlash. Klasterlash - ob'ektlarning (kuzatishlarning) berilgan namunasini klasterlar deb ataladigan kichik to'plamlarga (odatda bir-biriga mos kelmaydigan) bo'lish jarayoni bo'lib, har bir klaster o'xshash ob'ektlardan iborat bo'ladi va turli klasterlar ob'ektlari sezilarli darajada farqlanadi. Turli xil ma'lumotlarni klasterlash vositalarini Science Hunter veb-saytida topish mumkin. Klasterlashning maqsadlaridan biri klaster tuzilmasini belgilash orqali ma'lumotlar o'rtasidagi ichki munosabatlarni ochib berishdir. Kuzatishlarni o'xshash ob'ektlar guruhlariga bo'lish har bir klasterga o'z tahlil usuli - "bo'l va hukmronlik" ("bo'l va zabt et" strategiyasini qo'llash orqali keyingi ma'lumotlarni qayta ishlash va qaror qabul qilishni soddalashtirish imkonini beradi). Klasterlashning qo'llanilishidan biri ma'lumotlarni siqish muammosini hal qilishdir. Agar dastlabki namuna haddan tashqari katta bo'lsa, unda har bir klasterdan bir nechta xarakterli vakillarni qoldirib, uni qisqartirish mumkin. Klasterni qo'llashning yana bir sohasi - o'rganilayotgan ob'ektlar to'plamida yangilikni topish. Klasterlarning birortasiga biriktirib bo'lmaydigan atipik ob'ektlar tanlanadi. Klasterlarni tahlil qilish usullari yordamida muammolarni hal qilish uchun klasterlar sonini oldindan belgilash kerak. Bir holatda, ular klasterlar sonini kichikroq qilishga harakat qilishadi. Boshqa holatda, har bir klaster ichidagi ob'ektlarning yuqori darajada o'xshashligini ta'minlash muhimroqdir va klasterlarning soni har qanday bo'lishi mumkin. Uchinchi holatda, klasterlarning birortasiga to'g'ri kelmaydigan alohida ob'ektlar eng katta qiziqish uyg'otadi. 9-variyant Vektor modeli va atamalarini baholashlarni hisoblash yóllari. Hozirgacha biz mantiqiy so'rovlarni qayta ishlashni qo'llab-quvvatlaydigan indekslarni ko'rib chiqdik: hujjat so'rovga mos keldi yoki mos kelmadi. Katta hujjatlar to'plami bilan ishlashda so'rovga mos keladigan hujjatlarning umumiy soni shunchalik katta bo'lishi mumkinki, odam ularning barchasini ko'ra olmaydi. Shunga ko'ra, qidiruv tizimlarining muhim vazifalaridan biri hujjatlarni so'rovga tegishlilik darajasiga ko'ra tartiblashdir. Ushbu muammoni hal qilish uchun har bir topilgan hujjat uchun qidiruv tizimlari uning berilgan so'rovga muvofiqlik darajasini hisoblab chiqadi, ya'ni. (hisoblangan) tegishlilik 2 (bal). Ushbu bobda biz juftlikning (so'rov, hujjat) dolzarbligini hisoblashdan boshlaymiz. Ma'ruza uchta asosiy fikrni ta'kidlaydi. 1. 6.1-bo'lim ikkita maqsadga erishish uchun parametrik va zona indekslarini tavsiflaydi. Birinchidan, ular sizga hujjat yozilgan til kabi metama'lumotlarga asoslangan hujjatlarni indekslash va topish imkonini beradi. Ikkinchidan, ular hujjatlarni so'rovga moslik darajasiga ko'ra tartiblashni nisbatan osonlashtiradi. 2. 6.2-bo'limda atamalarni ularning paydo bo'lishi haqidagi statistik ma'lumotlarga asoslangan hujjatda ahamiyati bo'yicha tortish g'oyasi ishlab chiqiladi. 3. 6.3-bo'lim shuni ko'rsatadiki, agar biz har bir hujjatni bunday og'irliklar vektori deb hisoblasak, unda so'rov va hujjatlarning har biri o'rtasidagi muvofiqlikni hisoblashimiz mumkin. Ushbu yondashuv vektor fazoni baholash deb ataladi. Axborot izlash va ajratish tizimlarida indeks so’rovlari yaratish yóllari. U o'zi o'zi belgilaydigan atamalar signallari orqali tushunadi. Tizim ob'ektlari. Tabiatda tizimning aksariyat shtatlari ma'lumotni, shtatlar asosiy kodni yoki dastlabki kodni taqdim etadi. ma'lumot manbai. Kibernetika subyektiv (semantik) axborotni xabarning mazmuni yoki mazmuni sifatida belgilaydi. Axborot bu ob'ektning o'ziga xos xususiyati. Shunday qilib, har bir moddiy tizim semiotikada paydo bo'ladi Semiotika - bu signal tizimlarining xususiyatlarini o'rganadigan ilmiy nazariyalar majmui. Semantika bo'limida eng muhim natijalarga erishildi. Semantikada tadqiqot mavzusi til birliklarining ma'nosi, ya'ni til semiotikasi orqali uzatiladigan ma'lumotdir. Belgilar tizimi bu aniq yoki mavhum narsalar (belgilar, so'zlar) tizimidir, ularning har biri ma'lum bir ma'noga ma'lum bir tarzda bog'lanadi. Nazariya ikkita bunday taqqoslash bo'lishi mumkinligini isbotladi. Muvofiqlikning birinchi turi ushbu so'zni anglatadigan va denotatum deb nomlanadigan moddiy ob'ektni bevosita belgilaydi (yoki ba'zi asarlarda nominatsiya). Ikkinchi yozishmalar turi belgi (so'z) ning ma'nosini aniqlaydi va tushuncha deb ataladi. Shu bilan birga, taqqoslashning "ma'no", "haqiqat", "aniqlik", "ergashish", "talqin qilish" kabi xususiyatlari o'rganilmoqda.Tadqiqot uchun matematik lingvistikaning matematik mantiqiy apparati qo'llaniladi. XIX asrda G.V.Leybnits va F. de Saussure tomonidan bayon qilingan semantika g'oyalari C. Pirs (1839-1914), C. Morris (1901-1979), R. Karnap (1891-1970) va boshqalar tomonidan shakllantirilgan va ishlab chiqilgan. Nazariyaning asosiy yutug'i - bu semantik tahlil apparati yaratilishi, bu tabiiy ravishda matnning ma'nosini ba'zi bir rasmiy semantik (semantik) tilida yozuv shaklida taqdim etish imkonini beradi. Axborot izlash tizimlarida indeks yaratish yóllari. Indeks (indeks) bu iqtisodiy, shu jumladan, ma'lum miqdorlarning umumiy miqdorining o'zgarishini tavsiflovchi hisoblangan ko'rsatkich. Indekslar tushunchasi sodda va tushunarli bo'lib, ma'lumotlar bazasini loyihalashning eng muhim asoslaridan biridir. Ma'lumotlar bazasining ko'plab asosiy ob'ektlari indekslarga asoslanadi va indekslardan to'g'ri foydalanish ma'lumotlar bazasi dasturlarining ishlashini yaxshilashning kalitidir. Indeks vaqtdagi, makondagi murakkab ijtimoiyiqtisodiy ko'rsatkichlarning ma'lum bazaga nisbatan o'zgarishini tavsiflovchi va ma'lum sharoitlarda o'rganilayotgan hodisa darajasi boshqa sharoitlarda bir xil hodisaning darajasidan necha marta farq qilishini ko'rsatadigan nisbatan nisbiy qiymat. U yoki bu manbaning ko'rsatkichi to'g'ridan-to'g'ri saytning matn tarkibiga, uning havolalariga (tashqi va ichki), grafikaga va boshqalarga bog'liq. Agar foydalanuvchi qidiruv tizimiga so'rov yuborganida, u indeksga murojaat qiladi. Bundan tashqari, qidiruv indeksidagi ma'lumotlarga asoslanib, qidiruv natijalarining reytingi, saytlarning ahamiyati pasayib borishi amalga oshiriladi. Qidiruv indeksining nima ekanligini tushunish uchun oddiy o'xshashlikni ko'rib chiqamiz. Jamoat kutubxonasi haqida o'ylab ko'ring. Har bir kitob o'z kodiga, indeksiga ega. Ushbu shifrlar mavzu, yo'nalish va boshqalar bo'yicha guruhlangan. O'quvchi ma'lum bir kitobni so'raganda, ya'ni so'rov yuborganida, kutubxonachi ma'lum bir bo'limga tegishli barcha kitoblarni ko'rib chiqadi va eng mosini qidiradi. Qidiruv tizim shunga o'xshash tarzda ishlaydi: foydalanuvchi so'rov yuboradi, tizim barcha mavjud sahifalarni ko'rib chiqadi va eng mos bo'lganini ko'rsatadi. Bu robotlar mavjud ma'lumotlarni bitta ma'lumotlar bazasiga qo'shish jarayoni. Keyin ular qayta ishlanadi. Ma'lumot yig'ish, indeksni shakllantirish avtomatik yoki qo'lda sodir bo'lishi mumkin. Birinchi holda, robot saytlarni qidiradi, buning uchun u sitemap.xml faylini skanerlaydi yoki boshqa saytlarning tashqi havolalarini kuzatadi. Axborotni izlash tizimlarini modellashtirish usullari va algoritmlari bilan ishlash. Endi arxitektura va arxitektura bo'lmagan dizaynni o'ziga xos faoliyat deb hisoblash tendentsiyasi mavjud; ularni alohida amaliy otlar deb belgilashga urinishlar qilinmoqda, ammo dizaynning ushbu turlari asosan "o'ralgan". Arxitektura echimlari an'anaviy dizayn echimlariga qaraganda ancha mavhum, kontseptual va global hisoblanadi; ular butun missiyaning muvaffaqiyatiga va tizimning eng yuqori tuzilmalariga qaratilgan. Ma'lumotlar qazibolish (rustilidama'lumotolish, -bu inson faoliyatining turli sohalarida qaror qabul qilish uchun zarur bo'lganilgari noma'lum, arzimas, amaliy jihatdan foydali ma'lumotlarni talqin qilish usullarini aniqlash uchun ishlatiladigan umumiy nom. Ingliz tilidagi"data mining" iborasi hali rus tiliga tarjima qilinmagan. Rus tilida uzatishda quyidagi iboralar qo'llaniladi 4: ma'lumotni yig'ish, ma'lumotlarni yig'ish, ma'lumotlarni yig'ish va SI6I7 ma'lumotlarini qidirish. "Ma'lumotlar bazalarida bilimlarni kashf qilish" (Ingliz tilidagi ma'lumotlar katalogi, ma'lumotlar bazalarida, KDD) iborasi yanada to'liq va aniqroq. Tasniflash asoslari, genetik algoritmlardan foydalanish, evolyutsion dasturlash, assotsiativ xotira, loyqa mantiq. Ma'lumotlarni qidirish usullari ko'pincha ma'lumotlarni yig'ish usullarining barcha turlarini o'z ichiga oladi va statistik usullarga asoslangan (tavsifli tahlil, korrelyatsiya va regressiya tahlili, omillarni tahlil qilish, farqlarni tahlil qilish, komponentlarni tahlil qilish, diskriminatsion tahlil, vaqtni tahlil qilish) har xil prognozlash, qaror daraxtlarini modellashtirish, sun'iy neyron tarmoqlarini o'z ichiga oladi. ketma-ketlik, omon qolish tahlili, havolani tahlil qilish). Ammo bunday usullar tahlil qilinadigan ma'lumotlar haqida ba'zi bir afsonaviy g'oyalarni nazarda tutadi, bu ma'lumotlar qidirish maqsadlariga (ilgari noma'lum bo'lmagan va amaliy foydali bilimlarni kashf etish) zid keladi. Axborotlarni izlash va ajratib olish tushunchalari . Download 162.78 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling