Муҳаммад ал-хоразмий номидаги тошкент ахборот технологиялари
Download 3.44 Mb. Pdf ko'rish
|
KIBER XAVFSIZLIK MUAMMOLARI VA ULARNING (1)
inverted
indexlardan foydalanish mumkin. Meta ma’lumotlar (metadata) bo’yicha qidirish – bu qidiruv tizimlari tomonidan qo’llab quvvatlanadigan hujjatning ma ’lum bir atributlari bo’yicha qidiruv, masalan, hujjat nomi, yaratilish sanasi, hajmi, muallifi va boshqalar. Meta ma’lumotlar bo’yicha qidirishga namuna sifatida fayl tizimlaridagi qidiruv oynalarida (masalan, MS Windows) fayllarni qidirishni olish mumkin. Axborotni ajratib olish tabiiy tildagi matnlarni qayta ishlash bilan bog’liq bo’lib, axborotlarni qidirishning bir ko’rinishi hisoblanadi. Axborotlarni ajratib olishga misol sifatida yangiliklar lentasida “Shavkat Mirziyoyev yil oxirigacha Toshkentda qu riladigan obektlar loyihalari bilan tanishdi” ko’rinishida berilgan matnli ma’lumotdan siyosiy xabar ko’rinishdagi qidiruv matnini ajratib olish mumkin. Ma’lumotlarni bunday akslantirishdan asosiy maqsad – boshlang’ich tarqoq (xaotik) ma’lumotlarni qayta ishlashning standart usullari yordamida tahlil qilish imkonini yaratishdan iborat. Shu bilan birgalikda xabar matnida tavsiflangan mantiqiy qonuniyatlarni aniqlash masalasi uchun xizmat qilishi mumkin. Bunday axborotlarni ajratib olish uchun bajariladigan ishlarning zamonaviy axborot texnologiyalaridagi o’rni – strukturalashmagan (meta ma’lumotlarsiz) axborotlarning keskin ko’payib ketishi bilan bog’liq. Ushbu ma’lumotlar relayatsion shaklga akslantirish (o’tkazish) vositalari yoki XML belgilariga qo’shilgan holda deyarli strukturalashgan holatga keltirilgan bo’lishi mumkin. Yangiliklarni monitoring qilishda keyinchalik qulay ishlash imkoniyatini yaratish uchun intellektual agentlar yordamida ularni strukturalashgan shaklga keltirish va axborotlarni ajratib olish usullari talab qilinadi. Matnli hujjatni qidiruv tizimlari uchun tayyorlash, ularni kalit so’zlari yordamida indekslash amali bilan chambarchas bog’liq. Ushbu masalani yechish uchun berilgan matndan kalit so ’zlarni ajratib olib shu so’zlar yordamida matnga indeks qo’yiladi. Kalit so’zlar asosida ma’lumotlar qidirilganda indekslar solishtirilib tezkor qidirish amalga oshirish imkoniyati yaratiladi. Ushbu ishni tayyorlash jarayonida berilgan matnli hujjatlarni indekslash algoritmining amaliy tatbiqi o’rganib chiqildi. Natija Python dasturlash muhitida ishlab chiqilgan algortm sifatida tavsiya etilgan. Ushbu dasturning asosiy funktsiyalari quyidagicha: import os THIS_FOLDER = os.path.dirname(os.path.abspath(file)) keys = (< … kalit so’zlar ro’yxati, alohida fayldan olinishi mumkin…>) my_file = os.path.join(THIS_FOLDER, 'copy.txt') file1 = open("copy.txt", "w") 241 n = int(input()) i = int() j = int() names = [] texts = [] table = [] tables = [] for j in range(n): names.append(input('Write the name of '+str(j)+' file ')) #putting the names in set names[] # oppening and copying the files and making them put to the set texts for j in names: file = open(j) texts.append(file.read()) file.close()#closing the files i=0 for text in texts: for key in keys: if key in text: table.append("1") else: table.append("0") tables.append(str(table)) table.clear() i = 0 for key in keys: j=len(key) for j in range(j): key.join(' ') file1.writelines(key+' ') for table in tables: file1.writelines('\n'+names[i] + ':'+table) i+=1 Ushbu algoritm yordamida turli xil ijtimoiy tarmoqlar, yangiliklar veb saytlarida berilayotgan matnli hujjatlarni qidiruv tizimlari uchun indekslash mumkin bo’ladi. Download 3.44 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling