ImageNet bu WordNet ierarxiyasiga muvofiq tashkil etilgan tasvirlar bazasi bo'lib, unda ierarxiyaning har bir tuguni yuzlab va minglab tasvirlar bilan tasvirlangan


Download 1.41 Mb.
Sana09.06.2023
Hajmi1.41 Mb.
#1472658
Bog'liq
image net


ImageNet - bu WordNet ierarxiyasiga muvofiq tashkil etilgan tasvirlar bazasi bo'lib, unda ierarxiyaning har bir tuguni yuzlab va minglab tasvirlar bilan tasvirlangan. Hozir bizda bitta tugunda o'rtacha besh yuzdan ortiq rasm bor. Vizual ob'ektlarni aniqlash dasturlarini ishlab chiqishga oid ushbu keng ma'lumotlar bazasi 1980-yillarning oxiriga to'g'ri keladi. Lug'at ta'rifidan ko'proq narsani taqdim etgan Millerning WordNet so'zlarni boshqa so'zlarga bo'lgan munosabatiga ko'ra tartibga solgan. Maqsad tilni mashinada o'qiladigan mantiq bilan moslashtirish edi
ImageNet loyihasiga xush kelibsiz! ImageNet - bu butun dunyo bo'ylab tadqiqotchilarga osonlikcha kirish imkoniyatiga ega bo'lgan tasvirlar ma'lumotlar bazasini taqdim etish bo'yicha doimiy izlanishlar. Ushbu sahifada ma'lumotlar bazasi, ImageNet hamjamiyati va ushbu loyihaning asoslari haqida foydali ma'lumotlarni topasiz. Iltimos, sharhlaringiz yoki savollaringiz bo'lsa, biz bilan bog'laning. ImageNet-ni takomillashtirish g'oyalari haqida tadqiqotchilarning fikrlarini eshitishni istaymiz.
ImageNet - bu WordNet ierarxiyasiga muvofiq tartibga solingan rasm ma'lumotlar to'plami. WordNet-dagi har bir mazmunli tushuncha, ehtimol bir nechta so'zlar yoki so'z birikmalari bilan tavsiflanadi, "sinonimlar to'plami" yoki "sinset" deb nomlanadi. WordNet-da 100000 dan ortiq synsets mavjud, ularning aksariyati otlardir (80,000+). ImageNet-da biz har bir sinsetni tasvirlash uchun o'rtacha 1000 ta rasm taqdim etishni maqsad qilganmiz. Har bir kontseptsiyaning tasvirlari sifat nazorati ostida va odam tomonidan izohlangan. Tugallangandan so'ng, ImageNet WordNet ierarxiyasidagi ko'pgina tushunchalar uchun o'n millionlab toza saralangan rasmlarni taqdim etadi deb umid qilamiz.
ImageNet loyihasi tasvir va ko'rishni tadqiq qilish sohasidagi tobora ortib borayotgan hissiyotdan ilhomlangan - qo'shimcha ma'lumotlarga bo'lgan ehtiyoj. Raqamli davr vujudga kelgan va veb-miqyosda ma'lumotlar almashinuvi mavjud bo'lgan vaqtdan boshlab ushbu sohadagi tadqiqotchilar multimedia ma'lumotlarini indeksatsiya qilish, olish, tartibga solish va izohlash uchun tobora takomillashtirilgan algoritmlarni ishlab chiqish ustida ko'p ishlamoqdalar. Ammo yaxshi tadqiqot yaxshi manbaga muhtoj. Ushbu muammoni keng miqyosda hal qilish uchun (raqamli rasmlar, videofilmlar yoki tijorat veb-qidiruvi ma'lumotlar bazasining o'sib borayotgan shaxsiy to'plamini o'ylab ko'ring), agar keng miqyosli tasvirlar bazasi mavjud bo'lsa, tadqiqotchilar uchun bu juda foydali bo'ladi. Bu bizni ImageNet-ni birlashtirishga undaydi. Umid qilamizki, bu bizning tadqiqot jamoatchiligimiz uchun, shuningdek tadqiqotlari va ma'lumotlari katta tasvirlar bazasidan foydalanishdan foyda ko'radigan har bir kishi uchun foydali manba bo'ladi.
ImageNet-dan kim foydalanadi?
Biz ImageNet-ni akademik dunyodagi tadqiqotchilarga, shuningdek, butun dunyo o'qituvchilariga foydali manba sifatida tasavvur qilamiz
ImageNet rasmlarga egami? Tasvirlarni yuklab olsam bo'ladimi?
Yo'q, ImageNet rasmlarning mualliflik huquqiga ega emas. ImageNet faqat rasmlarning kichik rasmlari va URL manzillarini rasm qidirish tizimlari bajaradigan ishlarga o'xshash tarzda taqdim etadi. Boshqacha qilib aytganda, ImageNet WordNet-ning har bir sintezi uchun veb-rasmlarning aniq ro'yxatini tuzadi. Tasvirlardan notijorat tadqiqotlar va / yoki ta'lim maqsadlarida foydalanishni istagan tadqiqotchilar va o'qituvchilar uchun biz saytimiz orqali ma'lum shartlar va shartlar bilan kirishni ta'minlay olamiz. Tafsilotlar uchun bosing
Yuklab olish xususiyatlari
SIFT xususiyatlari
Hozirda biz zich namuna olingan SIFT [1] funktsiyalarini taqdim etamiz. Biz xom SIFT tavsiflovchilarini, shuningdek, miqdoriy kodli so'zlarni taqdim etamiz. Har bir tavsiflovchi / kod so'zining fazoviy koordinatalari ham kiritilgan. Miqdorli kodli so'zlar, Word of Words vakolatxonalari uchun mos keladi [2] [3]. Funktsiyalar Matlab fayllari sifatida paketlangan va ularni erkin yuklab olish mumkin (tizimga kirish shart emas). Tafsilotlar quyidagicha:
Har bir rasmning o'lchamlari 300 pikseldan oshmaydigan maksimal uzunlikka ega bo'lishi kerak. SIFT tavsiflovchilari oralig'i 10 piksel bo'lgan 20x20 ustma-ust keladigan yamoqlarda hisoblab chiqilgan. Rasmlar yanada kichraytiriladi (yon uzunligining 1/2 qismiga, so'ngra yon uzunligining 1/4 qismiga) va ko'proq tavsiflovchilar hisoblab chiqiladi. Biz zich SIFT ning VLFeat [4] dasturini qo'llaymiz (0.9.4.1 versiyasi)

Biz 1000 ta vizual so'zdan iborat vizual lug'at hosil qilish uchun 10 million SIFT identifikatoridan iborat tasodifiy to'plamning k-vositalari klasterini bajaramiz. Har bir SIFT identifikatori eng yaqin klaster markazi yordamida vizual so'z bilan kvantlanadi.



Ob'ektni cheklash qutilarining izohlarini yuklab olish uchun erkin foydalanish mumkin (tizimga kirish talab qilinmaydi). Chegaralangan qutilar izohlanadi va Amazon Mechanical Turk orqali tekshiriladi.

Hozirda 3000 dan ortiq mashhur synsets uchun chegara qutilari mavjud. Har bir sinset uchun o'rtacha 150 ta cheklov qutisi mavjud






Rasm izohlari XML fayllarida PASCAL VOC formatida saqlanadi. Foydalanuvchilar annotatsiyani PASCAL Development Toolkit yordamida tahlil qilishlari mumkin.

Izoh: Cheklovchi qutidagi izohlarda rasm o'lchamini ko'rsatuvchi ikkita maydon ( va ) mavjud. Izohlar faylidagi chegaralangan oynaning joylashuvi va hajmi ushbu o'lchamga nisbatan. Biroq, bu o'lcham yuklab olingan paketdagi haqiqiy rasm o'lchamiga o'xshash bo'lmasligi mumkin. (Sababi shundaki, izohlash faylidagi o'lcham - bu izoh beruvchiga tasvir ko'rsatiladigan ko'rsatilgan hajm). Shuning uchun asl pikseldagi haqiqiy piksellarni topish uchun siz cheklash qutilarini mos ravishda qayta o'lchamoq kerak bo'lishi mumkin.


Ob'ekt xususiyatlarini yuklab oling
Ob'ekt atributlarining izohlarini yuklab olish uchun erkin foydalanish mumkin (tizimga kirish talab qilinmaydi). Atributlar izohlanadi va Amazon Mechanical Turk orqali tekshiriladi.

Hozirda ~ 400 ta mashhur sinetslar uchun 25 ta xususiyat mavjud. Mavjud synsets ro'yxatini olish uchun bu erni bosing. Har bir sinset uchun quyidagi atributlar bilan izohlangan 25 ta rasm mavjud:

Rang: qora, ko'k, jigarrang, kul, yashil, to'q sariq, pushti, qizil, binafsha, oq, sariq
Naqsh: dog'li, chiziqli
Shakl: uzun, yumaloq, to'rtburchaklar, kvadrat
To'qimasi: mo'ynali, silliq, qo'pol, porloq, metall, o'simlik, yog'och, nam
Masalan:

Yorliqlash tartibi (har bir rasm va har bir atribut uchun):

Butun rasmni belgilash o'rniga, biz ilgari to'plangan cheklovli izohlardan foydalanib, diqqatni jalb etadigan ob'ektning faqat bitta qismiga qaratamiz.


3-4 ishchidan ob'ektda atribut mavjudligini yoki yo'qligini ko'rsatadigan ikkilik yorliqni taqdim etishlarini so'raymiz.
Agar ishchilar o'rtasida kelishuv bo'lsa, biz tegishli ijobiy yoki salbiy yorliqni tayinlaymiz.
Aks holda, biz ushbu rasm uchun atributni noaniq deb belgilaymiz.
Ushbu ma'lumotlar dastlab to'plangan
Avval siz rasmlarni har doim URL manzillari bo'yicha olishingiz mumkin. Shu bilan bir qatorda, agar siz tijorat maqsadlarida olib borilmaydigan tadqiqotlar va / yoki ta'lim maqsadlarida foydalanish uchun asl rasmlarning nusxasini olishni istagan tadqiqotchi / o'qituvchi bo'lsangiz, biz sizga ma'lum sharoitlarda va o'z ixtiyori bilan saytimiz orqali kirish huquqini taqdim etamiz. Tafsilotlar quyidagicha:
Ekranning yuqori o'ng qismidagi Yuklab olish tugmachasini bosing, avval siz ImageNet hisob qaydnomasini yaratasiz, so'ngra bizga "so'rov" yuborasiz. Sizdan to'liq ismingiz, tashkilotingiz va elektron pochta manzilingizni ko'rsatishingiz so'raladi.
Biz sizning so'rovingizni ko'rib chiqamiz. Agar biz buni ma'qullasak, biz sizning elektron pochta manzilingizni tasdiqlash uchun sizga maxsus havola bilan elektron pochta xabarini yuboramiz.
Siz elektron pochta xabarini olasiz va elektron pochtangizni tasdiqlash uchun havolaga tashrif buyurasiz. Keyin sizdan quyidagi kirish shartlariga rozilik bildirishingiz va imzolashingiz so'raladi:
Siz sun'iy intellekt tizimlarini o'rgatish uchun ishlatiladigan rasmlar ma'lumotlar bazasini ochasiz. Dastlab, hamma narsa to'g'ridan-to'g'ri ko'rinadi. Sizni minglab tasvirlar kutib oldi: olma va apelsin, qushlar, itlar, otlar, tog'lar, bulutlar, uylar va ko'cha belgilari. Ma'lumotlar to'plami bilan tanishib chiqqach, odamlar paydo bo'lishni boshlaydilar: cheerlederlar, akvatorlar, payvandchilar, skautlar, o't o'chiruvchilar va gul qizlar. Ajablanarlisi: Bikinida jilmayib turgan ayolning fotosurati "slattern, slut, beozor ayol, trollop" deb yozilgan. Pivo ichadigan yigit "alkogolli, alkogolli, dipsomaniak, boozer, yam-yashil, sovituvchi, sous" toifasiga kiradi. Quyosh ko'zoynak taqqan bola "muvaffaqiyatsiz, yutqazgan, boshlang'ich bo'lmagan, muvaffaqiyatsiz odam" deb tasniflanadi. Ma'lumotlar to'plamidagi "shaxs" toifasini ko'rib chiqmoqdasiz ImageNet, bu mashina o'rganish uchun eng ko'p ishlatiladigan o'quv to'plamlaridan biri
Qism rasmda nimadir davolash.

Asosiy tasvirlar qayerdan paydo bo'lgan? Nega fotosuratlarga shunday yorliq qo'yilganmi? Rasmlar yorliqlari bilan bog'lashda qanday siyosat olib boriladi va ular bo'yicha texnik tizimlarni tayyorlash uchun ishlatilgan qanday oqibatlarga olib keladi?

Qisqasi, biz bu erga qanday etib keldik?
Mashinalarni ko'rishning dastlabki kunlari, tasvirlarni aniqlash va talqin qilishni o'rgatish mashinalari bilan bog'liq sun'iy intellekt (AI) subfediyasi haqida shahar afsonasi mavjud. 1966 yilda Marvin Minskiy MITning yosh professori bo'lib, rivojlanayotgan sun'iy intellekt sohasida o'zini tanitdi. Tasvirlarni talqin qilish qobiliyati aql-idrokning asosiy xususiyati ekanligiga qaror qilib, Minskiy talaba Jerald Sussmanga murojaat qilib, undan "yozni kamerani kompyuterga bog'lab, kompyuter ko'rgan narsalarini tasvirlab berishini" so'radi. Bu Yozgi Vizyon loyihasi bo'ldi. Aytish kerakki, kompyuterlarni "ko'rish" ga erishish loyihasi har kim kutganidan ancha qiyin bo'lgan va bitta yozga qaraganda ancha uzoq davom etishi kerak edi.

aytib o'tilgan voqea shunday davom etadi: ajoyib odamlar o'nlab yillar davomida kompyuterni ko'rish muammosi ustida ishladilar, 1990-yillarda ehtimoliy modellashtirish va o'qitish uslublariga o'tishga qadar, mos harakat qildilar. Bu hozirgi kunga olib keldi, unda ob'ektni aniqlash va yuzni aniqlash kabi muammolar asosan hal qilindi, bu erda texnik yaxshilanishlar barcha muammolar va cheklovlarni hal qiladi deb taxmin qilinadi.


Ammo buning aksi bo'lsa, nima qilish kerak? Agar kompyuterlarni "ko'rganlarini tasvirlab berishga" majburlash har doim ham muammo bo'lib qolsa-chi? Ushbu inshoda biz nima uchun tasvirlarni avtomatlashtirilgan talqin qilish shunchaki texnik emas, balki tabiatan ijtimoiy va siyosiy loyiha ekanligini o'rganamiz. AI tizimidagi siyosatni tushunish har qachongidan ham muhimroqdir, chunki ular tezda ijtimoiy institutlarning arxitekturasiga o'tmoqdalar: ish uchun kim bilan suhbatlashish to'g'risida qaror qabul qilish, talabalar darsda nimalarga e'tibor berishadi, hibsga olishda gumon qilinayotganlar va boshqa ko'p narsalar.

So'nggi ikki yil ichida sun'iy intellekt tizimlarini dunyoni "ko'rishga" o'rgatish uchun tasvirlardan qanday foydalanilganligi haqidagi mantiqiy asoslarni o'rganmoqdamiz. 60-yillarning boshlarida yuzni tanib olish bo'yicha birinchi tajribalardan tortib, millionlab tasvirlarni o'z ichiga olgan zamonaviy mashg'ulotlarga qadar sun'iy intellektda ishlatiladigan yuzlab tasvirlar to'plamini ko'rib chiqildi. Uslubiy jihatdan ushbu loyihani ma'lumotlar to'plamlari arxeologiyasi deb atashimiz mumkin edi: moddiy qatlamlarni qazib chiqdik, biron bir narsa qurilgan printsiplar va qadriyatlarni katalogladik va hayotning qanday me'yoriy asoslari qabul qilinganligi, qo'llab-quvvatlanganligi va ko'paytirilganligini tahlil qildik. Ushbu o'quv majmualari va ularning asosidagi inshootlarni qazish orqali ko'plab shubhasiz taxminlar aniqlandi. Ushbu taxminlar sun'iy sun'iy intellekt tizimlarining ishlashi va ishlamasligi to'g'risida bugungi kungacha ma'lumot beradi.


Ushbu insho aldamchi oddiy savol bilan boshlanadi: Tasvirlar sun'iy intellekt tizimida qanday ishlarni bajaradi? Tasvirda kompyuterlar nimani tan olishlari kerak va noto'g'ri tanilgan yoki umuman ko'rinmas narsalar nimani anglatadi? Keyinchalik, biz kompyuter tizimlariga rasmlarni kiritish usulini ko'rib chiqamiz va taksonomiyalar kompyuter tizimiga tushunarli bo'ladigan asosiy tushunchalarni qanday tartiblashini ko'rib chiqamiz. Keyin biz yorliqlash masalasiga murojaat qilamiz: qanday qilib odamlar kompyuterlarga qaysi so'zlar berilgan tasvirga tegishli bo'lishini aytishadi? AI tizimlari odamlarni, shu jumladan irqi, jinsi, hissiyotlari, qobiliyati, shahvoniyligi va shaxsiyati bo'yicha tasniflash uchun ushbu yorliqlardan foydalanishida nima xavf ostida? Va nihoyat, biz kompyuterni ko'rish jamiyatimizga xizmat qiladigan maqsadlarga - kompyuterlarni ushbu imkoniyatlar bilan ta'minlash bo'yicha qarorlar, qarorlar va natijalarga murojaat qilamiz.
AI tizimlarini yaratish ma'lumotlar talab qiladi. Ob'ektni yoki yuzni tanib olishga mo'ljallangan mashina o'qitishning boshqariladigan tizimlari ko'plab diskret tasvirlardan tashkil topgan ma'lumotlar to'plamidagi juda ko'p ma'lumotlarga o'rgatilgan. Masalan, olma va apelsin rasmlari orasidagi farqni tan oladigan kompyuterni ko'rish tizimini yaratish uchun ishlab chiquvchi minglab olma va apelsin tasvirlari bilan neyron tarmog'ini to'plashi, belgilashi va o'rgatishi kerak. Dasturiy ta'minot tomonida, algoritmlar tasvirlarni statistik tekshirishni o'tkazadi va ikkita "sinf" o'rtasidagi farqni tanib olish uchun model ishlab chiqadi. Agar hammasi rejaga muvofiq bo'lsa, o'qitilgan model olma va apelsin tasvirlari orasidagi farqni ajrata oladi, u ilgari hech uchratmagan.
Demak, o'quv mashg'ulotlari zamonaviy mashinasozlik tizimlarining asosi hisoblanadi. Ular sun'iy sun'iy intellekt tizimlari dunyoni qanday tanib olishlari va talqin qilishlari uchun muhimdir. Ushbu ma'lumotlar to'plamlari sun'iy intellekt tizimlarining ishlashini tartibga soluvchi epistemik chegaralarni shakllantiradi va shu bilan sun'iy intellekt haqidagi ijtimoiy ahamiyatga ega savollarni tushunishning muhim qismidir.

Ammo kompyuterni ko'rish tizimlarida keng qo'llaniladigan o'quv rasmlarini ko'rib chiqsak, titroq va qiyshiq taxminlardan tashkil topgan toshni topamiz. Kompyuterni ko'rish sohasida kamdan-kam muhokama qilinadigan sabablarga ko'ra va MIT kabi muassasalar va Google va Facebook kabi kompaniyalar qilganiga qaramay, tasvirlarni talqin qilish loyihasi juda murakkab va aloqador ishdir. Tasvirlar juda sirpanchiq narsadir, ular ko'plab potentsial ma'nolarga ega, echib bo'lmaydigan savollar va qarama-qarshiliklarga ega. Falsafa, san'at tarixi va media nazariyasining barcha subfilmlari obrazlar va ma'nolar o'rtasidagi beqaror munosabatlarning barcha nuanslarini mazax qilishga bag'ishlangan.


Tasvirlar o'zlarini tasvirlamaydi. Bu rassomlar asrlar davomida o'rganib chiqqan xususiyatdir. Agnes Martin panjara o'xshash rasmni yaratadi va uni "Oq gul" deb nomlaydi, Magritte olma rasmini "Bu olma emas" deb yozadi. Qanday qilib etiketlanganligini ko'rganimizda, biz ushbu rasmlarni boshqacha ko'ramiz. Rasm, yorliq va referent o'rtasidagi elektron moslashuvchan va har xil turdagi ishlarni har qanday usulda tiklash mumkin. Bundan tashqari, tasvirning madaniy konteksti o'zgarganda, ushbu sxemalar vaqt o'tishi bilan o'zgarishi mumkin va kimning ko'rinishiga va qaerda joylashganligiga qarab turli xil narsalarni anglatishi mumkin. Tasvirlar izohlash va qayta talqin qilish uchun ochiq.

Bu ob'ektni tanib olish va tasniflash vazifalari Minksidan ko'ra murakkabroq bo'lganligi va shu paytgacha kelganlarning ko'pchiligi dastlab tasavvur qilganligining sababidir.

AI va u qo'llagan ma'lumotlar dunyoni ob'ektiv va ilmiy jihatdan tasniflaydigan umumiy miflarga qaramay, hamma joyda siyosat, mafkura, xurofotlar va tarixning barcha sub'ektiv narsalari mavjud. Biz eng ko'p ishlatiladigan mashg'ulotlar to'plamlarini o'rganganimizda, bu istisno emas, balki qoidalar ekanligi aniqlandi.
Garchi turli xil o'quv mashg'ulotlarining maqsadlari va arxitekturalarida sezilarli farqlar bo'lishi mumkin bo'lsa-da, ular umumiy xususiyatlarga ega. Tasviriy tizimlar uchun treninglar o'zlarining asosida turli xil belgilar bilan etiketlangan va toifalarga ajratilgan tasvirlar to'plamidan iborat. Shunday qilib, biz ularning umumiy arxitekturasini odatda uchta qatlamdan iborat deb ta'riflashimiz mumkin: umumiy taksonomiya (agar mavjud bo'lsa, sinflarning yig'indisi va ularning ierarxikali uyalanishi), alohida sinflar (rasmlar, masalan, "olma" , ") Va har birida alohida etiketlangan rasm (ya'ni, olma deb belgilangan individual rasm). Bizning bahsimiz shuki, ushbu o'quv majmuasi arxitekturasining har bir qatlami siyosat bilan singdirilgan.

Maykl Lyons, Miyuki Kamachi va Jiro Gyoba tomonidan 1998 yilda ishlab chiqilgan va ta'sirchan kompyuter tadqiqotlari va ishlanmalarida keng qo'llanilgan "Yapon ayollarining yuz ifodasi (JAFFE) ma'lumotlar bazasi" kabi ma'lumotlar to'plamini olaylik. Ma'lumotlar bazasida ettita asosiy hissiy holat bilan o'zaro bog'liqlik uchun mo'ljallangan yuzta mimikani yaratgan 10 yapon ayol modellarining fotosuratlari mavjud. (Ma'lumotlar to'plamining mo'ljallangan maqsadi - mashina o'qitish tizimlariga yangi olingan, yorliqsiz tasvirlar uchun ushbu his-tuyg'ularni aniqlash va belgilashga yordam berish). Bu erda yashirin va yuqori darajadagi taksonomiya "yapon ayollarining his-tuyg'ularini aks ettiruvchi mimika" ga o'xshaydi.


Agar biz taksonomiyadan bir darajaga tushsak, biz sinf darajasiga erishamiz. JAFFEda bu sinflar baxt, qayg'u, ajablanish, nafrat, qo'rquv, g'azab va betaraflikdir. Ushbu toifalar barcha shaxsiy rasmlar saqlanadigan tashkilot paqiriga aylanadi. Yuzni aniqlashda ishlatiladigan ma'lumotlar bazasida, yana bir misol, sinflar ma'lumotlar to'plamida yuzlari bo'lgan shaxslarning ismlariga mos kelishi mumkin. Ob'ektni aniqlash uchun mo'ljallangan ma'lumotlar to'plamida ushbu sinflar olma va apelsin kabi narsalarga mos keladi. Ular asosiy rasmlarni buyurtma qilish uchun ishlatiladigan aniq tushunchalardir.

O'quv majmuasi me'morchiligining eng donador darajasida individual etiketlangan tasvirni topamiz: bu emotsional holatni ko'rsatuvchi belgi bo'lgan yuz bo'lsin; ma'lum bir shaxs; yoki ko'plab misollar orasida ma'lum bir ob'ekt. JAFFE uchun bu erda siz jilmaygan, jilmaygan yoki hayratga tushgan ayolni topishingiz mumkin.

JAFFE to'plamida bir nechta yashirin tasdiqlar mavjud. Birinchidan, taksonomiyaning o'zi: bu "his-tuyg'ular" vizual tushunchalarning to'g'ri to'plamidir. Keyin yana bir qator qo'shimcha taxminlar mavjud: "his-tuyg'ular" doirasidagi tushunchalar odamlarning yuzlari fotosuratlariga (xususan yapon ayollariga) qo'llanilishi mumkin; oltita hissiyot va ortiqcha neytral holat mavjudligini; insonning yuz ifodasi va uning haqiqiy hissiy holati o'rtasida qat'iy bog'liqlik borligi; yuz va tuyg'u o'rtasidagi bu munosabatlar izchil, o'lchanadigan va fotosuratlardagi ayollar bo'ylab bir xil bo'lganligi.
Sinf darajasida biz "yuzni" neytral "ifodalash degan narsa bor" va "oltita hissiy holat quvonchli, qayg'uli, g'azablangan, jirkanch, qo'rqinchli, hayratlanarli" kabi taxminlarni topamiz. Belgilangan tasvir darajasida, masalan, bu g'azablangan ifodani taqlid qilgan ayol tasviri emas, balki "ushbu fotosuratda yuzi" g'azablangan "ayol tasvirlangan" kabi boshqa yashirin taxminlar mavjud. . Bularning barchasi, albatta, "bajarilgan" iboralar - hech qanday ichki holatga tegishli emas, ammo laboratoriya sharoitida harakat qilishgan. Har bir darajadagi har qanday yashirin da'volarning har biri, eng yaxshisi, savolga ochiq, ba'zilari esa qattiq tortishmoqda. [9]

JAFFE mashg'ulotlari zamonaviy o'quv to'plamlariga qaraganda ancha sodda. U ijtimoiy tarmoqlar paydo bo'lishidan oldin, ishlab chiquvchilar Internetdagi rasmlarni miqyosda qirib tashlashdan oldin yaratilgan va Amazon Mechanical Turk singari qismlarga bo'linadigan onlayn mehnat platformalari tadqiqotchilar va korporatsiyalarga juda katta miqdordagi fotosuratlarni etiketlash vazifasini bajarishga imkon bergan. O'quv mashg'ulotlari ko'lami va ko'lami oshgani sayin, ular tarkib topgan murakkabliklar, mafkuralar, semiologiyalar va siyosat ham o'sib bordi. Buni ishda ko'rish uchun barchaning eng ramziy mashg'ulotlari to'plamiga murojaat qilaylik, ImageNet.


Kanonik ta'lim to'plami: ImageNet
Hozirgi kunda AI tarixidagi eng muhim mashg'ulotlardan biri bu ImageNet bo'lib, u o'zining o'n yilligini nishonlamoqda. Ilk bor 2009 yilda tadqiqot plakati sifatida taqdim etilgan ImageNet g'ayrioddiy ko'lam va ambitsiyalar to'plamidir. O'zining ijodkori Stenford professori Fey-Fey Lining so'zlari bilan aytganda, ImageNet-ning g'oyasi "butun ob'ektlar dunyosini xaritada ko'rsatish" edi. Bir necha yillik rivojlanish davomida ImageNet ulkan o'sdi: rivojlanish guruhi to'plamni qirib tashladi. Internetdan olingan millionlab rasmlar va qisqacha Amazon-ning Mechanical Turk-ning dunyodagi eng yirik akademik foydalanuvchisi bo'lib, qismlarga bo'linadigan ishchilar armiyasidan foydalanib, daqiqada o'rtacha 50 ta rasmni minglab toifalarga ajratdi. Tugatgandan so'ng, ImageNet 20 mingdan ortiq toifaga ajratilgan 14 milliondan ortiq etiketlangan rasmlardan iborat edi. O'n yil davomida bu mashina o'rganish uchun ob'ektlarni tanib olishning ulkan ko'lami va bu soha uchun juda muhim mezondir.


ImageNet labirint tuzilmasida harakatlanish Borxesning cheksiz kutubxonasida sayr qilishga o'xshaydi. U juda keng va har xil qiziqishlarga to'la. Olma, olma shira, olma sariyog ', olma köfte, olma geraniums, olma jeli, olma sharbati, olma qurtlari, olma zang, olma daraxtlari, olma aylanmasi, olma aravachalari, applejack va olma. Bu erda issiq chiziqlar, issiq ishtonlar, issiq plitalar, qaynoq idishlar, qaynoq tayoqchalar, qaynoq sous, buloqlar, issiq kichkintoylar, issiq suv havzalari, havo sharlari, issiq fud sousi va issiq suv idishlari.

ImageNet tezda kompyuterni ko'rishni o'rganish uchun muhim boylikka aylandi. Bu har yili o'tkaziladigan tanlov uchun asos bo'lib, dunyodagi laboratoriyalar o'zlarining algoritmlarini o'quv mashg'ulotlariga qarshi qo'yib, qaysi biri rasmlarning pastki qismini aniqroq belgilash mumkinligini bilib, bir-biridan ustun turishga harakat qilishadi. 2012 yilda Toronto universiteti jamoasi konvolyutsion neyron tarmog'idan foydalanib, eng yuqori sovrinni qo'lga kiritdi va ushbu texnikaga yangi e'tiborni qaratdi. Ushbu moment zamonaviy sun'iy intellektning rivojlanishidagi burilish davri hisoblanadi. ImageNet tanlovining yakuniy yili 2017 yil bo'lib, cheklangan kichik qismdagi ob'ektlarni tasniflash aniqligi 71,8% dan 97,3% gacha ko'tarildi. Ushbu pastki qismga "Shaxs" toifasi kiritilmagan edi, chunki bu tez orada aniq bo'ladi.


ImageNet-ning asosiy tuzilishi WordNet-ning semantik tuzilishiga asoslangan bo'lib, 1980-yillarda Prinston universitetida ishlab chiqilgan so'z tasniflari ma'lumotlar bazasi. Taksonomiya kognitiv sinonimlar yoki "sinset" ning ichki tuzilishiga ko'ra tuzilgan. Har bir "sinset" alohida kontseptsiyani ifodalaydi, sinonimlar birlashtirilib (masalan, "avto" va "mashina" bir xil to'plamga tegishli deb qaraladi). Keyinchalik, ushbu sinetslar umumiy tushunchalardan aniqroq kontseptsiyalarga o'tib, ichki ierarxiyada tashkil etiladi. Masalan, "stul" tushunchasi artefakt> mebel> mebel> o'rindiq> stul sifatida joylashtirilgan. Tasniflash tizimi kutubxonalarda tobora aniq toifalarga kitoblarni buyurtma qilish uchun foydalaniladigan tizimga o'xshashdir.

WordNet butun ingliz tilini tartibga solishga harakat qilar ekan, [13] ImageNet faqat ismlar bilan cheklangan (bu ismlar rasmlar tasvirlash mumkin bo'lgan narsalar degan fikr). ImageNet iyerarxiyasida har bir kontseptsiya yuqori darajadagi to'qqiz toifadan biri bo'yicha tashkil etilgan: o'simliklar, geologik shakllanish, tabiiy ob'ekt, sport, artefakt, qo'ziqorin, odam, hayvon va boshqa narsalar. Ularning ostida qo'shimcha joylashtirilgan sinflarning qatlamlari mavjud.


Axborot fanlari va ilmiy-texnikaviy tadqiqotlar sohalari uzoq vaqtdan beri ko'rsatib kelganidek, barcha taksonomiyalar yoki tasniflash tizimlari siyosiydir. [14] Masalan, ImageNet-da (WordNet-dan meros bo'lib) "inson tanasi" toifasi Natural Object> Body> Inson tanasi bo'limiga kiradi. Uning pastki toifalariga "erkak tanasi" kiradi; "Shaxs"; "Voyaga etmaganlar tanasi"; "Kattalar tanasi"; va "ayol tanasi". "Voyaga etgan tanasi" toifasida "kattalar ayol tanasi" va "kattalar erkak tanasi" subklasslari mavjud. Biz bu erda yashirin taxminni topamiz: faqat "erkak" va "ayol" tanalar "tabiiy". "Hermaphrodite" atamasi uchun "Psevdohermaphrodite" va "Switch Hitter" toifalari bilan bir qatorda Person> Sensualist> Biseksual> filialida joylashgan g'alati (va tajovuzkor) ImageNet toifasi mavjud. [15] ImageNet tasnifi ierarxiyasi eskisini eslaydi Kongress kutubxonasi Amerika kutubxonalari assotsiatsiyasining geylarni ozod qilish bo'yicha maxsus guruhi tomonidan "Anormal jinsiy aloqalar, shu jumladan jinsiy jinoyatlar" turkumidagi LGBTQ mavzusidagi kitoblarning tasnifi, nihoyat 1972 yilda davom etgan kampaniyadan so'ng Kongress kutubxonasini o'zgartirishga ishontirdi. [16]

Agar biz taksonomiyadan bir darajaga tushib, ImageNet iyerarxiyasidagi 21 841 toifaga o'tsak, biz yana bir turdagi siyosat paydo bo'lishini ko'ramiz


Kategoriyalarni yaratishga kirishadigan sehrgarlikning bir turi bor. Kategoriya yaratish yoki narsalarni nomlash deyarli cheksiz murakkab olamni alohida hodisalarga ajratish demakdir. Farqlanmagan massaga tartib o'rnatish, hodisalarni toifaga kiritish, ya'ni biror narsani nomlash - bu o'z navbatida ushbu toifaning mavjudligini tasdiqlash vositasidir.

ImageNet-da, "olma" yoki "olma sariyog '" kabi ism toifalari oqilona tortishuvsiz ko'rinishi mumkin, ammo hamma ismlar teng ravishda yaratilmagan. Tilshunos Jorj Lakoffdan g'oya olish uchun "olma" tushunchasi "yorug'lik" tushunchasiga qaraganda ko'proq ismga ega, bu esa o'z navbatida "sog'liq" kabi tushunchalarga qaraganda ko'proq ismga ega. [17] Ismlar turli joylarni egallaydi. konkretdan mavhumgacha va tavsiflovchidan hukmgacha bo'lgan eksa. Ushbu gradiyentlar ImageNet mantig'ida o'chirilgan. Hamma narsa tekislangan va stenddagi taksidermiya kapalaklari kabi yorliqqa mahkamlangan. Natijalar muammoli, mantiqsiz va shafqatsiz bo'lishi mumkin, ayniqsa odamlarga teglar haqida gap ketganda.


ImageNet-da yuqori darajadagi "Shaxs" toifasidagi 2833 ta kichik toifalar mavjud. Eng ko'p bog'langan rasmlarga ega bo'lgan kichik toifaga "gal" (1664 ta rasm bilan), so'ngra "bobo" (1662), "dad" (1643) va bosh ijrochi direktor (1614) kiradi. Aholi zich joylashgan ushbu toifalar bilan biz allaqachon dunyoqarashning tasavvurlarini ko'rishni boshlashimiz mumkin. ImageNet odamlarni irq, millat, kasb, iqtisodiy holat, xulq-atvor, fe'l-atvor va hattoki axloq kabi ko'plab turlarga ajratadi. Irqiy va milliy o'ziga xoslik uchun toifalar mavjud: Alyaskaning tub aholisi, Angliya-Amerika, Qora, Afrikalik, Qora ayol, Markaziy Amerika, Evroosiyo, Germaniya, Yaponiya, Lapp, Lotin Amerikasi, Meksikalik-Amerika, Nikaragua, Nigeriya, Pokiston, Papuan. , Janubiy Amerika hindulari, amerikalik ispan, tekxan, o'zbek, oq, yaman va zulular. Boshqa odamlar o'zlarining martabalari yoki sevimli mashg'ulotlari bilan belgilanadi: Boy Skautlar, cheerleaders, kognitiv nevrologlar, sartaroshlar, razvedka tahlilchilari, mifologlar, chakana sotuvchilar, nafaqaxo'rlar va boshqalar.
Biz ImageNet-ning Person toifalari tubiga borganimizda, uning tarkibidagi odamlarning tasniflari keskin va qorong'i burilishga ega. Yomon odam, qo'ng'iroq qiluvchi qiz, giyohvand, shkaf malikasi, mahkum, aqldan ozgan, muvaffaqiyatsizlikka uchragan, flop, fohisha, munofiq, jezebel, kleptomaniak, yutqazgan, melankolik, nomuvofiq, buzuq, Prima Donna, shizofrenik, ikkinchi rater, Spinster uchun toifalar mavjud. , Streetwalker, Stud, Tosser, malakasiz odam, Wanton, Waverer va Wimp. Ko'plab irqchi laqablar va misogynistik atamalar mavjud.
Albatta, ImageNet odatda ob'ektlarni tanib olish uchun ishlatilgan - shuning uchun Shaxslar toifasi texnik konferentsiyalarda kamdan-kam muhokama qilingan va jamoatchilik tomonidan katta e'tiborga sazovor bo'lmagan. Biroq, ko'pincha haqoratli yorliqlar bilan belgilanadigan, haqiqiy odamlar tasvirlarining ushbu murakkab arxitekturasi o'n yil davomida Internetda ommaga taqdim etildi. U odamlarni tasniflashning murakkabliklari va xavfliligi va "trumpeter" yoki "tennis player" singari muammosiz yorliqlar orasidagi "spastik", "mulatto" yoki "redneck" kabi tushunchalar orasidagi sirpanish spektrining kuchli va muhim namunasini taqdim etadi. Har qanday ma'lum bir toifadagi taxmin qilingan betarafligidan qat'i nazar, tasvirlarni tanlash ma'nosini jinsi, irqiy, qobiliyatli va yoshi jihatidan o'zgartiradi. ImageNet - bu ob'ekt darsi, agar xohlasangiz, odamlar ob'ektlar toifasiga kirganda nima bo'ladi. Va bu amaliyot so'nggi yillarda ko'proq keng tarqalgan bo'lib, ko'pincha katta sun'iy sun'iy intellekt kompaniyalari ichida, bu erda rasmlarning qanday buyurtma qilinishini va tasniflanishini begona odamlar ko'rishlari mumkin emas.
Va nihoyat, ImageNet-ning Person sinfidagi minglab tasvirlar qaerdan olinganligi masalasi mavjud. Google kabi rasm qidirish tizimlaridan rasmlarni ommaviy ravishda yig'ish orqali ImageNet yaratuvchilari odamlarning selfilari va ta'til fotosuratlarini o'zlari bilmasdan egallab olishdi, so'ngra ularni butun maydonning asosiy ma'lumotlari sifatida belgilashdi va qayta paketlashdi. [18] Belgilangan tasvirlarning asosiy qatlamiga nazar tashlaganimizda, juda shubhali semiotik taxminlar, XIX asr frenologiyasining aks-sadolari va odamlarning rasmlarini ularning roziligi yoki ishtirokisiz tasniflashning vakili zarari bor.
ImageNet ruleti: Tasniflash bo'yicha tajriba

ImageNet ma'lumotlar to'plami odatda ob'ektni aniqlash uchun ishlatiladi. Ammo bizning arxeologik usulimizning bir qismi sifatida biz sun'iy intellekt modelini faqat "shaxs" toifalari bo'yicha o'qitsak nima bo'lishini qiziqtirgan edik. Ushbu tajribaning natijasi ImageNet Ruletka.

ImageNet Ruletka "shaxslar" toifalarida tasvirlar va yorliqlarda o'qitilgan (hozirda "texnik xizmat ko'rsatishga yaroqsiz") ochiq manbali Caffe chuqur o'rganish tizimidan foydalanadi (UC Berkeleyda ishlab chiqarilgan). To'g'ri ismlar olib tashlandi.

Foydalanuvchi rasmni yuklaganida, ilova avval yuzlarni aniqlash uchun har qanday yuzni aniqlash uchun ishlaydi. Agar topilsa, ularni Caffe modeliga tasniflash uchun yuboradi. So'ngra ilova aniqlangan yuzni va tasniflagichning rasmga qo'ygan yorlig'ini ko'rsatuvchi chegara qutisi bilan asl rasmlarni qaytaradi. Agar yuzlar aniqlanmasa, dastur butun sahnani Caffe modeliga yuboradi va yuqori chap burchakda yorlig'i bo'lgan rasmni qaytaradi.


Biz ko'rsatganimizdek, ImageNet bir qator muammoli, tajovuzkor va g'alati toifalarni o'z ichiga oladi. Shunday qilib, ImageNet ruletka natijalari ko'pincha ushbu toifalarga tegishli. Bu dizayn bo'yicha: biz muammoli o'quv ma'lumotlari yordamida texnik tizimlar o'qitilganda nima bo'lishini yoritmoqchimiz. Odamlarning sun'iy intellekt tasnifi kamdan-kam tasniflanayotgan odamlarga ko'rinib turadi. ImageNet Ruletka ushbu jarayonni va ishlarning qanday qilib noto'g'riligini ko'rsatib beradi.
Belgilangan rasmlar
Tasvirlarda potentsial ma'nolar, echib bo'lmaydigan savollar va qarama-qarshiliklar mavjud. Ushbu noaniqliklarni hal qilishga urinishda ImageNet yorliqlari ko'pincha rasmlarni o'lik muddatdagi oddiyliklarga siqadi va soddalashtiradi. Fotosuratlarning birida qora tanli kichkintoyning yirtiq va iflos kiyimlarini kiyib olgani va kuygan qo'g'irchoqni ushlab turgani tasvirlangan. Bolaning og'zi ochiq. Rasm kontekstdan butunlay mahrum. Bu bola kim? Ular qayerda? Fotosurat oddiygina "o'yinchoq" deb etiketlanadi.

Ammo ba'zi yorliqlar shunchaki bema'ni. Ayol samolyot kreslosida uxlaydi, o'ng qo'li homilador qorni atrofida o'ralgan. Rasm "snob" deb nomlangan. Fotosuratga tushirilgan rasmda jilmaygan Barak Obama natsistlar formasini kiyib, qo'lini ko'targan va fashistlarning bayrog'ini ushlab turganini aks ettiradi. U "Bolshevik" deb nomlangan.


O'quv majmuasining tasvir qatlamida, hamma joyda bo'lgani kabi, biz taxminlar, siyosat va dunyoqarashni topamiz. Masalan, ImageNet-ga ko'ra, Sigourney Weaver - "germafrodit", somon shlyapa kiygan yigit "uloqtiruvchi", plyajdagi sochiqda yotgan yosh ayol esa "kleptomaniak". Ammo ImageNet-ning dunyoqarashi rasmlar va yorliqlarni g'alati yoki kamsituvchi birlashishi bilan chegaralanmaydi.

Rasmlar va tushunchalar o'rtasidagi bog'liqlik haqidagi boshqa taxminlar fiziognomiyani, insonning muhim xarakteriga oid narsalarni tanalari va yuzlarining xususiyatlarini kuzatish orqali olish mumkinligi haqidagi psevdosmik fikrni esga soladi. ImageNet buni kimdir "qarzdor", "snob", "swinger" yoki "slav" bo'ladimi-yo'qligini ularning fotosuratini tekshirish orqali aniqlash mumkin deb taxmin qiladi. ImageNet-ning g'alati metafizikasida "dotsent" va "dotsent" uchun alohida rasm toifalari mavjud - garchi kimdir lavozimga ko'tarilsa, ularning biometrik imzosi darajadagi o'zgarishni aks ettiradi.

Albatta, bunday taxminlar o'zlarining qorong'u tarixlari va xizmatchilar siyosatiga ega.
1839 yilda matematik François Arago fotosuratlar orqali "ob'ektlar o'z shakllarini matematik tarzda saqlaydi", deb da'vo qilmoqda. [19] XIX asrdagi imperializm va ijtimoiy darvinizm sharoitida joylashtirilgan fotosurat jonlanishga yordam berdi va "ilmiy" qoplamani taqdim etdi. frenologiya, fiziognomiya va evgenikaning turli shakllari. [20] Frensis Galton va Chezare Lombroso kabi fiziognomistlar jinoyatchilarning kompozitsion obrazlarini yaratdilar, fohishalarning oyoqlarini o'rganishdi, bosh suyaklarini o'lchashdi va etiketli tasvirlar va o'lchovlarning sinchkovlik bilan arxivlarini to'plashdi, bularning barchasi tasnifdagi vizual signallarni aniqlash uchun "mexanik" jarayonlardan foydalanish uchun. irq, jinoyatchilik va burjua ideallaridan chetlanish. Bu deviant yoki jinoiy xatti-harakatlar sifatida ko'rilgan narsalarni ushlash va patologiyalashtirish va bunday xatti-harakatlarni dunyoda kuzatilishi uchun qilingan.

Ko'rib turganimizdek, fiziognomiyaning asosiy taxminlari nafaqat zamonaviy mashg'ulotlar to'plamlari bilan qaytishga erishdi, balki haqiqatan ham bir qator o'quv mashg'ulotlari kraniometriyaning zamonaviy versiyalarini o'tkazish uchun algoritmlar va yuzning diqqatga sazovor joylarini keyingi kunning kaliperlari sifatida ishlatishga mo'ljallangan.

Masalan, UTKFace ma'lumotlar to'plami (Noksvilldagi Tennessi universiteti guruhi tomonidan ishlab chiqarilgan) yoshi, jinsi va irqi bo'yicha izohlari bo'lgan yuzlarning 20000 dan ortiq rasmlaridan iborat. avtomatlashtirilgan yuzni aniqlash, yoshni baholash va yoshga qarab r ivojlanish kabi vazifalar. [21]


Har bir tasvir uchun izohlarda har bir inson uchun taxminiy yoshi, noldan 116 gacha bo'lgan yillar ko'rsatilgan. Jins - bu ikkilik tanlov: erkak uchun nol yoki ayol uchun bitta. Ikkinchidan, irq noldan to'rtgacha tasniflanadi va odamlarni beshta sinfdan biriga joylashtiradi: oq, qora, osiyo, hind yoki "boshqalar".

Bu erdagi siyosat ular tashvishga solayotgani kabi aniq. Kategoriya darajasida tadqiqotchilarning jinsi kontseptsiyasi oddiy ikkilik tuzilish bo'lib, "erkak" va "ayol" yagona alternativaga ega. Rasm yorlig'i darajasida fotosurat orqali kimningdir jinsini aniqlash mumkin degan taxmin mavjud.

UTKFace ma'lumotlar to'plamida ishlatiladigan tasniflash sxemasi
Irqning klassifikatsion sxemasi yigirmanchi asrning juda ko'p muammoli irqiy tasniflarini esga soladi. Masalan, Janubiy Afrikadagi aparteid rejimi butun aholini to'rt toifaga ajratishga harakat qildi: qora, oq, rangli yoki hind. [22] 1970 yil atrofida Janubiy Afrika hukumati IBM tomonidan yaratilgan markazlashtirilgan boshqariladigan ma'lumotlar bazasi bilan bog'langan "Hayot kitobi" deb nomlangan birlashtirilgan "shaxsni tasdiqlovchi daftarchani" yaratdi. Ushbu tasniflar "tashqi ko'rinish va umumiy qabul qilish yoki obro'si" shubhali va o'zgaruvchan mezonlarga asoslangan bo'lib, ko'p odamlar ba'zida bir necha marta qayta tasniflangan. [23] Janubiy Afrikadagi irqiy tasniflash tizimi qasddan amerikaliklarning "bir tomchi" qoidasidan juda farq qilar edi, chunki afrikalik nasldan naslga o'tgan bir ajdod ham kimnidir Qora qildi, chunki deyarli barcha oq tanli janubiy afrikaliklar qora tanli afrikalik nasabga ega edilar. [24 ] Eng asosiysi, ushbu tasniflash tizimlari odamlarga juda katta zarar etkazgan va sof "irq" belgisining qo'lga olinmaydigan klassifikatori doimo bahsda bo'lgan. Biroq, "ko'proq xilma-xil" sun'iy intellekt bo'yicha o'quv mashg'ulotlarini ishlab chiqarish orqali muammolarni yaxshilashga intilish o'ziga xos asoratlarni keltirib chiqaradi

IBM’ning yuzlardagi xilma-xilligi

IBM kompaniyasining "Yuzlaridagi xilma-xillik" ma'lumotlar to'plami kompaniyaning yuzni tanib olish dasturi ko'pincha shunchaki qorong'i odamlarning yuzlarini tanimasligini ko'rsatgan tanqidchilarga javob sifatida yaratilgan. [25] IBM ularning yuzini taniydigan ma'lumotlar to'plamlarini yanada "vakili" qilish uchun ularni yaxshilashga va'da berib, natijada "Yuzlardagi xilma-xillik" (DiF) ma'lumotlar to'plamini nashr etdi. [26] "Yuzni tan olishda adolat va aniqlikni ta'minlash uchun hisoblashning amaliy asosi" sifatida qurilgan DiF Yahoo! dan tortib olingan millionga yaqin odamlarning rasmlaridan iborat. Flickr Creative Commons ma'lumotlar to'plami, terining tonusi, yuz tuzilishi, yoshi va jinsi toifalari o'rtasida statistik tenglikni ta'minlash uchun maxsus yig'ilgan. [27]

Ma'lumotlar to'plamining o'zi Flickr kabi saytlarga rasmlarni yuklagan bexabar odamlarning yuz minglab rasmlarini yig'ish amaliyotini davom ettirdi. [28] Ammo ma'lumotlar to'plami boshqa yuz tasvirlari to'plamlarida ilgari ko'rilmagan noyob toifalar to'plamini o'z ichiga oladi. IBM DiF jamoasi adolatli va aniqlikni ta'minlaydigan ma'lumotlar to'plamini yaratishda haqiqatan ham yoshi, jinsi va terining rangi etarli emasligini so'raydi va bundan ham ko'proq tasniflash kerak degan xulosaga keladi. Shunday qilib, ular haqiqatan ham g'alati hududga ko'chib o'tishadi: yuzning to'liq rasmini yaratish uchun yuzning simmetriyasi va bosh suyagi shakllari. Tadqiqotchilarning ta'kidlashicha, kraniofasiyal xususiyatlardan foydalanish oqilona, ​​chunki u nafaqat odamning jinsi, yoshi va terisi rangidan ko'ra, insonning yuzi to'g'risida juda donador ma'lumotlarni to'playdi. Ma'lumotlar to'plamiga ilova qilingan qog'ozda terining rangi irqning zaif bashoratchisi ekanligini ko'rsatish uchun avval qilingan ishlarni alohida ta'kidlaydi, ammo bu nima uchun bosh suyagi shakllariga o'tish maqsadga muvofiq degan savol tug'diradi.

Kraniometriya XIX asr davomida biologik determinizmning etakchi uslubiy yondoshuvi edi. Stiven Jey Gould o'zining "Insonning noto'g'ri o'lchovi" kitobida ko'rsatganidek, bosh suyagi kattaligi XIX-XX asr psevdosistlari tomonidan oq tanlilarning qora tanlilarga nisbatan ustunligini talab qilishning soxta usuli sifatida ishlatilgan va turli xil bosh suyagi shakllari va vazni aniqlangan. odamlar aql-zakovati - har doim irqiy yo'nalish bo'yicha. [29]

Ko'proq turli xil o'quv majmualarini yaratish bo'yicha kompaniyalarning sa'y-harakatlari ko'pincha "adolat" va "tarafkashlikni yumshatish" tilida olib borilayotgan bo'lsa-da, keng bozorlarda yanada samarali ishlaydigan vositalarni ishlab chiqarish uchun kuchli biznes talablari mavjud. Biroq, bu erda ham odamlarni toifalarga ajratish va tasniflashning texnik jarayoni siyosiy harakat sifatida ko'rsatilgan. Masalan, ma'lumotlar to'plamida "adolatli" tarqatishga qanday erishiladi?

IBM "xilma-xillik" va "tenglik" miqdorini aniqlashda matematik yondashuvdan foydalanishga qaror qildi, shu bilan har bir xususiyat bo'yicha ma'lumotlar to'plami bo'yicha izchil tenglik o'lchovi mavjud. Ma'lumotlar to'plamida yosh va jinsga oid sub'ektiv izohlar mavjud bo'lib, ular ImageNet tomonidan qo'llaniladigan usullarga o'xshash har bir rasm uchun uchta mustaqil Amazon Turk ishchilari yordamida tuzilgan. [30] Shunday qilib, odamlarning jinsi va yoshi Internetda qirib tashlangan fotosuratda ko'rsatilgan narsalar haqida uchta klik ishchilarining taxminlari asosida "bashorat qilinmoqda". U xuddi shunday ilmiy darajaga ega bo'lgan "O'z vazningizni taxmin qiling!" Karnavalining dastlabki o'yinlariga qaytadi.

Oxir oqibat, ushbu chuqur uslubiy tashvishlardan tashqari, xilma-xillik tushunchasi va siyosiy tarixi o'z mazmunidan voz kechmoqda va shunchaki kengaytirilgan biologik fenotipga murojaat qilish uchun qoldirilmoqda. Ushbu kontekstdagi xilma-xillik shunchaki bosh suyagi shakllari va yuz simmetriyalarining keng doirasini anglatadi. Kompyuterni ko'rishni o'rganuvchilar uchun bu "adolat matematikasi" kabi ko'rinishi mumkin, ammo bu shunchaki kuzatuv tizimlari samaradorligini oshirishga xizmat qiladi. Odamlarni tasniflash usullarini kengaytirishga qaratilgan ushbu barcha urinishlardan so'ng ham, "Yuzlardagi xilma-xillik" to'plami hali ham jins uchun ikkilik tasnifga asoslanadi: odamlar faqat erkak yoki ayol deb belgilanishi mumkin. Turli toifalar o'rtasida tenglikka erishish xilma-xillik yoki adolatga erishish bilan bir xil emas va IBM ma'lumotlarini yaratish va tahlil qilish tor dunyoqarash doirasida zararli tasniflar to'plamini davom ettiradi.

O'quv to'plamlarining epistemikasi

Vizual sun'iy intellekt tizimiga bog'laydigan taxminlar qanday? Birinchidan, treninglar to'plamining asosiy nazariy paradigmasi birinchi navbatda tushunchalar - "makkajo'xori", "jins", "hissiyotlar" yoki "yutqazuvchilar" mavjudligini va bu tushunchalar qat'iy, universal va ba'zi bir narsalarga ega ekanligini taxmin qiladi. transandantal topraklama va ichki muvofiqlik. Ikkinchidan, u tasvirlar va tushunchalar, tashqi ko'rinish va mohiyat o'rtasidagi qat'iy va universal yozishmalarni o'z ichiga oladi. Bundan tashqari, bu rasmlar, havolalar va yorliqlar o'rtasida murakkab, o'z-o'zidan ravshan va o'lchanadigan aloqalarni nazarda tutadi. Boshqacha qilib aytganda, u har xil kontseptsiyalarda - "makkajo'xori" yoki "kleptomaniak" larda ularning har bir nusxasini birlashtiradigan qandaydir mohiyatga ega va asosiy mohiyat o'zini ingl. Bundan tashqari, nazariya shuni ko'rsatadiki, vizual mohiyat statistik usullardan foydalangan holda etiketli tasvirlar to'plamida rasmiy naqshlarni izlaydi. Nazariyada "yutqazganlar" deb nomlangan odamlarning tasvirlari, masalan, "fermerlar", "assistent-professorlar" yoki shuning uchun olma bilan ajralib turadigan ba'zi bir ingl. Va nihoyat, ushbu yondashuv barcha aniq ismlar teng ravishda yaratilganligini va ko'plab mavhum ismlar ham o'zlarini aniq va vizual tarzda (ya'ni "baxt" yoki "antisemitizm") ifoda etishini taxmin qiladi
Zamonaviy kompyuterni ko'rish va sun'iy intellektda hamma joyda mavjud bo'lgan etiketlangan tasvirlarning o'quv to'plamlari tasvirlar, yorliqlar, toifalarga ajratish va tasvirlash tabiati haqidagi asossiz va beqaror epistemologik va metafizik taxminlar asosida qurilgan. Bundan tashqari, ushbu epistemologik va metafizik taxminlar odamlarni zulm va irq ilmi vositasi sifatida ingl.

Ma'lumotlar to'plamlari algoritmlarni oziqlantirish uchun oddiy xomashyo emas, balki siyosiy aralashuvlardir. Shunday qilib, sun'iy sun'iy intellekt tizimidagi "tarafkashlik" atrofidagi munozaralarning aksariyati belgini o'tkazib yuboradi: o'quv ma'lumotlariga asoslanadigan "neytral", "tabiiy" yoki "siyosiy bo'lmagan" nuqta yo'q. Demografik holatni o'zgartirish, haqoratli so'zlarni o'chirish yoki terining rangi bilan teng vakolat izlash orqali oson texnik "tuzatish" mavjud emas. Tasvirlarni yig'ish, ularni toifalarga ajratish va ularni etiketkalashga qaratilgan barcha harakatlar siyosatning bir shakli bo'lib, u tasvirlar nimani anglatishini va ushbu vakolatxonalar qanday ijtimoiy va siyosiy ishlarni bajarishini kim hal qilishi kerakligi to'g'risida savollar bilan to'ldiriladi.

Yo'qolgan shaxslar

2019 yil yanvar oyida ImageNet-ning "Shaxs" toifasidagi tasvirlar yo'qolib boshladi. To'satdan, 1,2 million fotosuratga endi Stenford universiteti serverlarida kirish imkoni bo'lmadi. Cheerleaderlar, akvatorlar, payvandchilar, qurbongoh o'g'illari, nafaqaxo'rlar va uchuvchilarning suratlari o'tib ketdi. "Alkogolizm" sifatida tavsiflangan pivo ichgan odamning surati, "bikir" deb nomlangan ayol va "yutqazuvchi" deb tasniflangan yosh bolaning rasmlari ham g'oyib bo'ldi. Sandviç yeyayotgan odamning surati ("xudbin odam" deb nomlangan) xuddi shunday taqdirga duch keldi. Ushbu rasmlarni qidirganingizda, ImageNet veb-sayti unga texnik xizmat ko'rsatilayotganligi to'g'risida javob beradi va faqatgina ImageNet tanlovida ishlatiladigan toifalar qidiruv natijalariga kiritilgan.

Internetga qaytgandan so'ng, saytdagi qidirish funktsiyasi o'zgartirildi, shunda u ImageNet-ning yillik kompyuter-ko'rish tanloviga kiritilgan toifalar uchun natijalarni qaytaradi. Ushbu yozuvdan boshlab, "Shaxs" toifasini ma'lumotlar to'plamining onlayn interfeysida ko'rib chiqish mumkin, ammo rasmlar yuklanmayapti. Asl rasmlarning URL manzillarini hali ham yuklab olish mumkin. [31]
Keyingi bir necha oy ichida kompyuterni ko'rish va AI tadqiqotlarida ishlatiladigan boshqa rasm to'plamlari ham yo'qolib keta boshladi. Adam Xarvi va Jyul LaPlas tomonidan nashr etilgan tadqiqotlarga javoban Dyuk universiteti darslarga qatnashayotgan talabalarning kuzatuv kameralari tasvirlari (Dyuk Multi-Target, Multi-Camera [MTMC] ma'lumotlar to'plami deb nomlangan) ning katta foto omborini tushirdi. Ma'lumotlar to'plami mualliflari jamoat makonidagi odamlarning rasmlarini yig'ish va ularning ma'lumotlar to'plamini hammaga ochiq qilish orqali Institutsional ko'rib chiqish kengashining tasdiqlash shartlarini buzganligi aniqlandi. [33]

Kuzatuv videotasvirlarida yaratilgan shunga o'xshash ma'lumotlar to'plamlari Kolorado universiteti Kolorado-Springs universiteti serverlaridan va Stenford universitetidan g'oyib bo'ldi, bu erda San-Frantsiskoning taniqli Brainwash kafesiga o'rnatilgan veb-kameradan olingan yuzlar to'plami "omonatchining iltimosiga binoan o'chirildi. . ”[34]


Iyun oyining boshiga kelib, Microsoft bu yo'lni davom ettirdi va "MS-CELEB" to'plamini olib tashladi va 2016 yilda Internetdan qirib tashlangan 100000 kishidan taxminan 10 million fotosuratni to'pladi. nafaqat taniqli aktyorlar va siyosatchilar, balki jurnalistlar, faollar, siyosatchilar, akademiklar va rassomlar ham edilar. [35] Ajablanarlisi shundaki, to'plamga hech qanday roziligisiz kiritilgan bir nechta odam o'z ishini tanqid qilish va yuzni tanib olish bilan tanilgan, shu jumladan kinorejissyor Laura Poitras, raqamli huquq faoli Jillian York, tanqidchi Evgeniy Morozov va kuzatuv kapitalizmi muallifi Shoshana Zuboff . Harvi va LaPlas asarlari asosida Financial Times gazetasida o'tkazilgan tergov nashr etilgandan so'ng, to'plam yo'qoldi. [36] Microsoft vakili shunchaki "tadqiqot muammosi tugagani uchun" olib tashlanganini aytdi. [37]

Bir tomondan, ushbu muammoli ma'lumotlar to'plamini Internetdan olib tashlash g'alaba kabi ko'rinishi mumkin. Eng aniq maxfiylik va axloqiy buzilishlar endi ularga kirish imkoni yo'qligi bilan hal qilinadi. Biroq, ularni oflayn rejimga olib qo'yish ularning dunyodagi ishlarini to'xtatmaydi: ushbu o'quv to'plamlari son-sanoqsiz marta yuklab olingan va ko'plab ishlab chiqarish sun'iy intellekt tizimlari va ilmiy ishlarga kirishgan. Ularni butunlay yo'q qilish bilan nafaqat sun'iy intellekt tarixining muhim qismi yo'qoladi, balki tadqiqotchilar taxminlar, yorliqlar va tasnifiy yondashuvlar yangi tizimlarda qanday takrorlanganligini yoki bu erda namoyish etilgan egiluvchanlik va g'ayritabiiylikni isbotlay olmaydilar. ishlaydigan tizimlar. Yuzni tanib olish va hissiyotlarni aniqlash bo'yicha sun'iy intellekt tizimlari yollash, ta'lim va sog'liqni saqlash tizimlarida allaqachon tarqalmoqda. Ular aeroportlarda xavfsizlik tekshiruvlarining bir qismi va Fortune 500 kompaniyalarida suhbat protokollari. AI tizimlarini o'rgatish asoslarini ko'ra olmaslik, ularning ishlashini tushunish uchun muhim sud ekspertizasi usulini olib tashlaydi. Bu jiddiy oqibatlarga olib keladi.

Masalan, yaqinda Kembrij universitetida doktorlik dissertatsiyasi talabasi boshchiligidagi maqolada jamoat joylarida zo'ravon shaxslarni aniqlash uchun real vaqtda uchuvchisiz samolyotlarni kuzatish tizimi joriy qilingan. U "zo'ravonlik harakati" ma'lumotlar to'plamlari bo'yicha o'qitilgan va olomonda zo'ravonlik xatti-harakatlarini aniqlash va ajratish uchun ushbu modellardan uchuvchisiz kuzatuv tizimlari uchun foydalaniladi. Jamoa Aerial Violent Individual (AVI) ma'lumotlar to'plamini yaratdi, u beshta faoliyat bilan shug'ullanadigan odamlarning 2000 ta rasmidan iborat: mushtlash, pichoqlash, otish, tepish va bo'g'ib o'ldirish. O'zlarining sun'iy intellektini o'rgatish uchun ular 18 yoshdan 25 yoshgacha bo'lgan 25 ko'ngillidan ushbu harakatlarga taqlid qilishni so'rashdi. Video tomosha qilish deyarli kulgili. Aktyorlar bir-biridan uzoqlashib, g'alati darajada bo'rttirilgan imo-ishoralarni namoyish etishadi. Bu bolalarning pantomimasi yoki yomon modellashtirilgan o'yin belgilariga o'xshaydi. [38] Ma'lumotlar to'plamining to'liq to'plami omma tomonidan yuklab olinishi mumkin emas. Etakchi tadqiqotchi Amarjot Singx (hozirda Stenford universitetida), u ikkita katta festivalda va potentsial ravishda Hindistonning milliy chegaralarida uchuvchisiz uchish apparatlari yordamida sun'iy intellekt tizimini sinovdan o'tkazishni rejalashtirayotganini aytdi. [39] [40]


AVI ma'lumotlar to'plamining arxeologik tahlili, masalan ImageNet, JAFFE va Faces in Diversity tahlillariga o'xshash - juda aniq bo'lishi mumkin. Zo'ravonlik sahnalashtirilgan namoyishlari va real holatlar o'rtasida aniq farq bor. Tadqiqotchilar uchuvchisiz uchish vositalarini zo'ravonlikning pantomimalarini tanib olishga o'rgatishmoqda. Bundan tashqari, AVI ma'lumotlar bazasida "zo'ravonlik bo'lmagan, ammo shunga o'xshash bo'lishi mumkin bo'lgan harakatlar" uchun hech narsa yo'q; Shuningdek, ular o'zlarining noto'g'ri ijobiy darajasi (ularning tizimi zo'ravonlik xatti-harakatlarini qanchalik tez-tez zo'ravonlik deb biladi) haqida hech qanday tafsilotlarni nashr etmaydilar. [41] Ularning ma'lumotlari chiqarilguniga qadar ular inson tanasini, harakatlarini yoki harakatsizligini qanday tasniflashlari va talqin qilishlari bo'yicha sud ekspertizasini o'tkazish mumkin emas.

Bu ma'lumotlar to'plamiga kirish yoki yo'qolib qolish muammosi. Agar ular kundalik hayotda rol o'ynaydigan tizimlarda ishlatilgan bo'lsa yoki ishlatilgan bo'lsa, ular normallashtirgan dunyoqarashni o'rganish va tushunish imkoniyatiga ega bo'lish muhimdir. Kelajakdagi tadqiqotchilar ushbu ma'lumotlar to'plamiga zarar etkazmaydigan usullardan foydalanishlari mumkin bo'lgan ramkalarni ishlab chiqish keyingi ish uchun mavzu.

Xulosa: kim qaror qiladi

Yigirmanchi asrning boshlaridagi lombrosiyalik kriminologlar va boshqa frenologlar o'zlarini siyosiy reaktsionerlar deb bilishmagan. Aksincha, Stiven Jey Gould ta'kidlaganidek, ular liberallar va sotsialistlar bo'lishga intilishgan, ular "zamonaviy ilm-fanni yuridik sudlovidan eskirgan falsafiy bag'ishlangan iroda va cheksiz axloqiy mas'uliyatni tozalash uchun tozalash supurgi sifatida ishlatish." [42 ] Ular jinoyatchilikni o'rganish bo'yicha antropometrik uslubi adolatni tatbiq etishga yanada ma'rifiy yondashishga olib kelishi mumkinligiga ishonishdi. Ulardan ba'zilari haqiqatan ham o'zlarining "ilmiy" va "ob'ektiv" usullarini qo'llash orqali "adolatli" natijalarni yaratib, jinoyat adliya tizimlarini "chetlashtiruvchi" ekanligiga ishonishgan.



Frenologiya va "jinoiy antropologiya" ning gullab-yashnashi davrida rassom Rene Magritte naycha rasmini tugatdi va uni "Ceci n'est pas une tube" so'zlari bilan birlashtirdi. Magritte La trahison des images rasmini "Tasvirlarning xiyonati" deb atagan. Xuddi shu yili u La Révolution surréaliste syurrealistik axborot byulleteniga matn yozdi. "Les mots et les images" - bu tasvirlar, so'zlar yoki lingvistik tushunchalar o'rtasidagi aloqada umuman to'g'ridan-to'g'ri hech narsa yo'qligini ta'kidlab, tasvirlar, yorliqlar, piktogramma va ma'lumotlarning murakkabliklari va nozikliklari orqali o'ynoqi. Serial bir qator rasmlar bilan yakunlanadi: "Bu Olma emas".
Magritte va fiziognomistlarning vakillikka yondashuvi o'rtasidagi qarama-qarshilik tasvirlar va ularning yorliqlari o'rtasidagi asosiy munosabatlar va vakillikning o'zi haqidagi ikki xil tushunchalar haqida gapiradi. Fiziognomistlar uchun insonning obrazi va u kishining fe'l-atvori o'rtasidagi munosabatlar tasvirlarning o'zida yozilganiga asos bo'lgan ishonch bor edi. Magrittning taxminiga deyarli tubdan qarama-qarshilik ko'rsatildi: o'zlari va o'zlari tasvirlari, hech bo'lmaganda, narsalarga nisbatan juda beqaror munosabatda bo'lib, uni ma'lum bir tasvir nimani anglatishini aytishga qodir bo'lgan kimsa tomonidan o'yib topilishi mumkin. Magritte uchun tasvirlarning ma'nosi munosabatlarga asoslangan, tanlov uchun ochiqdir. Birinchi qizarishda Magrittning rasmlari oddiy semiotik dubulga o'xshab ko'rinishi mumkin, ammo asosiy dinamik Magritt rasmda ta'kidlanganidek, vakillik va o'zini o'zi namoyish qilish siyosati ancha kengroq.

Adolat uchun kurashlar har doim qisman tasvirlar va tasvirlarning ma'nosi uchun kurashgan. 1968 yilda afroamerikalik sanitariya xodimlari Memfisning irqchi hukumati tomonidan xavfli ish sharoitlari va dahshatli davolanishga norozilik sifatida ish tashlashdi. Ular o'n to'qqizinchi asrdagi abolitsionistlar harakati tilini eslatuvchi yozuvlarni ko'tarishdi: "Men ERKAMMAN". 1970-yillarda Queer-ozodlik faollari dastlab gomoseksual, biseksual va transgender deb nomlangan mahbuslarni aniqlash uchun fashistlarning kontsentratsion lagerlarida ishlatilgan belgini o'zlashtirdilar. Pushti uchburchak mag'rurlik nishoniga aylandi, queer-ozodlik harakatlarining eng ramzlaridan biri bo'ldi. Bu kabi misollar - o'z vakolatxonalarining ma'nosini aniqlashga urinayotgan insonlar - hamma joyda adolat uchun kurashda. Vakolatxonalar shunchaki til va madaniyat sohalari bilan chegaralanib qolmay, balki huquqlar, erkinliklar va o'z taqdirini o'zi belgilash shakllari bo'yicha haqiqiy ta'sirga ega.
AIda qo'llaniladigan o'quv majmualarining arxitekturasi va tarkibida katta xavf mavjud. Ular targ'ib qilishlari yoki kamsitishi, ma'qullashi yoki rad qilishi, ko'rinadigan yoki ko'rinmas holga keltirishi, sud qilishi yoki bajarishi mumkin. Shunday qilib, biz ularni tekshirishimiz kerak, chunki ular bizni tekshirishga odatlangan - va akademik yo'laklarda saqlamasdan, ularning oqibatlari to'g'risida keng jamoatchilik muhokamasini o'tkazishimiz kerak. O'quv majmualari bizning shahar, huquqiy, moddiy-texnik va tijorat infratuzilmalarimizning tobora ko'proq qismi bo'lganligi sababli, ular muhim, ammo chuqur o'rganilmagan rolga ega: dunyoni o'z qiyofasida shakllantirish kuchi.
Download 1.41 Mb.

Do'stlaringiz bilan baham:




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling