Ranije je pomenuto da je poželjno svojstvo korisnih indeksnih termina mogućnost razlikovanja dokumenata kolekcije jednih od drugih. Na prošlom času je diskriminatorska vrednost termina aproksimisana korišćenjem specifičnosti termina koja se izračunavala kao inverzna vrednost frekvencije dokumenata. Ranije je pomenuto da je poželjno svojstvo korisnih indeksnih termina mogućnost razlikovanja dokumenata kolekcije jednih od drugih. Na prošlom času je diskriminatorska vrednost termina aproksimisana korišćenjem specifičnosti termina koja se izračunavala kao inverzna vrednost frekvencije dokumenata.
Posmatrajmo kolekciju reprezentovanu na slici, u kojoj svaka zvezdica predstavlja određeni dokument kolekcije, a pretpostavlja se da je rastojanje između dve takve zvezdice inverzno proporcionalna sličnosti između odgovarajućeg pridruživanja termina (manje rastojanje – veća sličnost; veće rastojanje – manja sličnost) Posmatrajmo kolekciju reprezentovanu na slici, u kojoj svaka zvezdica predstavlja određeni dokument kolekcije, a pretpostavlja se da je rastojanje između dve takve zvezdice inverzno proporcionalna sličnosti između odgovarajućeg pridruživanja termina (manje rastojanje – veća sličnost; veće rastojanje – manja sličnost)
Kada se dvama dokumentima dodele vrlo slični skupovi termina, odgovarajuće tačke u konfiguraciji dokumenata se pojavljuju veoma blizu; obrnuto se događa kada su odgovarajući skupovi termina različiti. Kada se dvama dokumentima dodele vrlo slični skupovi termina, odgovarajuće tačke u konfiguraciji dokumenata se pojavljuju veoma blizu; obrnuto se događa kada su odgovarajući skupovi termina različiti. Kada je data konfiguracija prostora kao ona na slici, izgleda razumno da se vrednost termina kao diskriminatora dokumenata aproksimira korišćenjem vrste promene do koje dolazi u konfiguraciji prostora kada se termin dodeli dokumentima kolekcije.
Kada se dodeli visoko frekventan termin (Tj) koji ne pravi razliku između stavki kolekcije, takav termin će se pojaviti u mnogim dokumentima, i takva dodela će učiniti dokumente sličnijim. To se odražava na povećanje gustine prostora dokumenata. Kada se dodeli visoko frekventan termin (Tj) koji ne pravi razliku između stavki kolekcije, takav termin će se pojaviti u mnogim dokumentima, i takva dodela će učiniti dokumente sličnijim. To se odražava na povećanje gustine prostora dokumenata.
Kada se dobar diskriminator (Tj) dodeli dokumentima kolekcije, one stavke kojima je termin dodeljen izdvojiće se od ostalog dela kolekcije; to bi trebalo da uveća srednje rastojanje između stavki kolekcije i prema tome da proizvede prostor dokumenata koji je manje gust. Kada se dobar diskriminator (Tj) dodeli dokumentima kolekcije, one stavke kojima je termin dodeljen izdvojiće se od ostalog dela kolekcije; to bi trebalo da uveća srednje rastojanje između stavki kolekcije i prema tome da proizvede prostor dokumenata koji je manje gust.
Ovo rasuđivanje sugeriše da se diskriminatorna vrednost termina dvj nekog termina Tj može izračunati kao razlika u gustini prostora pre i posle dodeljivanja termina Tj dokumentima kolekcije: Ovo rasuđivanje sugeriše da se diskriminatorna vrednost termina dvj nekog termina Tj može izračunati kao razlika u gustini prostora pre i posle dodeljivanja termina Tj dokumentima kolekcije: dvj=Qj-Q Gustina prostora Q i Qj sa i bez dodeljenog termina Tj može se izračunati na različite načine, dok je koncepcijski najjednostavniji način onaj koji koristi jednostavno srednju vrednost sličnosti između svih parova različitih stavki: gde sim(Di,Dk) predstavlja koeficijent sličnosti između dokumenata Di i Dk koji se zasniva na sličnosti indeksnih termina koji su im dodeljenih.
Za N=4 Za N=4 Spoljašnja (sigma) znači da i uzima redom vrednosti od 1 do 4 – ona sabira sličnost dokumenta Di sa svim ostalim dokumentima kolekcije (osim sa samim sobom), Unutrašnja znači da za svako i, k uzima redom vrednosti od 1 do 4, koje su različite od tekućeg i (da se ne bi računala sličnost dokumenta sa samim sobom).
Kao mera sličnosti dva dokumenta često se koristi takozvani Dajsov indeks ili koeficijent (nazvan po Lee Raymond Dice). Kao mera sličnosti dva dokumenta često se koristi takozvani Dajsov indeks ili koeficijent (nazvan po Lee Raymond Dice). Ako je Si skup termina dodeljenih dokumentu Di, a Sj skup termina dodeljenih dokumentu Dj, onda se ovaj indeks može definisati kao tj. to je dvostruki broj zajedničkih termina prema ukupnom broju termina u oba dokumenta (ako je S skup, onda je |S| broj elemenata skupa). Ako dokumenta nemaju zajedničkih termina sim(Di,Dj)=0, ako imaju dodeljene potpuno iste skupove termina sim(Di,Dj)=1.
Ako su termini Tij dodeljeni dokumentima sa težinama dij (kao što je prikazano na slajdu 3 ovog predavanja) onda se Dajsov indeks može računati i na sledeći način: Ako su termini Tij dodeljeni dokumentima sa težinama dij (kao što je prikazano na slajdu 3 ovog predavanja) onda se Dajsov indeks može računati i na sledeći način: tj. to je dvostruki broj zbira proizvoda težina termina dodeljenih jednom i drugom dokumentu (proizvod termina koji nisu zajednički biće 0) prema zbiru težina termina u oba dokumenta.
Zanimljivo je da je on bio ekolog i genetičar koji je radio na Univerzitetu u Mičigenu. Zanimljivo je da je on bio ekolog i genetičar koji je radio na Univerzitetu u Mičigenu. Uveo je u upotrebu ono što je danas poznato kao Dajsov indeks da bi izrazio meru povezanosti između biotičkih uzoraka.
Formula dvj=Qj-Q pokazuje da se dobrim diskriminatorima koji su u stanju da razvuku prostor dokumenata dodeljuje pozitivna diskriminatorna vrednost dvj jer će srednja sličnost između stavki biti manja posle dodele termina Tj nego pre, tj. gustina prostora Q se smanjuje (odn. Q što je gustina prostora kada su dodeljeni svi termini je manje od Qj što je gustina prostora kada termin Tj nije dodeljen). Formula dvj=Qj-Q pokazuje da se dobrim diskriminatorima koji su u stanju da razvuku prostor dokumenata dodeljuje pozitivna diskriminatorna vrednost dvj jer će srednja sličnost između stavki biti manja posle dodele termina Tj nego pre, tj. gustina prostora Q se smanjuje (odn. Q što je gustina prostora kada su dodeljeni svi termini je manje od Qj što je gustina prostora kada termin Tj nije dodeljen). - Pozitivne diskriminatorne vrednosti se obično povezuju sa određenim srednje frekventnim terminima koji se ne pojavljuju ni previše retko ni previše često.
- Vrlo frekventnim terminima koji su dodeljeni mnogim dokumentima kolekcije se dodeljuju negativne diskriminatorne vrednosti.
- Nisko frekventni termini koji se pojavljuju u jednom ili dva dokumenta ne utiču na gustinu prostora ni na jednu stranu; tada su odgovarajuće diskriminatorne vrednosti termina približno jednake nuli.
Slika pokazuje da za razliku od faktora frekvencije dokumenata N/dfj koji stabilno opada sa porastom frekvencije dokumenata, diskriminatorna vrednost termina prvo raste od nule ka pozitivnim vrednostima kako vrednost frekvencije dokumenata termina raste, a zatim naglo opada s daljim rastom frekvencije dokumenata. To ukazuje da formula za određivanje težine termina kao što je Slika pokazuje da za razliku od faktora frekvencije dokumenata N/dfj koji stabilno opada sa porastom frekvencije dokumenata, diskriminatorna vrednost termina prvo raste od nule ka pozitivnim vrednostima kako vrednost frekvencije dokumenata termina raste, a zatim naglo opada s daljim rastom frekvencije dokumenata. To ukazuje da formula za određivanje težine termina kao što je wij = tfij dvj koja kombinuje frekvenciju termina Tj unutar određenog dokumenta Di sa diskriminatornom vrednošću termina može da proizvede različito rangiranje termina prema njihovoj korisnosti od one koja je ranije korišćena tf-idf.
Neka su data dva dokumenta: Neka su data dva dokumenta: - Di = (3,2,1,0,0,0,1,1)
- Dj = (1,1,1,0,0,1,0,0)
Što znači da su dokumenti u kolekciji indeksirani sa 8 termina (t=8) Tada je Dajsov indeks računat na prvi način: - sim(Di,Dj) = 2*3/(5+4) = 6/9 = 2/3
(3 je broj termina dodeljenih i jednom i drugom dokumentu, 5 je broj termina dodeljen prvom dokumentu, a 4 je broj termina dodeljen drugom dokumentu) Dajsov indeks računat na drugi način je: - sim(Di,Dj) = 2*(3+2+1)/(8+4) = 12/12 = 1
(3+2+1 je zbir proizvoda dodeljenih težina zajedničkih termina, 8 je zbir težina termina dodeljenih prvom dokumentu, a 4 je zbir težina termina dodeljenih drugom dokumentu)
Neka su data tri dokumenta sa četiri pridružena termina. Neka su data tri dokumenta sa četiri pridružena termina. Izračunati diskriminatornu vrednost prvog termina preko gustine prostora kolekcije dokumenata. Prvo izračunavamo gustinu prostora kada su pridruženi svi termini. Kod računanja vodićemo računa da je sim(Di,Dj)=sim(Dj,Di).
dv1=Q1-Q = 0.00189-0.00387 = -0.00198 dv1=Q1-Q = 0.00189-0.00387 = -0.00198 Tumačenje: Gustina prostora je veća sa dodeljenim terminom T1, nego bez njega, i zato je diskriminatorna vrednost termina negativna – termin T1 je loš izbor (u ovom iskonstruisanom slučaju je to zato što je on dodeljen svim dokumentima kolekcije).
Model koji je do sada prestavljen i koji se ponekad naziva “bag of words model” (model vreće reči) potpuno zanemaruje redosled reči u dokumentu (i uopšte veze među njima). Od značaja je samo broj pojavljivanja reči u dokumentu (ili dokumentima). Model koji je do sada prestavljen i koji se ponekad naziva “bag of words model” (model vreće reči) potpuno zanemaruje redosled reči u dokumentu (i uopšte veze među njima). Od značaja je samo broj pojavljivanja reči u dokumentu (ili dokumentima). Prema ovakvim modelima dokument “John is quicker than Mary” je identičan sa dokumentom “Mary is quicker than John”. Ipak, ne može se poreći da su dokumenta koja imaju istu ili sličnu vreću reči srodna po sadržaju.
Pristupi indeksiranju koji su do sada opisani zasnivali su se na dodeli informacionim stavkama indeksnih elemenata od jednog termina. U takvim okolnostima se uskladišteni slogovi identifikuju skupom pojedinačnih termina koji se zajedno koriste da bi reprezentovali informatički sadržaj svakog zapisa. Pristupi indeksiranju koji su do sada opisani zasnivali su se na dodeli informacionim stavkama indeksnih elemenata od jednog termina. U takvim okolnostima se uskladišteni slogovi identifikuju skupom pojedinačnih termina koji se zajedno koriste da bi reprezentovali informatički sadržaj svakog zapisa. Međutim, korišćenje indeksnih jedinica od jednog termina se može opravdati samo iz funkcionalnih razloga. U stvari, dodeljivanje pojednačnih termina stavkama iz kolekcije nije idealno: pre svega, jer pojedinačni termini kada se koriste izvan konteksta često imaju dvosmisleno značenje, a osim toga mnogi pojedinačni termini su ili previše specifični ili suviše široki da bi bili korisni za indeksiranje.
Kada analizu konteksta i indeksiranje ručno obavljaju eksperti iz određenih oblasti i obučeni stručnjaci, indeksne jedinice se obično sastoje od grupa termina, kao što su imeničke fraze, koje su dovoljno specifične da obezbede nedvosmislene interpretacije. Kada analizu konteksta i indeksiranje ručno obavljaju eksperti iz određenih oblasti i obučeni stručnjaci, indeksne jedinice se obično sastoje od grupa termina, kao što su imeničke fraze, koje su dovoljno specifične da obezbede nedvosmislene interpretacije. Osim toga, na raspolaganju mogu biti rečnički alati u obliku tezaurusa, ili hijerarhijskog uređenja termina, koji kontrolišu specifičnost indeksnih jedinica obezbeđivanjem unakrsnih referenci između termina, i pokazivača od specifičnih termina do drugih, s njima povezanih širih ili užih koncepata.
Korišćenje kompleksnih tekstualnih identifikatora koji se sastoje od grupa ili klasa pojedinačnih termina nije bez poteškoća jer alati potrebni za generisanje korisnih kompleksnih tekstualnih identifikatora nisu trivijalni. Među metodama koje se predlažu za generisanje kompleksnih identifikatora su: Korišćenje kompleksnih tekstualnih identifikatora koji se sastoje od grupa ili klasa pojedinačnih termina nije bez poteškoća jer alati potrebni za generisanje korisnih kompleksnih tekstualnih identifikatora nisu trivijalni. Među metodama koje se predlažu za generisanje kompleksnih identifikatora su: - probabilističke metode koje ugrađuju informaciju o zavisnosti termina.
- metode grupisanja termina koje generišu grupe povezanih reči uočavanjem obrazaca zajedničkog pojavljivanja reči u dokumentima kolekcije;
- procedure lingvističke analize koje mogu da prepoznaju lingvistički povezane jedinice u tekstu dokumenta;
Metod identifikovanja kombinacija termina višeg reda sastoji se od korišćenja sistema za klasifikaciju termina ili clustering koji mogu da generišu važne grupe povezanih termina. Većina metoda automatske klasifikacije koristi postojeću kolekciju indeksiranih dokumenata kao osnovu za grupisanje onih termina koji se najčešće zajedno pojavljuju u dokumentima kolekcije. Metod identifikovanja kombinacija termina višeg reda sastoji se od korišćenja sistema za klasifikaciju termina ili clustering koji mogu da generišu važne grupe povezanih termina. Većina metoda automatske klasifikacije koristi postojeću kolekciju indeksiranih dokumenata kao osnovu za grupisanje onih termina koji se najčešće zajedno pojavljuju u dokumentima kolekcije. Za dati uzorak matrice termina i dokumenata u kojoj dij reprezentuju vrednost ili značaj termina Tj koji je dodeljen dokumentu Di, moguća su dva pristupa generisanju klasa povezanih termina.
Prvo, moguće je porediti kolone matrice i grupisati one termine čije odgovarajuće kolone u matrici otkrivaju sličnu dodelu dokumentima kolekcije. U stvari, kada su dva termina zajedno dodeljena mnogim dokumentima kolekcije (to jest, kada odgovarajući faktori dij nisu nula), može se pretpostaviti da su oni povezani i prema tome ih grupisati u zajedničku klasu. Prvo, moguće je porediti kolone matrice i grupisati one termine čije odgovarajuće kolone u matrici otkrivaju sličnu dodelu dokumentima kolekcije. U stvari, kada su dva termina zajedno dodeljena mnogim dokumentima kolekcije (to jest, kada odgovarajući faktori dij nisu nula), može se pretpostaviti da su oni povezani i prema tome ih grupisati u zajedničku klasu.
Alternativno se mogu posmatrati vrste matrice; u ovom slučaju dokumenta se grupišu u zajedničke klase koje pokazuju dovoljno sličnu dodelu termina. Jednom kada je klasifikacija dokumenata konstruisana, moguće je grupisati one termine koji se često pojavljuju zajedno u prethodno generisanim klasama dokumenata. Alternativno se mogu posmatrati vrste matrice; u ovom slučaju dokumenta se grupišu u zajedničke klase koje pokazuju dovoljno sličnu dodelu termina. Jednom kada je klasifikacija dokumenata konstruisana, moguće je grupisati one termine koji se često pojavljuju zajedno u prethodno generisanim klasama dokumenata.
Problem sa klasama termina koje su konstruisane iz uzorka kolekcije dokumenata je što termini koji se pojavljuju zajedno ne moraju biti blisko povezani. Osim toga, čak iako se veza može potvrditi, ona može da bude ograničena na kolekciju iz koje su termini uzeti. Prema tome, grupisanje termina koji se pojavljuju zajedno u kompleksne indeksne jedinice ne mora da važi izvan okruženja u kome je grupisanje originalno uspostavljeno. Problem sa klasama termina koje su konstruisane iz uzorka kolekcije dokumenata je što termini koji se pojavljuju zajedno ne moraju biti blisko povezani. Osim toga, čak iako se veza može potvrditi, ona može da bude ograničena na kolekciju iz koje su termini uzeti. Prema tome, grupisanje termina koji se pojavljuju zajedno u kompleksne indeksne jedinice ne mora da važi izvan okruženja u kome je grupisanje originalno uspostavljeno. Korišćenje samo statističkih i probabilističkih metoda za generisanje valjanih indeksnih jedinica višeg reda ne vodi ka indeksnim jedinicama visokog kvaliteta. Glavni problem je u tome što ne postoje pouzdane procedure za izdvajanje grupa termina koji se pojavljuju zajedno a koji čine korisne indeksne jedinice. Ovo nam govori da treba koristiti dodatne, nekvantitativne metode za određivanje veza termina i dodelu kompleksnih indeksnih jedinica.
Za indeksiranje su predložene lingvističke metode uglavnom radi identifikacije i kasnije dodele indeksnih fraza, to jest, imeničkih konstrukcija koje uključuju prideve i imenice. Za indeksiranje su predložene lingvističke metode uglavnom radi identifikacije i kasnije dodele indeksnih fraza, to jest, imeničkih konstrukcija koje uključuju prideve i imenice. U principu je relativno jednostavno konsultovati rečnik da bi se izvršila dodela indikatora vrste reči (na primer, imenica, pridev, prilog) rečima koje se pojavljuju u tekstu dokumenata i zatim konstruisati fraze od sekvencija reči koje ispoljavaju određene poželjne osobine (kao što su sekvencije imenica-imenica i pridev-imenica u engleskom).
Ovakvim postupcima mogu da se identifikuju brojni korisni frazni termini, ali i mnoge nebitne i pogrešne fraze. Teškoća je u tome što samo pojavljivanje izvesnih vrsta reči u određenom kontekstu ne garantuje da je pouzdana sintaksička ili semantička veza stvarno prisutna. Ovakvim postupcima mogu da se identifikuju brojni korisni frazni termini, ali i mnoge nebitne i pogrešne fraze. Teškoća je u tome što samo pojavljivanje izvesnih vrsta reči u određenom kontekstu ne garantuje da je pouzdana sintaksička ili semantička veza stvarno prisutna. U sekvenciji kakva je high frequency transistor oscillator, koja bi se mogla karakterisati sintaksičkim lancem pridev-imenica-imenica-imenica, nije lako odrediti zavisnosti između reči. Korišćenje susedstva reči, kao dodatnog kriterijuma, ne pomaže uvek: Izvesno je da se high i frequency mogu ispravno grupisati u high frequency; međutim, sledeće dve reči, frequency i transistor izvesno ne bi trebalo grupisati jer frequency transistor nije smisleni entitet jezika.
Do'stlaringiz bilan baham: |