Matnni kodlash tashabbusi: Uning tarixi, maqsadlari va kelajakdagi rivojlanishi
Download 399.29 Kb. Pdf ko'rish
|
teiHistory (1)
2. Kodlash sxemasining asoslari
Chegaralar qanday bo'lishidan qat'iy nazar, gumanitar tadqiqotlar ehtiyojlari Amerika nashriyoti assotsiatsiyasining yakuniy matn terish uchun materiallarni kodlash standarti kabi sxemalar bilan to'liq qondirilmagan.5 Tadqiqot uchun mo'ljallangan kompyuterda o'qilishi mumkin bo'lgan matnlar vaqti-vaqti bilan potentsial jismoniy tartibni tavsiflash uchun belgilashdan foydalanadi, lekin odatda bibliografik ma'lumot, matnning mavjud shakli yoki shakllarining fizik tavsifi (bu shaklda ko'paytirish niyati yo'q), mantiqiy tuzilishga oid ma'lumotlar va semantik yoki tahliliy ma'lumotlar kabi juda xilma- xil ma'lumotlarni o'z ichiga oladi. matn ichidagi lingvistik elementlar. Vaqt o'tishi bilan TEI va u xizmat qilmoqchi bo'lgan hamjamiyat qamrab oladigan matn turlari doirasi kengayib bordi, chunki gumanitar fanlar ichida yoki tashqarisida har qanday matn tadqiqotlari ehtiyojlari, shuningdek, tadqiqotchilar va foydalanuvchilar soni ortib borayotgani ayon bo'ldi. sanoatdagi matnlar, asosan, bir-biriga mos kelardi. Elektron matnlar uchun ilovalarning o'sib borayotgan xilma-xilligi nafaqat gumanitar tadqiqotlar, balki tabiiy tillarni qayta ishlash (mashina tarjimasi, tilni tushunish va boshqalar), ma'lumot qidirish, gipermatn va elektronni ham o'z ichiga oladi. 5 Amerika noshirlari assotsiatsiyasi, Elektron qo'lyozmalarni tayyorlash va belgilash bo'yicha ma'lumotnoma, Amerika noshirlarining elektron qo'lyozmalar seriyasi (Vashington, Kolumbiya okrugi: Amerika noshirlari assotsiatsiyasi, 1986). Amerika noshirlari assotsiatsiyasi, Elektron qo'lyozmalarni tayyorlash va belgilash bo'yicha mualliflik qo'llanmasi, Amerika nashriyotchilarining elektron qo'lyozmalar seriyasi assotsiatsiyasi (Vashington, Kolumbiya okrugi: Amerika noshirlari assotsiatsiyasi, 1986). Amerika nashriyoti assotsiatsiyasi, Matematik formulalarni belgilash, Amerika nashriyoti elektron qoÿlyozmalari assotsiatsiyasi (Vashington, Kolumbiya okrugi: Amerika nashriyoti assotsiatsiyasi, 1986). Amerika noshirlari assotsiatsiyasi, Jadvalli materiallarni belgilash, Amerika nashriyotchilarining elektron qo'lyozmalar seriyasi (Vashington, Kolumbiya okrugi: Amerika noshirlari assotsiatsiyasi, 1986). Machine Translated by Google nashr qilish. TEIning morfologiya va sintaksis kabi lingvistik ma'lumotlarni kodlashga bo'lgan dastlabki urg'u, bunday kodlash keng ko'lamli fanlar va ilovalar bo'yicha olimlar va tadqiqotchilar uchun asosiy ahamiyatga ega ekanligini tan oladi. Vassar konferensiyasi ishtirokchilari orasida asosiy arxivlarning bir nechta vakillari bor edi, ular ikkalasi ham matn kodlashning umumiy formati g‘oyasini ilgari surish istagida bo‘lgan, biroq ayni paytda o‘zlarining mavjud fondlarini yangi formatga o‘tkazishga ikkilanishgan. Shundan kelib chiqib, TEI yo'riqnomasi tushunchasi, birinchi navbatda, ma'lumotlarni saqlashdan farqli ravishda ma'lumotlarni almashish formati sifatida ishlab chiqilgan . Bu diqqat arxivlarga o'z ma'lumotlarini mahalliy ishlab chiqilgan dasturiy ta'minotga asoslangan ichki ishlab chiqilgan formatlarda saqlashga imkon berdi va faqat ularni almashish uchun TEI formatiga aylantirishni talab qildi. Foydalanuvchilar sotuvda mavjud bo'lgan analitik dasturiy ta'minot bilan potentsial mos keluvchi yagona, tanish formatdagi matnlarni olishlari mumkin edi va arxivlar matnlarni yagona, umumiy formatga va undan mahalliy darajada aniqlangan kodlash tizimiga aylantirish uchun dasturlarni ishlab chiqishlari kerak edi. 1. Yo'riqnomada har bir yangi kodlangan matnga kiritilishi kerak bo'lgan tavsiya etilgan minimal teglar to'plami, jumladan tavsifiy va bibliografik ma'lumotlar hamda kodlashning o'ziga tegishli ma'lumotlar belgilanishi kerak. TEI adabiy va lingvistik materiallarni kodlash uchun standart emas , balki ko'rsatmalar berish majburiyatini oldi . Maqsad izchil, ishlatish uchun qulay, nisbatan keng qamrovli va individual ehtiyojlarni qondirish uchun foydalanuvchi tomonidan belgilangan kengaytmalar uchun keng mexanizmlarni taqdim etadigan kodlash konventsiyalarini belgilash edi. Ma'lum bo'lishicha, TEI sxemasi belgilangan standart sifatida tuzilganmi yoki yo'qmi, foydalanuvchilar uni qabul qilishlari yoki o'z sxemalarini ishlab chiqishlari mumkinligi aniq; Ammo boshidan umid qilingan ediki, agar TEI yo'riqnomalari Poughkeepise tamoyillarida ko'rsatilgan mezonlarga javob bersa, mustaqil sxemani ishlab chiqish zarurati ko'p hollarda bartaraf qilinadi va kompyuterda o'qiladigan matnlarni kodlashda bir xillik zarurati uzoq vaqtdan beri e'tirof etilgan. amalga oshirilardi. 2.1.2. Ko'rsatmalar va standartlar Formatlar o'rtasida konvertatsiya qilish bilan bog'liq tashvish uchinchi Poughkeepsie printsipiga olib keldi, bu TEI kodlash sxemalarini tavsiflash uchun metall tilni ishlab chiqishi kerakligini ta'kidladi. Ushbu tamoyilning g'oyasi Vassar konferentsiyasida ko'zda tutilgan sxemalar o'rtasida konvertatsiya qilishni osonlashtirish uchun sxemalar orasidagi xaritalashning rasmiy tavsifini berish edi. Poughkeepsie tamoyillari orasida, bu loyihada keyinroq aniq tushirilgan yagona narsa. Buning bir qancha sabablari bor: birinchidan, kodlash sxemalari orasidagi xaritalashning qiyinligi haqidagi xavotir erta pasayib ketdi, chunki bu xaritalash deyarli har bir holatda oddiy ekanligi tan olindi - qisman TEI doirasida SGML-ga asoslangan kodlash konventsiyalari ishlab chiqilganligi sababli. moslashuvchanlik va umumiylikka maksimal e'tibor bilan ishlab chiqilgan. Ikkinchidan, Vassar konferentsiyasidan beri SGML tadqiqot va sanoat hamjamiyatlarida ancha kengroq qabul qilindi va ko'plab arxivlar uni har qanday holatda ham ichki, ham tashqi foydalanish uchun qabul qilmoqdalar. Nihoyat, 1987 yilda hech kim keyinchalik kodlangan va tadqiqot hamjamiyatiga taqdim qilinadigan yangi matnlar hajmini kutmagan edi. Ko'pgina tillarda yangi kodlangan matnning yuzlab millionlab so'zlari mavjud bo'lib, ularning aksariyati hech bo'lmaganda SGML va TEIga ko'z bilan kodlangan. Ko'rsatmalar, albatta, yangi kodlangan matnlar bo'yicha tavsiyalar berishga, xususan, mavjud kodlash formatiga sodiq bo'lmagan olimlar va tadqiqot markazlariga qanday matn xususiyatlarini kodlash va ularni qanday kodlash haqida qaror qabul qilishda yordam berish uchun mo'ljallangan . Ushbu maqsadni e'tirof etish ko'rsatmalarga uchta talabni keltirib chiqardi: Machine Translated by Google Bir tomondan, ma'lum bir sohada qo'llash uchun ishlab chiqilgan teglar bitta nazariya tomonidan aniqlangan xususiyatlarni ko'rsatishi mumkin --- masalan, tilshunoslik sohasidagi umumlashtirilgan iboralar tuzilishi grammatikasi --- bu sohadagi boshqa asosiy nazariyalarni hisobga olmagan holda. raqobatchi nazariyalar tomonidan aniqlangan xususiyatlar to'plami o'rtasidagi munosabat. Boshqa tomondan, bunday ilovalar uchun nazariy jihatdan neytral yoki "polinazariy" tegni ishlab chiqish uchun raqobatdosh nazariyalar yoki tizimlar o'rtasidagi kelishuvga erishish mumkin. Ikkinchi holda, konsensusga erishish katta tadqiqotlarni o'z ichiga olishi mumkin yoki hozirgi nazariy iqlim sharoitida erishish mumkin emas. Konsensus jozibador maqsad bo'lib, unga osonlik bilan erishish mumkin bo'lgan hollarda sinab ko'riladi. Konsensus aniq muammoli bo'lgan hollarda teglar to'plamini ishlab chiqish uchun turli xil muqobil yondashuvlar qabul qilindi. Eng to'g'ridan-to'g'ri amaldagi amaliyotdagi har bir asosiy raqobatdosh nazariya yoki tizim uchun alohida xususiyatlar to'plamini va ular o'rtasidagi munosabatlar tuzilishini rasmiy tavsiflashdan iborat. Boshqa hollarda (asosan lingvistik annotatsiya - bu sonda Langendoen va Simonsga qarang) teglar to'plamidagi teglar uchun muqobil ma'nolarni rasmiy ravishda aniqlash usullari taqdim etilgan, shuning uchun teglarning bir to'plami bir nechta muqobil nazariyalar yoki tizimlar uchun xizmat qiladi va sharhlanadi. har qanday ilovada foydalanuvchi tomonidan aniq spetsifikatsiyalarga muvofiq. Uchinchi yondashuv har bir raqobatdosh nazariya yoki tizimning tegishli xususiyatlarini kichik to'plam sifatida o'z ichiga olgan minimal xususiyatlar to'plamini aniqlash edi. Har bir nazariya yoki tizim uchun teglar to'plamini mustaqil ravishda aniqlash boshqa yondashuvlar uchun foydali muqaddima bo'lib, har bir holatda birinchi qadam bo'ldi.6 2. Qo'llanmalar muayyan fanlar yoki matn turlariga tegishli matn xususiyatlarini belgilashi va matn ichida ushbu xususiyatlarni belgilash imkonini beruvchi teglar to'plamini belgilashi kerak. 3. Matnli materiallar va tadqiqotlarning turlari va ehtiyojlari to'liq tasnifga zid bo'lganligi sababli, Yo'riqnoma foydalanuvchilarga sxemani kengaytirish imkonini beradigan mexanizmni o'z ichiga olishi kerak. Download 399.29 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling