Korpus nima?
Korpus — bu tilshunoslikda tildagi so‘z va iboralar haqidagi ma’lumotlarni o‘rganish uchun yig‘ilgan matnlar to‘plamidir.
Umumiy (general) korpus nima uchun ishlatiladi?
Bu korpus tilning umumiy holatini, so‘zlardan foydalanish chastotasini, grammatik tuzilmalarni tahlil qilish uchun ishlatiladi.
Maxsus (specialized) korpusga bir misol keltiring.
Masalan, “tibbiyot korpusi” yoki “huquqiy matnlar korpusi
Yozma korpus va og‘zaki korpus o‘rtasidagi farq nima?
Yozma korpus – kitob, maqola, gazeta kabi yozma manbalardan iborat.
Og‘zaki korpus – suhbatlar, intervyular, nutqlardan iborat.
Qaysi korpus turida gazeta va kitob matnlari jamlangan bo‘ladi?
Yozma (written) korpusda.
O‘rganuvchi (learner) korpusning asosiy maqsadi nima?
Til o‘rganuvchilarning xatolari, so‘z ishlatish uslubi va grammatika qo‘llanishini o‘rganish.
Monitor korpus bilan statik korpus o‘rtasidagi farq nima?
Statik korpus o‘zgarmaydi, ya’ni ma’lum bir davrda tuzilgan bo‘ladi.
Monitor korpus esa muntazam yangilanib turadi, yangi matnlar qo‘shiladi.
Parallel korpus tarjimonlar uchun nima sababdan foydali?
Chunki unda bir matn bir nechta tilda beriladi. Bu tarjima variantlarini solishtirish imkonini beradi.
Diaxronik korpusning asosiy belgisi nima?
U tildagi o‘zgarishlarni vaqt davomida kuzatish imkonini beradi (masalan, 1900-yildan 2020-yilgacha bo‘lgan matnlar).
Bir tilli (monolingual) va ko‘p tilli (multilingual) korpus o‘rtasidagi farqni tushuntiring.
Bir tilli korpus faqat bitta tildagi matnlardan iborat.
Ko‘p tilli korpus esa ikki yoki undan ortiq tillarda matnlarni o‘z ichiga oladi.
Muvozanatli (balanced) va muvozanatsiz (unbalanced) korpus o‘rtasidagi farqni tushuntiring.
Muvozanatli korpusda turli janr, uslub va mavzulardan teng miqdorda matnlar tanlanadi.
Muvozanatsiz korpusda esa ayrim janrlar yoki mavzular ko‘proq bo‘ladi, bu natijalarga ta’sir qilishi mumkin.
Teglangan (tagged) korpus nima va u teglanmagan (untagged) korpusdan qanday ustun?
Teglangan korpusda so‘zlarning grammatik toifalari (masalan, ot, fe’l, sifat) belgilangan bo‘ladi.
Bu avtomatik tahlil, leksik statistika va sintaktik tadqiqotlar uchun qulay.
Multimodal korpus yaratishdagi qiyinchiliklar nimalar?
Unda matn, tovush va video materiallar bo‘lgani sababli hajm katta bo‘ladi, sinxronlashtirish va annotatsiya qilish murakkab.
Monitor korpus tilning vaqt o‘tishi bilan o‘zgarishini qanday aks ettiradi?
Chunki u doim yangi matnlar bilan to‘ldiriladi, shuning uchun yangi so‘zlar, iboralar va tendensiyalarni ko‘rsatadi.
O‘rganuvchi korpusi (learner corpus) Ikkinchi tilni o‘rganish (SLA) tadqiqotlariga qanday hissa qo‘shadi?
U o‘quvchilarning xatolari, so‘z birikmalari va grammatika ishlatish uslubini tahlil qilish orqali til o‘rganish jarayonini yaxshiroq tushunishga yordam beradi.
Korpus ma’lumotlarini tahlil qilishda qanday usullar qo‘llaniladi?
So‘z chastotasini hisoblash, so‘z birikmalarini aniqlash, kontekstual tahlil va grammatik tuzilmani o‘rganish.
Korpusdagi “frequency list” nima?
Bu korpusdagi eng ko‘p uchraydigan so‘zlar ro‘yxati.
Konkordansiya (concordance) nima?
Korpusdagi ma’lum so‘zning atrofidagi kontekstni ko‘rsatadigan qatorlar to‘plami.
Nega tahlil uchun katta hajmli korpuslar muhim hisoblanadi?
Chunki katta korpuslar tildagi haqiqiy ishlatish namunalarini aniqroq aks ettiradi.
Korpusdan olingan ma’lumotlar qanday ilmiy sohalarda ishlatiladi?
Tilshunoslik, tarjimashunoslik, kompyuter lingvistikasi, til o‘qitish va lug‘at tuzishda.
Nima uchun korpusdagi balans (balance) muhim va uni noto‘g‘ri ta’minlash natijalarga qanday ta’sir qiladi?
Agar balans saqlanmasa, ma’lum janr yoki mavzular haddan tashqari ko‘p bo‘lishi mumkin, bu esa umumiy til manzarasini noto‘g‘ri aks ettiradi. Shu sababli statistik natijalar va xulosalar ishonchsiz bo‘lib qoladi.
Korpus tahlilida annotatsiya (annotation) nima uchun zarur?
Annotatsiya so‘zlarning grammatik, semantik yoki pragmatik ma’nolarini belgilaydi; bu kompyuter tahlili va avtomatik izlash tizimlarining aniqligini oshiradi.
Nega ayrim tadqiqotchilar sun’iy intellekt asosidagi korpuslarni tanlaydi?
Chunki AI asosidagi korpuslar matnlarni avtomatik tarzda tahlil qiladi, tezlik va aniqlikni oshiradi hamda katta hajmli ma’lumotni qayta ishlash imkonini beradi.
Til o‘zgarishini o‘rganishda diaxronik korpus qanday ustunlik beradi, ammo qanday cheklovlarga ega?
U vaqt davomida so‘zlar va grammatik shakllarning o‘zgarishini ko‘rsatadi, lekin eski matnlar sifati past yoki notekis bo‘lishi natijani cheklashi mumkin.
Korpus tadqiqotlarida avtomatik lemmatizatsiyaning afzalligi va kamchiligi nimada?
Afzalligi – tezlik va aniqlik; kamchiligi – ayrim so‘zlarning kontekstdagi ma’nosini noto‘g‘ri aniqlashi (masalan, ko‘p ma’noli so‘zlarda).