Invert indeks nima uchun to‘g‘ridan-to‘g‘ri qidiruvdan tezroq?
Chunki u so‘zdan hujjatlarga murojaat qiladi va barcha hujjatlarni ko‘rib chiqmaydi.
Klasterlash nima?
Belgilanmagan ma’lumotlarni o‘xshash guruhlarga ajratish.
Cosine similarity qiymati qaysi oraliqda bo‘ladi?
0 va 1 (ba’zan −1 va 1).
LSI qaysi matematik usulga asoslanadi?
Singular Value Decomposition (SVD).
Naive Bayes qaysi turdagi model?
Generativ model.
Axborot izlashda “relevant hujjat” deganda nima tushuniladi?
Foydalanuvchi so‘roviga mazmunan mos keladigan hujjat.
Ierarxik klasterlashning natijasi nima?
Dendrogram
Cosine similarity qaysi holatda 1 ga teng bo‘ladi?
Hujjat va so‘rov vektorlari bir xil yo‘nalishda bo‘lsa.
SVD formulasi qanday yoziladi?
A = U Σ Vᵀ.
Qaysi model kichik ma’lumotda yaxshi ishlaydi?
Naive Bayes.
Qidiruv tizimida “recall” nimani o‘lchaydi?
Topilgan relevant hujjatlar ulushini.
Single-link va complete-link farqi nimada?
Masofa minimal yoki maksimal bog‘lanish bilan hisoblanadi.
Cosine similarity nimani o‘lchaydi?
Ikki vektor orasidagi burchak yaqinligini.
Vᵀ matritsasi LSI’da nimani ifodalaydi?
So‘zlarning yashirin mavzularga bog‘liqligini.
Rocchio algoritmi qaysi modelga asoslanadi?
Vektor fazo modeliga.
Axborot izlash tizimining asosiy 3 bosqichi qaysilar?
Skanerlash (crawling), indekslash (indexing), qidiruv va reyting (search & ranking).
Silhouette score nimani baholaydi?
Klaster ichidagi zichlik va klasterlar orasidagi ajralishni.
Nima uchun cosine uzun hujjatlarga nisbatan adolatli?
Chunki vektor uzunligini normallashtiradi.
LSI nimani kamaytiradi?
Sinonim va polisemiya muammosini.
SVM nimani maksimal qiladi?
Sinflar orasidagi marginni.
Nima uchun IR tizimlarda “perfect search” mavjud emas?
Chunki relevans subyektiv va foydalanuvchiga bog‘liq.
Nima uchun ierarxik klasterlash katta ma’lumotda sekin?
Vaqt murakkabligi O(n²) yoki O(n³).
Vektor fazo modelida hujjat nima sifatida tasvirlanadi?
So‘z vaznlaridan iborat vektor sifatida.
“search = 0.72” degani nimani anglatadi?
“search” so‘zining yashirin mavzuga qo‘shgan hissasi katta ekanini.
SVM nima uchun real vaqt baholashda qimmat?
Har bir hujjat uchun skoring hisoblash kerak bo‘ladi.