AXBOROT IZLASH ASOSLARI
KLASTERLASH
VEKTOR FAZO MODELI & COSINE
LSI & SVD
MATN TASNIFI (NB, SVM, ROCCHIO)
100

Invert indeks nima uchun to‘g‘ridan-to‘g‘ri qidiruvdan tezroq?  

Chunki u so‘zdan hujjatlarga murojaat qiladi va barcha hujjatlarni ko‘rib chiqmaydi. 


100

Klasterlash nima?


Belgilanmagan ma’lumotlarni o‘xshash guruhlarga ajratish.

100

Cosine similarity qiymati qaysi oraliqda bo‘ladi?

0 va 1 (ba’zan −1 va 1).

100

LSI qaysi matematik usulga asoslanadi?

Singular Value Decomposition (SVD).

100

Naive Bayes qaysi turdagi model?


Generativ model.

200

Axborot izlashda “relevant hujjat” deganda nima tushuniladi?

Foydalanuvchi so‘roviga mazmunan mos keladigan hujjat.

200

Ierarxik klasterlashning natijasi nima?

Dendrogram

200

Cosine similarity qaysi holatda 1 ga teng bo‘ladi?

Hujjat va so‘rov vektorlari bir xil yo‘nalishda bo‘lsa.

200

SVD formulasi qanday yoziladi?

A = U Σ Vᵀ.

200

Qaysi model kichik ma’lumotda yaxshi ishlaydi?


Naive Bayes.

300

Qidiruv tizimida “recall” nimani o‘lchaydi?  

Topilgan relevant hujjatlar ulushini.

300

Single-link va complete-link farqi nimada?

Masofa minimal yoki maksimal bog‘lanish bilan hisoblanadi.

300

Cosine similarity nimani o‘lchaydi?

Ikki vektor orasidagi burchak yaqinligini.

300

Vᵀ matritsasi LSI’da nimani ifodalaydi?

So‘zlarning yashirin mavzularga bog‘liqligini.

300

Rocchio algoritmi qaysi modelga asoslanadi?


Vektor fazo modeliga.

400

Axborot izlash tizimining asosiy 3 bosqichi qaysilar?

Skanerlash (crawling), indekslash (indexing), qidiruv va reyting (search & ranking).  

400

Silhouette score nimani baholaydi?

Klaster ichidagi zichlik va klasterlar orasidagi ajralishni.

400

Nima uchun cosine uzun hujjatlarga nisbatan adolatli?

Chunki vektor uzunligini normallashtiradi.

400

LSI nimani kamaytiradi?

Sinonim va polisemiya muammosini.

400

SVM nimani maksimal qiladi?


Sinflar orasidagi marginni.

500

Nima uchun IR tizimlarda “perfect search” mavjud emas?

Chunki relevans subyektiv va foydalanuvchiga bog‘liq.

500

Nima uchun ierarxik klasterlash katta ma’lumotda sekin?

Vaqt murakkabligi O(n²) yoki O(n³).

500

Vektor fazo modelida hujjat nima sifatida tasvirlanadi?

So‘z vaznlaridan iborat vektor sifatida.

500

“search = 0.72” degani nimani anglatadi?

“search” so‘zining yashirin mavzuga qo‘shgan hissasi katta ekanini.

500

SVM nima uchun real vaqt baholashda qimmat?

Har bir hujjat uchun skoring hisoblash kerak bo‘ladi.