Pregled bibliografske jedinice broj: 172198
Indeksiranje i pretraživanje tekstualnih podataka s gramatičkom podrškom
Indeksiranje i pretraživanje tekstualnih podataka s gramatičkom podrškom, 2004., magistarski rad, Fakultet elektrotehnike, strojarstva i brodogradnje, Split
CROSBI ID: 172198 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Indeksiranje i pretraživanje tekstualnih podataka s gramatičkom podrškom
(Indexing and Search of Textual Data with Grammar Support)
Autori
Krstinić, Damir
Vrsta, podvrsta i kategorija rada
Ocjenski radovi, magistarski rad
Fakultet
Fakultet elektrotehnike, strojarstva i brodogradnje
Mjesto
Split
Datum
24.06
Godina
2004
Stranica
128
Mentor
Slapničar, Ivan
Ključne riječi
WWW; Internet; prikupljanje informacija; pretraživanje teksta; vektorski prostori; latentno semantičko indeksiranje; LSI; rastav na singularne vrijednosti; SVD; gramatika; web spider
(WWW; Internet; information retrieval; text search; vector spaaces; latent semantic indexing; LSI; singular value decomposition; SVD; grammar; web spider)
Sažetak
Razvoj digitalnih tehnologija i Interneta omogućava brzu razmjenu informacija. U okruženju u kojem je gotovo svaka informacija dostupna, problem postaje izdvajanje relevantnog znanja iz ogromne količine dostupnih podataka. Moderni sustavi za pretraživanje podataka bazirani su na principima vektorskog prostora. Dokumenti su prikazani kao vektori određeni terminima koji se u njima koriste, a pretraživanje se realizira po načelu geometrijske sličnosti. Većina ovih sustava orijentirana je na dokumente pisane engleskim jezikom čije je obilježje jednostavna gramatika sa malim brojem gramatičkih formi koje određena riječ može imati. U ovom radu razvijen je sustav za indeksiranje i pretraživanje digitalnih tekstualnih kolekcija baziran na principu vektorskog prostora i metodi latentnog semantičkog indeksiranja (LSI). LSI metoda reducira dimenziju matrice dokumenata i iskorištava semantičku strukturu jezika projiciranjem vektora na podprostor niže dimenzije. U sustav je implementirana podrška za gramatiku jezika čime su poboljšane performanse sustava kod pretraživanja kolekcija pisanih jezikom sa složenom gramatikom, kakav je i hrvatski jezik. U okviru rada razvijena je računalna implementacija gramatičkih pravila hrvatskog jezika.
Izvorni jezik
Hrvatski
Znanstvena područja
Matematika