Napredna pretraga

Pregled bibliografske jedinice broj: 172198

Indeksiranje i pretraživanje tekstualnih podataka s gramatičkom podrškom


Krstinić, Damir
Indeksiranje i pretraživanje tekstualnih podataka s gramatičkom podrškom 2004., magistarski rad, Fakultet elektrotehnike, strojarstva i brodogradnje, Split


Naslov
Indeksiranje i pretraživanje tekstualnih podataka s gramatičkom podrškom
(Indexing and Search of Textual Data with Grammar Support)

Autori
Krstinić, Damir

Vrsta, podvrsta i kategorija rada
Ocjenski radovi, magistarski rad

Fakultet
Fakultet elektrotehnike, strojarstva i brodogradnje

Mjesto
Split

Datum
24.06

Godina
2004

Stranica
128

Mentor
Slapničar, Ivan

Ključne riječi
WWW; Internet; prikupljanje informacija; pretraživanje teksta; vektorski prostori; latentno semantičko indeksiranje; LSI; rastav na singularne vrijednosti; SVD; gramatika; web spider
(WWW; Internet; information retrieval; text search; vector spaaces; latent semantic indexing; LSI; singular value decomposition; SVD; grammar; web spider)

Sažetak
Razvoj digitalnih tehnologija i Interneta omogućava brzu razmjenu informacija. U okruženju u kojem je gotovo svaka informacija dostupna, problem postaje izdvajanje relevantnog znanja iz ogromne količine dostupnih podataka. Moderni sustavi za pretraživanje podataka bazirani su na principima vektorskog prostora. Dokumenti su prikazani kao vektori određeni terminima koji se u njima koriste, a pretraživanje se realizira po načelu geometrijske sličnosti. Većina ovih sustava orijentirana je na dokumente pisane engleskim jezikom čije je obilježje jednostavna gramatika sa malim brojem gramatičkih formi koje određena riječ može imati. U ovom radu razvijen je sustav za indeksiranje i pretraživanje digitalnih tekstualnih kolekcija baziran na principu vektorskog prostora i metodi latentnog semantičkog indeksiranja (LSI). LSI metoda reducira dimenziju matrice dokumenata i iskorištava semantičku strukturu jezika projiciranjem vektora na podprostor niže dimenzije. U sustav je implementirana podrška za gramatiku jezika čime su poboljšane performanse sustava kod pretraživanja kolekcija pisanih jezikom sa složenom gramatikom, kakav je i hrvatski jezik. U okviru rada razvijena je računalna implementacija gramatičkih pravila hrvatskog jezika.

Izvorni jezik
Hrvatski

Znanstvena područja
Matematika



POVEZANOST RADA


Projekt / tema
0023002

Autor s matičnim brojem:
Damir Krstinić, (248812)