Pregled bibliografske jedinice broj: 1216845
Unaprijeđene metode pronalaženja rečenica temeljene na djelomičnom preklapanju riječi i postupcima pretprocesiranja teksta
Unaprijeđene metode pronalaženja rečenica temeljene na djelomičnom preklapanju riječi i postupcima pretprocesiranja teksta, 2022., doktorska disertacija, Fakultet strojarstva, računarstva i elektrotehnike, Mostar
CROSBI ID: 1216845 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Unaprijeđene metode pronalaženja rečenica
temeljene na djelomičnom preklapanju riječi i
postupcima pretprocesiranja teksta
(Improved sentence retrieval methods based on partial
word matching and text preprocessing procedures)
Autori
Boban, Ivan
Vrsta, podvrsta i kategorija rada
Ocjenski radovi, doktorska disertacija
Fakultet
Fakultet strojarstva, računarstva i elektrotehnike
Mjesto
Mostar
Datum
24.06
Godina
2022
Stranica
113
Mentor
Gotovac, Sven
Neposredni voditelj
Gotovac, Sven
Ključne riječi
pronalaženje rečenica, djelomično preklapanje riječi, Sequence Similarity, pretprocesiranje teksta, stemming, lematizacija
(Sentence Retrieval, partial word matching, Sequence Similarity, text preprocessing, Stemming, Lemmatization)
Sažetak
Pronalaženje rečenica je postupak kojim se u određenom tekstu traži rečenica koja je relevantna za traženi pojam ili upit definiran od strane korisnika, a čime korisnik izražava određenu informacijsku potrebu. U radu su predstavljena dva osnovna pristupa kada je u pitanju poboljšanje postupaka pronalaženja rečenica. Prvi pristup se odnosi na poboljšavanje postupka pronalaženja rečenica pomoću djelomičnog preklapanja riječi iz upita i rečenica, eksperimentalno implementiran kroz tri modela rangiranja: TF-ISF (term frequency – inverse sentence frequency), BM25 (Best Match 25) i metodu baziranu na jezičnom modeliranju. Djelomično ili nepotpuno preklapanje riječi prikazano je kroz unaprijeđene metode TF-ISF, BM25 i metodu baziranu na jezičnom modeliranju, a kroz primjenu Sequence Similarity postupka (postupka sličnosti sekvenci). Drugi dio se odnosi na postupke pretprocesiranja teksta/podataka i njihov utjecaj na postupak pronalaženja rečenica. Što se tiče postupaka pretprocesiranja teksta, korišteni su stemming (uklanjanje prefiksa i sufiksa iz riječi) i lematizacija (uklanjanje flektivnih završetka riječi i vraćanje riječi u osnovnu formu) i njihov utjecaj na pronalaženje rečenica metodom TF-ISF. Također, nastojalo se utvrditi je li i u kojoj mjeri duljina upita utječe na postupke pronalaženja rečenica, a u kombinaciji s pretprocesiranjem teksta pomoću stemminga i lematizacije. Eksperimenti su provedeni nad kolekcijom podataka TREC staza novosti s Konferencije za pretraživanje teksta – TREC, i to na ukupno tri seta podataka iz tri različite godine: TREC 2002, TREC 2003 i TREC 2004. Eksperimentima se utvrdilo kako djelomično ili nepotpuno preklapanje riječi iz upita i rečenica ima pozitivan učinak na postupak pronalaženja rečenica. Također, rezultati pokazuju da je postupak pretprocesiranja teksta/podataka stemmingom i lematizacijom koristan kada je u pitanju pronalaženje rečenica kao i činjenica da lematizacija daje bolje rezultate s duljim upitima, dok stemming pokazuje lošije rezultate s duljim upitima. Daljnja istraživanja mogu biti usmjerena prema istraživanju utjecaja djelomičnog preklapanja riječi i kod drugih zadataka iz područja pronalaženja informacija kao što su odgovaranje na pitanja, detekcija novosti ili pak sažimanje teksta
Izvorni jezik
Hrvatski
Znanstvena područja
Računarstvo, Informacijske i komunikacijske znanosti