Pretražite po imenu i prezimenu autora, mentora, urednika, prevoditelja

Napredna pretraga

Pregled bibliografske jedinice broj: 1216845

Unaprijeđene metode pronalaženja rečenica temeljene na djelomičnom preklapanju riječi i postupcima pretprocesiranja teksta


Boban, Ivan
Unaprijeđene metode pronalaženja rečenica temeljene na djelomičnom preklapanju riječi i postupcima pretprocesiranja teksta, 2022., doktorska disertacija, Fakultet strojarstva, računarstva i elektrotehnike, Mostar


CROSBI ID: 1216845 Za ispravke kontaktirajte CROSBI podršku putem web obrasca

Naslov
Unaprijeđene metode pronalaženja rečenica temeljene na djelomičnom preklapanju riječi i postupcima pretprocesiranja teksta
(Improved sentence retrieval methods based on partial word matching and text preprocessing procedures)

Autori
Boban, Ivan

Vrsta, podvrsta i kategorija rada
Ocjenski radovi, doktorska disertacija

Fakultet
Fakultet strojarstva, računarstva i elektrotehnike

Mjesto
Mostar

Datum
24.06

Godina
2022

Stranica
113

Mentor
Gotovac, Sven

Neposredni voditelj
Gotovac, Sven

Ključne riječi
pronalaženje rečenica, djelomično preklapanje riječi, Sequence Similarity, pretprocesiranje teksta, stemming, lematizacija
(Sentence Retrieval, partial word matching, Sequence Similarity, text preprocessing, Stemming, Lemmatization)

Sažetak
Pronalaženje rečenica je postupak kojim se u određenom tekstu traži rečenica koja je relevantna za traženi pojam ili upit definiran od strane korisnika, a čime korisnik izražava određenu informacijsku potrebu. U radu su predstavljena dva osnovna pristupa kada je u pitanju poboljšanje postupaka pronalaženja rečenica. Prvi pristup se odnosi na poboljšavanje postupka pronalaženja rečenica pomoću djelomičnog preklapanja riječi iz upita i rečenica, eksperimentalno implementiran kroz tri modela rangiranja: TF-ISF (term frequency – inverse sentence frequency), BM25 (Best Match 25) i metodu baziranu na jezičnom modeliranju. Djelomično ili nepotpuno preklapanje riječi prikazano je kroz unaprijeđene metode TF-ISF, BM25 i metodu baziranu na jezičnom modeliranju, a kroz primjenu Sequence Similarity postupka (postupka sličnosti sekvenci). Drugi dio se odnosi na postupke pretprocesiranja teksta/podataka i njihov utjecaj na postupak pronalaženja rečenica. Što se tiče postupaka pretprocesiranja teksta, korišteni su stemming (uklanjanje prefiksa i sufiksa iz riječi) i lematizacija (uklanjanje flektivnih završetka riječi i vraćanje riječi u osnovnu formu) i njihov utjecaj na pronalaženje rečenica metodom TF-ISF. Također, nastojalo se utvrditi je li i u kojoj mjeri duljina upita utječe na postupke pronalaženja rečenica, a u kombinaciji s pretprocesiranjem teksta pomoću stemminga i lematizacije. Eksperimenti su provedeni nad kolekcijom podataka TREC staza novosti s Konferencije za pretraživanje teksta – TREC, i to na ukupno tri seta podataka iz tri različite godine: TREC 2002, TREC 2003 i TREC 2004. Eksperimentima se utvrdilo kako djelomično ili nepotpuno preklapanje riječi iz upita i rečenica ima pozitivan učinak na postupak pronalaženja rečenica. Također, rezultati pokazuju da je postupak pretprocesiranja teksta/podataka stemmingom i lematizacijom koristan kada je u pitanju pronalaženje rečenica kao i činjenica da lematizacija daje bolje rezultate s duljim upitima, dok stemming pokazuje lošije rezultate s duljim upitima. Daljnja istraživanja mogu biti usmjerena prema istraživanju utjecaja djelomičnog preklapanja riječi i kod drugih zadataka iz područja pronalaženja informacija kao što su odgovaranje na pitanja, detekcija novosti ili pak sažimanje teksta

Izvorni jezik
Hrvatski

Znanstvena područja
Računarstvo, Informacijske i komunikacijske znanosti



POVEZANOST RADA


Profili:

Avatar Url Sven Gotovac (mentor)

Poveznice na cjeloviti tekst rada:

Pristup cjelovitom tekstu rada

Citiraj ovu publikaciju:

Boban, Ivan
Unaprijeđene metode pronalaženja rečenica temeljene na djelomičnom preklapanju riječi i postupcima pretprocesiranja teksta, 2022., doktorska disertacija, Fakultet strojarstva, računarstva i elektrotehnike, Mostar
Boban, I. (2022) 'Unaprijeđene metode pronalaženja rečenica temeljene na djelomičnom preklapanju riječi i postupcima pretprocesiranja teksta', doktorska disertacija, Fakultet strojarstva, računarstva i elektrotehnike, Mostar.
@phdthesis{phdthesis, author = {Boban, Ivan}, year = {2022}, pages = {113}, keywords = {pronala\v{z}enje re\v{c}enica, djelomi\v{c}no preklapanje rije\v{c}i, Sequence Similarity, pretprocesiranje teksta, stemming, lematizacija}, title = {Unaprije\djene metode pronala\v{z}enja re\v{c}enica temeljene na djelomi\v{c}nom preklapanju rije\v{c}i i postupcima pretprocesiranja teksta}, keyword = {pronala\v{z}enje re\v{c}enica, djelomi\v{c}no preklapanje rije\v{c}i, Sequence Similarity, pretprocesiranje teksta, stemming, lematizacija}, publisherplace = {Mostar} }
@phdthesis{phdthesis, author = {Boban, Ivan}, year = {2022}, pages = {113}, keywords = {Sentence Retrieval, partial word matching, Sequence Similarity, text preprocessing, Stemming, Lemmatization}, title = {Improved sentence retrieval methods based on partial word matching and text preprocessing procedures}, keyword = {Sentence Retrieval, partial word matching, Sequence Similarity, text preprocessing, Stemming, Lemmatization}, publisherplace = {Mostar} }




Contrast
Increase Font
Decrease Font
Dyslexic Font