Frequently Asked Questions Retrieval for Croatian Based on Semantic Textual Similarity

Karan, Mladen; Žmak, Lovro; Šnajder, Jan

izvor podataka: crosbi !

Frequently Asked Questions Retrieval for Croatian Based on Semantic Textual Similarity (CROSBI ID 597898)

Prilog sa skupa u zborniku | izvorni znanstveni rad | međunarodna recenzija

Karan, Mladen ; Žmak, Lovro ; Šnajder, Jan Frequently Asked Questions Retrieval for Croatian Based on Semantic Textual Similarity // Procedings of the 4th Biennial International Workshop on Balto-Slavic Natural Language Processing. Sofija: Association for Computational Linguistics (ACL), 2013. str. 24-33

Podaci o odgovornosti

Autori

Karan, Mladen ; Žmak, Lovro ; Šnajder, Jan

Osnovni podaci na izvornom jeziku
Osnovni podaci na ostalim jezicima

Jezik

engleski

Naslov

Frequently Asked Questions Retrieval for Croatian Based on Semantic Textual Similarity

Sažetak

Frequently asked questions (FAQ) are an efficient way of communicating domain-specific information to the users. Unlike general purpose retrieval engines, FAQ retrieval engines have to address the lexical gap between the query and the usually short answer. In this paper we describe the design and evaluation of a FAQ retrieval engine for Croatian. We frame the task as a binary classification problem, and train a model to classify each FAQ as either relevant or not relevant for a given query. We use a variety of semantic textual similarity features, including term overlap and vector space features. We train and evaluate on a FAQ test collection built specifically for this purpose. Our best-performing model reaches 0.47 of mean reciprocal rank, i.e., on average ranks the relevant answer among the top two returned answers.

Ključne riječi

FAQ retrieval ; information retrieval ; semantic textual similarity ; Croatian language

Napomena

nije evidentirano

Jezik

nije evidentirano

Naslov

nije evidentirano

Sažetak

nije evidentirano

Ključne riječi

nije evidentirano

Napomena

nije evidentirano

Podaci o prilogu

Stranice rada

24-33.

Godina izdavanja

2013.

Status objave rada

objavljeno

Podaci o matičnoj publikaciji

Naslov

Procedings of the 4th Biennial International Workshop on Balto-Slavic Natural Language Processing

Izdavač

Sofija: Association for Computational Linguistics (ACL)

Podaci o skupu

Skup

4th Biennial International Workshop on Balto-Slavic Natural Language Processing

Vrsta sudjelovanja

predavanje

Datum održavanja skupa

08.08.2013-09.08.2013

Mjesto održavanja skupa

Sofija, Bugarska

Povezanost rada

Povezane osobe

Jan Šnajder (autor/i)

Mladen Karan (autor/i)

Povezane ustanove

Fakultet elektrotehnike i računarstva (036) (autorova ustanova)

Povezani projekti

Otkrivanje znanja u tekstnim podacima (rezultat rada na projektu)

Područje

Računarstvo

Poveznice

aclweb.org