Pregled bibliografske jedinice broj: 1117595
Construcción del RomCro: un corpus paralelo de lenguas romances y croata
Construcción del RomCro: un corpus paralelo de lenguas romances y croata // III Encuentro de Jóvenes Hispanistas
Budimpešta, Mađarska, 2021. str. - (predavanje, međunarodna recenzija, sažetak, ostalo)
CROSBI ID: 1117595 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Construcción del RomCro: un corpus paralelo de
lenguas romances y croata
(Building RomCro: a parallel corpus of Romance
languages and Croatian)
Autori
Mikelenić, Bojana ; Bezlaj, Metka
Vrsta, podvrsta i kategorija rada
Sažeci sa skupova, sažetak, ostalo
Skup
III Encuentro de Jóvenes Hispanistas
Mjesto i datum
Budimpešta, Mađarska, 03.03.2021. - 05.03.2021
Vrsta sudjelovanja
Predavanje
Vrsta recenzije
Međunarodna recenzija
Ključne riječi
corpus paralelo multilingüe y multidireccional ; español ; francés ; italiano ; portugués ; rumano ; croata
(multilingual and multidirectional parallel corpus ; Spanish ; French ; Italian ; Portuguese ; Romanian ; Croatian)
Sažetak
En este trabajo se describe la génesis de un corpus paralelo multilingüe y multidireccional compuesto de textos literarios escritos en español, francés, italiano, portugués, rumano y croata y de sus traducciones. Presentaremos el estado actual del corpus, igual que las fases de su desarrollo y planes para el futuro. Hemos previsto que el corpus contenga 90 libros en total. Hasta ahora hemos segmentado y alineado 44 libros (4 383 013 palabras en total), tenemos 17 libros (1 325 074 palabras) en proceso de corrección y alineación y aún quedan 29 libros por organizar. A continuación, nos centraremos en las fases de desarrollo del RomCro, lo que incluye: selección y recogida de textos ; digitalización de textos ; corrección manual y preparación para la segmentación y la alineación oracional ; segmentación, alineación y corrección manual ; lematización, anotación morfosintáctica y acceso al corpus. Asimismo, destacaremos varios problemas a los que nos enfrentamos, por ejemplo, aplicar criterios más rigurosos en la selección de textos o guiarse por su disponibilidad (un corpus balanceado vs. un corpus “oportunístico”), seleccionar un etiquetador diferente para cada idioma u optar por uno que otorga resultados uniformes para todos, arriesgando la pérdida de ciertos rasgos distintivos. Como es bien sabido, los corpus paralelos multilingües tienen muchas aplicaciones, tanto en investigaciones lingüísticas de diferente índole y en la enseñanza de la traducción como en el entrenamiento de sistemas de traducción automática y en la extracción terminológica. Dado que este recurso contiene seis lenguas, es extremadamente valioso para el desarrollo de las tecnologías lingüísticas para cada una de ellas, especialmente para las que no cuentan con muchas (p. ej. croata o rumano).
Izvorni jezik
Spa
Znanstvena područja
Informacijske i komunikacijske znanosti, Filologija
POVEZANOST RADA
Ustanove:
Filozofski fakultet, Zagreb