Construcción del RomCro: un corpus paralelo de lenguas romances y croata

Mikelenić, Bojana; Bezlaj, Metka

Pregled bibliografske jedinice broj: 1117595

Construcción del RomCro: un corpus paralelo de lenguas romances y croata

Mikelenić, Bojana; Bezlaj, Metka

Construcción del RomCro: un corpus paralelo de lenguas romances y croata // III Encuentro de Jóvenes Hispanistas
Budimpešta, Mađarska, 2021. str. - (predavanje, međunarodna recenzija, sažetak, ostalo)

CROSBI ID: 1117595 Za ispravke kontaktirajte CROSBI podršku putem web obrasca

Naslov
Construcción del RomCro: un corpus paralelo de lenguas romances y croata
(Building RomCro: a parallel corpus of Romance languages and Croatian)

Autori
Mikelenić, Bojana ; Bezlaj, Metka

Vrsta, podvrsta i kategorija rada
Sažeci sa skupova, sažetak, ostalo

Skup
III Encuentro de Jóvenes Hispanistas

Mjesto i datum
Budimpešta, Mađarska, 03.03.2021. - 05.03.2021

Vrsta sudjelovanja
Predavanje

Vrsta recenzije
Međunarodna recenzija

Ključne riječi
corpus paralelo multilingüe y multidireccional ; español ; francés ; italiano ; portugués ; rumano ; croata
(multilingual and multidirectional parallel corpus ; Spanish ; French ; Italian ; Portuguese ; Romanian ; Croatian)

Sažetak
En este trabajo se describe la génesis de un corpus paralelo multilingüe y multidireccional compuesto de textos literarios escritos en español, francés, italiano, portugués, rumano y croata y de sus traducciones. Presentaremos el estado actual del corpus, igual que las fases de su desarrollo y planes para el futuro. Hemos previsto que el corpus contenga 90 libros en total. Hasta ahora hemos segmentado y alineado 44 libros (4 383 013 palabras en total), tenemos 17 libros (1 325 074 palabras) en proceso de corrección y alineación y aún quedan 29 libros por organizar. A continuación, nos centraremos en las fases de desarrollo del RomCro, lo que incluye: selección y recogida de textos ; digitalización de textos ; corrección manual y preparación para la segmentación y la alineación oracional ; segmentación, alineación y corrección manual ; lematización, anotación morfosintáctica y acceso al corpus. Asimismo, destacaremos varios problemas a los que nos enfrentamos, por ejemplo, aplicar criterios más rigurosos en la selección de textos o guiarse por su disponibilidad (un corpus balanceado vs. un corpus “oportunístico”), seleccionar un etiquetador diferente para cada idioma u optar por uno que otorga resultados uniformes para todos, arriesgando la pérdida de ciertos rasgos distintivos. Como es bien sabido, los corpus paralelos multilingües tienen muchas aplicaciones, tanto en investigaciones lingüísticas de diferente índole y en la enseñanza de la traducción como en el entrenamiento de sistemas de traducción automática y en la extracción terminológica. Dado que este recurso contiene seis lenguas, es extremadamente valioso para el desarrollo de las tecnologías lingüísticas para cada una de ellas, especialmente para las que no cuentan con muchas (p. ej. croata o rumano).

Izvorni jezik
Spa

Znanstvena područja
Informacijske i komunikacijske znanosti, Filologija

POVEZANOST RADA

Ustanove:
Filozofski fakultet, Zagreb

Profili:

Bojana Mikelenić (autor)

Metka Bezlaj (autor)

CROSBI Hrvatska znanstvena bibliografija

Pregled bibliografske jedinice broj: 1117595

Construcción del RomCro: un corpus paralelo de lenguas romances y croata

Citiraj ovu publikaciju:

Pregled bibliografske jedinice broj: 1117595

Construcción del RomCro: un corpus paralelo de lenguas romances y croata

Citiraj ovu publikaciju:

Podijeli: