百億語のコーパスを用いた日本語の語彙文法情報のプロフ ァイリング (Hyaku oku go no koopasu wo mochiita nihongo no goi bunpo jouhou no purofairingu)

Srdanović, Irena; Suchomel, Vit; Ogiso, Toshinobu; Kilgarriff, Adam

izvor podataka: crosbi !

百億語のコーパスを用いた日本語の語彙文法情報のプロファイリング (Hyaku oku go no koopasu wo mochiita nihongo no goi bunpo jouhou no purofairingu) (CROSBI ID 673278)

Prilog sa skupa u zborniku | kratko priopćenje

Srdanović, Irena ; Suchomel, Vit ; Ogiso, Toshinobu ; Kilgarriff, Adam 百億語のコーパスを用いた日本語の語彙文法情報のプロファイリング (Hyaku oku go no koopasu wo mochiita nihongo no goi bunpo jouhou no purofairingu) // 第3回コーパス日本語学ワークショップ予稿集 (Dai 3 kai koopasu nihongogaku waakushoppu yokoushuu). 2013. str. 229-238

Podaci o odgovornosti

Autori

Srdanović, Irena ; Suchomel, Vit ; Ogiso, Toshinobu ; Kilgarriff, Adam

Osnovni podaci na izvornom jeziku
Osnovni podaci na ostalim jezicima

Jezik

nije evidentirano

Naslov

百億語のコーパスを用いた日本語の語彙文法情報のプロファイリング (Hyaku oku go no koopasu wo mochiita nihongo no goi bunpo jouhou no purofairingu)

Sažetak

近年、一億語を超えた大規模な現代日本語書き言葉均衡コーパスが完成し、その大きなプロジェクトの成果として新しいアノテーションツール、電子化辞書、コーパス検索ツールなどの日本学以外の様々な分野に応用できるリソースが作成されてきた。次の段階として、コーパス量を増やす必要性が明らかになり、今までのデータでは十分把握できず、抽出できなかった言語的情報を得るために超大規模なウェブコーパス構築が始まった。こうした中、様々な言語でウェブコーパス作成の重要性が認識されてきて、多言語のためのTenTen と呼ばれるウェブコーパス群の構築が行われている。本論文において、まず新たに作成された JpTenTen という日本語の 100 億語の超大規模なウェブコーパスを紹介する。このコーパスは、 SpiderLing（Pomikalek and Suchomel 2012）などのツールでデータをクロールし、クリーニングを行った上で、MeCab と UniDic2 (小木曽ら 2011)で形態素解析し、短単位と長単位アノテーションを付与した。コーパスは Sketch Engine というレクシカルプロファイリングツール（Kilgarriff ら 2004）に搭載した。このツールは既に 4 億語の日本語コーパスJpWaCを基にした語彙・文法プロファイリングを可能にしているが（Srdanović ら 2008）、本研究によって新たに可能になった成果は以下の通りである。

Ključne riječi

日本語 ; 語彙 ; 文法 ; コーパス ; JpTenTen

Napomena

nije evidentirano

Jezik

engleski

Naslov

Japanese language lexical and grammatical profiling using the web corpus JpTenTen

Sažetak

nije evidentirano

Ključne riječi

Japanese language ; vocabulary ; grammar ; corpus ; lexical and grammatical profiling ; JpTenTen

Napomena

nije evidentirano

Podaci o prilogu

Stranice rada

229-238.

Godina izdavanja

2013.

Status objave rada

objavljeno

Podaci o matičnoj publikaciji

Naslov

第3回コーパス日本語学ワークショップ予稿集 (Dai 3 kai koopasu nihongogaku waakushoppu yokoushuu)

Podaci o skupu

Skup

第3回コーパス日本語学ワークショップ

Vrsta sudjelovanja

radionica

Datum održavanja skupa

28.02.2013-01.03.2013

Mjesto održavanja skupa

Tokyo, Japan

Povezanost rada

Povezane osobe

Irena Srdanović (autor/i)

Područje

nije evidentirano

Poveznice

ninjal.ac.jp

百億語のコーパスを用いた日本語の語彙文法情報のプロフ ァイリング (Hyaku oku go no koopasu wo mochiita nihongo no goi bunpo jouhou no purofairingu) (CROSBI ID 673278)

Podaci o odgovornosti

Podaci o prilogu

Podaci o matičnoj publikaciji

Podaci o skupu

Povezanost rada

百億語のコーパスを用いた日本語の語彙文法情報のプロファイリング (Hyaku oku go no koopasu wo mochiita nihongo no goi bunpo jouhou no purofairingu) (CROSBI ID 673278)