百億語のコーパスを用いた日本語の語彙文法情報のプロフ ァイリング (Hyaku oku go no koopasu wo mochiita nihongo no goi bunpo jouhou no purofairingu) (CROSBI ID 673278)
Prilog sa skupa u zborniku | kratko priopćenje
Podaci o odgovornosti
Srdanović, Irena ; Suchomel, Vit ; Ogiso, Toshinobu ; Kilgarriff, Adam
nije evidentirano
百億語のコーパスを用いた日本語の語彙文法情報のプロフ ァイリング (Hyaku oku go no koopasu wo mochiita nihongo no goi bunpo jouhou no purofairingu)
近年、一億語を超えた大規模な現代日本語書き言葉均衡コ ーパスが完成し、その大きなプロジェクトの成果として新 しいアノテーションツール、電子化辞書、コーパス検索ツ ールなどの日本学以外の様々な分野に応用できるリソース が作成されてきた。次の段階として、コーパス量を増やす 必要性が明らかになり、今までのデータでは十分把握でき ず、抽出できなかった言語的情報を得るために超大規模な ウェブコーパス構築が始まった。こうした中、様々な言語 でウェブコーパス作成の重要性が認識されてきて、多言語 のためのTenTen と呼ばれるウェブコーパス群の構築が行 われている。本論文において、まず新たに作成された JpTenTen という日本語の 100 億語の超大規模なウェブ コーパスを紹介する。このコーパスは、 SpiderLing(Pomikalek and Suchomel 2012)などの ツールでデータをクロールし、クリーニングを行った上 で、MeCab と UniDic2 (小木曽ら 2011)で形態素解析 し、短単位と長単位アノテーションを付与した。コーパス は Sketch Engine というレクシカルプロファイリングツ ール(Kilgarriff ら 2004)に搭載した。このツールは 既に 4 億語の日本語コーパスJpWaCを基にした語彙・文 法プロファイリングを可能にしているが(Srdanović ら 2008)、本研究によって新たに可能になった成果は以下の 通りである。
日本語 ; 語彙 ; 文法 ; コーパス ; JpTenTen
nije evidentirano
engleski
Japanese language lexical and grammatical profiling using the web corpus JpTenTen
nije evidentirano
Japanese language ; vocabulary ; grammar ; corpus ; lexical and grammatical profiling ; JpTenTen
nije evidentirano
Podaci o prilogu
229-238.
2013.
objavljeno
Podaci o matičnoj publikaciji
第3回コーパス日本語学ワークショップ予稿集 (Dai 3 kai koopasu nihongogaku waakushoppu yokoushuu)
Podaci o skupu
第3回コーパス日本語学ワークショップ
radionica
28.02.2013-01.03.2013
Tokyo, Japan