Pregled bibliografske jedinice broj: 986938
百億語のコーパスを用いた日本語の語彙文法情報のプロフ ァイリング (Hyaku oku go no koopasu wo mochiita nihongo no goi bunpo jouhou no purofairingu)
百億語のコーパスを用いた日本語の語彙文法情報のプロフ ァイリング (Hyaku oku go no koopasu wo mochiita nihongo no goi bunpo jouhou no purofairingu) // 第3回コーパス日本語学ワークショップ予稿集 (Dai 3 kai koopasu nihongogaku waakushoppu yokoushuu)
Tokyo, Japan, 2013. str. 229-238 (radionica, podatak o recenziji nije dostupan, kratko priopćenje, znanstveni)
CROSBI ID: 986938 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
百億語のコーパスを用いた日本語の語彙文法情報のプロフ ァイリング (Hyaku oku go no koopasu wo mochiita nihongo no goi bunpo jouhou no purofairingu)
(Japanese language lexical and grammatical profiling using the web corpus JpTenTen)
Autori
Srdanović, Irena ; Suchomel, Vit ; Ogiso, Toshinobu ; Kilgarriff, Adam
Vrsta, podvrsta i kategorija rada
Sažeci sa skupova, kratko priopćenje, znanstveni
Izvornik
第3回コーパス日本語学ワークショップ予稿集 (Dai 3 kai koopasu nihongogaku waakushoppu yokoushuu)
/ - , 2013, 229-238
Skup
第3回コーパス日本語学ワークショップ
Mjesto i datum
Tokyo, Japan, 28.02.2013. - 01.03.2013
Vrsta sudjelovanja
Radionica
Vrsta recenzije
Podatak o recenziji nije dostupan
Ključne riječi
日本語 ; 語彙 ; 文法 ; コーパス ; JpTenTen
(Japanese language ; vocabulary ; grammar ; corpus ; lexical and grammatical profiling ; JpTenTen)
Sažetak
近年、一億語を超えた大規模な現代日本語書き言葉均衡コ ーパスが完成し、その大きなプロジェクトの成果として新 しいアノテーションツール、電子化辞書、コーパス検索ツ ールなどの日本学以外の様々な分野に応用できるリソース が作成されてきた。次の段階として、コーパス量を増やす 必要性が明らかになり、今までのデータでは十分把握でき ず、抽出できなかった言語的情報を得るために超大規模な ウェブコーパス構築が始まった。こうした中、様々な言語 でウェブコーパス作成の重要性が認識されてきて、多言語 のためのTenTen と呼ばれるウェブコーパス群の構築が行 われている。本論文において、まず新たに作成された JpTenTen という日本語の 100 億語の超大規模なウェブ コーパスを紹介する。このコーパスは、 SpiderLing(Pomikalek and Suchomel 2012)などの ツールでデータをクロールし、クリーニングを行った上 で、MeCab と UniDic2 (小木曽ら 2011)で形態素解析 し、短単位と長単位アノテーションを付与した。コーパス は Sketch Engine というレクシカルプロファイリングツ ール(Kilgarriff ら 2004)に搭載した。このツールは 既に 4 億語の日本語コーパスJpWaCを基にした語彙・文 法プロファイリングを可能にしているが(Srdanović ら 2008)、本研究によって新たに可能になった成果は以下の 通りである。
Izvorni jezik
Ostalo