Pretražite po imenu i prezimenu autora, mentora, urednika, prevoditelja

Napredna pretraga

Pregled bibliografske jedinice broj: 986938

百億語のコーパスを用いた日本語の語彙文法情報のプロフ ァイリング (Hyaku oku go no koopasu wo mochiita nihongo no goi bunpo jouhou no purofairingu)


Srdanović, Irena; Suchomel, Vit; Ogiso, Toshinobu; Kilgarriff, Adam
百億語のコーパスを用いた日本語の語彙文法情報のプロフ ァイリング (Hyaku oku go no koopasu wo mochiita nihongo no goi bunpo jouhou no purofairingu) // 第3回コーパス日本語学ワークショップ予稿集 (Dai 3 kai koopasu nihongogaku waakushoppu yokoushuu)
Tokyo, Japan, 2013. str. 229-238 (radionica, podatak o recenziji nije dostupan, kratko priopćenje, znanstveni)


CROSBI ID: 986938 Za ispravke kontaktirajte CROSBI podršku putem web obrasca

Naslov
百億語のコーパスを用いた日本語の語彙文法情報のプロフ ァイリング (Hyaku oku go no koopasu wo mochiita nihongo no goi bunpo jouhou no purofairingu)
(Japanese language lexical and grammatical profiling using the web corpus JpTenTen)

Autori
Srdanović, Irena ; Suchomel, Vit ; Ogiso, Toshinobu ; Kilgarriff, Adam

Vrsta, podvrsta i kategorija rada
Sažeci sa skupova, kratko priopćenje, znanstveni

Izvornik
第3回コーパス日本語学ワークショップ予稿集 (Dai 3 kai koopasu nihongogaku waakushoppu yokoushuu) / - , 2013, 229-238

Skup
第3回コーパス日本語学ワークショップ

Mjesto i datum
Tokyo, Japan, 28.02.2013. - 01.03.2013

Vrsta sudjelovanja
Radionica

Vrsta recenzije
Podatak o recenziji nije dostupan

Ključne riječi
日本語 ; 語彙 ; 文法 ; コーパス ; JpTenTen
(Japanese language ; vocabulary ; grammar ; corpus ; lexical and grammatical profiling ; JpTenTen)

Sažetak
近年、一億語を超えた大規模な現代日本語書き言葉均衡コ ーパスが完成し、その大きなプロジェクトの成果として新 しいアノテーションツール、電子化辞書、コーパス検索ツ ールなどの日本学以外の様々な分野に応用できるリソース が作成されてきた。次の段階として、コーパス量を増やす 必要性が明らかになり、今までのデータでは十分把握でき ず、抽出できなかった言語的情報を得るために超大規模な ウェブコーパス構築が始まった。こうした中、様々な言語 でウェブコーパス作成の重要性が認識されてきて、多言語 のためのTenTen と呼ばれるウェブコーパス群の構築が行 われている。本論文において、まず新たに作成された JpTenTen という日本語の 100 億語の超大規模なウェブ コーパスを紹介する。このコーパスは、 SpiderLing(Pomikalek and Suchomel 2012)などの ツールでデータをクロールし、クリーニングを行った上 で、MeCab と UniDic2 (小木曽ら 2011)で形態素解析 し、短単位と長単位アノテーションを付与した。コーパス は Sketch Engine というレクシカルプロファイリングツ ール(Kilgarriff ら 2004)に搭載した。このツールは 既に 4 億語の日本語コーパスJpWaCを基にした語彙・文 法プロファイリングを可能にしているが(Srdanović ら 2008)、本研究によって新たに可能になった成果は以下の 通りである。

Izvorni jezik
Ostalo



POVEZANOST RADA


Profili:

Avatar Url Irena Srdanović (autor)

Poveznice na cjeloviti tekst rada:

Pristup cjelovitom tekstu rada www.ninjal.ac.jp

Citiraj ovu publikaciju:

Srdanović, Irena; Suchomel, Vit; Ogiso, Toshinobu; Kilgarriff, Adam
百億語のコーパスを用いた日本語の語彙文法情報のプロフ ァイリング (Hyaku oku go no koopasu wo mochiita nihongo no goi bunpo jouhou no purofairingu) // 第3回コーパス日本語学ワークショップ予稿集 (Dai 3 kai koopasu nihongogaku waakushoppu yokoushuu)
Tokyo, Japan, 2013. str. 229-238 (radionica, podatak o recenziji nije dostupan, kratko priopćenje, znanstveni)
Srdanović, I., Suchomel, V., Ogiso, T. & Kilgarriff, A. (2013) 百億語のコーパスを用いた日本語の語彙文法情報のプロフ ァイリング (Hyaku oku go no koopasu wo mochiita nihongo no goi bunpo jouhou no purofairingu). U: 第3回コーパス日本語学ワークショップ予稿集 (Dai 3 kai koopasu nihongogaku waakushoppu yokoushuu).
@article{article, author = {Srdanovi\'{c}, Irena and Suchomel, Vit and Ogiso, Toshinobu and Kilgarriff, Adam}, year = {2013}, pages = {229-238}, keywords = {日本語, 語彙, 文法, コーパス, JpTenTen}, title = {百億語のコーパスを用いた日本語の語彙文法情報のプロフ ァイリング (Hyaku oku go no koopasu wo mochiita nihongo no goi bunpo jouhou no purofairingu)}, keyword = {日本語, 語彙, 文法, コーパス, JpTenTen}, publisherplace = {Tokyo, Japan} }
@article{article, author = {Srdanovi\'{c}, Irena and Suchomel, Vit and Ogiso, Toshinobu and Kilgarriff, Adam}, year = {2013}, pages = {229-238}, keywords = {Japanese language, vocabulary, grammar, corpus, lexical and grammatical profiling, JpTenTen}, title = {Japanese language lexical and grammatical profiling using the web corpus JpTenTen}, keyword = {Japanese language, vocabulary, grammar, corpus, lexical and grammatical profiling, JpTenTen}, publisherplace = {Tokyo, Japan} }




Contrast
Increase Font
Decrease Font
Dyslexic Font