GSK2020-E 「国語研日本語ウェブコーパス」NWJC-BERT
| Description: |
「国語研日本語ウェブコーパス」 NWJC-BERTは、国立国語研究所コーパス開発センター超大規模コーパスプロジェクト(2011-2015年度)で整備されたウェブテキストコーパス (2014年第4四半期データ)から訓練した BERT モデルである。同データの 6単語以上の文 226億語から UniDic 語彙素(表層形ではない)に基づいて訓練した。形態素解析は、MeCab-0.996 と UniDic-2.1.2による。語彙は、UniDic の機能語(語彙素)と UniDic-分類語彙表対応表中の語彙素 48,914語彙素からなる。 |
|---|---|
| Creator: |
人間文化研究機構 国立国語研究所 コーパス開発センター |
| Price: |
会員・個人利用11,000円、会員・団体(非営利)利用22,000円、会員・団体(営利)利用44,000円。 非会員・個人利用22,000円、非会員・団体(非営利)利用33,000円、非会員・団体(営利)利用66,000円。 別途、送料3,300円。 |
| Date: | 2020.9 |
| Format: | 1 USB flash drive (1.5GB) |
| Format.encoding: | UTF-8 |
| Language: | Japanese |
| Relation: |
GSK2020-C 「国語研日本語ウェブコーパス」n-gram データ・頻度表 GSK2020-D 「国語研日本語ウェブコーパス」NWJC2vec |