sonoisa / t5-base-japanese

huggingface.co
Total runs: 7.2K
24-hour runs: 0
7-day runs: -559
30-day runs: -5.2K
Model's Last Updated: Décembre 12 2024
text2text-generation

Introduction of t5-base-japanese

Model Details of t5-base-japanese

日本語T5事前学習済みモデル

This is a T5 (Text-to-Text Transfer Transformer) model pretrained on Japanese corpus.

次の日本語コーパス(約100GB)を用いて事前学習を行ったT5 (Text-to-Text Transfer Transformer) モデルです。

  • Wikipedia の日本語ダンプデータ (2020年7月6日時点のもの)
  • OSCAR の日本語コーパス
  • CC-100 の日本語コーパス

このモデルは事前学習のみを行なったものであり、特定のタスクに利用するにはファインチューニングする必要があります。
本モデルにも、大規模コーパスを用いた言語モデルにつきまとう、学習データの内容の偏りに由来する偏った(倫理的ではなかったり、有害だったり、バイアスがあったりする)出力結果になる問題が潜在的にあります。 この問題が発生しうることを想定した上で、被害が発生しない用途にのみ利用するよう気をつけてください。

SentencePieceトークナイザーの学習には上記Wikipediaの全データを用いました。

転移学習のサンプルコード

https://github.com/sonoisa/t5-japanese

ベンチマーク

livedoorニュース分類タスク

livedoorニュースコーパスを用いたニュース記事のジャンル予測タスクの精度は次の通りです。
Google製多言語T5モデルに比べて、モデルサイズが25%小さく、6ptほど精度が高いです。

日本語T5 ( t5-base-japanese , パラメータ数は222M, 再現用コード )

label precision recall f1-score support
0 0.96 0.94 0.95 130
1 0.98 0.99 0.99 121
2 0.96 0.96 0.96 123
3 0.86 0.91 0.89 82
4 0.96 0.97 0.97 129
5 0.96 0.96 0.96 141
6 0.98 0.98 0.98 127
7 1.00 0.99 1.00 127
8 0.99 0.97 0.98 120
accuracy 0.97 1100
macro avg 0.96 0.96 0.96 1100
weighted avg 0.97 0.97 0.97 1100

比較対象: 多言語T5 ( google/mt5-small , パラメータ数は300M)

label precision recall f1-score support
0 0.91 0.88 0.90 130
1 0.84 0.93 0.89 121
2 0.93 0.80 0.86 123
3 0.82 0.74 0.78 82
4 0.90 0.95 0.92 129
5 0.89 0.89 0.89 141
6 0.97 0.98 0.97 127
7 0.95 0.98 0.97 127
8 0.93 0.95 0.94 120
accuracy 0.91 1100
macro avg 0.91 0.90 0.90 1100
weighted avg 0.91 0.91 0.91 1100
JGLUEベンチマーク

JGLUE ベンチマークの結果は次のとおりです(順次追加)。

  • MARC-ja: 準備中
  • JSTS: 準備中
  • JNLI: 準備中
  • JSQuAD: EM=0.900, F1=0.945, 再現用コード
  • JCommonsenseQA: 準備中

免責事項

本モデルの作者は本モデルを作成するにあたって、その内容、機能等について細心の注意を払っておりますが、モデルの出力が正確であるかどうか、安全なものであるか等について保証をするものではなく、何らの責任を負うものではありません。本モデルの利用により、万一、利用者に何らかの不都合や損害が発生したとしても、モデルやデータセットの作者や作者の所属組織は何らの責任を負うものではありません。利用者には本モデルやデータセットの作者や所属組織が責任を負わないことを明確にする義務があります。

ライセンス

CC-BY SA 4.0

Common Crawlの利用規約 も守るようご注意ください。

Runs of sonoisa t5-base-japanese on huggingface.co

7.2K
Total runs
0
24-hour runs
130
3-day runs
-559
7-day runs
-5.2K
30-day runs

More Information About t5-base-japanese huggingface.co Model

More t5-base-japanese license Visit here:

https://choosealicense.com/licenses/cc-by-sa-4.0

t5-base-japanese huggingface.co

t5-base-japanese huggingface.co is an AI model on huggingface.co that provides t5-base-japanese's model effect (), which can be used instantly with this sonoisa t5-base-japanese model. huggingface.co supports a free trial of the t5-base-japanese model, and also provides paid use of the t5-base-japanese. Support call t5-base-japanese model through api, including Node.js, Python, http.

t5-base-japanese huggingface.co Url

https://huggingface.co/sonoisa/t5-base-japanese

sonoisa t5-base-japanese online free

t5-base-japanese huggingface.co is an online trial and call api platform, which integrates t5-base-japanese's modeling effects, including api services, and provides a free online trial of t5-base-japanese, you can try t5-base-japanese online for free by clicking the link below.

sonoisa t5-base-japanese online free url in huggingface.co:

https://huggingface.co/sonoisa/t5-base-japanese

t5-base-japanese install

t5-base-japanese is an open source model from GitHub that offers a free installation service, and any user can find t5-base-japanese on GitHub to install. At the same time, huggingface.co provides the effect of t5-base-japanese install, users can directly use t5-base-japanese installed effect in huggingface.co for debugging and trial. It also supports api for free installation.

t5-base-japanese install url in huggingface.co:

https://huggingface.co/sonoisa/t5-base-japanese

Url of t5-base-japanese

t5-base-japanese huggingface.co Url

Provider of t5-base-japanese huggingface.co

sonoisa
ORGANIZATIONS

Other API from sonoisa