トークンとは


ChatGPTにおけるトークンとは、テキストを構成する最小単位のことです。

簡単に言えば、「テキストを意味のあるかたまりに分けたもの」です。

各トークンはそれぞれが意味を持ち、それらを組み合わせることで文章全体の意味や文脈を把握することができます。

ChatGPTは文章を文字、単語、句読点、記号など、テキストの要素を小さな単位「トークン」として分け、このトークン単位でテキストを処理します。

例えば、「Hello, How are you?」という文章をトークンに分けると、

Hello
,
how
are
you
?

となります。

このように、それぞれの文字や単語を小さなかたまりに分けることで処理しやすくなります。

ただし、大きな文章を一度に処理すると、処理にかかる時間やリソースの消費が増えるため、トークン数には、一度に処理できる情報量(トークン数)に一定の制限が設けられています。

この場合のトークン数は6である。

日本語のトークン数