学習データの増加が限界に到達した
「生成AI/LLM」は今後どうなるのか?
マーケティング部の渡辺です。
データやITなどに関する様々なことをゆるく書いているコラムです。
生成AIを学習させるデータが足りなくなりはじめた
昨今、ChatGPTなどの生成AIが大変な話題ですが、どうもここ最近になり生成AI(LLM)の学習に用いる「データ」が不足しつつあることが話題になってきました。
ChatGPTなどの会話をする生成AIは「大規模言語モデル(LLM)」を使って実現されています。Googleも生成AIを独自に開発しており、他でも例えばイーロンマスクもXで利用できる生成AI(Grok)を開発していますが、これらは実質的に「大規模言語モデル(LLM)」の開発競争をしている状況でした。
⇒ 大規模言語モデル(LLM:Large Language Model)|用語集
大規模言語モデルとは
詳しいところは上記を参照して欲しいのですが、大規模言語モデルの特徴とは、「とんでもない量のデータ」を用いて学習させた巨大モデルであることです。
例えばChatGPT、人間と対話しているかのような複雑な動作をしますが、複雑な動作が作りこまれているわけでも、複雑なタスクを遂行できるようにトレーニングをされているわけでもありません。「この次に出現する単語(トークン)は何でしょう?」を予測するだけのタスクでのトレーニングを「意味が解らないくらいのデータ量」で学習させたら、どういうわけか人間と会話しているような挙動が実現できるようになってしまったものです。
ポイントは、とにかく「信じられないほどの大量のデータ」を用意して学習させた巨大モデルであること。なので「大規模」言語モデル(LLM:”Large” Language Model)と呼ばれています。
スケーリング則(Scaling Laws)と「べき乗則」
各社での開発競争が大変に過熱していますが、その背景には、学習させるデータ量(モデルのサイズ)を増やすと、それだけで精度が向上し、新能力が発現することが明らかになった経緯もあります。
例えば、ChatGPTは翻訳をする能力がありますが、翻訳タスクでのトレーニングはなされていません。明示的には教えていないことを「データ量を増やす」だけで出来るようになったのです。驚くべき事態でした。さらには、データ量を増やすことでこのような「新たにできることが増える」創発現象が継続的に発生することが見込まれることも解りました。
こうなるともう「大規模化競争」はますます過熱するしかありませんでした。データを2倍にすると性能が向上して新能力が発現する、そこからさらに2倍にすると同じような結果が期待できる、とにかく大量のデータを用意しろ、とにかく大きくして競合に先んじろということになりました。
また、量を増やせば性能が上がるということは、投入する資金量で「予測できる結果が得られる戦い」になったことも意味しました。大量の資金、大量のデータ、高価なGPUを大量に用意して、大量の電力を使って信じられないほどの計算をさせて、他社に先んじて巨大なLLMを開発する、そういう争いが起こっていました。
必然的であった「データ不足」
しかしながら、データ量をどんどん増やすやり方はいずれ破たんするものでした。なぜなら、「倍にしてさらに倍にする」ようなやり方では、遠からず「地球上にあるすべてのデータを使ってもデータ量が足りない状態になる」ことは明らかだったからです。
新しいデータを用意する取り組みは続けられていますが、「さらに倍」を継続的に担えるほどのデータを新しく用意し続けることはできません。そして最近ではとうとう、「今までのようにデータ量を増やすことが出来ない」状況に陥ったことが、話題にされるようになってきました。
「学習データをとにかく増やす」戦いの終わり
データ量を増やす競争が限界に達してしまったのなら、これまでとは違う方向性での競争に移らざるを得ません。つまりChatGPTなどの生成AIの今後の状況、「従来とは同じルールで進まなくなった」ということです。
これからは「データ量を増やす以外の方向性」での、さらなる発展に取り組まなければいけなくなります。スケーリング則に代わるような、画期的な取り組みが出てきて状況が変わるようなことが起こらないのなら、これからの生成AIは、ゆっくりと進歩は続くけれども、これまでのような劇的な進歩はない停滞の時代を迎える可能性もあります。
最近の生成AIが「思考の深さ」を売りにし始めた事情
最近の生成AI、例えば「ChatGPT o1」は論理的思考の深さを売りにして登場しています。他社の生成AIにおいても「より深く考える」「時間をかけて考える」みたいな売り文句がされているのを見かけるようになりました。
「ChatGPT o1」は具体的にどういう仕組みで実現されているのかは公開されていませんが、データ量を増やして賢くするのではなく、「よりたくさん考えさせる」ことで賢くする新しい方向性の取り組みがなされていると考えられています。
大規模言語モデルを使って「この次に出現する単語は何ですか」で、すぐに回答を生成するのではなく、内部で多段階の思考過程が踏まれ、つまり何回も何回も処理をしてから回答を生成するようになったと考えられます。
技術的には、「Chain-of-Thoughtプロンプティング」(生成AIに特定の思考過程を踏ませて考えさせるテクニック)と同じような仕組みを用いて、「深い思考」が実現されているとみられています。
⇒ Chain-of-Thoughtプロンプティング|用語集
「イメージ」で説明すると、答える前に聞かれたことをいったん整理する段階を踏ませるとか、考える前にどのように考えるべきか検討してからその通りに考えさせるとか、出てきた答えが適切なものかを検証させるとか、良い答えが出るまで繰り返し考えさせるとか、そういう「多段階でよく考えさせる」ことがなされているとみられています。
この方向での競争が進むと、あなたがChatGPTに何か聞いたら、その質問をきっかけに大量の「思考」が行われ、それらを総合して回答が生成されるようなことになってくるかもしれません。内部でChatGPT が1万回考えに考えた結果が、あなたが目にしている回答かもしれません。
「地球上のテキストデータすら掘りつくされる」法外な時代
これからはデジタル変革後の時代で昔とは違うとか、データの時代であるとは言われてきました。しかし、そういう話を聞くことがあっても、なんとなく「心構えの話」だと思っていたところはなかったでしょうか。
しかし現実に、生成AIの開発競争では「地球上で入手可能なテキストデータが掘りつくされたかもしれない」状況になりました。そんなことが「現実に起こる」ようになったということです。あるいは、クラウドの向こう側での「世界一を争う戦い」とは、そんなとんでもない戦いだったというのも戦慄せざるを得ません。
今は「深い思考」での競争が行われているように思えますが、さらにその先、生成AIが今後どのように展開するのかは、なかなか予測が難しいように思います。今のように、生成AIを巨大クラウドサービスとして外部から利用する状況が続くのかどうかもはっきりしないように思います。5年後、生成AIでデータ活用に取り組むとは何をすることなのか、今からは予想もつかないことになっているかもしれません。
今後の状況が解らなくても、データ自体は今後も存在します。状況が変わっても新しい形でLLMは活用され続けるように思います。ならば、「新しい状況」に応じてデータやLLMの活用方法を素早く変えられる能力をもつことが、今後に備えることになるはずです。
新しいことが起こってもGUIですぐに連携処理を作り直せる、必要に応じてシステムやデータと「つなぐ」ことで自在に連携できる状況を整えていれば、これから起こるかもしれない変化で、他社に先んじることができるはずです。我々の「つなぐ」製品を使って、これからを乗り切っていただければと思います。
執筆者プロフィール

渡辺 亮
- ・マーケティング部 デジタルマーケティング課 所属
- ・2017年 株式会社アプレッソより転籍
- ・大学で情報工学(人工知能の研究室)を専攻したあと、スタートアップの開発部で苦労していました
- ・中小企業診断士(2024年時点)
- ・画像:弊社で昔使われていた「フクスケ」さんを私が乗っ取りました
- (所属は掲載時のものです)