Vol.14

安心・安全、便利な
Society 5.0に向けた
生成AIの手法を
「富岳」で開発

東京工業大学学術国際情報センター
教授
横田 理央 研究者紹介

2023年に入り、日本でも生成AIの普及が加速しています。すでに数年前からアメリカでは、MicrosoftやGoogleなど最大手IT企業がこぞって巨額の資金を投入するなど、開発競争が激化しています。このような中、スーパーコンピュータ「富岳」を利用した生成AIの手法の研究開発を進めているのが、横田さんの研究グループです。

生成AIとは? What is Generative AI?

生成AIとは、入力されたデータに基づき、新たな文章、画像、音声、動画などを生成するAI(人工知能)のことです。従来のAIが与えられたデータを使って学習し、それに基づいて分類や検知を行うのに対し、生成AIは学習で得た知識を応用して画像や文章を生成できる点が特徴です。特に注目されているのが、人が書いたような文章を生成してくれる「言語生成AI」と、入力した文章に関連する画像を生成してくれる「画像生成AI」です。アメリカのAIスタートアップ企業であるOpenAI社が2022年11月にリリースした「ChatGPT」は言語生成AIの一つで、大きな話題となりました。

生成AIは、データ間の関係を表す「モデル」によって言語や画像を生成します。モデルの構築方法はいろいろありますが、多くの場合、データ間の関係がわかっている教師データ(例えば、「犬」というラベルと犬の画像のセット)を大量に学習させることでつくられます。学習に広く使われているのは、深層学習(ディープラーニング)。脳神経回路をモデル化したニューラルネットワークと呼ばれる仕組みを多層化して接続し、データを入力して学習させる技術のことです。このようなニューラルネットのことをモデルといいます。例えば、画像分類に用いるものは画像分類モデル、言語のタスクに用いるものは言語モデルと呼びます。

「昔の深層学習では画像分類、異常検知、文章の要約、自動翻訳などのタスクごとに異なるモデルを学習させていましたが、最近では一つの巨大なモデルをさまざまなデータで学習させてから、それを基盤としてさまざまなタスク向けに微調整する方法が一般的になっています。このように予め大量のデータで行う学習を『事前学習』と呼びます」と横田さんは説明します。

人工画像を使った事前学習で画像分類モデルの性能を向上 Improving the Performance of Image Classification Models through Pre-training with Synthetic Images

横田さんたちが「富岳」でまず取り組んだのは、画像分類モデルの事前学習です。画像分類モデルの開発には多くの課題があると横田さんは指摘します。「モデルの性能は、事前学習に使うデータの量が多ければ多いほど高まることが経験的に示されています。画像分類モデルに関しては、教師データとして大量の画像データを読み込ませる必要があるわけです。ところが、インターネット上に掲載されている画像データを集めてラベリングする技術は検索エンジンを運営しているGoogleなどがどうしても有利になります。Googleでつくられた画像データセットはいくつかありますが、Google以外の企業やアカデミアの研究者が利用することはできず、画像処理分野の発展への大きな障壁となっています」

そこで、横田さんたちはこのような状況を打開すべく、人工画像を使った画像分類モデルの超大規模事前学習に挑戦しました。「人工画像の研究は、産業技術総合研究所(産総研)の研究チームが先行して始めました ※1※1 人工画像の作成方法と、人工画像の事前学習で画像識別が可能になるしくみについては産総研マガジンの記事を参照。。しかし、そこで行われていたのは比較的小規模なものでした。そこで2021年、私は超大規模な人工画像データセットの作成に着手し、2022年度の「富岳」一般課題(人工画像を用いたVision Transformerの超大規模事前学習(hp220028))で、『富岳』上で画像分類モデルの事前学習を実行したのです」

横田さんたちの人工画像の特徴は、実画像は一切使用せず、数式のみを使って作成しているという点にあり、フラクタルなどの画像が描かれています図1

図1実画像と人工画像

左が実画像のイメージ、右が人工画像の例。JFT-300M(Googleが保有する非公開の約3億枚の実画像セット)を使った場合のVision Transformerの学習効果(画像識別精度84.2%)と、Visual Atom(横田さんたちの作成した2100万枚の人工画像のセット)を使った場合の学習効果(83.7%)はほぼ同程度であった。「@ImageNet-1k」は、事前学習させたモデルをImageNet-1kという実画像の小規模なデータセットで微調整した結果であることを示す。

こうして作成した2100万枚の人工画像を使い、「Vision Transformer」という画像分類モデルの事前学習を行ったところ、この事前学習の効果は、Googleが自身の保有する3億枚もの実画像セットを用いて学習させた場合の効果とほぼ同程度でした。さらに、「画像分類モデルの事前学習によく使われる『ImageNet-21k』という実画像セット(約1400万枚)を使った場合と比べたところ、私たちの人工画像セットを使った場合のほうが高い学習効果を示しました。事前学習における人工画像の有効性が裏付けられ、大きな自信を得ることができました」と横田さんは成果を振り返ります。

人工画像のメリットとして、横田さんは次の4点を挙げます。1点目はいくらでも大量に作成可能なこと、2点目は著作権に配慮する必要がないこと、3点目は個人情報にも配慮する必要がないこと、そして4点目は性差別や人種差別の要因となるバイアスがかからないことです。

「現在、インターネット上には、著作権のある画像やプライベートな画像が数多く掲載されています。また、例えば、『看護師』で画像検索すると女性の画像ばかり出てくるなど職種による性別の偏りなども散見されます。そういった実画像が事前学習に使用されていることが大きな問題となっているのです。しかし、人工画像であればそういった問題とは一切無縁です」と横田さんは説明します。

とはいえ、一見何を表しているか分からない人工画像を使って、果たして実画像と同じ学習効果が得られるものなのでしょうか。この疑問に対し、横田さんの答えは、「これは、母親のお腹の中にいる胎児に置き換えて考えることができます。胎児の視神経は、母親の胎内でも光に反応しています。胎児はおそらく、生まれる前からぼんやりとした形状などは見えていると思われます。誕生後、すぐに物の形状が認識できるようになるのは、すでに胎内で光に対する事前学習をしていたからだと考えられます。つまり、人工画像は胎児が胎内で感じていた光のようなものと捉えることができるのです」というものでした。

「富岳」によるAIの研究開発環境を整備 Establishing the Research and Development Environment for AI with Fugaku

では、今回の超大規模事前学習に、計算ノードがすべてCPUで、GPUが搭載されていない「富岳」を選んだのはどうしてでしょうか。「深層学習には、確かにCPUよりもGPUのほうが計算処理速度が速く、適しています。実際、AIに特化したスパコンである産総研のABCIにはGPUが使われていますが、日本のAIの研究開発者は皆、ABCIに殺到しており、使用の順番待ちの状況が続いています。そこで、CPUのみを搭載したスパコンでもAIの研究開発ができるようにしたいと考えました。また、今回、我々が実行した超大規模事前学習の場合は、計算処理速度よりも、ノード数が多く長時間にわたり使えることの方が重要でした。その点で、『富岳』は課題に配分された計算資源量が膨大で、ABCIに対して優位性がありました図2」と横田さんは理由を語ります。

一方で、「富岳」は元々AIの研究開発向けには設計されていなかったことから、苦労した点も多かったといいます。「まず、深層学習を高速に行うためのソフトウェアのインフラが整っておらず、一から開発しなければなりませんでした。また、画像データを大量に読み込む際、1枚1枚個別に読み込んでいくと入出力に負荷がかかるので、大量の画像データを1つのファイルに圧縮して入出力の回数を減らすなどの工夫をしました。さらに、メモリ消費量を軽減するため、画像データとモデルを分散並列処理するための手法を新たに開発しました。いろいろ苦労はありましたが、これにより、今後は多くの皆さんが、『富岳』を使ってAIの研究開発を促進できるようになるでしょう」

図2「富岳」(上)とAIの研究開発に特化した産総研のABCI(下)

AIに使われるABCIの1個のGPUの処理速度は「富岳」の1個のCPUの50倍だが、ABCIはGPUが4000個搭載されているのに対して、「富岳」はCPUが16万個ある。このため、単純計算では、「富岳」の全CPUを使えばABCIとほぼ同等の計算ができる。さらに、「富岳」をABCIよりも長時間使うことができれば優位になる。

生成AIの手法の開発が不可欠な理由 The Essential Need for the Development of Generative AI Methods

これらの成果を踏まえ、横田さんは新たに、2023年度の「富岳」政策対応利用課題(「富岳」を活用した大規模言語モデル分散並列学習手法の開発(hp230254))に取り組んでいます。この課題では、東京工業大学、東北大学、富士通、理化学研究所、サイバーエージェント、Kotoba Technologies、名古屋大学からなる産官学の共同研究チームが、「富岳」による超大規模な分散並列処理により、大規模言語モデル(言語生成AIに使われるモデル)の学習を効率的に実施するための手法の開発を目指しています。

「アメリカでは生成AIに関する巨額の投資が行われており、例えば、ChatGPTのユーザー数がたった2ヵ月間で1億人を突破するなど、すでに国際的な社会インフラとして普及しています。そうした状況の下、今さら後追いで生成AIの手法を開発しても仕方ないのではという意見もあります。しかし、生成AIの開発はスタートアップ企業がおもに担っており、事業の継続性には不安がつきまといます。そうした企業に頼るのは非常にリスクが高いと言えます。また、生成AIは『Society 5.0』※2※2 サイバー空間(仮想空間)とフィジカル空間(現実空間)を高度に融合させたシステムにより、経済発展と社会的課題の解決を両立する、人間中心の社会のことの基盤となる技術であり、医療・産業・教育のあらゆる場面に登場することになります。『優位性』を見極めてから特定の業態に参入するかどうかの話をしている場合ではありません。日本は、高度経済成長期に電力網や交通網を整備しましたが、その理由は、日本の電線や道路の技術が世界的な『優位性』をもっていたからではなかったと思います。それと同様に、圧倒的な生産性をもたらすインフラには必ず投資をしないと、その上に成り立つ産業の国際競争力が壊滅的な影響を受けます」と横田さんは強調します。

「今後、生成AIが日本のあらゆる産業分野において利活用されることが予想されている中、計算資源への投資、AIに関する技術力・知識・ノウハウの蓄積、高度AI人材の育成がますます重要になっていきます」と横田さんはつけ加えました。

画像と言語の両方に対応可能な生成AIを目指す Aiming for Generative AI Capable of Handling Both Images and Language

さらに、横田さんたちは、生成AIそのものの開発も行っています。2023年度の「富岳」一般課題で、富士通が「富岳」向けに開発したプロセッサA64FX上でTransformerの性能を最適化し、画像と言語の両方に対応できるようにすることを目指しています(TransformerのA64FX上での性能最適化とVision & Language(hp230119))。Transformerは、上述のVision Transformerの元になっている言語生成AIです。

「画像生成AIは文章を入力することで画像が作成されるので、画像と言語はそもそも単独では存在せず、両方を学習しなければなりません。そこで、画像と言語の両方に対応可能な高性能な生成AIの開発を目指すことにしたのです。目標は、『家系ラーメン』※3※3 屋号に「○○家」とついている店舗が多かったところから、「家系」と呼ばれるようになったラーメン及びラーメン店群の画像として、例えば、家の形のどんぶりにラーメンが入った画像図3ではなく、正しい画像を生成できる生成AIの開発です」と横田さんは笑います。

家系ラーメンに限らず、生成AIがつくる「笑える画像」はSNS上に多く登場し、話題となっています。「このような誤解が生じるのは、生成AIが日本語を正しく理解していないからではなく、日本の文化やトレンドを知らないからです。今後、日本語だけでなく、日本社会に的確に対応できる生成AIの開発を目指します」

図3生成AIが描く「家系ラーメン」のイメージ
(実際にSNSに掲載されている画像ではありません。)

今後、画像と言語の両方に対応可能な生成AIの開発が進むことで、例えば、調理ロボットが搭載したカメラを通して得た画像データを言葉に変換し、次に行うべきことを生成AIに尋ね、生成AIがそれに答えるといったことが可能になるといいます。つまり、ロボットは、事前に手順を教えなくても自律的に調理ができるようになるということです。そのような社会がすでに目の前まできているのです。

フェイクニュースが増える中、規制の整備も重要 Addressing the Growing Issue of Fake News, Regulation Is Crucial

このように、横田さんたちは3つの課題を遂行し、国内の他の研究グループとも協力しながら生成AIの手法の開発を進めています。一方で、生成AIを搭載したロボットが自律性をもち、人間を介さず自ら判断し行動するようになることに、不安や恐怖心を抱く人も少なくないと考えられます。それに対し、横田さんは、「まず、私が恐れていることは、生成AIによるフェイク画像の拡散です。特に、ディープフェイクが大きな問題となっています。ディープフェイクとは、ディープラーニングとフェイク(偽物)を合わせた造語です。もともとは映画やゲームの分野で使われていた技術が広く一般に普及し、フェイクニュースなどとして悪用されるようになり、情報操作に使われています。そのため、現在、各国の首脳が集まって規制に向けた会議を開催しています」と語ります。

実際、2023年5月に開催された「G7広島サミット」では、「広島AIプロセス」の創設が盛り込まれました。これは、ChatGPTを含む生成AIの活用や開発、規制に関する国際的なルール作りを推進するため、G7の関係閣僚が中心となって議論するための新たな枠組みです。また、2023年11月には、イギリスで世界初のAIの安全な活用に関する国際会議「AI安全サミット」が開催され、欧米や中国、日本などの政府高官や大手AI企業の代表、首脳級により、最先端のAIが悪用されたり制御不能になるというリスクへの対応が話し合われました。

「このように、規制に向けては首脳同士の会合が増えてきていますが、それに加えて、AIの研究者や技術者も交えた会合の開催が不可欠だと考えています。今後も生成AIの研究開発を通じて、安心・安全で、便利な未来社会の実現に貢献したいですね」

人工画像の作成方法と、人工画像の事前学習で画像識別が可能になるしくみについては 産総研マガジンの記事を参照。 本文

サイバー空間(仮想空間)とフィジカル空間(現実空間)を高度に融合させたシステムにより、経済発展と社会的課題の解決を両立する、人間中心の社会のこと本文

屋号に「○○家」とついている店舗が多かったところから、「家系」と呼ばれるようになったラーメン及びラーメン店群本文

研究課題名:人工画像を用いたVision Transformerの超大規模事前学習(hp220028)
TransformerのA64FX上での性能最適化とVision & Languageへの応用(hp230119)
課題代表者:東京工業大学学術国際情報センター 横田 理央
研究課題名:「富岳」を活用した大規模言語モデル分散並列学習手法の開発(hp230254)
研究代表者:文部科学省研究振興局 参事官(情報担当) 嶋崎 政一

研究者紹介

東京工業大学学術国際情報センター 教授 横田 理央

学部生時代は流体に関する実験的研究をしていたという横田さん。修士課程で流体シミュレーションを始めたといいます。また、博士課程の頃に、ちょうどGPUが出始めたことから、GPUによるシミュレーションを開始したそうです。「当時ゲーム用のGPUを200台くらいつなげて、世界で最も安価なスパコンのようなものをつくり、2009年にアメリカ計算機学会(ACM)のゴードン・ベル賞(価格性能部門)を受賞しました」と横田さん。このことをきっかけに、スパコンに本格的に興味をもったといいます。一方、AIによる機械学習の研究を始めたのは、2015年に東工大に着任してからのこと。学生が皆、機械学習に興味をもっていたことから、それに応える形で始めたそうです。「研究対象は変化していますが、分散並列処理を行っているという点では、大学院時代から一貫しています」と振り返ります。一方、趣味はダイビングとプログラミングで、ダイビングに関してはインストラクターの資格ももっているというスポーツマン。「最近は忙しくて趣味の時間が全然取れず、少し辛いですね」と笑います。

COLUMN Connect

COLUMN CONNECTは、計算科学の研究者によるリレー形式のコラムです。
研究者になったきっかけ、転機となった出来事、現在の研究内容などを研究者自身に綴っていただきます。

京都大学 基礎物理学研究所
特定研究員

杉本すぎもと かおるさん

自由な発想への憧れ

幼い頃から漠然と科学全般に興味を持っていて、小中高校の間、細菌やロボットなど、授業とは関係の無いさまざまな分野の勉強をしました(表面をなぞる程度ですが)。高校卒業後の進路を決める時には、幅広い分野に通じる汎用性を持つ物理学を大学で学ぶことにしました。そして、学部入学から間もない時期に将来の指導教官となる先生と出会い、これが私の人生に大きな影響を与えることになります。その先生は自身の興味や好奇心に従順で、さまざまな物理分野への関心と知識を持っていました。異なる分野からのアイデアを結びつけてこれまでに無かったものを創造する、先入観に縛られない自由な研究者であったことが今でも強く印象に残っています。当時、いろいろな分野を手広く勉強してきた私は勝手に親近感を抱き、直々に指導を受けるべくその先生の研究室(レーザー実験系)所属の学生となりました。研究室配属の前から、「将来的には特定の物理分野に限定した仕事よりも、さまざまな分野に携われる仕事がしたいがどうすればよいだろうか?」と悩んでいましたが指導教官と議論をする中でいつしか私も同じように”自由な研究”をしたいと考えるようになりました。その折、指導教官からの後押しも重なって研究者の道を選びました。

私の研究経歴はレーザー実験系から始まりレーザープラズマ相互作用シミュレーションの研究を経て、現在、宇宙における磁気リコネクションを取り扱っています。磁気リコネクションは磁場と荷電粒子(プラズマ)の相互作用の一種であり、反平行の磁場が繋ぎ変わる際に磁気エネルギーが荷電粒子のエネルギー、そして電磁波に変換されます。これは中性子星などの高密度天体磁気圏から飛来する電磁波の起源と考えられていますが、磁気エネルギーの散逸過程の詳細は明らかになっていません。特に上述の環境では、今のところ現場で直接観測することができません。そこで、計算機の仮想空間上に磁気リコネクションが引き起こされる環境を設定し、磁気エネルギーの変換過程をシミュレーションにより解析しています。まだ始めたばかりですが、これまでに培ったノウハウを活かしてどのような研究展開ができるか楽しみです。

次は私が院生の頃に同じ研究所でポスドクを務め、現在は量子科学技術研究開発機構 関西光量子科学研究所で主任研究員として活躍している昌育まさやすさんへCONNECTします。