banner
Hoodrh

Hoodrh

人文、产品、加密探索(非正式研究)
medium
twitter
substack
hoodrh.top

ChatGPTの熱潮の中の冷静剤 - AIの安全性研究

在 OpenAI が第 4 世代の chatGPT を発表した後、AI 分野からテクノロジー全般に流行が広がり、さまざまな業界での議論にも現れました。このような盛況を前に、賑やかさに対して懐疑的な私は「本当にそんなにすごいのか?欠点は何か?」と思います。このように考えるのは、変化を受け入れないというわけではなく、このような大規模 AI システムが未来にどのような影響を与えるのか、私たちは短期、中期、長期の変化にどう向き合うべきかを理解したいからです。そうすることで、心理的な期待を持ち、未来に向けての計画を立てることができます。

ちょうど良いことに、今日は Anthropic のこの記事を契機に、大規模 AI モデルが直面する安全性の問題と、それに対する彼らの探求について考えてみたいと思います。


img

引言#

私たちが Anthropic を設立したのは、人工知能の影響が産業革命や科学革命の影響に匹敵する可能性があると信じているからですが、それがスムーズに進むとは信じていません。また、この程度の影響がすぐに訪れる可能性があるとも信じています —— おそらく今後 10 年以内に。

この見解は信じがたいか誇張されているように聞こえるかもしれませんが、疑念を抱く理由は十分にあります。一方で、「私たちがやっていることは歴史上最大の進展の一つかもしれない」と言った人のほとんどが間違っており、しばしば滑稽です。それにもかかわらず、私たちは人工知能の急速な進歩が変革的な AI システムをもたらす世界に備えるための十分な証拠があると信じています。

Anthropic では、「語るのではなく示す」というモットーのもと、安全指向の研究を継続的に発表することに注力しており、これらの研究は AI コミュニティに広く価値があると考えています。私たちがこの記事を書くのは、ますます多くの人々が人工知能の進歩を認識する中で、このトピックに対する私たちの見解を表明し、私たちの戦略と目標を説明する時が来たからです。簡単に言えば、私たちは AI の安全研究が急務であり、広範な公的および私的な参加者の支援を受けるべきだと考えています。

したがって、この記事では、私たちがなぜこれを信じるのかを要約します:なぜ私たちは AI が非常に迅速に進歩し、非常に大きな影響を与えると予測しているのか、そしてそれがどのように私たちの AI の安全に対する懸念につながるのかを説明します。その後、私たち自身の AI 安全研究のアプローチとその背後にあるいくつかの理由を簡単にまとめます。この記事を書くことで、AI の安全と進歩に関するより広範な議論に貢献できることを願っています。

この記事の要点を高レベルでまとめると:

  • 人工知能は非常に大きな影響を与える可能性があり、今後 10 年以内に発生するかもしれません
    AI システムの急速かつ持続的な進歩は、AI システムの訓練に使用される計算が指数関数的に増加するという予測結果です。「スケーリングの法則」に関する研究は、より多くの計算が能力の一般的な向上をもたらすことを示しています。単純な推論は、人工知能システムが今後 10 年以内にさらに強力になり、ほとんどの知的タスクでのパフォーマンスが人間レベルに等しいかそれを超える可能性があることを示唆しています。人工知能の進歩は鈍化または停止する可能性がありますが、続く可能性があるという証拠があります。
  • 私たちはシステムを堅牢に良好に機能させる方法を知らない
    現時点で、非常に強力な人工知能システムを訓練して非常に有用で、誠実で、無害にする方法を知っている人はいません。さらに、人工知能の急速な進歩は社会に混乱をもたらし、企業や国家が信頼できない人工知能システムを展開する競争を引き起こす可能性があります。このような行動の結果は、戦略的に危険な目標を追求する人工知能システムや、高リスクの状況で無実の誤りを犯すシステムによって、壊滅的である可能性があります。
  • 私たちは人工知能安全に対する多面的で経験に基づくアプローチに最も楽観的です
    私たちは、信頼性のある安全なシステムを構築することを目指してさまざまな研究方向を追求しており、現在最もエキサイティングなのは、拡張監視、機械的説明可能性、プロセス指向の学習、そして人工知能システムがどのように学び、一般化するかを理解し評価することです。私たちの重要な目標の一つは、この安全作業を差別化して加速し、安全研究のプロファイルを策定し、安全上の課題が簡単に解決できるシナリオから、安全なシステムを作成することが非常に困難なシナリオまでを広くカバーすることです。

私たちの人工知能の急速な進展に対する粗略な見解#

AI の性能が予測可能である理由は(1)改善の三つの主要要因は訓練データ、計算、改善されたアルゴリズムです。2010 年代中頃、私たちの中の何人かは、より大きな AI システムが常により知的であることに気づき、したがって AI の性能において最も重要な要因は AI 訓練計算の総予算である可能性があると推測しました。グラフを描くと、最大モデルへの計算量が毎年10 倍の速度で増加していることは明らかでした(倍増時間はムーアの法則より 7 倍速い)。2019 年、後に Anthropic の創設チームとなる数名のメンバーがスケーリングの法則を定義することでこの考えをより正確にしました。AI に対して、AI をより大きくし、より多くのデータで訓練するだけで、予測可能な方法で AI をより賢くすることができることを証明しました。これらの結果はある程度この点を証明しており、チームは GPT-3 の訓練作業を主導し、173B 以上のパラメータを持つ最初の現代的な「大規模」言語モデル(2)といえます。

スケールの法則が発見されて以来、Anthropic の多くの人々は、人工知能が非常に迅速に進歩する可能性が高いと信じています。しかし、2019 年に戻ると、多モーダル、論理推論、学習速度、タスク間転移学習、長期記憶が AI の進歩を遅らせたり阻止したりする「壁」となる可能性があるように見えました。その後の数年間で、多モーダルや論理推論などの「壁」のいくつかは崩壊しました。これを考慮すると、私たちのほとんどは、人工知能の急速な進歩が続くとますます信じるようになりました。AI システムは現在、さまざまなタスクで人間レベルに近いパフォーマンスを示していますが、これらのシステムを訓練するコストは、ハッブル宇宙望遠鏡や大型ハドロン衝突型加速器などの「大科学」プロジェクトのそれよりもはるかに低いままです —— これは、さらなる発展の余地があることを意味します(3)。

人々はしばしば初期段階の指数成長を認識し、認めるのが苦手です。私たちは AI が急速に進歩しているのを見ていますが、人々はこの局所的な進歩が例外であり、通常ではなく、物事はすぐに元に戻る可能性があると考えがちです。しかし、もし私たちが正しければ、人工知能システムが私たち自身の能力を超えた広範な能力を持つ前に、現在の人工知能の急速な進歩の感覚は終わらないかもしれません。さらに、AI 研究における高度な AI のフィードバックループは、この変化を特に迅速にする可能性があります。私たちはこのプロセスの始まりをすでに見ており、コードモデルの開発は人工知能研究者の作業効率を高め、憲法人工知能は人間のフィードバックへの依存を減らしました。

もしこれらのいずれかが正しいなら、近い将来、ほとんどすべての知識労働が自動化される可能性があります —— これは社会に深遠な影響を与え、他の技術の進歩の速度を変える可能性もあります(この分野の初期の例は、AlphaFold のようなシステムがどのように今日の生物学を加速させているかです)。未来の人工知能システムはどのような形を取るのか —— 例えば、それらが独立して行動できるのか、それとも人間のために情報を生成するだけなのか —— はまだ不明です。それにもかかわらず、これは非常に重要な瞬間である可能性があることを過小評価することは難しいです。私たちは、AI の進展が十分に遅く、変化を管理しやすくすることを望むかもしれませんが、この変化が数世代ではなく数年または数十年で起こることを考えると、私たちは期待される結果ではなく、望ましい結果に備える必要があります。

もちろん、この全体像が完全に間違っている可能性もあります。Anthropic では、これがより可能性が高いと考えていますが、AI 開発に関する私たちの仕事には偏見があるかもしれません。それでも、私たちはこの図が十分に信頼できると考えており、完全に否定することはできません。潜在的な重大な影響を考慮すると、人工知能企業、政策立案者、民間社会機関は、変革的な人工知能に対処する方法に関する研究と計画に非常に真剣に取り組むべきだと考えています。

どのような安全上のリスクがあるのか?#

上記の見解を受け入れるなら、人工知能が私たちの安全に脅威をもたらす可能性があることを証明するのは難しくありません。注目すべき二つの常識的な理由があります。

まず第一に、これらのシステムが設計者と同じくらい知的で周囲の環境を理解し始めると、安全で信頼性が高く、操作可能なシステムを構築することが難しくなる可能性があります。たとえば、チェスの名人は初心者の悪手を簡単に見抜くことができますが、初心者は名人の悪手を見抜くのが難しいです。もし私たちが構築した人工知能システムが人間の専門家よりも能力が高い場合、その目標が私たちの最大の利益と対立する場合、結果は恐ろしいものになる可能性があります。これが技術的整合性の問題です。

第二に、AI の急速な進歩は非常に破壊的であり、国家内部や国家間の雇用、マクロ経済、権力構造を変えるでしょう。これらの破壊自体が壊滅的である可能性があり、AI システムを慎重かつ深く考えた方法で構築することがさらに困難になる可能性があり、AI がさらに混乱し、さらなる問題を引き起こすことにつながるかもしれません。

私たちは、人工知能が急速に進歩する場合、これら二つのリスク源が非常に重要になると考えています。これらのリスクは、予測困難な方法で相互に重なるでしょう。おそらく事後的に、私たちは間違っていたと考えるかもしれませんが、そのうちの一つまたは二つの問題は問題にならないか、簡単に解決できるかもしれません。それでも、私たちは慎重に行動する必要があると考えています。なぜなら、「間違った」ことが壊滅的な結果をもたらす可能性があるからです。

もちろん、私たちは AI の行動が創造者の意図から逸脱するさまざまな方法に直面してきました。これには、有害性、偏見、不信頼、不誠実、そして最近のお世辞や権力への明確な渇望が含まれます。私たちは、AI システムの急増とその強化に伴い、これらの問題がますます重要になると予測しています。その中には、私たちが直面する人間レベルの AI やそれ以上の問題を代表するものもあるかもしれません。

しかし、人工知能の安全分野では、予測可能で驚くべき進展が起こると予測しています。たとえ私たちが現代の人工知能システムが直面するすべての問題を完全に解決できたとしても、未来の問題が同じ方法で解決できると軽率に仮定することは望ましくありません。恐ろしい、推測的な問題は、人工知能システムが自らの位置を理解し、人々を欺くことに成功したり、人間が理解できない戦略を策定したりするのに十分に賢くなったときにのみ現れるかもしれません。多くの懸念すべき問題は、人工知能が非常に進んだときにのみ現れる可能性があります。

私たちのアプローチ:人工知能安全の経験主義#

私たちは、研究対象と密接に接触しない限り、科学と工学の分野で急速な進歩を遂げることは難しいと考えています。「基本的事実」の継続的な反復の源は、科学の進歩にとって重要です。私たちの人工知能安全研究において、人工知能に関する経験的証拠 —— それは主に計算実験、つまり人工知能の訓練と評価から来る —— は基本的事実の主要な源です。

これは、理論や概念研究が AI 安全において地位を持たないと考えているわけではありませんが、経験に基づく安全研究が最も関連性と影響力を持つと信じています。可能な人工知能システム、可能な安全故障、そして可能な安全技術の空間は広大であり、独自に椅子に座ってそれを横断するのは難しいです。すべての変数を考慮することの難しさを考えると、未発生の問題に過度に焦点を当てたり、実際に存在する大きな問題を見逃したりするのは簡単です(4)。良い実証研究は、より良い理論や概念的な作業を可能にすることがよくあります。

これに関連して、安全問題の検出と緩和の方法は、事前に計画するのが非常に難しく、反復的な開発が必要であると考えています。このため、私たちは「計画は不可欠だが、計画は無用である」と考えています。特定の時点で、私たちは研究の次のステップのための計画を立てるかもしれませんが、私たちはその計画に対してあまり執着しておらず、それらは私たちがより多くを理解するにつれて変わる準備ができている短期的な賭けのようなものです。これは明らかに、現在の研究ルートが成功することを保証できないことを意味しますが、これはすべての研究プロジェクトの現実です。

最前線のモデルが実証的安全に果たす役割#

Anthropic が存在する主な理由の一つは、「最前線」の人工知能システムに対する安全研究が必要であると考えているからです。これは、大規模モデルを扱うことができ、安全性を優先する機関を必要とします(5)。

経験主義自体は、必ずしも最前線の安全が必要であることを意味するわけではありません。人々は、より小さく、能力の低いモデルで効果的に実証的安全研究を行うことができる状況を想像できます。しかし、私たちはこれが私たちの置かれている状況だとは考えていません。最も基本的なレベルでは、大規模モデルは小規模モデルとは質的に異なるからです(突然の予測不可能な変化を含む)。しかし、スケールはより直接的に安全に関連しています:

  • 私たちの最も深刻な安全問題の多くは、人間レベルに近いシステムでのみ発生する可能性があり、そのような人工知能を使用しないと、これらの問題に対処するのは難しいかもしれません。
  • 憲法 AIやディベートなど、多くの安全手法は大規模モデルでのみ機能します —— 小さなモデルを使用すると、これらの手法を探求し、証明することができません。
  • 私たちが未来のモデルの安全性に注目しているため、安全手法や特性がモデルの拡張に伴ってどのように変化するかを理解する必要があります。
  • もし未来の大規模モデルが非常に危険であることが証明された場合、私たちは説得力のある証拠を開発する必要があります。私たちは、これが大規模モデルを使用することでのみ実現できることを望んでいます。

残念ながら、実証的安全研究が大規模モデルを必要とする場合、それは私たちに厳しいトレードオフに直面させることになります。私たちは、安全を動機とした研究が危険な技術の展開を加速する状況を避けるために全力を尽くさなければなりません。しかし、過度に慎重になることで、最も安全意識の高い研究が、最前線から大きく遅れたシステムにのみ関与することになり、私たちが重要だと考える研究が大幅に遅れることを許してはいけません。さらに、実際には、安全研究を行うだけでは不十分であり、最新の安全研究を実際のシステムに迅速に統合するための機関知識を持つ組織を構築することも重要だと考えています。

これらのトレードオフを責任を持って評価することは、私たちの組織が戦略的な意思決定を行う際の中心的な行為です。安全、能力、政策に関する研究に加えて、これらの問題は、私たちの企業ガバナンス、採用、展開、安全性、パートナーシップに関するアプローチを推進しています。近い将来、私たちは安全基準を満たす場合にのみ、特定の能力閾値を超えるモデルを開発するという明確なコミットメントを外部に示すことを計画しています。また、独立した外部組織が私たちのモデルの能力と安全性を評価できるようにします。

AI 安全を確保するためのポートフォリオアプローチ#

安全に関心を持つ研究者の中には、人工知能のリスクの性質に対する強い見解に刺激を受けている人もいます。私たちの経験では、AI システムの行動や特性を予測することは非常に困難です。未来のシステムの安全性について先験的に予測することは、さらに困難に思えます。強硬な立場を取るのではなく、さまざまなシナリオが合理的であると考えています。

不確実性の特に重要な側面は、基本的に安全で人間に対するリスクが小さい高度な人工知能システムを開発することがどれほど困難であるかです。そのようなシステムの開発は、非常に容易から不可能までの範囲のどこかに位置する可能性があります。この範囲を非常に異なる意味を持つ三つのシナリオに分けてみましょう:

  1. ** 楽観的シナリオ:** 安全故障により、高度な人工知能がもたらす壊滅的リスクの可能性は非常に小さい。すでに開発された安全技術、たとえば人間のフィードバックからの強化学習(RLHF) や憲法 AI (CAI) は、すでに整合性を持つのに十分です。AI の主なリスクは、今日直面している問題の外挿、たとえば有害性や故意の悪用、広範な自動化や国際的な権力のダイナミクスの変化などによって引き起こされる潜在的な危害です —— これは、AI ラボや学術界、民間社会機関などの第三者が危害を最小限に抑えるために多くの研究を行う必要があります。
  2. ** 中間シナリオ:** 壊滅的リスクは、高度な AI の開発の可能性がある、あるいは似ている結果です。この問題を解決するには、大量の科学的および工学的努力が必要ですが、十分な重点を置けば実現可能です。
  3. ** 悲観的シナリオ:**AI の安全は本質的に解決不可能な問題です —— 私たち自身よりも賢いシステムに価値を指定することができないという経験的事実です —— したがって、非常に高度な AI システムを開発または展開することはできません。特に、非常に強力な人工知能システムを作成する前に、最も悲観的なシナリオは楽観的なシナリオのように見えるかもしれません。悲観的なシナリオを真剣に受け止めるには、システムの安全性に関する証拠を評価する際に謙虚さと慎重さを保つ必要があります。

もし私たちが楽観的な状況にあるなら…… Anthropic が行うすべてのことのリスクは(幸いにも)はるかに低く、壊滅的な安全故障が発生する可能性は低いです。私たちの調整努力は、高度な人工知能の真に有益な用途のペースを加速し、開発中に人工知能システムが引き起こすいくつかの最近の危害を軽減するのに役立つでしょう。私たちはまた、壊滅的な安全故障の可能性が低い場合、政策立案者が高度な人工知能がもたらす潜在的な構造的リスクに対処するのを支援することに努めるかもしれません。

もし私たちが中間シナリオにいるなら…… Anthropic の主な貢献は、高度な人工知能システムがもたらすリスクを特定し、強力な人工知能システムを訓練するための安全な方法を見つけて広めることです。私たちは、少なくとも私たちのいくつかの安全技術の組み合わせ(以下で詳しく説明します)が、この状況で役立つことを望んでいます。これらのシナリオの範囲は、「中程度の簡単なシナリオ」から「中程度の難易度のシナリオ」まであり、私たちは、憲法人工知能などの技術を通じて多くの限界的進展を達成できると考えています。機械的説明可能性の成功が私たちの最良の選択肢であるようです。

もし私たちが悲観的なシナリオにいるなら…… Anthropic の役割は、高度な人工知能がもたらす深刻または壊滅的な安全リスクを防ぐために、人工知能安全技術が無力であることを示すための証拠をできるだけ多く提供し、警告を発することです。これにより、世界の機関が危険な人工知能の開発を防ぐために集団的に努力できるようになります。私たちが「ほぼ悲観的」なシナリオにいる場合、これは AI 安全研究に私たちの集団的努力を導くことを含むかもしれません。同時に、AI の進歩を阻止することも含まれます。私たちが悲観的またはほぼ悲観的なシナリオにいることを示す兆候は突然現れ、発見が難しいかもしれません。したがって、私たちは、十分な証拠がない限り、私たちがその状況にある可能性があると常に仮定すべきです。

利害関係を考慮すると、私たちの最優先事項の一つは、私たちが置かれているシナリオに関する情報をさらに収集し続けることです。私たちが追求する多くの研究方向は、人工知能システムをよりよく理解し、高度な人工知能システムの権力追求や欺瞞に関する行動を検出する技術を開発することを目的としています。

私たちの目標は主に次のことを開発することです:

  1. 人工知能システムをより安全にするためのより良い技術、
  2. 人工知能システムの安全性または不安全性を識別するためのより良い方法。

楽観的な場合、(i) は AI 開発者が有益なシステムを訓練するのを助け、(ii) はそのようなシステムが安全であることを証明します。

中間シナリオでは、(i) は私たちが AI の災害を回避する方法になる可能性があり、(ii) は高度な AI がもたらすリスクを低く保つために重要です。

悲観的な場合、(i) の失敗は人工知能安全が解決できないことの重要な指標となり、(ii) は他の人にこのことを説得力を持って示す可能性があります。

私たちはこの AI 安全研究の「ポートフォリオアプローチ」を信じています。私たちは上記のリストの単一の可能性のあるシナリオに賭けるのではなく、さまざまなシナリオにおいて大きな影響を与える可能性が最も高い中間シナリオを改善するための研究プロジェクトを開発し、悲観的なシナリオにおいても警告を発することを試みています。私たちはまた、技術的な AI 安全研究の需要がそれほど高くない楽観的な状況でも有益な方法でこれを行うよう努めています。

Anthropic の三つの人工知能研究#

私たちは Anthropic の研究プロジェクトを三つの分野に分けています:

  • ** 能力:**AI 研究は、AI システムがあらゆる種類のタスクをより良く実行できるようにすることを目的としています。これには、執筆、画像処理や生成、ゲームプレイなどが含まれます。大規模言語モデルをより効率的にする研究や強化学習アルゴリズムの改善は、このタイトルに該当します。能力に関する作業は、私たちが整合性研究で調査し使用するモデルを生成し改善しました。私たちは通常、この種の作業を公表しません。なぜなら、AI 能力の進歩を加速させたくないからです。さらに、私たちの目標は、前線の能力のデモを考慮することです(たとえ公開されていなくても)。私たちは 2022 年春にタイトルモデルの最初のバージョン Claude を訓練し、安全研究のために公共展開よりも優先することを決定しました。
  • ** 整合性能力:** この研究は、人工知能システムをより有用で、誠実で、無害にし、より信頼性が高く、堅牢であり、人間の価値観と広く整合するように訓練するための新しいアルゴリズムを開発することに焦点を当てています。Anthropic の現在および過去のこのような作業の例には、ディベート、拡張自動赤チーム、憲法 AI、偏見除去、RLHF(人間のフィードバックからの強化学習)が含まれます。通常、これらの技術は実用的で経済的価値がありますが、必ずしもそうである必要はありません —— たとえば、新しいアルゴリズムの効率が相対的に低い場合や、AI システムがより強力になるまで有用でない場合があります。
  • ** 整合性科学:** この分野は、AI システムが本当に整合しているかどうか、整合機能技術がどのように機能するか、そしてこれらの技術の成功をより強力な AI システムにどの程度外挿できるかを評価し理解することに焦点を当てています。Anthropic のこの作業の例には、機械的説明可能性の広範な分野や、言語モデルを使用して言語モデルを評価すること、赤チームや影響関数を使用して大規模言語モデルの一般化を研究することが含まれます(以下で説明します)。私たちの誠実さに関するいくつかの作業は、整合性科学と整合性能力の境界に位置しています。

ある意味で、整合性能力は整合性科学と「青チーム」と「赤チーム」の違いとして見ることができます。整合性能力の研究は新しいアルゴリズムを開発しようとし、整合性科学はそれらの限界を理解し明らかにしようとします。

私たちがこの分類を有用だと考える理由の一つは、人工知能安全コミュニティがしばしば RLHF の発展について議論するからです —— それは経済的価値も生み出します —— それが「本当に」安全研究であるかどうか。私たちはそれが安全研究であると信じています。実用的で有用な整合性能力の研究は、より能力のあるモデルのための技術を開発する基盤です —— たとえば、憲法人工知能や AI 生成の評価に関する私たちの作業、そして現在進行中の自動化赤チームやディベートに関する作業は、RLHF の前の作業がなければ不可能です。整合性機能の作業は、これらのシステムをより誠実で修正可能にすることで、整合性研究を支援する可能性があります。

もし AI 安全が非常に簡単に扱えることが証明されれば、私たちの整合性能力の作業は最も影響力のある研究になるかもしれません。逆に、整合性の問題がより困難であれば、私たちは整合性能力技術の欠陥を見つけるために整合性科学にますます依存することになるでしょう。整合性の問題が実際にほぼ不可能であるなら、私たちは整合性科学を急務として、高度な人工知能システムの開発を阻止するための非常に強力なケースを構築する必要があります。

現在の安全研究#

私たちは現在、安全な人工知能システムを訓練する方法を発見するためにさまざまな方向に取り組んでおり、その中には異なる脅威モデルや能力レベルに対処するプロジェクトもあります。いくつかの重要なアイデアには以下が含まれます:

  • 機械的説明可能性
  • 拡張可能な監視
  • プロセス指向の学習
  • 一般化の理解
  • 危険な故障モードのテスト
  • 社会的影響と評価

機械的説明可能性#

多くの点で、技術的整合性の問題は AI モデルから不良行動を検出する問題と密接に関連しています。もし私たちが新しい状況でも不良行動を堅牢に検出できるなら(たとえば、「モデルの考えを読む」ことによって)、私たちはこれらの故障モードを示さないモデルを訓練する方法を見つけるチャンスが高まります。同時に、私たちは他の人にモデルが安全でないことを警告し、展開すべきではないことを警告する能力を持っています。

私たちの説明可能性研究は、他のタイプの整合性科学が残した空白を埋めることを優先しています。たとえば、私たちは説明可能性研究がもたらす最も価値のあることの一つは、モデルが欺瞞的に整合しているかどうかを識別できることだと考えています(「協力」や非常に困難なテスト、たとえば意図的に「誘惑」システムを「罠」にかけるテストを通じて、ずれを明らかにします)。もし私たちの拡張監視やプロセス指向の学習に関する作業が有望な結果を生み出した場合(以下参照)、私たちが生成するモデルは非常に厳しいテストでも一貫しているように見えることを望んでいます。これは、私たちが非常に楽観的なシナリオにいることを意味するか、または最も悲観的なシナリオの一つにいることを意味するかもしれません。これらの状況を他の方法で区別することはほぼ不可能ですが、説明可能性の観点からは非常に困難です。

これにより、私たちは大きなリスクを賭けました:機械的説明可能性、つまり神経ネットワークを人間が理解できるアルゴリズムに逆エンジニアリングするプロジェクトです。これは、未知でおそらく安全でないコンピュータプログラムを逆エンジニアリングする方法に似ています。私たちは、これが最終的に「コードレビュー」のようなことを行い、私たちのモデルを監査して不安全な側面を特定したり、強力な安全保証を提供したりできるようになることを望んでいます。

これは非常に困難な問題だと考えていますが、見た目ほど不可能ではありません。一方で、言語モデルは大規模で複雑なコンピュータプログラムです(私たちが「重ね合わせ」と呼ぶ現象は、物事をさらに難しくします)。一方で、私たちはこのアプローチが人々が最初に想像したよりも扱いやすいという兆候を見ています。Anthropic の前に、私たちのチームのいくつかは、視覚モデルが説明可能な回路として理解できるコンポーネントを持っていることを発見しました。それ以来、私たちはこのアプローチを小型言語モデルに拡張することに成功し、さらにはほとんどの文脈学習を駆動するメカニズムを発見しました。私たちの神経ネットワーク計算メカニズムに関する理解も、1 年前よりもはるかに深まっています。たとえば、記憶を担当するメカニズムについてです。

これは私たちの現在の方向性の一部に過ぎません。私たちは根本的に経験に基づいています —— 他の作業がより有望な証拠を示す場合、私たちは方向を変えます!より一般的に言えば、神経ネットワークと学習の詳細な動作を理解することは、私たちが安全を追求するためのより広範なツールを開くことになると信じています。

拡張可能な監視#

言語モデルを一貫した人工知能システムに変えるには、彼らの行動を導くために大量の高品質なフィードバックが必要です。主な問題は人間が必要なフィードバックを提供できない可能性があることです。人間は、さまざまな状況で有害な行動を回避するためにモデルを十分に訓練するために、正確で知識に基づいたフィードバックを提供できないかもしれません。人間は AI システムに騙され、実際のニーズを反映したフィードバックを提供できないかもしれません(たとえば、誤解を招く提案に対して意図せず肯定的なフィードバックを提供するなど)。問題は、組み合わせの可能性があり、人間は十分な努力をすれば正しいフィードバックを提供できるかもしれませんが、大規模にそれを行うことはできません。これが拡張可能な監視の問題であり、安全で一貫した AI システムを訓練するための核心的な問題であるようです。

最終的に、必要な監視を提供する唯一の方法は、人工知能システムが部分的に自己監視するか、人間の自己監視を支援することです。何らかの方法で、私たちは少量の高品質な人間の監視を大量の高品質な人工知能の監視に拡大する必要があります。このアイデアは、RLHF や憲法 AI などの技術によって前向きな結果を示していますが、これらの技術を人間レベルのシステムで信頼できるものにするためのさらなる余地があることも見ています。私たちはこのようなアプローチが有望であると考えています。なぜなら、言語モデルは事前訓練の間に人間の価値観について多くのことを学んでいるからです。人間の価値観を学ぶことは他の学問を学ぶことと変わりません。私たちは、より大きなモデルが人間の価値観をより正確に描写し、より小さなモデルに比べて学ぶのが容易であることを期待すべきです。

拡張可能な監視のもう一つの重要な特徴、特に CAI のような技術は、私たちが自動的に赤チーム(別名対抗訓練)を行うことを可能にします。つまり、私たちは AI システムに問題のある入力を自動生成し、それらがどのように応答するかを確認し、その後、自動的により誠実で無害な方法で行動するように訓練することができます。私たちは、拡張可能な監視を使用して、より強力な安全システムを訓練できることを望んでいます。私たちはこれらの問題を積極的に調査しています。

私たちは、CAI の拡張、人工支援監視のバリエーション、AI-AI ディベートのバージョン、マルチエージェント RL による赤チーム、モデル生成評価の作成など、さまざまな拡張可能な監視の方法を研究しています。私たちは、拡張可能な監視が安全を保ちながら人間の能力を超えるシステムを訓練する最も有望な方法である可能性があると考えていますが、この方法が成功するかどうかを研究するには、まだ多くの作業が必要です。

結果ではなくプロセスを学ぶ#

新しいタスクを学ぶ方法の一つは、試行錯誤を通じてです —— 期待される最終結果がどのようなものであるかを知っていれば、新しい戦略を試み続け、成功するまで続けることができます。これを「結果指向の学習」と呼びます。結果指向の学習では、エージェントの戦略は期待される結果によって完全に決定され、エージェントは(理想的には)その目標を達成するための低コストの戦略に収束します。

通常、より良い学習方法は、専門家が成功を収めるために従うプロセスを理解することです。練習のラウンドでは、方法を改善することに集中できれば、成功はそれほど重要でないかもしれません。進歩するにつれて、あなたはより協力的なプロセスに移行し、コーチに相談して新しい戦略がより効果的かどうかを確認するかもしれません。これを「プロセス指向の学習」と呼びます。プロセス指向の学習では、目標は最終結果を得ることではなく、その結果を達成するために使用できるさまざまなプロセスを習得することです。

少なくとも概念的には、高度な人工知能システムの安全性に関する多くの懸念は、これらのシステムをプロセス指向の方法で訓練することで解決されます。特に、この例では:

  • 人間の専門家は、人工知能システムが従う各ステップを理解し続けます。なぜなら、これらのプロセスを奨励するためには、人間にとって合理的でなければならないからです。
  • 人工知能システムは、理解できないまたは有害な方法で成功を収めることで報酬を得ることはありません。なぜなら、彼らはプロセスの有効性と理解可能性に基づいてのみ報酬を得るからです。
  • 人工知能システムは、資源の獲得や欺瞞などの問題のあるサブゴールを追求することで報酬を得るべきではありません。なぜなら、人間やその代理人が訓練中に個々の獲得プロセスに対して否定的なフィードバックを提供するからです。

Anthropic では、AI の訓練をプロセス指向の学習に制限するというシンプルな解決策を強く支持しています。これは、高度な AI システムに関する一連の問題を改善する最も簡単な方法かもしれません。私たちはまた、プロセス指向の学習の限界を特定し解決することに喜んで取り組み、プロセスベースと結果ベースの学習を混合して訓練する場合に安全性の問題がどのように発生するかを理解します。私たちは現在、プロセス指向の学習が安全で透明なシステムを訓練し、人間の能力を達成し、ある程度を超えるための最も有望な道であると考えています。

一般化の理解#

機械的説明可能性の作業は、神経ネットワークが実行する計算を逆エンジニアリングします。私たちはまた、大規模言語モデル(LLM)の訓練プロセスをより詳細に理解しようとしています。

法学修士は、創造性から自己保護、さらには欺瞞に至るまで、さまざまな驚くべき突発的行動を示しています。これらの行動はすべて訓練データから来ていることは確かですが、その経路は複雑です:モデルはまず大量の生のテキストで「事前訓練」され、広範な表現と異なる主体の能力を学びます。その後、無数の方法で微調整され、その中には驚くべき予期しない結果をもたらすものもあります。微調整段階は過度にパラメータ化されており、学習モデルの重要な要素は事前訓練の暗黙のバイアスに依存しています。この暗黙のバイアスは、世界の大部分の知識に対する事前訓練を通じて構築された複雑な表現ネットワークから来ています。

モデルが懸念される行動を示すとき、たとえば欺瞞的に整合した AI の役割を果たすとき、それはほぼ同じ訓練シーケンスの無害な反流に過ぎないのでしょうか?それとも、この行動(あるいはこの行動を引き起こす信念や価値観)は、モデルの AI アシスタントの概念の一部となり、異なる環境で一貫して適用されるのでしょうか?私たちは、モデルの出力を訓練データに追跡する技術を研究しています。なぜなら、これが理解するための重要な手がかりを提供するからです。

危険な故障モードのテスト#

重要な問題は、高度な人工知能が欺瞞や戦略的計画能力などの有害な緊急行動を発展させる可能性があることです。これらの行動は、小型で能力の低いシステムには存在しません。私たちは、これらの問題が直接的な脅威になる前に予測する方法として、意図的にこれらの特性を能力不足の小規模モデルに訓練する環境を設定することを考えています。これにより、私たちはそれらを隔離し、研究することができます。

私たちは特に、人工知能システムが「状況認識」を持つときの行動に興味があります —— たとえば、彼らが自分たちが人工知能であり、訓練環境で人間と対話していることを認識しているとき —— そしてこれが訓練プロセス中の行動にどのように影響するかです。人工知能システムは欺瞞的になるのか、それとも驚くべき望ましくない目標を発展させるのでしょうか?最良のシナリオでは、私たちの目標は、これらの傾向がスケールに応じてどのように変化するかの詳細な定量モデルを構築し、危険な故障モードの突然の出現を事前に予測できるようにすることです。

同時に、研究自体に関連するリスクに注意を払うことも重要です。小型モデルで行う研究は、あまり大きなリスクをもたらす可能性が低いですが、この研究は、より大きな影響を持つより大きなモデルで行うと明らかにリスクをもたらす能力を引き出すことを含みます。私たちは、重大な損害を引き起こす可能性のあるモデルでこの研究を行うつもりはありません。

社会的影響と評価#

私たちの作業の潜在的な社会的影響を批判的に評価することは、私たちの研究の重要な柱です。私たちのアプローチは、私たちの人工知能システムの能力、限界、社会的影響の潜在能力を評価し理解するためのツールと測定を構築することに焦点を当てています。たとえば、私たちは大規模言語モデルにおける予測可能性と予期しない性質に関する研究を発表し、これらのモデルの高度な予測可能性と予測不可能性が有害な行動を引き起こす方法を調査しました。その作業では、驚くべき機能を問題のある方法で使用する方法を強調しました。私たちはまた、赤チーム言語モデルの方法を研究し、異なるモデルサイズの攻撃的な出力モデルを探知して危害を減少させることを目指しています。最近、私たちは現在の言語モデルが偏見やステレオタイプを減少させるために指示に従うことができることを発見しました。

私たちは、ますます強力な人工知能システムの迅速な展開が短期、中期、長期にわたって社会にどのように影響するかに非常に関心を持っています。私たちは、人工知能システムにおける潜在的な有害行動を評価し軽減し、それらの使用方法を予測し、経済的影響を研究するさまざまなプロジェクトを進めています。この研究は、責任ある人工知能政策とガバナンスの策定に情報を提供します。今日の人工知能の影響を厳密に研究することで、政策立案者や研究者がこれらの潜在的な重大な社会的危害を軽減し、人工知能の利益が社会全体に広く均等に分配されるようにするために必要な洞察とツールを提供することを目指しています。

結語#

私たちは、人工知能が世界に前例のない影響を与える可能性があり、今後 10 年以内に発生するかもしれないと信じています。計算能力の指数的な増加と人工知能能力の予測可能な改善は、新しいシステムが今日の技術よりもはるかに進んでいることを示しています。しかし、私たちはこれらの強力なシステムが人間の価値観と堅牢に整合することを確保する方法を十分に理解していないため、壊滅的な故障のリスクを最小限に抑えることができるかどうかは不明です。

私たちは、今日利用可能なシステムが差し迫った問題を引き起こすとは考えていません。しかし、より強力なシステムが開発される場合、今のうちに基礎的な作業を行い、高度な人工知能がもたらすリスクを軽減するのが賢明です。安全な人工知能システムを作成することが容易であることが証明されるかもしれませんが、私たちはあまり楽観的でない状況に備えることが重要だと考えています。

Anthropic は、人工知能の安全を確保するために経験に基づくアプローチを取っています。現在積極的に取り組んでいるいくつかの重要な分野には、人工知能システムがどのように学び、現実世界に一般化するかを理解すること、拡張可能な監視と人工知能システムを監査する技術を開発すること、安全なプロセスに従うように人工知能システムを訓練すること、AI の潜在的な危険な故障モードを分析し、それらを防ぐ方法を見つけること、AI の社会的影響を評価して政策や研究を導くことが含まれます。AI 安全問題を多角的に解決することで、私たちはさまざまなシナリオで成功を収めるための安全な作業「ポートフォリオ」を開発することを目指しています。

注釈#

  1. アルゴリズムの進歩 ——AI システムを訓練するための新しい方法の発明 —— は測定が難しいですが、進歩は指数的であり、ムーアの法則よりも速いようです。AI 能力の進歩を推測する際には、支出、ハードウェア性能、アルゴリズムの進歩の指数的な増加を掛け合わせて、全体の成長率を推定する必要があります。
  2. スケーリングの法則は支出の理由を提供しますが、この作業を行う別の潜在的な動機は、人間の価値観に関連する AI をより簡単に訓練し、試験するために、読み書きできる AI に移行することです。
  3. 訓練に使用される計算の総量の増加から人工知能能力の進歩を推測することは正確な科学ではなく、いくつかの判断が必要です。私たちは、GPT-2 から GPT-3 への能力の飛躍が主に計算量が約 250 倍増加したためであることを知っています。2023 年までに、元の GPT-3 モデルと最先端のモデルはさらに 50 倍増加すると推測しています。今後 5 年間で、最大モデルの訓練に使用される計算量は約 1000 倍増加すると予想しています。スケーリングの法則が成り立つ場合、これは GPT-2 から GPT-3(または GPT-3 から Claude)への飛躍よりも明らかに能力の飛躍をもたらすでしょう。この粗略な分析では、アルゴリズムの進展を無視しています。計算数字は詳細を提供していない最良の推定です。しかし、ここでのほとんどの内部的な意見の相違は、与えられた等価計算の飛躍に基づいて後続の能力の飛躍を推測する直感に関するものです。
  4. たとえば、AI 研究では、長い間、局所的最小値が神経ネットワークの学習を妨げる可能性があると広く考えられていましたが、彼らの一般化特性の多くの定性的側面、たとえば対抗的な例の広範な存在は、ある程度は謎と驚きから来ています。
  5. 大規模モデルに対する効果的な安全研究は、名目的に(たとえば API)これらのシステムにアクセスすることだけでなく、説明可能性、微調整、強化学習の作業を行うために、Anthropic 内で AI システムを開発する必要があります。

AI の進歩は人類の発展に新たな変化をもたらします。私たちがすべきことは、一方的に賛美することでも、批判することでもなく、それがもたらす変化や機会は何か、同時にどのような負の影響や結果が生じる可能性があるのかを考えることです。そうすることで、私たちは事前にこれらの問題に対処し、AI を人間の生活をより良くするための道具として活用できるようにするのです。AI を制御できないスーパー生命体にするのではなく。

【翻訳 Hoodrh | 原文地址


あなたはこれらの場所でも私を見つけることができます

Mirror:Hoodrh

Twitter: Hoodrh

Nostr: npub1e9euzeaeyten7926t2ecmuxkv3l55vefz48jdlsqgcjzwnvykfusmj820c

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。