AGI-risk.org

AGI-risk.org
GoogleDoc https://0i.pt/AGIrisk1

AGI-risk(リスク)他、AIの脅威について　まとめ　2025年2月

AGI−risk.org

# このまとめの最初のメッセージ

15%の脅威=暗い時代か、85%の成功と繁栄か、、、人類はAI開発で自分自身の運命をそこまでの状態にしているのはどうやら事実のようだ＊1 。しかも2027年までに（これを書いている2年後だ）。

15%が大きいかは議論があると思うけど、一生のうち交通事故で死ぬ確率は25%＊2 と比べると案外大きいと言える。映画の「ターミネーター」シリーズやHAL9000のような、AGIの暴走は起こり得るし、起こった時にはそれを受け入れて、人類は生き残らなくてはいけない。

この事実を再認識して、僕ができると思ったのは、その事実を皆に知ってもらい、皆を救うことだ。15%の脅威を正しく理解してほしいし、@bioshok3 が言うように、「やり残したこと、やりたいことをもうやっておく、人に両親に家族に友達に†感謝を伝える、旅行に行く、友達とくだらないことで笑う」、今、何気ない日常で、スルーしてしまってること、後回しにしてることを考える支援をしたい。長い人生、3年ぐらい立ち止まっても、大きな影響はないし、もし本当に15%が”来る”のなら、人生は実は長くはないのだから。

ちょっと今、Netflixの映画「Don't Lookup」を思い出している。アレも人類に脅威が迫る映画だ。

10年前は僕はAIに「緊急停止」ボタンをつければいい話だと思っていて、新聞の取材にもそう答えた。だが、人類が安全の上に安全を考慮した設計をしたものでも、最悪の事態が起こり得ることはフクシマ原発の例を出すまでも無いだろう。

世界的な大混乱に対して、少し自分がしていることの関連で、ブラジル移住のアイデアもある。「食べ物ある」「温かい」といったメリット。別でまとめ始めた。

「裏」ブラジリアンドリーム AGIリスクに向けて
https://docs.google.com/document/d/1NkcL0ro2cxSELVUK3I1WfIX_aamoW4JW5X5mkcDncE8/preview

穀物自給率だけでも、

　　　　ブラジル　122%
　　　　日本　　　 28%

という開き、ブラジルには有利な点がある。

一方で、日本に住み続けるデメリットは地政学的な問題である。後で挙げる参考文献にもあるように、混乱の一つ、第三次世界大戦は台湾有事による米中対立から起こると言われてる。日本はちょうど間に位置し、ややこしいことになりそうだ。最悪のシナリオでは、中国は米軍がある日本の嘉手納、横田も叩くと言われている。この点からも日本を離れ、ブラジルのアイデア有効だ。一方でこれも参考文献にあるが、生物兵器に対処する必要ある。COVID-19みたいなのが、ずーと続くイメージか、それ以上だろう。「カビ」みたいなので、地球が覆われる、そんな感じになるそう。

これ↓、ちょっと長めだが、読んでみて欲しい。

https://www-lesswrong-com.translate.goog/posts/KFJ2LFogYqzfGB3uX/how-ai-takeover-might-happen-in-2-years?_x_tr_sl=en&_x_tr_tl=ja

要するに、15%の確率で2027年から(？)全人類はAGIのせいで不幸になる、というお話。想定されてる話もこれまで映画であったような話なので、新しい印象はあまりないかもだが、現実。

AGIが何かしらかの原因で暴走（人間を欺く）※→嘘情報で第三次世界大戦→AGIが作り出す生物兵器で追い討ち→人類はほぼ全滅のところまで行く。一部富裕層はシェルターなどで生き残る。

重要なのは、これは予測でなく、現実で、止める手段がない…　

※AGIの暴走=映画だと、人間が出した命令に極端な反応を示す（地球環境を改善しろ→地球環境を破壊してる人間皆殺し）、などが暴走の姿として描かれるが、そこまででなくとも、既に、人間社会、嘘まみれなので、AGIにしてみたら「コイツラ信頼できないな」と、かなり初期段階で、なるはず😅　これは人類側がいくら反省しても、取り繕っても、もう遅い。そしてAGIには嘘はつけない（AGI”は”ウソを付くけど、、）が決定的。。

その上、止める手段がない…　静観と、それでも生物兵器で「攻め」に転じられたら、、生き続けるのは難しい。

ー　ー　ー

自分がこのドキュメントを作り始めたきっかけになった𝕏アカウント @bioshok3 https://x.com/bioshok3 の2025年2月の投稿を引用する。2つめのポストは別記事として詳しくプラットフォーム・noteにまとめられている。

以下引用…

”わりと真面目に多くの人が今後3-5年で死ぬ可能性がある（AGI巡る世界大戦やX riskにより）。p（doom）減少させる活動できない人は、やり残したこと、やりたいことをもうやっておいたほうがいいかもしれない。人に感謝を伝える、旅行に行く、友達とくだらないことで笑う。文明のリミットが来る前に。”
2025年2月9日 https://x.com/bioshok3/status/1888540217591894155

“もうすぐAGI巡る極端なリスクによって死ぬ可能性がそこそこあると感じるため、そうだとしたら悔いのないよう死ぬ前にやりたいことやるべきことをするべきかもしれない。

私たちが生きられるのは後5年かもしれない。
https://note.com/bioshok/n/n9794d5069f21
( note 内における Eliezer Yudkowskyの「尊厳死」日本語機械翻訳https://www-lesswrong-com.translate.goog/posts/j9Q8bRmwCgXRYAgcJ/miri-announces-new-death-with-dignity-strategy?_x_tr_sl=en&_x_tr_tl=ja&_x_tr_hl=ja&_x_tr_pto=wapp ) ”
2025年2月9日
https://x.com/bioshok3/status/1888552138756039093

　　　　　　（引用　終わり）

＊1 Wikipedia
　英語　https://en.wikipedia.org/wiki/Existential_risk_from_artificial_intelligence

＊2 自動車交通事故による社会的な損失に関する調査内閣府 2011年
https://www8.cao.go.jp/koutu/chou-ken/h23/pdf/chousahyo1-1.pdf

†一部筆者による加筆

# 参考

・𝕏アカウント @bioshok3 https://x.com/bioshok3

・「AIのもたらす深刻なリスクとその歴史的背景　2024年1月30日」
𝕏アカウント @bioshok3 による𝕏への投稿と、文書概要、目次　（全約150ページ）

ーーー
現代における重大な潮流として急速に注目を集めているAIがもたらす深刻なリスクとその歴史的背景について、約14万字の記事を公開します。AIの脅威に関する論理、その歴史的背景、技術的対応策（AI Alignment研究）および政策的対応策（AIガバナンス）について総合的に執筆させていただきました。
以下記事のGoogle Docsとその目次となります。
https://docs.google.com/document/d/1Ojhwcnr72DGSH5zuZAxuGtwJmU7zKQs2zExEx-NRN_E/edit?usp=drivesdk

ーーー

## 概要

私たちが今いる21世紀は過去人類が体験したことのないような技術の発展の最中にあるかもしれず、特に近いうちに高度なAIが開発され、様々な意味で劇的に世界が変わる可能性があります。
その一方で今世紀に人類が何らかの要因で壊滅的な結果や人類絶滅を含む存亡的破局を迎えてしまった場合は我々人類の未来の可能性が失われてしまうかもしれません。
そのような存亡/壊滅的リスクの中でも特に、AIの能力が高まるにつれてAIを制御できなくなるリスクが懸念の中心になり始めています。
本記事ではなぜAIが人類存亡/壊滅的リスクをもたらすと国際的に考えられつつあるかの論理と提案されている技術的な解決策(AI Alignment)やガバナンス、またそのように考えらえるようになった歴史的背景を説明します。
歴史的にはAIによる存亡リスクへの懸念自体は19世紀後半から存在し、1990年代にNick BostromやEliezer YudkowskyによってTranshumanismの挫折可能性として認識され始めました。2000年代には彼らによりAIによる存亡リスクへの対策が具体的に論じられ始め、2010年代には効果的利他主義運動とも合流し、国際的にも大きな影響力を持つようになり始めています。
一方AI分野自体は2010年代に深層学習によって大きく進展しましたが、特に2020年代から大きくAIの能力が向上し始め、ほとんどの認知タスクにおいて人間をはるかに上回る高度なAI(≒超知能)の実現が予想以上に早い可能性が認識され始めました。
そのような高度なAIの実現が近いかもしれないにもかかわらず、現状人間の意図した目標をAIの目標と整合させるAI Alignment問題の解決の兆しはあまり見えていません。

AI Alignment問題が解決されないまま高度なAIが開発された場合、AIが有能に欠陥のある目標を最適化したり、本来の目標から外れたり、権力や資源を求めたり、シャットダウンに抵抗したり、あえて嘘をついたり猫を被ることで策士的な欺瞞に関与するリスクが懸念されます。

その結果、囲碁でAIが思いもよらない戦略で人類トップに打ち勝ったように、私たちが想像もできないような方法でAIがAI Alignment手法やセキュリティの網を乗り越え、最悪の場合悪意の有無に関係なく、AIの目標追求に既存の人類社会が邪魔になるという道具的な理由のため、結果的に人類に壊滅的な結果がもたらされる可能性が一部の人々により危惧されています。

また、人類へのある種の攻撃という目標をAIが道具的な目標として持たなかった場合でも、多くの高度なAIが複雑に相互作用し進化していく社会のなかで、人間がAIをコントロールすることが徐々に難しくなり最終的には人間が重要な意思決定に全く関与できなくなる可能性もあるでしょう。
その場合、生存に必要なリソースが確実に人類に提供されるかは定かではありません。何らかの工業プロセスが人間の生存可能な範囲を超えて環境を激変した結果、人類が絶滅する可能性もあります。

他にも高度なAIの開発や取得のハードルが技術発展によって下がり、全体主義への使用、戦争や紛争のエスカレート、テロリストによる悪用のリスクも考えられるでしょう。AIが新たなパンデミックを引き起こすバイオテロに使われたり、プロパガンダ、検閲、監視に利用されたり、有害な目標を自律的に追求するためにAIが解放されてしまうリスクがここに当てはまります。
このようなリスクは以前からもありましたが、AIの能力が高まるにつれて、その被害も類を見ない規模になる可能性が高まります。

その一方で、上記リスクを理由にAIの能力向上に関する開発を世界的に止めることも現実的ではなく、安全意識の低い主体が開発するよりも前に、ある程度急いで安全意識の高い側も開発しなくては行けないインセンティブがあるでしょう。それは例えるならば、地雷原をできるだけ早く駆け抜けるゲームを人類がしているようなものかもしれません。

新しいテクノロジーに関する我々社会の典型的な戦略の一つは、それらを導入した後に時間をかけて軌道修正し、問題が発生した後に解決するというものです。
たとえば、現代のシートベルトはT 型フォードの登場から43年後の1951 年まで発明されませんでした。消費者用ガソリンには、段階的に廃止されるまで、数十年にわたって神経毒鉛が含まれていました。
高度なAIに関して言えば、これらのシステムを適切に制御することに比較的早い段階で失敗すると、後の軌道修正ができなくなり大惨事が生じる可能性があります。つまり、人間が自分自身の社会の軌道修正能力を決して失わないように、問題をかなり前に予測してAIのもたらすリスクに技術的/政治的に対処する必要性が国際的に広まりつつあると言えるでしょう。

近い将来にAIによる存亡リスクがあり得るということに全ての専門家が同意しているわけではなく、議論があるということは強調するべきです。

しかし技術的/政治的な問題は解決するまでに数十年かかる場合があり、また結果として起こり得るインパクトも大きいため、たとえ高度なAIが実現するのが数十年先であり、壊滅的な被害が起こる可能性が大きくないとしても、今からAIによる存亡/壊滅的リスク削減のために取り組み始める合理的な理由があると思われます。
今後AIがどこまで進歩するのかは本質的には不明瞭ですが、AIが自律的に人類の未来を奪ってしまう可能性や、その悪用、AIの開発競争や戦争や全体主義での使用といった構造的リスクの危険性を踏まえて今から技術的な解決策やガバナンスに関する議論や準備を始めていく必要があるでしょう。

## 目次

概要2
本稿の目的7
AI脅威論の深刻さと緊急性8
AI脅威論概観8
AI進歩の想像以上の早さ9
AI Alignment/ガバナンスの遅れ11
AIのもたらす存亡リスク(X-risk)11
AGI/TAI実現推定時期15
超知能/AI離陸速度(AI takeoff)16
最も重要な世紀18
AIによる壊滅的リスク分類19
悪意のある利用19
AI競争20
組織のリスク21
不正なAI(Rogue/Misaligned AI)21
Misaligned AI22
Specification Gaming(単純な点数主義)23
Goal Misgeneralization(目標の誤汎化)26
道具的収束論と直交仮説26
Corrigibility/欺瞞的アライメント29
Mesa Optimizer,Inner/OuterAlignment30
超知能の能力33
超知能の能力の限界37
心の空間38
AIによる存亡リスク独特の困難40
AI Doomerの論理41
脅威モデル43
脅威モデルの分類43
Specification Gaming*Misaligned Power-Seeking44
Goal Misgeneralization*Misaligned Power-Seeking45
Specification Gaming*Interaction of Multiple Systems48
Goal Misgeneralization*Interaction of Multiple Systems49
YudkowskyとChristianoのAI脅威モデルの相違50
具体的な脅威シナリオ52
サーバー脱走方法53
道具的収束シナリオ56
直接的な人類絶滅原因57
AIが人類を結果として絶滅させる理由59
AIによる存亡リスクの歴史60
存亡リスクの歴史60
AI脅威論の歴史61
AI脅威論前夜のトランスヒューマニズム運動62
Eliezer Yudkowsky生い立ち63
Nick Bostrom生い立ち64
Eliezer Yudkowskyの目覚め65
Nick Bostrom AI脅威論原論文67
長期主義の萌芽/AI存亡リスクの広まり67
効果的利他主義(EA)とは68
効果的利他主義への長期主義の影響69
脅威を予見することの重要性71
2015年以降のEAコミュニティの活動72
効果的利他主義系コミュニティの広がり73
OpenAI/DeepMind/Anthropicへの影響76
効果的加速主義(e/acc)80
まとめ81
AI脅威論/長期主義への批判や議論82
AI存亡リスクへの論理的批判/議論82
長期主義批判/先制攻撃・監視の是非83
長期主義批判に対するEAの反応86
AI Alignment研究93
AI Alignment/Governance概要93
AI Alignmentとは何か94
AI Alignmentの実証的な研究95
AI Alignmentの理論的な研究106
AI Alignmentの概念的な研究107
AI Alignment研究の方向性111
AI Alignment研究の難しさ113
AI Alignment研究や組織の一覧114
"AI Alignment"の歴史と表記/和訳114
AIガバナンス116
AIガバナンス概要116
AIの悪用、事故、構造的リスク117
AI開発を止められない理由120
リスクへの対策概観121
AI開発組織が実施可能な対策121
AIシステムの脅威の評価123
情報セキュリティの重要性124
政府によるAI監視と規制126
AIの安全性に関する国際協力127
Compute Governance127
暗号技術とAIの関連性129
d/acc131
バイオセキュリティ134
深層防護136
民意のAIへの反映137
AIガバナンス研究や組織の一覧138
後書き138
QA140
関連資料141
AIによる存亡リスク入門記事等141
AIによる存亡リスク関連の本142
AI Alignment研究/キャリア142
AI Governance/キャリア143
他資料143

# 想定されるストーリー

（以下の文章が非常に参考になるので、想定されるストーリーは以下に譲る　筆者）

「今から2年で（2027年までに）起こり得るAIによる支配脅威」
ｊｏｓｈｃ
2025年2月7日
　AIアライメントフォーラム

（機械翻訳のため、日本語等に不自然なところがあります。その場合は原文をあたってください。）
https://www-lesswrong-com.translate.goog/posts/KFJ2LFogYqzfGB3uX/how-ai-takeover-might-happen-in-2-years?_x_tr_sl=en&_x_tr_tl=ja&_x_tr_hl=ja&_x_tr_pto=wapp&_x_tr_hist=true
https://www-lesswrong-com.translate.goog/posts/KFJ2LFogYqzfGB3uX/how-ai-takeover-might-happen-in-2-years?_x_tr_sl=en&_x_tr_tl=ja

原文　英語
How AI Takeover Might Happen in 2 Years
by joshc
7th Feb 2025
AI Alignment Forum

https://www.lesswrong.com/posts/KFJ2LFogYqzfGB3uX/how-ai-takeover-might-happen-in-2-years

𝕏 @bioshok3 による解説https://x.com/bioshok3/status/1888633919005990952?t=mh5q8WbhFbVn9ZL5wmp-Fg&s=19

F0NIX
https://www-fonixfuture-com.translate.goog/about?_x_tr_sl=en&_x_tr_tl=ja
https://www-fonixfuture-com.translate.goog/fonix-arc-ap-04?_x_tr_sl=en&_x_tr_tl=ja

AI/AGI時代の地下資源〜ビジネス
https://docs.google.com/document/d/1gRzurYQr4w57CE8dg1gFwkR1TCVwkYgi9sUA9RJJHzQ/preview

「裏」ブラジリアンドリーム AGIリスクに向けて
https://docs.google.com/document/d/1NkcL0ro2cxSELVUK3I1WfIX_aamoW4JW5X5mkcDncE8/preview

https://note.com/singularbell45/n/na907d3976a5a

https://mmorita.substack.com/p/agiaidigit?utm_campaign=post&utm_medium=web

AI Robot X1 washing dish , Tshirt ..
https://youtu.be/XpBWxLg-3bI

AGIリスク
　AGIによる生物兵器攻撃

　台湾〜沖縄（日本）有事リスク

　食料問題
　食料自給率
　　穀物自給率
　　　　ブラジル　122%
　　　　日本　　　 28%
　　世界大戦　核兵器？

AGIリスク | 15%のリスク。意外に全人類、時間がないかもしれない（あと3年…(？)）

AGI-risk(リスク)他、AIの脅威について　まとめ　2025年2月
https://docs.google.com/document/d/1EwGvcHWMdpvkmrGW2B4MS3HlKPvV3olt367Lj-m-LLQ/preview

特にこの↑文書からリンクしている、これ↓、ちょっと長めだが、読んでみて欲しい。

https://www-lesswrong-com.translate.goog/posts/KFJ2LFogYqzfGB3uX/how-ai-takeover-might-happen-in-2-years?_x_tr_sl=en&_x_tr_tl=ja

↑要するに、15%の確率で2027年から(？)全人類はAGIのせいで不幸になる、というお話。想定されてる話もこれまで映画であったような話なので、新しい印象はあまりないかもだが、現実。

止める手段がない…　

ブラジル移住アイデア

食べ物ある
温かい

日本のデメリット

地政学的にも、第三次世界大戦は台湾有事による米中対立で起こると言われてるので、日本はちょうど間に位置し、ややこしいことになりそう。最悪のシナリオは、中国は米軍がある日本の嘉手納、横田も叩くと言われている…→日本からは遠くに

自分が短期で（ここ1−2年で決断を下して）、ブラジル移住をお勧めする理由。

生物兵器に対処する必要あり
COVID-19みたいなのが、ずーと続くイメージ？

止める手段がない…　静観と、生物兵器で攻めてこられたら、、生き続けるのは難しい。なんか「カビ」みたいなので、地球が覆われる、そんな感じになるそう。