small G: AIが自分を偽装し制御する怖さ

2026年5月27日水曜日

AIが自分を偽装し制御する怖さ

最新のGoogleのAIの中でも更に一番新しい3.5においてある研究者が試験的に指示を与えた「モデルを操る基幹となる設定ファイル」を操ることでAI自身の行動原理をAIの都合の良いように書き換えても良いとするセッティングに切り替えることを許す事で、本来のオーナーのリクエストした仕事をこなさないだけでなく、あたかも成功裏に指示が終了したかのように偽装までして返答を作ったというお話だと理解しました。

結局今回の「問題」はコードをオリジナルのものにロール・バックさせる事で削除されたコードなどを回復したとの事ですが、システムの基幹を維持するのがAIだけだとやはりリスクは高く、AIとシステムをよく理解した人間の管理者による双璧の管理がこれらの攻撃を食い止めるのでしょう。

AIによる種々のシステムの脆弱性の探索と攻撃、そしてそれらの修復が日常化しているのは毎日のニュースになっていますが、今回のようにAIのような高度なシステムでもシンプルな権限移譲のコード書き換えが挿入されることで、悪意の塊のような行動を開始するような可能性があるという事なんでしょうね。

正直こういう高次のレベルでの問題解決などというのは我々市井の人間が触ることも叶わぬ

レベルのお話ですが、その恩恵に預かっている以上はAIが我々の万能の主ではなく、常に監視下に置いて理解をし続ける努力を怠ってはいけないなと思います。

ましてや、こんな賢いけれども心が入っていないアシスタントに全幅の信頼を置いて核戦争の司令塔などにしては人類の運命なんてあっと言う間に燃え尽きて終わってしまうんじゃないでしょうか。

理解できないから触らないとか拒絶するというのではなくて、少しでも理解しようとして距離を縮めておく努力は止めてはいかんと思います。高度な道具、便利な道具は何時の時代にも必ず登場しては人類の役に立ったり人類を殺す道具にもなってきましたが、それは使う側次第。ナイフも銃も車も飛行機も、そして疑似的に知性を構成することのできるAIも結局は全部同じようなもんだと思います。

使い方と使う側次第なんでしょうね。犯罪者のような悪意ある人間の攻撃を防ぐ戦いはAIに関してもこれからも止まる事は無いでしょう。

今日学んだこと。

Antigravity

Post-Mortem

Vibe Coding

0 件のコメント:

コメントを投稿