2026年4月19日日曜日

AIの使い方も結局は⋯

ちょっとした面白い記事を見かけました。

AIの回答の精度に関する記事なのですが、我々がAIを使う時は一般にAIに対して質問を行い、その質問に沿ってAI側が我々にその周辺領域まで含めてベストな回答を返そうとしてくれるわけです。

その品質はヴァージョンが上がる度に驚くほど急速に向上しているし、ハルシネーションの調整もかなり行われるように感じますが、まだまだエンジン間でその得意・不得意にはエリア毎の大きなばらつきを感じる状況だと思います。リアルな医学の検索とかでは参考文献には大きな嘘が混じっているし、依拠している知識が間違っていればその組み立てた回答も間違っているわけで、「推論と推理能力」のレベルアップで先進的な物事を解決すると言うよりも名前の通りLLMという「道具」ですね。

しかし、数学や物理などでも高度な問題の解決や証明にまで使われるタイプのAIも登場してきていますから、人間の人間たる叡智の部分にも食い込んでくるレベルのエンジンも我々が知らない世界には既に存在して数学や物理の世界の人達は相当なレベルまで使っているという噂。(テレンス・タオとかね)

では医学の世界ではというと完全にデータ・ベースの取り込みとそのフィードバックの世界で、それほど高度とは思えません。勿論、人間の記憶力などとは桁の違う世界ですが、それでも時に頓珍漢な事言ってるなということもまだ見られます。

ところが、最近出てきた研究結果では医学分野においては人間が入力した質問の「レベルや品質」がその返す結果に大きく影響するとのこと。2月のNature Medicineの論文ではAIに医療シナリオを直接解かせると正答率は約95%なのに、一般の参加者がAIを使って同じシナリオを解かせると、正答率がガクッっと落ちて35%未満になってしまってAIを使わないグループと差がなかったという話。 

結局、AIという優秀なアシスタントを使ったところでAIのもつ高度な言語処理能力や莫大なデータベースなどの性能を使ったとしても、そのままAIを使う利用者側の欲しい結果にはならないことをしっかりと示しているというお話。

つまり、情報を適切に取捨選択し適切な道筋のもとに質問を行って、返ってきた回答を「正しく」評価する専門性がなければAIの力は引き出せ無いということ。患者さんはそもそも順序立てて話をしてくれたり診断に大切なキーになる話をしてくれないことの方が当たり前ですから。

AIを使う側であっても、使われる側にはなりたくないものです。

0 件のコメント: