信頼度の測定 なぜすべてのAIモデルにFICOスコアが必要なのか

AIモデルにFICOスコアが必要な理由

セールスフォースによる2023年のITの現状調査によると、9割のITリーダーがジェネレーティブAIが近い将来主流になると述べています。

マッキンゼーによると、2022年には組織の50%がAIを使用していました。IDCは、2023年だけで世界のAI支出が驚異的な26.9%増加すると予測しています。最近の顧客サービス専門家の調査では、AIの採用率が2020年から2022年にかけて88%増加したと報告されています。研究によると、ITリーダーの86%がジェネレーティブAIが近い将来、組織内で重要な役割を果たすと考えています。

また、専門家の3分の2がAIが自分のスキルの価値を増加させると思っています

それにもかかわらず、ITリーダーの64%がジェネレーティブAIの倫理に懸念を抱いており、62%が自身のキャリアへの影響を心配しています。ITリーダーの最近の調査では、ジェネレーティブAIに関する懸念事項にはセキュリティリスク(79%)、バイアス(73%)、炭素フットプリント(71%)が含まれていました。別の報告書によると、顧客の23%がAIを信頼しておらず、56%が中立です。この信頼の欠如は、企業がAIパワードのサービスをどのように利用し提供するかによって、どちらの方向にも振れることがあります。

マッキンゼーの最新の調査では、ジェネレーティブAIはマッキンゼーが分析した63のユースケース全体で年間2.6兆ドルから4.4兆ドルに相当する価値を追加する可能性があると評価されています。これにより、すべての人工知能の影響が15%から40%増加します。AIの成長と採用の最大の障害は信頼です。従業員のスキルギャップと信頼は、ジェネレーティブAIのビジネス採用における最大の障害です。

また、ジェネレーティブAIと第4の理由:顧客との信頼構築

ジェネレーティブAIソリューションプロバイダーが従業員、顧客、パートナー、およびサービス対象のコミュニティから信頼を獲得する方法についてより良い視点を得るために、私はデータプライバシー、高度なアナリティクス、AI、およびデジタルトランスフォーメーションの専門家であるリッチー・エトワルと興味深い議論をしました。Mobeusの共同創設者兼最高クリエイティブオフィサーであるエトワルは、彼の名前に数多くの特許、書籍、TEDxトーク、業界初のイノベーションがクレジットされています。

ジェネレーティブAIおよびそれ以上のために使用されるすべての基礎モデルで信頼を築くにはどうすればよいでしょうか? ここにエトワルが提案した内容があります。

アーサー・C・クラークの「十分に進化した技術は魔法と区別がつかない」という言葉は、彼の1962年の著書「未来のプロファイル:可能性の限界についての調査」で書かれたもので、時を経てもそのままです。

60年後の2022年11月20日、OpenAIはChatGPTという驚異的な技術を発表しました。これは魔法だけではなく、不安定なものでした。魔法との関係はバランスの取れたものです。私たちは、魔法が魅惑的で畏敬の念を抱くときに楽しむものですが、理解の範囲を超えると、理解の限界を越えると、脅威となります。魔法があまりにも強力に見える瞬間、私たちは心地よい領域から引き離され、困惑の次元に引き込まれます。不安は、論理的または科学的な説明を回避する現象に直面することに起因します。

また、最高のAIチャットボット:ChatGPTと他の注目すべき代替手段  テクノロジーの景色では、ChatGPTとその仲間である対話のために作られた大規模な言語モデルや、テキストからメディアを生成するDALL-Eのようなモデルは、予想外のものを提供します。それらはクラークが想像しなかった進歩を示し、理解を超える洗練度を実現し、私たちが把握しようと苦労する概念と能力を導入するため、本当の意味での「魔法」を超えるレベルを達成します。

人間の心は繊細です。説明のつかない現象に直面したとき、進化によって形成された私たちの本能的な反応は、しばしば恐れに傾きます。それが、未知の小さな生物がよく知られた巨大な生物よりも脅威的である理由です。ChatGPTとその仲間たちは、この「単なる魔法を超える」壁を破り、その驚異的な能力は確かに騒ぎを引き起こしています。

AIはその能力ではなく、どのように動作し、目標を達成するのかについて理解が不足しているため、私たちを恐れさせます。私たちの理解の欠如により、AIが「潜在的にできること」を想像するようになります。

また、最高の生成AI結果のためのChatGPTプロンプトの書き方

「GPT-4について落ち着いてください」という記事で、Rodney Brooksは「パフォーマンスと能力を混同するのをやめるべきだ」と主張しています。Brooksは、AIモデルがXを行える場合、Xを行える人間が通常Yも行えるとは考えるべきではないと説明しています。私たちの恐怖は、限られたアプリケーションで驚くべき効果を示すシステムの一般的な能力を過大評価しているために生じています。AIの内部の仕組みを解明することで、それに対する恐怖を大幅に減少させることができます。AIを不透明な「ブラックボックス」から透明な「ガラスキューブ」に移行することで、私たちの種としての技術の採用方法を再調整することができます。

「ChatGPTの向こう側:生成AIの心の内」という講演で、Dr. Michael Wuは「空の色は何ですか?」というシンプルなプロンプトが実際にどのように機能するかを説明しています。Wuは生成モデルの神秘を解き明かし、驚くべき応答が「ただの数学」と統計を用いて生成されることを示しています。AIの応答の背後にある数学的な基礎を明らかにすることで、システムが人間のような意識を持っていないことを観客に確認させます。

また、「このAIによる暗号請求書詐欺は、私がセキュリティプロフェッショナルであるにもかかわらずほとんど騙されるところでした」という記事でも、AIについての理解が深まりつつあるものの、まだまだ先は長いと述べられています。AWSのCEOであるAdam Selipskyは、CNBCに対して、「私たちはたった3歩進んでいるだけであり、これは10Kレースです」と述べました。AIが進化するにつれて、モデルは現在の能力を超えて進化していくでしょう。データのマスタリーの向上、モデルの管理の改善、エコシステムの統合の強化、人間のスキル向上、および数学/統計の革新により、時間の経過とともにAIの能力は大幅に向上する可能性があります。私たちは電気、飛行、自動車、インターネットなどの過去の技術への恐怖を規制することができましたが、AIへの恐怖を完全に規制することはできません。これはAIが複利的な指数増加性を持っている一方、それ以前のすべては最大でも線形的です。私たちの不安は、AIが人類の繁栄を続ける能力にどのような影響を与えるかという点に由来しています。極端なシナリオでは、AIが人類の絶滅につながるという事態を想像しています。しかし、結果は完全な勝利または敗北というよりも、それほど二者択一的ではないでしょう。将来を人間が存在を勝ち取るか否かという視点ではなく、人工知能との持続的で持続可能な共存の方法を見つける必要があります。

また、専門家による生成AIの5つの最大のリスク

共存を指針とする場合、AIモデルがその目標と一致しているかどうかを評価する仕組みが必要です。AIシステムが提示された際、それが人間との共存をサポートし、人間のニーズに応える「良いAI」であるか、共存を無視し信頼できないAIであるかをすぐに判断できるべきです。私たちは、AIモデルの信頼性と人間への奉仕を示す、理解しやすいスコアリングシステムが必要です。

このようなメカニズムがない場合、私たちはますますすべてのAIに対して疑いを抱くようになり、それを使用する企業に対する不信感が広がる可能性があります。協力的な人間-AI共存にAIの一致性を評価するための一貫したフレームワークは、技術から価値を抽出し、公衆の信頼を築くために不可欠です。欧州連合のAI法は、各AIモデルに対してCEマーキングと固有のモデル番号を要求することで、AIのスコアリングシステムに向けた初歩的なステップを踏んでいます。ただし、このCEマーキングの基になる情報は、モデルがどのようにトレーニングされ、作成されたかを示すだけであり、モデルが信頼できるかどうかを示すものではありません。モデルが適用可能な規制に適合しているとしても、公衆の信頼を得ることに失敗する可能性があります。要件を満たすだけでは共存の一致性には繋がりません。私たちは、技術的なメトリックを超えて、人間の利益、透明性、共存の可能性を明示的に評価するAIの評価フレームワークが必要です。

また、AIの倫理:人工知能の利点とリスク

GoogleやOpenAIなどの企業は、「モデルカード」を使用して、モデルの設計、データ、トレーニング、パフォーマンス、制限に関する情報をまとめて提供しています。例えば、GoogleのMediaPipe BlazeFace AIモデルには、Googleの従業員によって主に書かれた論文で指定されたセクション、データ、フォーマットが記載されたモデルカードがあります。一方、OpenAIはGPT-4のための「システムカード」を持ち、そのシステムカードにはスタンフォード大学の論文で指定されたセクション、データ、フォーマットが記載されています。

モデル/システムカードの両方は、正しい方向に進んでいるが、それぞれが独立した形式と情報アーキテクチャに従っている事実は、多くの課題のうちの1つに過ぎません。主な課題は、ほとんどの消費者がこれらのモデル/システムカードを読んで理解する時間や忍耐力、適性を持っていないことです。したがって、これらのカードは一般の消費者にとってはあまり役に立たないものです。読むのに長く、理解するのに難しいです。

また:IBMの研究によると、AIにより次の3年間で労働者の40%が再スキル化を余儀なくされるでしょう

演習として、人間のニーズに応え、人間とAIの共存を促進するAIモデルの適合性を示す簡単で理解しやすいスコアを定義してみましょう。共存スコア(HAICOスコア)と呼ばれるものを想像してみましょう。これはどのように機能するのでしょうか?各AIモデルのどのデータが収集され、どの頻度で収集され、HAICOスコアを計算するためにどのような式が使用されるのでしょうか?このフレームワークは、一般の人々にモデルの共存適合性を示す簡単に理解できるスコアに複雑な情報を要約する必要があります。

このようなスコアリングフレームワークを具現化することは困難ではありません。イラストを想像してみましょう。HAICOスコアは、マズローの欲求5段階説の5つのレイヤーに分類されたAIモデルの50の属性から構成されているとします(図1)。

図1:イラストのHAICOスコアの概要

50の属性のそれぞれは、人間とAIの共存に適合しているものを測定します。属性からのデータは、チップに焼き込まれたルーチンの透明性からトレーニングデータの同意と所有、モデル設計、推論パフォーマンス、再トレーニング、再配布まで、モデルパイプライン全体から収集されます。

モデルの属性の例には、モデルが頑健であるかどうか、利用可能であるかどうか、公正であるかどうか、人間の自律性を尊重するかどうか、合意志向的であるかどうか、持続的に学習するかどうか、人間の生活に価値を追加するかどうかなどが含まれます。各属性は0から5までのスコアが付けられ、その後、式がそれらを組み合わせて各モデルの0から100までのHAICOスコアを算出します(図2)。

また:今日のAIブームは、早くも社会問題を増幅させつつあります、とAI倫理学者は言います

最終的な3段階のHAICOスコアリングシステム:

  • 非共存(0〜59ポイント):人間のニーズを満たすことに信頼されていません。
  • 共存(60〜79ポイント):人間のニーズを満たすことに信頼されています。
  • 非常に共存(80ポイント以上):人間のニーズを非常に信頼しています。

図2:50の属性ごとに0〜5のスコアを持つイラストのAIモデル、各レイヤーごとに合計されます。

これは、多層の技術的詳細が共存と信頼性のスコアの単純な3段階モデルにマッピングされる様子を示しています。HAICOのイラストフレームワークは出発点を提供します。効果的な公開フレームワークに変換するには、包括的な開発と継続的な改善が必要です。しかし、これは微妙な人間とAIの共存のスコアリングメカニズムの実現可能性を示しています。

私たちのイラストのHAICOスコアリングメカニズムはまだ完成には程遠いです。例えば、各レイヤーの重み付けや、非共存とされるAIモデルをどの範囲で分類するかは、異なる対象者によって変わる可能性があります。HAICOスコアを計算するための式は、PG-13の対象者向けのAIモデルとRated Rの対象者向けのモデルでは異なるかもしれません。このイラストは、AIモデルに対して信頼性があるかどうか、人間とAIの共存に適合しているかどうかを簡単かつ信頼性のある方法で判断することができるスコアリングシステムを確立できることを示しています(図3)。

また:AIの前に、この他の技術の波が急速に押し寄せています

私たちは「誰が勝つか」という議論を超えて共存の道に進む必要があります。AIはここにあり、私たちも同様です。前進する作業は協力的なコミュニティとして行わなければなりません。そうしなければ、私たちのイラストのHAICOスコアのようなフレームワークの欠如により、AIモデルを使用して製品を開発したりサービスを提供したりする消費者、企業、国の信頼性に疑問が増えていくでしょう。社会として、AIおよびそれを使用する人々への信頼の欠如を指数関数的に増大させ、最終的には技術の力を利用して人間の状況を改善する機会を自ら逃すことになるリスクがあります。

図3:AIモデルの最終HAICOスコアを計算するための式の使用、スコアは76でCOEXISTENTと分類されます

良いニュースです:成熟したAIエコシステムの参加者に加えて、(NVIDIA、Intel、Apple、AMD、SambaNovaなどの)ハードウェアプロバイダや(AWS、Google、Azure、Oracle、Alibaba、Salesforceなどの)クラウド、モデル、マーケット(Cohere、Hugging Face)、アプリ(OpenAI、Antrophic、Stability.ai)、戦略およびサービス企業(Deloitte、Accenture、IBM、Cognizantなど)も、成熟した「モデル測定」ツールのコホートが現れています。

たとえば、TensorFlow Data Validationは、データセットの特性を理解し、異常を検出し、モデルのトレーニングに使用されたデータセット間の違いを比較するのに役立ちます。 CleverHansやAdversarial Robustness Toolbox(ART)は、頑健性を計算する際にモデルに対する敵対的な攻撃をシミュレートするために使用できます。 GoogleのFairness Indicators、IBMのAI Fairness 360、またはFairlearnなどのツールを使用して、機械学習モデルのバイアスを測定し、可視化し、軽減することができます。 GoogleのTFX、Seldon、またはFiddlerなどのツールを使用して、モデルのパフォーマンスを時間とともに監視し、重要な変動や低下があった場合にアラートを受けることができます。

また、MITによると、生成型AIツールの大量採用が非常に重要な要素を乱していると言います

ピースが揃い始めています。北極星は共存です。現在、人間とAIの共存に対するモデルの適合性を示すための信頼スコアを協力して確立することができる瞬間にいます。これは、人間の金融的な信頼性を示すFICOスコアに似た理解しやすいスコアです。この記事で共有されているHAICOスコアは、議論を開始するための前菜です。今が最適な時です。


この記事は、Mobeusの共同創設者であるRichie Etwaruによって共同執筆されました。Etwaruは、多様な分野のエグゼクティブ、シリアルアントレプレナー、グローバルな思想リーダーです。彼は金融サービスとヘルスケアの世界でグローバルな変革を設計し、リードするためにCスイートと取締役会との共同作業を行ってきました。 Etwaruはソフトウェアによる空間コンピューティングを発明し、第31の人権を先駆けました。彼は3冊の本を執筆し、3つのTEDトークを行い、100以上のカンファレンスで講演しています。