メタ研究者が外交術をマスターするAIを作成、人間のプレイヤーを騙す
メタのキケロは、人間と同じように自然な言葉で交渉や説得を行うことができます。
Meta AIは火曜日、戦略的ボードゲーム「Diplomacy」で人間レベルのパフォーマンスを達成した最初のAIであるとするCiceroの開発を発表しました。このゲームでは深い対人交渉能力が要求されるため、Ciceroはゲームに勝つために必要な言語の一定の熟練度を獲得していることを意味し、注目すべき成果であると言えます。
1997年にディープ・ブルーがチェスでガルリ・カスパロフを倒す以前から、ボードゲームはAIの成果を測る指標として有用だった。2015年、AlphaGoが囲碁の名人イ・セドルを破ったことで、またひとつ壁が崩れました。これらのゲームはどちらも比較的明確な分析ルールに従っている(ただし、囲碁のルールは一般的にコンピューターAI用に簡略化されている)。
しかし、「Diplomacy」では、ゲームプレイの大部分に社会的スキルが含まれます。プレイヤーは共感し、自然な言葉を使い、人間関係を構築しなければなりませんが、これはコンピュータ・プレイヤーにとって難しいタスクです。そこでMetaは、「人間と同じように言語を使って交渉し、説得し、人々と協力して戦略的目標を達成する、より効果的で柔軟なエージェントを作ることはできないか」と考えました。
Metaによれば、その答えは「イエス」である。Ciceroは、webDiplomacy.netでオンライン版のDiplomacyをプレイすることでそのスキルを身につけた。そのうちにゲームの達人となり、人間のプレイヤーの「平均スコアの2倍以上」を達成し、2回以上ゲームをした人の上位10パーセントにランクインしたと報告されている。
Ciceroを作るために、Metaは戦略的推論(AlphaGoに類似)と自然言語処理(GPT-3に類似)のAIモデルを引き合わせ、1つのエージェントに転化させました。キセロは対局中、ゲーム盤の状態と会話履歴を見て、他のプレイヤーがどのような行動を取るかを予測する。そして、人間のような会話を生成できる言語モデルを用いて実行する計画を立て、他のプレーヤーと協調することができる。
Meta社はCiceroの自然言語能力を「制御可能な対話モデル」と呼んでいるが、そこにCiceroの個性の核心がある。GPT-3と同様、Ciceroはウェブからかき集めたインターネットテキストの大規模なコーパスを利用している。「制御可能な対話モデルを構築するために、我々はインターネット上のテキストで事前に学習した27億パラメータのBART的言語モデルから始め、webDiplomacy.net上の4万以上の人間ゲームで微調整した」と、Metaは書いている。
こうして生まれたモデルは、複雑なゲームの複雑な仕組みをマスターしている。「メタは、「キケロは、例えば、ゲームの後半で、ある特定のプレイヤーの支援が必要になることを推論し、そのプレイヤーの好意を勝ち取るための戦略を立てることができますし、そのプレイヤーの特定の視点から見たリスクやチャンスさえも認識することができます」と述べています。
MetaのCiceroの研究は、"Human-level play in the game of Diplomacy by combining language models with strategic reasoning "というタイトルで、Science誌に掲載されました。
より広い応用に関しては、Metaは、そのCiceroの研究が、誰かに新しいスキルを教えるために長期的な会話を維持するなど、人間とAI間の「コミュニケーションの障壁を緩和」することができると示唆しています。あるいは、NPCが人間と同じように会話し、プレイヤーの動機を理解し、その都度適応していくようなビデオゲームに力を発揮するかもしれない。
同時に、この技術は、文脈によっては、人になりすまし、潜在的に危険な方法で人をだますことで、人間を操作するために使われる可能性もある。Meta社は、他の研究者が「責任を持って」同社のコードを構築することを望んでおり、「この新しい領域における有害なメッセージ」の検出と削除に向けた措置を講じたという。これはおそらく、Ciceroが摂取したインターネットテキストから学んだ対話(大規模言語モデルにとって常にリスクとなる)を指しているのだろう。
Meta社は、Ciceroの仕組みを説明する詳細なサイトを提供し、CiceroのコードをGitHubでオープンソース化している。オンライン外交のファンはもちろん、それ以外の人々も気をつけなければならないかもしれない。
Comments
Post a Comment