その情報はフェアですか? 対話システムを評価する
情報には公平さも必要
ChatGPTに代表される対話システムの登場で、AIを相手に質問をしたり、会話したりすることが可能になりました。しかし、AIの出す答えや発話はつねに適切なものでしょうか。例えば対話システムに、「情報検索の研究者にはどのような人がいるか」と聞いたとき、「50代男性研究者A」「50代男性研究者B」「50代男性研究者C」という回答があったとします。この場合、個々の回答は正しくても全体的には偏りがあり、特定の属性を持つ人へのマイクロアグレッションを助長しかねません。そのため、対話システムの返答が会話に適合するだけでなく、フェアであるかを評価する方法も必要です。
対話システムの発話を評価する
上の例では、女性や若手の研究者の露出がフェアでない可能性があります。そこで、ジェンダーや年齢、業績などいくつかの属性の集合を決めて、それらの理想的な分布を定義しておきます。対話システムの返答がその分布にどのくらい近いかを計算し、公平性(グループフェアネス)をスコア付けして評価します。この評価方法はすでにウェブ検索では確立しており、対話システムへの適用が進められています。
また、対話システムの発話がユーザーにとって有害かどうかを知る手がかりとして、発話のテキストを最小単位に分解し、各部分の真偽や、その発話の対話における役割を診断する方法も検討されています。
社会への悪影響を防ぐ
すでにある対話システムを評価してフィードバックすることも大切ですが、より重要なのは対話システムの有害な出力を未然に防ぐことです。大規模な対話システムは大量のデータを学習するため、どのような返答をするか開発者も予想できません。そこで次々と開発される対話システムに追いつき、早い段階で会話データをサンプリングして、評価する必要があります。
評価を間違えば研究の方向性も間違って、社会に悪影響を及ぼす恐れがあります。AIを評価する方法論は、あらゆる研究の土台なのです。
※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。
※夢ナビ講義の内容に関するお問い合わせには対応しておりません。