AI面接サービス開発秘話、バイアスまみれのAIを生み出さないために – ZENKIGEN Lab Report 008
採用領域でのAI活用が注目される現在。海外の文化とは違い新卒大量採用が文化となっている日本で、AIとどのように向き合っていけばよいのかと悩む人事担当も多いのではないでしょうか。AIに面接を任せるリスクはどんなところにあり、バイアスが多くなってしまうAI面接にしないために人事がやるべきことは一体何なのか、ZENKIGENでラボ組織の立ち上げに関わっている小荷田に伺いました。
目次
採用をAIに任せることで起こった事件、そこに潜む課題とは
採用面接でのAI活用が日本でも進み始めていますが、採用をAIに任せることで何か起こった事件やトレンドで注目していることはありますか?
例えば、弊社でもインターンのエントリー動画採用でご支援している某大手通信会社では、AIを活用して評価を行っています。その際に、AIが合格を判定した人は合格とし、AIが不合格と判定した人は人事担当者が動画の合否を判定しているんですよね。
参考:ソフトバンク株式会社プレスリリース「新卒採用選考における動画面接の評価に
AIシステムを導入」
やはり完全にAIで全部判定したという事例はまだ多くありません。リスクが高いところは人間が判断し、AIはあくまでもリスクが低いけれど時間がかかるようなところに活用するという棲み分けが今進んでいるのではないかと思っています。この流れは日本以外の国でも、AI採用において事件・事故が起きていることも関係していると考えています。
そもそもAIは人間が評価したデータを学習する
海外だとAIが採用判定すると、人種や女性等を差別する結果に繋がるという事件も起こっていますよね。
そうですね。海外だと、AIの教師データに人種や性別的偏りがあり問題が起きた事例が出てきています。過去に白人や男性が出世してきた社会の場合は、そのデータを使ってしまうと新しく入ってきた人達や少し文化性の違う人達が入ってきたときにどうしてもAIが低い評価のスコアを返してしまうのはしょうがないと思います。
過去データをクロス集計すれば分かる話なのですが、そういったデータ集計・分析をやらないでいきなりAIの分類器(※分類するための機械学習モデル)を作ってしまうと、差別のような結果になってしまうのは簡単に予測されます。ですが、割と動かしてみないと分からないというのが少し問題として露見してきたのではないかと思っています。
採用において、人間が過去評価したデータが学習データになっていきます。過去の評価データからのバイアスにより、どのようなことが起こっていますか。
まず、採用評価において、解釈性を上げていくというアプローチが非常に重要だと私は思っています。そもそもなぜこの人が合格になったのかという評価の説明性・解釈性が、ニューラルネットワークを使った場合に落ちてしまいます。
ニューラルネットワークはすごく優秀なアルゴリズムなのですが、AI採用に多く使われてすぎてしまい、説明性・解釈性が低いAIが生まれ始めているというのが気になっています。この説明性・解釈性を上げていくというのが現在アカデミックでも取り組まれているテーマのひとつです。
逆にディープラーニングで使わない方法だと重回帰や勾配ブースティングという技術があるのですが、それを使うとどの変数を重く見積もっているからこの人は合格・不合格というのが分かります。ですが、ニューラルネットワークのように直接動画・画像を入れたりすることが出来ないんですね。
面接の動画・画像データというのは、エクセルのデータ等に比べても扱いにくい形です。人間は普段画像等を見て、無意識に受け取り、直感的に「この人良いな、この人は合わないな」と判断しています。AIは直感を再現するのにかなり強いんですよね。なぜ、この人が合格で、あの人が不合格なのか、というのは分からないのですが、とにかく動画・画像データがあって、そのデータに合格・不合格の正解ラベル・正解データがあれば、それをディープラーニングで判定するのは難しい技術ではないとずっと言われています。
ニューラルネットワークの場合、加工をいれないといけないので手間がかかってしまうのですが、手間をかけてでも解釈性を上げていくことが大事です。例えば、それをやっていくと、採用基準のなかで容姿や男女差が強く出ているという結果に対しての解釈が出来ます。本来そこまでやった上で「なぜこの結果になっているのだろうか」と、ある程度データを把握し、AI採用を運用にのせていくことをやらないといけません。
AIが直感を再現するのに強いとのことですが、どんな課題がありますか?
研究の中で問題となってくるのは、動画・画像データを学習させたAIを改修することができないことです。誰かの直感的なデータを元に作ってしまっているので、AIの改良が進まないのです。また、そういうAIがどう進化していくかというと、よりデータ数が集まってくると精度も上がってくるのですが、誰かの直感・バイアスの塊がどんどん強化されていってしまうんです。
なので、AIに対して例えば「こういう傾向があるから男女の差が出ていて、女性に対してすごく不利な採用をしている」というのが分かってきたら、本来そこで調整をかけるべきなのです。ですが、それが分からないので、今ある採用基準をどんどん強化してしまっていきます。AIはこういうことが起こる領域だと私は思っています。
採用以外でもこのようなバイアスによる、気付かぬ課題がありますか?
例えばコールセンターの通電率がKPIだとして、女性が午前中にテレアポすると電話に出てくれる確率が高いというAIの結果があったとします。実際に女性が午前中電話をかけると普段の1.2倍の通電率だとして、その施策をどんどんやっていくと、女性と午前中というデータばかりになってしまいます。それをAIの学習データとして使うと、偏ったデータを学習してしまいかねません。世の中のトレンドが変わって男性が午後電話に出るという風になっても、女性の午前中のデータしかないのですから。
なので、採用領域でもAIを100%信じてしまうと、どんどんデータが偏っていきます。あくまで、AIが出来ることは前借り。今ある母集団の中で採用したい人、採用しやすい人はどんな人か、を見つける力は確かにあります。ですが、全部AIに任せて運用させていくと、データも採用される人も偏っていきますし、どんどんバイアスが強化されます。
AIの中でも、PoC(Proof of Concept=検証)と言われるトライアルが多くあります。トライアルをやりましょうと言って一回やってみるのはいいのですが、継続的にAIを学習させていくPoCに関しては、データの設計が重要です。どういうデータを取得するのかも重要ですが、そもそも目的がなんなのかを見定めないと、使えないAIを運用してしまうという問題を、どの領域でもはらんでいるのではないかと思います。
新卒採用は年1回、PDCAを長期で回すことが重要
AI採用のなかで失敗したPoC、PoCから進まなかった課題は何がありますか?
新卒採用においては年に1回しか行われません。面接時に評価が高い方がいて、入社2~3年後にその方が活躍して評価が良かったとしても、2~3年前と比べる人はほぼいないと思うんですよね。人の採用~活躍までのライフサイクルが長い中で、本当はPDCAを回して評価基準を変えないといけないのですが、そこまでたどり着いていないと思います。
採用業界の特有の問題ですが、会社に入ってずっと人事の採用だけやっていける人は少ないんですよね。2~3年で異動が起きてしまったりするので、その年が良い採用だったのかはどうしても誰にもわからないんです。わからないまま、採用数が達成出来たらいいやなど、本来の目的がどこかにいってしまっているような課題感を受けています。長期のサイクルで人事のデータを収集して分析していくことは、現場のお仕事もあるのでそこまで手が回らないというのもあるかなと思いますね。
また、自然のバイアスといえば、学歴フィルターもAIに影響してくることはありますか?
SPI等の適性試験というのは知能が高ければ高いほど有利な試験です。こういった適性試験は中学入試のような問題が多かったりすると思うんですよね。連立方程式を解く問題、パターン認識等は知の試験。なので、知能が高ければ高いほど有利になるというのはあるかと思います。
学歴フィルターかは分からないですが、どちらにしろ知能の高い人材を求めており、そのためのフィルターが作られているのも確かだと思います。おそらく過去データから、この大学から何名採用するかというKPIも持っているはずですし、OBOGがいて、そのネットワークが強いというのもあります。それにより、学歴フィルターのような流れが強化されていっていると思います。
AIによる学習データからバイアスを取り除くために
バイアスを取り除くために、私たち人間は何をすべきなのでしょうか?
夢があまりない話ですが、AIで100%は難しいです。今あるAIは基本的に「弱いAI」と言われており、ドラえもんのような何でも出来る「強いAI」は存在しません。弱いAIは特化したタスクを解くために作られています。なので、ある程度の癖や思考パターンが設計され、現在はAIの精度が高まっているんですよね。
では、人間はどうするかと言うと、最低限満たさないといけないKPIを達成するのはAIにやってもらって、残り数十%は遊びが出ると思うんですね。AIによって遊びのための工数が空き、余分にかけてもいいことを人間は実験できるかですよね。例えば、今まで採用したことのない人・今までだと採用しようとしなかった人に対しても好奇心を持つことが重要になります。AIは、ある目的に特化してそれだけに進むように出来てきているので、遊びの部分は人間がやはり担保したほうがいいと思います。
例えば、研究領域の採用に関しては、通常業務で必要な人材は決まっています。ですが、新規開発・イノベーションを担いたいと思った場合は自分たちが持っていない知見を持っている人を採用しないといけなくて、むしろ同じ価値観の人が100%だとよくないですよね。その場合は20%程度は今まで採用したことのない異分子の人たちを採用してみるというのを意図的に設計してやるというのが結構重要になると思っています。
AI異分子・異文化の人をうまく採用している企業の例はありますか?
私が以前在籍していたアクセンチュアは、あえて様々な人を受け入れていく風土がありました。ダイバーシティを作るために、ある程度の基準はあれど部門毎にそれぞれのカラーをいれていくということはしっかりしていました。PhD(博士号)取得の方も受け入れていくような仕組みもあり、外資のほうが進んでいるかもしれませんね。
これからだと思いますが、女性の管理職・マネージャー職を増やそうという取り組みも真剣に取り組んでいるのは外資のほうが多いと思うんですね。これはあえて下駄をはかせてでも、女性管理職の推進をさせて、活躍しているかをウォッチしていくことです。でないと、今の男性社会のなかで、マネージャーが男性ばかりだったからハイパフォーマーは男性となってしまっているんです。少し痛みは伴いますが、この工程のデータをちゃんと作っていく作業を、HRデータを活用するための下ごしらえとして絶対にやったほうがいいと思います。