アンドリュー・エンが語る「データの質」の重要性

アンドリュー・エンとは
アンドリュー・ヤン=タック・ン、1976年4月18日(2021年10月現在45歳)は、中国系アメリカ人の計算機科学者、人工知能研究者、投資家、起業家、Google Brainの共同設立者、Biduの元副社長兼チーフサイエンティスト、スタンフォード大学兼担教授である。EラーニングサービスのCourseraとdeeplearning.aiとAI Fundの創始者でもある。
アンドリュー・エンが語る「データの質の重要性」
AI(人工知能)の第一人者であるアンドリュー・エンは、データが世界を飲み込むようになる中、データの品質を格段に向上させる必要があると考えている。彼は、「データはAIの食糧だ」と言い、AI技術者はモデルやアルゴリズムの構築よりも、モデルの学習に用いるデータの品質向上を優先させるべきだと主張する。
AIを伝統的な企業に提供することを目的にエンが設立した「Landing AI」は6月16日、固定のモデルを使ってデータ品質の改良で結果を競うコンペを開催すると発表した。上位3チームは、エンと共にデータセントリックのムーブメントを広める方法について議論するプライベートな会議に招待されるという。
また、同じく彼が設立した教育スタートアップの「DeepLearning.AI」は、オンライン教育サービス「Coursera」上で世界中の受講者にデータセントリックなアプローチを教えるコースを立ち上げると発表した(エンは、2012年にCourseraを仲間と共同で設立した)。
エンによると、現在主流であるモデルセントリックなアプローチでは、なるべく多くのデータを集め、データに含まれるノイズに対応できるモデルの構築を図っているという。このプロセスではデータを固定し、望ましい結果が得られるまでモデルを改良し続ける。
これに対し、データセントリックなアプローチでは「データの一貫性が最も重要だ」とエンは語り、正しい結果を得るためにモデルやコードを固定して、データ品質を繰り返し改良するのだという。
エンによると、AI開発者は80%の時間をデータの整備に費やしているという。これは、2000年代後半に、ビッグデータを自在に操るデータサイエンスが普及して以降に、広く共有されるようになった認識だ。その後、AIやディープラーニングが急成長を遂げたが、低品質なデータによるエラーや精度の低さを改善するためには、データ量を増やすしかないというのが一般的な考え方となっている。