データ格付けサービス実現のための数理基盤の構築

整理番号 2022a007
種別 女性研究者活躍支援研究-研究集会(Ⅰ)
研究計画題目 データ格付けサービス実現のための数理基盤の構築
研究代表者 中山 尚子(株式会社豆蔵 デジタル戦略支援事業部・チーフコンサルタント)
研究実施期間 2022年9月21日(水)~ 2022年9月22日(木)
研究分野のキーワード データ格付け, 数理基盤, データサイエンス, DX, AI
目的と期待される成果 昨今、官民を挙げてさまざまな分野でDX(デジタルトランスフォーメーション)が推進されている。こうした中、企業や自治体、教育・研究機関などが組織内で記録・蓄積しているデータの相互利用は、DXにおける重要なテーマの一つとなっている。
従来から、データの相互利用については、データの品質は注目されていた。しかし、そこで言われる品質とは、仕様や形式の各組織間の統一性や、データの欠落、データ提供者の信用度など物理的あるいは制度的な問題が多く取り扱われてきた。しかしながらDXにおいては、AIを始めとして、データを数値として取り扱って処理することで各種の自動化を促進させることが重要になってくる。そこで、そのデータが数理的な処理に適した品質であるかどうかの評価については、物理的な状態や制度的な評価だけではなく、処理の対象であるデータそのものを数理的に評価していくことが必要であると考えられる。
たとえば、今後、DXにおけるデータの相互利用において、AIの学習データの獲得が目的とされるシーンは増大していくと見込まれるが、そのような場合、データの数理的な品質は必ず各界から求められる。
また、形式上の整合性の確認や、重複や誤記、を探して修正・削除するデータクレンジングにおいても、数理的なアプローチを考えることで、一層の自動化が促進される。
本研究提案においては、データの品質を数理的なアプローチにより判定して明示する「データ格付け」の実現に向けた共同研究を行う。
数理的なアプローチには以下の2種類が考えられる。
【①ルールベースによるデータ品質保証】 本品質保証の担当範囲は主にエッジ側における取得データであり、主に統計的な手法(データの分散、網羅性、外れ値の多さ、エントロピー、欠損)などの計算と評価によって、アプリケーションにおけるデータ利用の可能性に関しての検討。
【②数理アルゴリズム(AI)によるデータ品質保証】 近年深層学習は著しく発展している一方、深層学習モデルの安全性を脅かす存在として敵対的画像が知られている。深層学習モデルの勾配を既知として行う敵対的攻撃の既存研究では、過去の探索情報を用いた手法が高い攻撃成功率を達成している。そこで過去の探索情報を用いる新しい敵対的攻撃手法を提案して、より多様な探索を実現することによって既存の手法よりも高い攻撃成功率を目指す。 その結果、深層学習モデルに対する敵対的な画像の大量生成とそれを用いた反復学習により、深層学習モデルのロバスト性を向上させる。
上記の点について、産学共同で研究集会を行うことによって「データ格付け」を行うための新しい数理基盤(アルゴリズム)を確立することを目指して、クラウド環境と連携した「データ格付けサービス」の実装に向けた議論を行う。「データ格付けサービス」とは、クラウド環境にある各種データの品質を数理的に判定し、格付けとして明確化するサービスであり。このサービスを実装するためには、「データ格付け」を可能な限り自動化することが必要なため、数理基盤やAI(人工知能)の活用も想定している。研究集会においてはデータが形式的な要件を満たしているかどうかを数理基盤で判定し、データ利用者に提供可能な品質かを自動で格付けする他、AIの活用によりデータの品質を保証する仕組みの検討も同時に行う。
本提案の研究成果として、多くの企業・団体において今後間違いなく増えると考えられるAIによるデータの活用において、漠然と意識はされているが、参考になる理論的根拠の乏しい「データの数理的品質」という着眼点を提供することができる点であると考える。
組織委員(研究集会)
参加者(短期共同利用)
谷川 拓司(ソフトバンク株式会社・アイディエーションディレクター)
品野 勇治(ZIB (Zuse Institute Berlin)・研究員)
近藤 正章(慶応大学・教授)
石原 亨 (名古屋大学・教授)
鍛冶 静雄(九州大学・教授)
藤澤 克樹(九州大学・教授)
WEB