データセントリックな社会においては、データの正しさを担保するデータエンジニアリングが重要だ。しかし現実には多くがデータに無関心で、その重要性を正しく認識していない。AI教推進機構 代表理事の上林憲行氏はデータへの無関心の原因として、「データが自噴する時代」を指摘。センサーデータのように自動収集されるデータが激増して、データの生成過程が見えにくくなっているという。以下、上林氏の講演の要旨と、一参加者として聴いた筆者が思うところを「データをめぐる3つのジレンマ」として記してみたい。
台風10号が過ぎ去った2024年9月2日、午後4時から東京・銀座の会議室において、日本データ・エンジニアリング協会(JDEA)の主催で、「何故、データが21世紀の価値の源泉なのか?~AI/データセントリック時代の展望~」と題した公開勉強会が開かれた(写真1)。本稿は勉強会の純然なレポートではなく、一参加者として考えたこと=「データをめぐるジレンマ(筆者注)」の備忘録と言っていい。
筆者注:ジレンマ(dilemma)は、相反する事象のどちらかを選択する不利益(あちらを立てればこちらが立たない)を意味するが、ここでは、あるべき論と現実の間にあるギャップという意味で使っている。
講師を務めた上林憲行氏(写真2)は、データサイエンス分野の第一人者として知られ、2024年3月末に非営利特定活動法人として認可されたAI教推進機構(AI Ready Education, Learning And School)の代表理事を務める。
科学技術振興機構(JST)のResearch Mapには上林氏による大量の論文が載っているし、ウィキペディアには「東京工科大学名誉教授/武蔵野大学名誉教授、元武蔵野大学データサイエンス学部長/元MUSICセンター長」とある。
「自己に厳しい学究の徒」「超然とした学者」というイメージだが、講演が始まってみると温厚な表情と平易な語り口調が受講者をホッとさせたようだった。それはそれとして、何ごとにも前提(前振り)がないと落ち着かない。レポートではないと言ったが、まずは講演の概略から。
響き合って次代を創出するデータサイエンス/AI人材を
上林氏の講演は、AI教育推進機構を設立した背景から始まった。2019年4月、同氏が武蔵野大学に全国で3番目となるデータサイエンス学部を立ち上げたときから、「“AI Ready”がコンセプトでした」と言う。ところが、文部科学省が定める大学の情報教育は「情報リテラシー」が中心で、履修単位も小さい(外国語12単位に対し情報は2単位)。これではデータセントリックな近未来の展望が開けない。
上林氏は、大学教授の視点で現在のIT人材育成を眺め、「情報教育の特質に基づいた教育プログラムが確立していない」「サッカー少年を育成するには資格を持ったコーチが必要」「過去の経験と知識に基づく教師でなく、AIを駆使した多面的・多角的な教育プロデューサーを目指すべき」等々の言葉を並べる。そして、「すべての科目でAIを活用し、ひいては表計算ソフトやワープロのように、だれもが日常的に、何の不思議もなくAIを使えるようにすること」を目指したという。
大学という枠組みから解放されたのを機に、上林氏はより実践的で産業界と連携するデータサイエンス/AI人材の育成に乗り出す。日進月歩で進化するITを的確にキャッチアップするには、同時並行で仕事(就業)と学びを繰り返す「卒業なき学習」が最適。そのためには産業界と教育機関(大学、専門学校)の連携が欠かせない。AI教育推進機構は、相互に響き合って次の時代を創出するという意味を込めて、それを「響創」と表現している。
「データへの問題意識がない」問題へのジレンマ
上林氏は「データセントリックのコンセプトが重要だ」と強調する。データセントリックとは、すなわちデータエンジニアリング、いかに正しく信頼できるデータを生成するかを意味している。なぜなら、データサイエンスを正しい結論に導くには、その元となる「データの正しさ」が担保されなければならないからだ。しかもハードウェアやソフトウェアは入れ替えできるが、データはそうはいかない──。
──以上の論説は積極的に支持・賛同するところなのだが、スライドに映されたプレゼン資料「データ資源:ライフロング資源」のところで「ん?」となった。データウェア資産についてカッコ書きにある「そもそも問題意識がない」の部分だ(図1)。
では、データへの問題意識を持つにはどうすればいいのだろう。素朴な疑問が浮かび上がった。
拡大画像表示
なぜ多くの人がデータに無関心か。上林氏はその答えの1つとして「データは自噴する時代」と表現した。空から降った雨が大地に沁み込み、岩盤が濾過して清水として湧き出す。かつて岩清水はおいしい水の代名詞だった。空気と同じように、この国の人は水の存在を意識することがない。
だが、データはそうではない。自噴しているのはセンサーや制御系のデータで、業務系のデータはどこかでだれかがシステムにインプットしている。だれが・いつ・どのように・何に基づいてインプットしたかがはっきりしないダークデータを、「たぶん大丈夫」ということにしているのが実際だ。
「どうすればいいか、明快な解は見えていません。現時点ではデータセントリックだからデータエンジニアリングであると地道に主張し活動していくしかないかも」と上林氏。「データの時代」なのに、多くの人が正確で信頼できるデータに関心がない。それではAIもデータサイエンスも成り立たないことになってしまう。
●Next:進化するAIがデータエンジニアリングも変えるはず
会員登録(無料)が必要です
- 1
- 2
- 次へ >