データプレパレーションが2020年の一大トレンド!
AI人気の影で"データプレパレーション"が密かに脚光
オープンデータやソーシャルデータ、マシンデータをビジネスに活用しようとする動きが活発化する中で、「分析に必要とされるさまざまな非定型データを収集/整形し、迅速な分析開始のためのサポートを行う機能」として、データ活用を促進できるデータ・プレパレーションは、企業のイノベーションを生み出すキーテクノロジーとして大きな注目を集めています。
余談ですが 私の本業の仕事はシステム移行なのですが、私の業務は「移行に必要とされるさまざまな非定形データを収集/整形し、迅速な移行開始の為のサポートを行う機能」を主としていますから、データプレパレーションの定義と移行の定義は似ていることが分かります。
データ分析者は作業の80%をデータの抽出とクリーニング(データ準備)に費やしていると言われており、データプレパレーションツールの利用によりデータ分析時間の大幅短縮が見込まれます。
データ分析者だけではなく、俗にではなく本当の意味でAIに従事するエンジニアさんもこの類のデータ準備に苦労が絶えないと考えます。
わかりやすくデータプレパレーションを解説
大量のデータ(非定形)から分析結果を出す仕事を例に挙げましょう。
旧来はデータ分析を得意とする要員により、人力で、まあちょっとしたExcelマクロを使って効率化はしていたでしょうが、属人化された地道な作業と考えられます。コンサルタントさんにこの類の要員・作業が多いとお察します。
データプレパテーションは、既に人力では太刀打ちできない大量の非定形データを分析用データに前処理したり、非定形データはそのままに、どこになにがあるのでかを定義して、必要な時に必要な分を取り出せるデータ辞書を準備したりすることです。
なぜ2020年にデータプレパレーションが必要か?
簡単に言うと、データ分析を必要な時に焦って時間の限り対応する(扱えるデータ量は少なく、精度も低い)現状を、必要になる前に必要とされるデータを予測して前処理したり、必要とされるデータがわからない場合、少なくとも複数の構造が異なるデータを定義しておいて、必要な時に逆引きできるようにしておく事(扱えるデータ量が多く、精度が高くなる)、これがデータプレパレーションのメリットです。
データの民主化が始まっている
ビッグデータ、IoT、AIといったIT技術の進展に伴い、既存の産業構造やビジネスモデルがかつて無いスピードで変革する時代を迎え、ビジネスのデジタル化が急速に進行しています。データ量は増加を続け、データの種類は多様化し、もはやIT部門がすべてのデータを管理する時代ではなくなりつつあるのかもしれません。データサイエンティストのような少数の専門家だけではなく、より多くのビジネスユーザがデータを活用する、いわば、データ活用の“民主化”が起こりつつある今、データ・プレパレーションという新しい領域にスポットライトを当ててみましょう。
データサイエンティストと呼ばれている統計の専門家だけではなく、多くのビジネスユーザがデータを活用するのは当然の流れでしょう。データサイエンティストが経営やマーケに詳しいとは限らないからですね。結果経営層やマーケ担当といった「舵取り役」自身が直接データを分析できれば、それに越したことは無いでしょう。
民主化されたデータを扱うには統計学の基礎が必要
そうは言っても分析の素養を持っていない、分析をしっかり学んでいない人にデータを渡しても分析は出来ないと考えます。統計学の基礎が無いと都合のよいデータ、都合のよい分析方法のみを信じて間違った舵取りで崖から真っ逆さま、みないな事例にはなってほしくありません。
ここで、分析に自信が無い貴兄には統計学を体系的に学ぶことはいかがでしょうか。