データ活用の要!データ分析基盤はどのようなもの?

これからのデータ活用の目的とは
これまで行われてきたデータ分析とは、自社製品やサービスについてどのような意見や感想があるか、アンケートを取ったり、お客様の声を聞いたり、といった既に販売されているものや過去に行った施策に対する検証が主でした。
しかし「ビッグデータ」と呼ばれるほどの毎日膨大な量のデータが生成される今、データ活用は「過去を検証する」ことから「未来を予測する」ことに変わってきました。つまり、これから必要とされるであろう製品やサービスを創り出すことにデータを活用する、というように目的が変わりつつあります。
データ活用における課題
ではデータ活用、データ分析をしてみようと思ったときに出てくる課題は何でしょうか。
- 部署ごとに縦割りでデータ分析している
- 必要なデータが一部署では揃わない。しかもデータ定義が異なるため他部署のデータが使えない。
- 複数の部署で同じようなデータ分析をしている
これらの課題解決に有効なのが、今日ご紹介する「データ基盤」です。
データ基盤とは?
データ基盤とは、データ分析基盤とも呼ばれ、社内外のサービスデータを一か所に蓄積し、データを一元管理できます。データ活用のための土台となり、データ収集からデータ分析、データの可視化が可能です。そのため、分析したり加工するために他のシステムにデータをエクスポートする必要がありません。
データ基盤を構築する環境には、オンプレミスやクラウドがあります。
データ基盤を構成する5つの要素
データ基盤をGDP(Google Data Platform)に含まれるサービスの組み合わせで構築した場合、以下の5つの要素で構成されます。

- データを集める
データ分析のために自社や他社のサービスやアプリ、Webサイトなどからデータを収集します。アクセスログや大容量の行動パターンなどさまざまなデータをリアルタイムに収集することが可能です。
データ収集で使用するサービスは、GCPではCloud Composer、Cloud Dataflow、Cloud Dataprepなどです。 - データを貯める
データレイクと呼ばれる保管場所に収集したデータを貯めておきます。これまでにも述べたように、収集したデータは形式や種類が多様化しているので「そのままの状態で」データを格納します。
Cloud StorageはGCPのストレージサービスで、保存するデータ量には制限がありません。また、従量課金制のためデータ量に応じたコスト体系になっています。 - データを成形する
Cloud Storageに格納したデータは、BigQueryで実行されるSQLを使用したデータ変換の定義や文書化、テストなどを行い、利用しやすい形に成形します。ETLサービス(Dataformやdbtなど)を使ってSQLを使用したデータフローをコードとして記述し、BigQueryにデプロイします。 - データを加工し、分析する
用途に応じて集計、分析、グループ化などの加工をします。BigQueryはデータを貯めるためだけでなく、データを加工し、分析をするためにも使います。 - データを可視化する
Google Data StudioやData Portalで表やグラフなどを用いてデータを可視化します。ビジネスレポートへの出力も可能です。
データ基盤を構築するメリット
データ基盤を構築する大きなメリットは4つあります。
- 収集したデータを部門に関係なく活用できる
特定の部署や人に依存せず、全社的にデータを活用することができます。部門間でデータの収集方法やフォーマットが異なるといった、これまで起こりがちだった問題も回避することができ、自部門で使いたいデータを使えるようになります。 - 細かく権限管理ができる
「全社的にデータを活用できる」と聞くと、逆に全社的に展開したくないデータの取り扱いにこまることもあるでしょう。しかしデータ基盤を構築することで、ユーザー単位、データベースのカラム単位での権限管理が可能になるので、セキュリティの観点からも安心です。 - 素早くデータ分析を開始できる
データが一元管理され、最新のデータをすぐに利用することが可能です。そのため、即座にデータ分析をし、業務上の機会損失を防ぐこともできます。 - 非構造化のデータを扱うことができる
これまでは主にRDB(リレーショナルデータベース)のような構造化データを主に扱っていましたが、データレイクに収集したデータを格納するので、リアルタイムで溜まるログといったストリーミングデータも扱うことができます。
構築したデータ基盤を運用するために必要な技術

ここまでご紹介したように、データ基盤を構築することで、収集したデータを一元管理し部門に関係なく取り扱うことができるようになります。ただ、より効果的にデータを活用するには「今の時代に必要な、データ活用のできるデータエンジニア」の記事でもご紹介したようなデータ活用の重要性を理解し、膨大なデータから必要なものを取り出し、加工・分析するスキルが必要です。
私たちデータ・エージェンシーのデータエンジニアは、データ活用のお悩みや課題解決のために人材提供を通じて、データ基盤構築から運用までサポートいたします。