誰もが使えるデータ基盤とは?noteをデータドリブンな企業にするためのアーキテクチャ刷新
『施策の指針』や『KPIの数値』を決めるためには、データ分析は必要不可欠です。データという目印がなければ闇雲に開発を進めることになるでしょう。しかし、『データ活用』はすべての人間ができるわけではありません。苦手意識を持っている人も多く、社内に浸透させるのは難しい問題です。
そんな中で、noteでは「誰もが使いやすい」を目指したデータ基盤開発が進められています。職種に関係なく、欲しいデータが簡単に取得できる環境を目標に開発を行っています。
また、データ活用に慣れ親しんでもらうために、社員がデータを常に見えるような工夫もしています。データ活用を強要するわけではなく、データを扱うための下地を作り上げているのです。
これらの活動はすべて、データ基盤チームが掲げる「noteをデータドリブンな会社にしたい」という目標を達成するために行われています。データ活用の観点からnoteを成長させていく施策なのです。
この記事では、noteのデータ基盤チームの取り組みについて、リーダーである久保田さんにお聞きしていきます。
データの活用率は目標の10%しか達していない
— データ基盤チームではどのような業務を行っているのでしょうか
久保田:
note内の回遊や記事閲覧、クリックなどの行動ログを記録している『データ基盤』の開発 / 運用をしています。
データ基盤に蓄積したデータは、A/Bテストの分析や機械学習の開発、ダッシュボードの数値など、様々な箇所で活用されています。
久保田:
また、社員がデータを見て楽しめるように、会員数500万人達成のカウントアップをオフィスに表示するようにしました。
今後もオフィスのディスプレイには様々なデータを表示して、いつでもデータが見える状態にしたいと思っています。
僕らはnoteをデータドリブンな組織にすることが目標なので、まずは日常的にデータとの接点を増やして、データ活用に慣れ親しんでもらおうと思っています。
— 話を聞く限りでは、すでに様々な箇所でデータ基盤が利用されている印象を受けました。まだまだ目標には足りないのでしょうか?
久保田:
活用は広がっていますが、想像しているゴールには到底たどり着けていません。現在は、ようやく目標の10%といったところでしょうか。
noteをデータドリブンな会社にするためには、「誰もが扱いやすいデータ基盤を構築すること」と「データ活用を推進すること」の2つを達成するべきだと僕は考えています。
久保田:
そのためにも、僕らが『扱いやすいデータ基盤』を提供して、社員が成功体験を得られる環境をつくっていく必要があります。何も考えずにサクッとデータが手に入る環境が理想なので、やはり目標には程遠いと言えます。使いづらいデータ基盤のまま運用していれば、「めんどくさいからいいや」と見向きもされなくなってしまうので(笑)
僕らは社内のデータに対する考え自体を変えていきたいと思っています。新しい施策をだすときには、必ずデータ分析をセットで考えられるように全社的にしたいですね。「データは使えば使うほど輝いていく」という言葉もあるくらいなので、活用に限界はないと思っています。
『誰もが扱いやすいデータ基盤』にするためのアーキテクチャ変更。DigDag、Embulk、Snowflakeの導入
— データ基盤の現状の課題を教えてください
久保田:
課題だらけですね(笑)
データ活用がしづらい状態にあって、今のままでは胸を張って「扱いやすいデータ基盤です!」とは言えません。
データの整備やパフォーマンス向上など、足回りは整えている最中です。アーキテクチャも今は全体的に見直しています。
久保田:
現在ではETLとしてAWS Glueを利用しているのですが、よりスケールしていくために我々に最適なアーキテクチャを模索していました。将来的にデータ活用が進んだときに、データマートは重要になってきます。
そのため、現在はワークフローエンジンとしてDigdagを入れ、ETLツールとしてEmbulkに移行している最中です。
久保田:
また、データウェアハウスとしてSnowflakeも導入しました。同様のサービスであるBigQueryと悩んだのですが、よりAWSとカジュアルに接続できる方を選択しました。
Snowflakeは料金体系がわかりやすいのも魅力でした。BigQueryはスキャン料で課金されるため、不用意に大きなスキャンをしてしまうと、とんでもない額が請求されることがあります。Snowflakeはウェアハウスという仮想のコンピュートリソースを借りてデータ集計するため、心理的安全性が高いんです。
— 移行作業はどのくらい進んでいるのでしょうか?
久保田:
まだ、半分ほどしか進められていません。DigdagやEmbulkなどは使える状態にあるのですが、完全移行とは言えない状態です。やらなければならないことは山ほどあります。
細かい課題で言えば、フロントのデータ収集部分ですね。現状のnoteの仕様では行動ログを取得するために、フロントにコードを埋め込む必要があります。このやり方だと、送信部分を僕らがコントロールするのは困難です。フロントやアプリでのデータ収集が簡単にできる仕組みは構築していく予定です。
データ基盤開発は総合格闘技
— データ基盤開発が難しいと感じる部分はどこにあるのでしょうか?
久保田:
誰もが使えるデータ基盤を目指していくと考えると、バックエンドやインフラができることはもちろんのこと、フロントやデザイン、UXの知識も必要になってきます。データ基盤開発はいろいろな技術要素が絡んでくるため、僕らはよく「総合格闘技」と例えています。必要な技術要素が多すぎて、自分で話していて頭が痛くなります(笑)
ただ、幸いなことに、データ基盤チームには幅広い興味と技術を持った人がいます。Kaggleのコンペに参加したり、OSSを作ったり、本を執筆したりと。様々な経験を積んでいる人がいて助かっています。
— これからどんな方と一緒に働いていきたいですか?
久保田:
今はまだ、『やりたいこと』と『やれていること』のギャップが大きい状態なので、抱えている課題や目標に対して前向きにリーダーシップを持って取り組める方と一緒に働きたいと思っています。noteの今後の成長にはデータ活用は重要な要素になってくると僕は信じています。同じように情熱を持っている方は大歓迎です。
データ活用の経験があることが理想ですが、先ほど言ったようにデータ基盤開発は様々な分野に対応する総合格闘技なので、その環境を楽しめる方には合っていると思います。
幅広く技術を獲得したいという意志は1つの能力だと僕は思っています。そういった思考がある方は、ぜひデータ基盤チームに来ていただきたいです。
※ こちらの記事はPodcastの内容を加筆して再編しました。
▼エンジニアの記事をさらに読みたい方はこちら
▼noteを一緒に作りませんか?
▼noteのデータ基盤チームに興味がある方はこちら
Text by megaya