見出し画像

誰もが使えるデータ基盤とは?noteをデータドリブンな企業にするためのアーキテクチャ刷新

noteエンジニアチーム【公式note】

『施策の指針』や『KPIの数値』を決めるためには、データ分析は必要不可欠です。データという目印がなければ闇雲に開発を進めることになるでしょう。しかし、『データ活用』はすべての人間ができるわけではありません。苦手意識を持っている人も多く、社内に浸透させるのは難しい問題です。

そんな中で、noteでは「誰もが使いやすい」を目指したデータ基盤開発が進められています。職種に関係なく、欲しいデータが簡単に取得できる環境を目標に開発を行っています。

また、データ活用に慣れ親しんでもらうために、社員がデータを常に見えるような工夫もしています。データ活用を強要するわけではなく、データを扱うための下地を作り上げているのです。

久保田 勇喜 (エンジニア / データ基盤チームリーダー)
新卒で株式会社アドウェイズに入社し、事前予約サービスの日本版 / 北米版の開発を担当。その後、Bulbitでマーケティングプラットフォーム『UNICORN』に携わり、テレビ朝日メディアプレックスにてテレビの視聴ログや広告販売プラットフォーム開発に従事。2021年4月にnoteに入社し、2022年4月にデータ基盤チームのリーダーに就任。

これらの活動はすべて、データ基盤チームが掲げる「noteをデータドリブンな会社にしたい」という目標を達成するために行われています。データ活用の観点からnoteを成長させていく施策なのです。

この記事では、noteのデータ基盤チームの取り組みについて、リーダーである久保田さんにお聞きしていきます。

データの活用率は目標の10%しか達していない


— データ基盤チームではどのような業務を行っているのでしょうか

久保田:
note内の回遊や記事閲覧、クリックなどの行動ログを記録している『データ基盤』の開発 / 運用をしています。

データ基盤に蓄積したデータは、A/Bテストの分析や機械学習の開発、ダッシュボードの数値など、様々な箇所で活用されています。

誰でも簡単にアクセス数などを閲覧できるようにした『リアルタイムダッシュボード』
(画像はサンプル)
会員登録数、500万人達成の瞬間

久保田:
また、社員がデータを見て楽しめるように、会員数500万人達成のカウントアップをオフィスに表示するようにしました。

今後もオフィスのディスプレイには様々なデータを表示して、いつでもデータが見える状態にしたいと思っています。

僕らはnoteをデータドリブンな組織にすることが目標なので、まずは日常的にデータとの接点を増やして、データ活用に慣れ親しんでもらおうと思っています。

— 話を聞く限りでは、すでに様々な箇所でデータ基盤が利用されている印象を受けました。まだまだ目標には足りないのでしょうか?

久保田:
活用は広がっていますが、想像しているゴールには到底たどり着けていません。現在は、ようやく目標の10%といったところでしょうか。

noteをデータドリブンな会社にするためには、「誰もが扱いやすいデータ基盤を構築すること」と「データ活用を推進すること」の2つを達成するべきだと僕は考えています。

久保田:
そのためにも、僕らが『扱いやすいデータ基盤』を提供して、社員が成功体験を得られる環境をつくっていく必要があります。何も考えずにサクッとデータが手に入る環境が理想なので、やはり目標には程遠いと言えます。使いづらいデータ基盤のまま運用していれば、「めんどくさいからいいや」と見向きもされなくなってしまうので(笑)

僕らは社内のデータに対する考え自体を変えていきたいと思っています。新しい施策をだすときには、必ずデータ分析をセットで考えられるように全社的にしたいですね。「データは使えば使うほど輝いていく」という言葉もあるくらいなので、活用に限界はないと思っています。

『誰もが扱いやすいデータ基盤』にするためのアーキテクチャ変更。DigDag、Embulk、Snowflakeの導入


— データ基盤の現状の課題を教えてください

久保田:
課題だらけですね(笑)
データ活用がしづらい状態にあって、今のままでは胸を張って「扱いやすいデータ基盤です!」とは言えません。

データの整備やパフォーマンス向上など、足回りは整えている最中です。アーキテクチャも今は全体的に見直しています。

2021年のデータ基盤の構成。ETLとしてGlueを利用。
※ ETL:データを抽出(Extract)して、変換(Transform)し、保存先に配信(Load)するツールの総称

久保田:
現在ではETLとしてAWS Glueを利用しているのですが、よりスケールしていくために我々に最適なアーキテクチャを模索していました。将来的にデータ活用が進んだときに、データマートは重要になってきます。

そのため、現在はワークフローエンジンとして‎Digdagを入れ、ETLツールとしてEmbulkに移行している最中です。

久保田:
また、データウェアハウスとしてSnowflakeも導入しました。同様のサービスであるBigQueryと悩んだのですが、よりAWSとカジュアルに接続できる方を選択しました。

Snowflakeは料金体系がわかりやすいのも魅力でした。BigQueryはスキャン料で課金されるため、不用意に大きなスキャンをしてしまうと、とんでもない額が請求されることがあります。Snowflakeはウェアハウスという仮想のコンピュートリソースを借りてデータ集計するため、心理的安全性が高いんです。

— 移行作業はどのくらい進んでいるのでしょうか?

久保田:
まだ、半分ほどしか進められていません。DigdagやEmbulkなどは使える状態にあるのですが、完全移行とは言えない状態です。やらなければならないことは山ほどあります。

細かい課題で言えば、フロントのデータ収集部分ですね。現状のnoteの仕様では行動ログを取得するために、フロントにコードを埋め込む必要があります。このやり方だと、送信部分を僕らがコントロールするのは困難です。フロントやアプリでのデータ収集が簡単にできる仕組みは構築していく予定です。

データ基盤開発は総合格闘技


— データ基盤開発が難しいと感じる部分はどこにあるのでしょうか?

久保田:
誰もが使えるデータ基盤を目指していくと考えると、バックエンドやインフラができることはもちろんのこと、フロントやデザイン、UXの知識も必要になってきます。データ基盤開発はいろいろな技術要素が絡んでくるため、僕らはよく「総合格闘技」と例えています。必要な技術要素が多すぎて、自分で話していて頭が痛くなります(笑)

ただ、幸いなことに、データ基盤チームには幅広い興味と技術を持った人がいます。Kaggleのコンペに参加したり、OSSを作ったり、本を執筆したりと。様々な経験を積んでいる人がいて助かっています。

チームのメンバーがkaggleのコンペで銅メダルを獲得

— これからどんな方と一緒に働いていきたいですか?

久保田:
今はまだ、『やりたいこと』と『やれていること』のギャップが大きい状態なので、抱えている課題や目標に対して前向きにリーダーシップを持って取り組める方と一緒に働きたいと思っています。noteの今後の成長にはデータ活用は重要な要素になってくると僕は信じています。同じように情熱を持っている方は大歓迎です。

データ活用の経験があることが理想ですが、先ほど言ったようにデータ基盤開発は様々な分野に対応する総合格闘技なので、その環境を楽しめる方には合っていると思います。

幅広く技術を獲得したいという意志は1つの能力だと僕は思っています。そういった思考がある方は、ぜひデータ基盤チームに来ていただきたいです。


※ こちらの記事はPodcastの内容を加筆して再編しました。


▼エンジニアの記事をさらに読みたい方はこちら

▼noteを一緒に作りませんか?

▼noteのデータ基盤チームに興味がある方はこちら


Text by megaya

この記事が参加している募集

社員紹介

みんなにも読んでほしいですか?

オススメした記事はフォロワーのタイムラインに表示されます!
noteエンジニアチーム【公式note】
note社エンジニアの公式noteです。noteで活用している技術やさまざまなトライ、エンジニアの活動や働く環境などを紹介していきます