データ基盤入門
このドキュメントの目的は、Wantedly内で利用している技術スタックを紹介し、欲しいデータの生成をどこでやるべきかを理解してもらうことです。
まず用語として、「Source」、「Warehouse」、「Mart」の3用語をこのドキュメントでは利用し、これに技術要素を当てはめます。 詳しい説明はゆずたそさんの「データ基盤の3分類と進化的データモデリング」のスライドを参照してください。

技術要素

それぞれのカバー領域を図示します。例えば次の図のFluentdは、外部からSourceに対してデータを入れる部分で使うことを示しています。

歴史

    2015 前半 DOMOが利用され始める
    2016 後半 分析基盤をTreasureDataからBigQueryに移動
    2016 後半 Analyticsが導入
    2016 後半 機械学習がPeopleで使われ始める
    2016 後半 機械学習がVisitで運用され始める
    2017 後半 Visitの募集一覧のソート結果がBigQuery に保存され、過去分の再現がしやすくなる
    2018 前半 一部のマイクロサービスからのイベントログの挿入がリクエスト時にBigQueryに直接入れていたのがFluentdを経由するようになる
    2018 前半 bqsが導入される
    2019 前半 Argo Workflows が導入される
    2019 後半 全てのイベントログがFluentd経由で挿入されるようになる
    2019 後半 bqvが導入される
    2020 後半 Looker導入・DOMO解約

話を聞きに行きたい

もっと知りたい

最終更新 11d ago