こんばんは、今日はMicrosoft社が開発したBIツールSand Danceを使ってみようと思います。
Contents
SandDanceの歴史
Sand Danceは2011月にMicrosoft社の研究機関であるMicrosoft ResearchからリリースされたBIツールです。
そして2019年の10月10日にオープンソース化されました。
ちなみに、私もこのニュースをみて初めて知ったわけですが、過去どのくらい注目されているの?ということでトレンドを見てみました。
これまでは、あまり注目度が高かったわけではないのですね。ただし、オープンソース化のニュース以降検索が増えているのが見えますので、これからどのように進化して盛り上がっていくのか、注目していきたいです。
ともあれ、どういうものか使ってみようと思います。
Python 3 入門+アメリカのシリコンバレー流コードスタイル
Sanddanceをインストール
Sanddanceは、Web上のツールとして使えるものに加えて、Visual Studioのプラグインとしても提供されているようです。私はVisual Studioのプラグインの方を試してみました。
Webツールは以下のリンクからすぐ使えます。
Visual Studio Codeへのプラグイン追加は以下の手順で。
1, 左のExtension (拡張機能) タブから”sanddance”を検索
インストール後、VS Code Studioを再起動すれば準備完了!
タイタニックデータを可視化
2, CSVの読み込み&Sanddanceで表示
今回はTitanicのデータをサンプルで利用します。CSVをVS Codeで開いて、タブを右クリックすると、”View in SandDance”という項目がありますので、クリック。
お!それっぽい表が現れました。グラフの種類(CHART)を切り替えると、砂が踊るように(?)美しいグラフィックでグラフが切り替わっていきます。
サンプルで何か可視化してみよう。年齢と、性別と、生存の関係を見てみる。
性別別に、年齢と生存したかをプロット。設定は下記の通り。
じゃん!おお!年齢によらず女性は優先的に助けられたことが一目で分かります。
図の1つ1つのドットはCSVのレコード1行1行に対応しています。
Binの間隔も簡単に調整できます。(X axis bin sizeを7から20に変更)
その他できること
色調のカスタマイズ
左のタブの上から2番目のところです。
個別のデータの確認
左のパレットの上から3つめのタブでは個別データを確認可能です。個別データの各項目をクリックすると、同じ項目値を持った他のデータがグラフ上どこに分布しているかが表示されます。これ、便利ですね。
先ほどの分析の観点とは変わりますが、例えば、Pclass=3 (3等客室) をクリックしてみると、男性では40歳以下の人に多いことが分かります。一方で女性は40歳以下で見ても男性よりも割合は少ないことが分かります。
これは、タイタニックに乗船する女性=身分の高い男性の妻などが多かった、ということだったりするのでしょうか。
なるほど、こういうことも直感的にグラフから読み取ることができます。
条件絞り込み
左側パレットの4段目の虫メガネのところですね。ここではグラフに表示されているデータに対して、絞り込み検索で強調表示することが可能です。(先ほどのPclass選択表示と同じです)
Pclass = 1で検索してみました。1等客室の乗客は男性は年齢が高い層に多いことが分かります。
スナップショット機能
上から5段目のタブを開くと、スナップショットの撮影機能があります。グラフを画像として保存できます。
軸の書式設定
最後の段のタブでは軸の書式設定が可能なようです。
以上がSanddanceでできることのようです。(他にもあったらごめんなさい・・)
ビジュアライゼーションに特化しているようで、数値(割合)などと一緒にでるわけではないので、そこは別で計算してやる必要があるのかな?でも一目でデータの分布や関係が分かるのでとても便利ですね。
これからの発展も楽しみです!
本日も最後までご覧いただき有難うございました^^
コメントを残す