【R】radiantは探索的なデータ分析に必要な機能が揃っています。

統計機能だけでなく、簡単なグラフ作成やデータの要約機能が欲しかったので色々とEZRやRコマンダーに追加する機能を作ろうと思っていましたが、「radiant」には全て揃っている事がわかりました。

途中経過

なので、素直にradiantを使う事にしました。

探索的なデータ分析

探索的データ分析では、データの要約統計量や可視化(グラフ化)を駆使してデータの全体像を把握・理解した後に、必要な分析や解析を実施していきます。

数値の要約と視覚化を使用してデータを探索し、変数間の潜在的な関係を特定するプロセスを、探索的データ分析(EDA)と呼びます。

探索的データ分析の調査プロセスでは、要約統計量およびグラフ化ツールを使用して、データを把握し、そこから何が得られるかを理解します。

探索的データ分析の定義

もちろん、実務や経験で傾向をよく理解できているデータでは必要性は少ないですが、他者から依頼を受けた場合などは特に、データ自体の「雰囲気」を知らないと良い分析ができない事は多々あります。

科学的な意見ではありませんが、実際に依頼を受けて分析をしている感覚としては「データの雰囲気」を見て「気になる部分に焦点を合わせる」事がデータ分析には必要だと思っています。

中でも、「気になる部分に焦点を合わせる」事は経験やスキルが必要ですが、「データの雰囲気」を見る部分は使いやすいツールを使う事が大切です。

Rを使ってもデータの可視化や要約統計量の作成が簡単に行えますが、コードを書くのが苦手な人にはマウスだけでもっと手軽に可視化やデータの要約ができればなぁ、と思っていました。

radientの機能紹介(簡単に)

radiantの機能が多く使い方を詳しく書くと長くなるため、ここではスクリーンショットで簡単な使い方を紹介しています。

具体的な説明は公式サイトをご覧ください。

デモサイトも公開されているので、正直、説明を見るよりもデモサイトを操作した方がわかりやすいと思います。

データセットの操作

Shinyで実装しようとして詰まっていた機能で、radiantでは取り込んだデータセットの編集や加工がマウスだけで実行できます。

最初からサンプルデータは入っていますが、もちろんデータの取り込みも対応しています。

データの取り込み

「Manage」タブのLocal data of typeから取り込むデータの種類を選択します。CSVファイルはもちろん、クリップボードからも取り込みができます。

データの加工

データの加工は「Transform」タブで行います。Transformation typeから必要な機能を選択して、加工したい内容を指定します。

機能一覧(Transformation type)

  • Change variable(変数:列のデータ型変換)
  • Create new variable(新しい変数の追加)
  • Clean data(欠損値・重複データの処理)
  • Expand data(集計表からデータセットの作成や組み合わせデータの作成)
  • Split data(条件指定に当てはまるデータの抽出)
  • Tidy data(longデータやwideデータへの変換)

グラフ化

「Visualize」タブでは複数の変数を指定して、まとめてグラフを描画することができます。

カテゴリ別のグラフ化は、X-valiableを指定して比較する事もできますし、facetで個別に描画することも可能です。

複数の変数を選択したり変数を解除する際は、Ctrlキーを押しながらクリックで変数の選択や解除になります。

もちろん、別の変数を選んで次々とグラフを変更することもできます(Create plotは改めてクリックした方がよさそうです)。

要約統計量の算出

要約統計量をはじめ、データセットの特徴も「Manage」タブのDisplayで表示される情報を選択します。

要約統計量は連続変数だけでなくカテゴリデータの要約も同時に計算される上に、「summary」を選択するだけです。

結論

本当に簡単な説明だけですが、radiantを使うとほとんど手間をかけずにデータの全体像を把握できます。

セットアップもパッケージのインストールだけで終わるため、Rの基本的な使い方がわかっていればすぐに使い始めることができます。そのため、詳しい機能や使い方は実際に操作しながらの方がわかりやすいと思います。

個人的な使い方は医学統計が多いので、データの傾向把握と分析の方向性を決めるためにradiantを使い、詳細な分析はEZRや必要に応じた分析を行うなどの使い分けが便利になりそうと思っています。

これからデータ分析を始めようと思っている方に(経験談)

記事中にも書いていますが、データ分析で「気になる部分に焦点を合わせる」事は経験やスキルが必要になります。

加えて、もちろん統計や分析方法に対する知識も必要になります。

慣れていない時期は特に、分析に必要な「データを読む」感覚を身に付けるためには繰り返し可視化したデータから情報を読み取る事が大切です。

そのためにも、グラフ作成や要約統計量、データの特徴が簡単に出力できるradiantは、これからデータ分析を始める方にもいいアプリケーションだと思います。

正直、費用を気にしなくてもいい状況ではJMPが一番使い勝手がいいと思っていますが、サブスクリプション費用が年間10万円ほど必要なので個人ではちょっと...。