【R】Radiantの使い方:Data>Manageでデータの読み込みと概要を把握

個人的にはとても便利で、データ分析や統計解析の初学者には絶賛おすすめしているRadiantですが、残念ながら日本語での解説は多くありません。
慣れていれば英語でも平気ですが、統計用語に慣れていない初学者に英語だけで使い方を理解してもらうのも厳しいので、職場のマニュアル作成も兼ねて使い方の解説を作っていこうと思います。
公式サイト
Dataメニューには「Mangae」「View」「Visualize」「Pivot」「Explore」「Transform」「Combine」のタブが含まれていますが、今回は「Manage」タブの機能の説明です。
Data > Manageタブ

全般的に、ヘルプはサイドバー左下の「?」をクリックすると表示されます。
Data > Manageで主に使う機能はデータセットの読み込みと保存、データセットに含まれるデータの確認です。
データの確認(Display)
初期表示はサンプルデータ「diamonds」のデータプレビューになっています。
Display:preview
データプレビューでは、データセットに入力されているデータやデータセットの説明が表示されます。
上図参照
Display:str
strをチェックすると、データプレビューからデータの構造(structure)が表示されます。

変数名、変数の型や要素数が表示されるので、主にデータが意図した型で読み込まれているかどうかの確認を行います。
型が一致しない場合はData > Transformで修正します。
Display:summary
summaryでは、データセットの要約が表示されます。

データ数や欠損値の確認、平均・分位点などの統計量、要素数などが一覧で表示されます。
データ全体の傾向を一度に把握できるため、とても便利な機能です。
データの読み込み(Load data of type)
読み込み可能なデータ形式
- rds|rda|rdata:Rデータ形式で保存されたデータの読み込み
- CSV:一般的なCSVファイルの読み込み。
- ヘッダー名の有無や、文字を要素として取り扱うかどうかの指定もできます
- Clipboad:クリップボードにコピーしたスプレッドシートの内容をデータセットに変換
- examples:radiantに含まれているサンプルデータの展開
- rda(url)、csv(url):urlを入力してオンラインで公開されているデータの読み込み
- from globas workspace:RStduioのグローバルワークスペースに保存したRadiantの状態を復元
- radiant state file:Radiantの状態を保存したファイルから復元
Radiantの状態には、(1) Radiant にロードされたデータ、(2) 作業中の分析の設定、(3)[report.state.rda]メニューのレポートまたはコードが含まれています。
エクセルファイルをそのまま読み込むことはできないので、一度CSVファイルで保存するか、スプレッドシートの内容をコピー(CTRL+C)した後にクリップボードから読み込みます。
データの保存(Save data to type)
保存できるデータ形式は読み込みとほぼ同様のため、「読み込み可能なデータ形式」を参照してください。
その他の機能
データセットや変数の説明(description)や、データセット名の修正はDatasetsからチェックボックスをクリックして修正します。
descriptionはマークダウンで記述後、「Update description」をクリックします。

サイドバー下部のShow R-codeは、データの読み込みと保存に関するRコードが表示されます。
Displayの変更などのRコードは表示されませんでした。
Data load and save commands
## Load commands
computer <- data(computer, package = "radiant.multivariate", envir = environment()) %>% get()
register("computer")
Remove data from memoryは、その通りの機能で読み込んだデータを消去します。
小括
以上が、Data > Manageタブの機能の解説です。
データの読み込み、読み込まれたデータの確認の基本的な機能になりますが、データセットの構造や要約統計量の確認も含めてデータ分析には必須の機能になります。
統計、AI・機械学習ともに「収集したデータ以上の情報は得られない」事が基本です。
分析だけでなくデータクレンジングでも取り扱うデータを知る事は大切になるため、データセットの特徴を把握する事は大切だと思っています。
個人的にとても役立った参考書
ディスカッション
コメント一覧
まだ、コメントがありません