1.ダウンロードページから適切なパッケージをダウンロードする
オラクルのJava(1.5以上)実行環境がインストールされていることを前提としているため,これらのヴァージョンが利用可能か,手元のPCあるいは計算機の管理者に確認して下さい.
2.インストールを行う
パッケージインストールには,Windowsなどで管理者権限が必要となることがあります.
ZIPファイルを展開する場合は,Java実行環境がインストールされていることを確認し,ユーザ権限でユーザのホーム領域などへ展開して使うことが出来ます.
パッケージの展開を行うことで,コマンドラインやスクリプトからの利用が可能になります.
コマンドラインでGUI Chooserを起動する場合は,以下のように起動します.
$java -jar weka.jar
3.メニューあるいはコマンドラインからweka(GUI)を起動する
対話的にデータマイニングに必要な操作を行うExploer,実行の流れを可視化して実行するKnowledge Flowを用いて,データの処理を行います.
入力データはCSVやRDBからも行えますが,属性情報などを整えるためにExplorerで読み込み→フィルタ処理→保存→編集という作業を繰り返す必要があります.
実行例:
-
- Knowledge Flow(KF)での各種アルゴリズム実行手順(入門編)
KFは商用データマイニングツールによく見られる処理を意味するアイコン同士を接続して,一連の動作を実行させるGUIです. 入門編では,データの読み込みから分類学習(決定木)の実行,実行結果の表示について解説してあります.
実行例では,入力ファイルの形式はカンマ区切り(CSV)としてあります.
-
- Knowledge Flow(KF)でのデータ加工(CSVファイルへのクラスタ(データに基づくまとまり)付加)
KFおよびExplorerのPreprocessでは,各種フィルタ(Filtersあるいはweka.filters.*)を用いることによって, データの加工のみを行うことも可能です.この資料では,クラスタの付加について解説しています.
-
- Explorerでのデータ加工(属性選択(Attribute Selection)フィルタ適用)
分類に寄与する属性(特徴,変量とも呼ぶ)を選択するためのExplorerのPreprocess(前処理)パネルにおける属性選択フィルタの実行方法です.前述のKnowledge Flowでのフィルタ適用と同様にKFでの実行も可能です.
(※Attribute Selection(属性選択)は,探索手法と評価手法の組み合わせによって,数時間以上の実行時間がかかることがあります)