はじめに
前回紹介したJupyterではブラウザ上でPythonを実行したり、
もちろん初めからPandasの多種多様な統計処理を扱う必要はありません。最初はPandasの持つデータの入出力を簡単に行ったり、
Pandasの基本的な使い方
サンプルデータで試す
下記のサンプルを元に試してみます。
host,method,status
153.232.253.97,GET,200
153.232.253.97,GET,401
253.23.23.1,GET,200
これをsample.
# グラフをブラウザ内で表示するために呼び出します %matplotlib inline # Pandasの読み込み import pandas as pd # Jupyterでのlsコマンド %ls
data:image/s3,"s3://crabby-images/bc3db/bc3dbeff016f9bd8c67951380c593dc0359c1ace" alt="図1 Pandasの読み込み 図1 Pandasの読み込み"
# CSVデータを変数aに取り込む(statusは文字列にしておきたいので、読み込む時にstringを指定する) a = pd.read_csv("sample.csv", dtype={'status':'S'} ) # 読み込んだ変数aの内容をそのまま参照 a # 各columnのデータ数、平均、分散などの統計量をざっと見ることができます a.describe
data:image/s3,"s3://crabby-images/5178a/5178a6cf79871a02c92cdbeba32abb3f37b4a627" alt="図2 CSVデータの取り込み 図2 CSVデータの取り込み"
# ピボットテーブルを作る
a.T
data:image/s3,"s3://crabby-images/f9b50/f9b507462f6234338c4357b584baf140d2c52fab" alt="図3 ピボットテーブルを作る 図3 ピボットテーブルを作る"
# 'host'カラムのデータのみ取得する a['host'] # 1行目から2行目までを取得する a[1:3]
data:image/s3,"s3://crabby-images/f9d5c/f9d5caf90a410bf0c0bd1a54e48212449774de30" alt="図4 hostカラムのデータのみ取得する 図4 hostカラムのデータのみ取得する"
# それぞれのカラムごとの件数をカウントする a.count() # host毎の統計情報を参照する a.groupby('host').describe()
data:image/s3,"s3://crabby-images/8ec4c/8ec4cb2b5683cbbf02c3abd35e1333c4b4597340" alt="図5 hostごとに件数を集計 図5 hostごとに件数を集計"
# status が '200'のデータのみ取得する a[a['status']=='200'] # status毎の件数を集計して、棒グラフで描画 a['status'].value_counts().plot(kind='bar')
さて、
MySQLからのデータの入力
それではまずはMySQLからデータを取得してみましょう。
SQLと連携させるインターフェースを、%load_
を実行します。これにより%%sql
と先頭につけることで、
%load_ext sql
備考:上記コマンドを実行した場合に、
/usr/local/pyenv/versions/3.4.3/lib/python3.4/site-packages/IPython/config.py:13: ShimWarning: The `IPython.config` package has been deprecated. You should import from traitlets.config instead. "You should import from traitlets.config instead.", ShimWarning) /usr/local/pyenv/versions/3.4.3/lib/python3.4/site-packages/IPython/utils/traitlets.py:5: UserWarning: IPython.utils.traitlets has moved to a top-level traitlets package. warn("IPython.utils.traitlets has moved to a top-level traitlets package.")
MySQLへの接続情報を付与して、
%%sql mysql://username:password@hostname/database show tables;
また、
%%sql desc tables
data:image/s3,"s3://crabby-images/0bb21/0bb216986048929344c10a51216ec39b9e685b4a" alt="図6 MySQLからデータを取り込み実行 図6 MySQLからデータを取り込み実行"
SQLの結果を取得するには、
下記のようにワンライナーで実行するか
results=%%sql SELECT host, path, status, response_time FROM accesslog
クエリを実行した後に_
を利用することで直前に実行されたコマンドの結果を代入したり、
%%sql SELECT host, path, status, response_time FROM accesslog
results = _
results = Out[14]
上記の場合は、
results = results.DataFrame()
data:image/s3,"s3://crabby-images/4294e/4294e544578a05babd9647bd4cd199cba99699d0" alt="図7 SQL実行結果の取得 図7 SQL実行結果の取得"
ちなみにDataFrameとは、
最後にこのMySQLのデータで、.boxplot()
を利用します。
results[['host','response_time']].groupby('host').boxplot(return_type='axes',layout=(1,3))
data:image/s3,"s3://crabby-images/f22c4/f22c4538ff32ddd396de663ced1278c0741fbc33" alt="図8 箱ヒゲ図の表示 図8 箱ヒゲ図の表示"
まとめ
アドホック分析環境として、
次回は、