DataFrame のSQLライクな操作＜Python＜他言語＜Javascript＜木暮　仁

import numpy as np import pandas as pd # ========================== 入力データ売上表 = pd.DataFrame([ [1000, '得意先１', '商品Ａ', 1, 40], [1001, '得意先１', '商品Ｂ', 2, 40], [1002, '得意先１', '商品Ｃ', 1, 10], [1003, '得意先２', '商品Ｂ', 3, 60], [1004, '得意先２', '商品Ｂ', 1, 10], [1005, '得意先３', '商品Ｂ', 2, 40], [1005, '得意先３', '商品Ｂ', 3, 60], [1007, '得意先１', '商品Ａ', 3, 120], [1008, '得意先１', '商品Ｂ', 2, 40], [1009, '得意先２', '商品Ｃ', 1, 10], [1010, '得意先２', '商品Ｃ', 3, 30], [1011, '得意先２', '商品Ｃ', 2, 20], [1012, '得意先３', '商品Ｃ', 2, 20], [1013, '得意先３', '商品Ｃ', 1, 10], [1014, '得意先１', '商品Ａ', 3, 120], [1015, '得意先１', '商品Ａ', 1, 50], [1016, '得意先２', '商品Ｂ', 1, 20], [1017, '得意先３', '商品Ａ', 2, 100], [1018, '得意先３', '商品Ｂ', 1, 20], [1019, '得意先１', '商品Ｂ', 2, 40]], columns = ['番号','得意先', '商品', '数量', '金額']) 得意先表 = pd.DataFrame([ ['得意先１', '東京'], ['得意先２', '東京'], ['得意先３', '大阪']], columns = ['得意先', '府県']) # ========================== 加工処理例表Ａ = 売上表[['得意先', '金額']] print('表Ａ\n', 表Ａ.head(3).append(表Ａ.tail(3))) # 射影：列の取出し表Ｂ = 売上表[(売上表.得意先 == '得意先１') & (売上表.金額 >= 50)] print('表Ｂ\n', 表Ｂ) # 選択：行の取出し表Ｃ = 売上表[売上表.得意先 == '得意先１'].loc[:, ['商品', '金額']] print('表Ｃ\n', 表Ｃ.head(3).append(表Ｃ.tail(3))) # 射影と選択の組合せ表Ｄ = 売上表[['番号', '金額']].query("金額 > 100") print('表Ｄ\n', 表Ｄ) # query による射影と選択 x = 100 条件 = "金額 > @x" 表Ｅ = 売上表.query(条件) print('表Ｅ\n', 表Ｅ) # 条件を外だしquery による射影と選択表Ｆ = pd.merge(売上表, 得意先表, on='得意先') print('表Ｆ\n', 表Ｆ.head(3).append(表Ｆ.tail(3))) # 　pd.merge による結合表Ｇ = 売上表.sort_values('金額', ascending=False) print('表Ｇ\n', 表Ｇ.head(3).append(表Ｇ.tail(3))) # ソート ORDER BY 表Ｈ = 売上表[['得意先','商品','数量','金額']].groupby(['得意先', '商品'], as_index=False).sum() print('表Ｈ\n', 表Ｈ) # グループ別集計表Ｉ = 売上表.groupby(['得意先', '商品'], as_index=False).agg({'数量': np.sum, '金額': np.mean}) print('表Ｉ\n', 表Ｉ) # グループ別集計集計表 = 売上表.groupby(['得意先'], as_index=False).agg({'数量': np.sum, '金額': np.sum}) 集計表['単価'] = 集計表['金額'] / 集計表['数量'] 表Ｊ = 集計表 print('表Ｊ\n', 表Ｊ) # 集計結果での新列の作成（AS）ワーク表 = 売上表.groupby(['得意先'],as_index=False).agg({'金額': np.sum}) 表Ｋ = ワーク表.query('金額 >= 200') print('表Ｋ\n', 表Ｋ) # 集計した結果を条件に抽出する（HAVING）

DataFrame のSQLライクな操作

DataFrameの特徴とＳＱＬ

サンプルの実行

実行の解説

ＲＤＢの基本操作

射影：列の取出し

選択：行の取出し

射影と選択の組合せ

query による射影と選択

結合

pd.merge による結合

付帯機能

ソート ORDER BY　sort_values

形式１　一般形　df.groupby([キー列名]).集計方法

形式２（キー列名を列名にする場合）as_index オプション

形式３（番号を削除、集計がすべて同一）

形式４（集計方法が列により異なる）

２ステップで実現する機能

集計操作での列名変更（AS）

集計結果での新列の作成（AS）

集計した結果を条件に抽出する（HAVING）