2021年2月1日月曜日

データフレーム - pandas - python

■インポート


import pandas as pd
 以降の呼び出し簡略化のため「pd」と名前を付ける

■データフレーム


・データフレーム作成

df = pd.DataFrame({'列名1':[111,222,333],'列名2':['aaa','bbb','ccc'],'列名3':['a',2,'あ']})
print(df)

#出力
#    列名1 列名2 列名3
# 0    111   aaa     a
# 1    222   bbb     2
# 2    333   ccc     あ
.DataFrame()に辞書型で構成を指定
 keyに列名、valueに列の値をリストで指定
 ※リストのサイズは全て同じにする

・データフレームの構造

df = pd.DataFrame({'列名1':[111,222,333],'列名2':['aaa','bbb','ccc'],'列名3':['a',2,'あ']})

print(df.columns)
print(list(df.columns))

print(df.index)
print(list(df.index))

#出力
# Index(['列名1', '列名2', '列名3'], dtype='object')
# ['列名1', '列名2', '列名3']
#
# RangeIndex(start=0, stop=3, step=1)
# [0, 1, 2]
 データフレームとは列に列名、行にインデックスが付けられたテーブル
 インデックスはデータフレーム作成時に自動で付与される
 それぞれ.columns.indexで取得できる(リストに直すと見やすい)

 データフレームはシリーズという単位に分解できる
df = pd.DataFrame({'列名1':[111,222,333],'列名2':['aaa','bbb','ccc'],'列名3':['a',2,'あ']})

print(df['列名1'])

print(df['列名1'][1])

#出力
# 0    111
# 1    222
# 2    333
# Name: 列名1, dtype: int64
#
# 222
 シリーズは列を1つ抜き出したようなもの
名前(列名)インデックスを持つ
 dfに[ ]で列名を指定して取得
 さらに[ ]でインデックスを指定すると値を取得できる


0 件のコメント:

コメントを投稿