今日は、pandasライブラリを使って時系列データをどのように扱うかについて話しましょう。pandasは、データ分析において非常に強力なツールです。特に、DataFrameオブジェクトを作成する機能は、金融データ分析において重宝します。
まず、DataFrameを作成する基本的な方法から見ていきましょう。次に、具体的な時系列データを例に、データの読み込み、操作、そして分析のためのステップを解説します。この過程で、列名やデータ型を設定し、データをどのように整形して分析に適した形にするかを学びます。
サンプルデータのダウンロード:
import yfinance as yf
import pandas as pd
data = yf.download("EURUSD=X", period="1y", interval="1d")
# ダウンロードしたデータをDataFrame化
df = pd.DataFrame(data)
# 先頭の数行を表示
print(df.head())
データフレーム化:
さて、まずは毎度おなじみYfinanceよりEURUSDの過去データをダウンロードしてみます。DataFrame化したらDataFrameの列名のリストを以下のように取得しましょう。
print(df.columns.tolist())
必要な列の選択:
ご覧のようにYfinanceからダウンロードしたデータは7つの列名があることがわかります。この中でどの列を使うかはその時の分析内容に応じて選ぶことになります。今回は始値 'Open'、終値 'Close'を使うと仮定して以下のように必要な列を取り出します。
df = pd.DataFrame(data, columns=['Open', 'Close'])
# 修正後のDataFrameの先頭の数行を表示
print(df.head())
ご覧のように始値と終値だけを抜き出したデータを手に入れることができましたね!
時系列データの扱いにおいて、pandasはデータの読み込み、前処理、分析を行う上で不可欠なツールです。引き続き有用な情報を書いていきますのでご期待ください。
以下是非クリックお願いいたします!