SWELL公式サイトへ 詳しくはこちら

Pandasでのデータフレーム列操作入門:単数・複数列の計算と更新方法

  • URLをコピーしました!
目次

はじめに

Pythonはデータを扱うのにとても便利なプログラミング言語です。その中でもPandas(パンダス)というライブラリを使うと、たくさんのデータを簡単に整理したり計算したりすることができます。本記事では、Pandasを使ってデータフレーム内の列を操作する方法をわかりやすく説明します。

1. Pandasのインストールと基本設定

まず、Pandasを使うためにはPythonにインストールする必要があります。次のコマンドを使います。

pip install pandas

Pandasを使うときは、プログラムの最初に以下のようにインポートします。

import pandas as pd

2. データフレームの作成

データフレームとは、表のような形式でデータを扱うためのものです。次のようにしてサンプルのデータフレームを作成します。

# データを辞書型で準備
data = {'column1': [1, 2, 3], 'column2': [4, 5, 6]}

# Pandasのデータフレームに変換
df = pd.DataFrame(data)

# データフレームの内容を表示
print(df)

これで、以下のような表ができます。

3. 単一列の計算と更新

単一の列を利用した計算

例えば、column1の各値に10を加算してみましょう。

df['column1'] = df['column1'] + 10
print(df)

この操作後、column1の値はすべて10増えます。

新しい列の追加

次に、column1の値を2倍にして新しい列new_columnを作成してみましょう。

df['new_column'] = df['column1'] * 2
print(df)

これで、new_columnという新しい列が追加されます。

4. 複数列の計算と更新

複数の列を利用した計算

column1column2の合計を計算して、新しい列totalに格納してみましょう。

df['total'] = df['column1'] + df['column2']
print(df)

これで、totalという新しい列が追加されます。

条件に基づいた列の更新

次に、column1の値が3以上の場合、column2の値を10に更新してみましょう。

df.loc[df['column1'] >= 3, 'column2'] = 10
print(df)

これで、column1が3以上の行のcolumn2の値が10に更新されます。

5. apply 関数を利用した複雑な計算や更新

apply関数を使うと、もっと複雑な計算を行うことができます。例えば、column2の値が4より大きい場合はcolumn1の値を2倍にし、それ以外の場合はcolumn1の値に2を加える計算をしてみましょう。

df['new_column'] = df.apply(lambda row: row['column1'] * 2 if row['column2'] > 4 else row['column1'] + 2, axis=1)
print(df)

これで、条件に応じた計算が行われ、新しい値がnew_columnに格納されます。

まとめ

本記事では、Pandasを使ってデータフレームの列を操作する基本的な方法から応用的な方法までを説明しました。これらの操作を覚えることで、データを効率よく処理することができるようになります。

よかったらシェアしてね!
  • URLをコピーしました!
目次