Pythonの重要ライブラリ「pandas」とは

「pandas」とは

Pythonの重要ライブラリの1つpandas(パンダス)とは、下の画像のような表形式のデータを扱うためのライブラリです。

表形式のデータと聞いてピンと来ないかもしれないが、例えばExcelのシートや、データベースのテーブルCSVファイルなども表形式のデータであり、pandasで扱うことができる。

pandasはデータサイエンスで必須のPythonライブラリであり、データサイエンスコンペサイトで有名なKaggleではpandasの理解が必須です。

pandasで出来ること

pandasで出来ることを列挙します。

  • CSVファイルを読み込み「表形式データ」として扱う
  • Excelファイルを読み込み「表形式データ」として扱う
  • 表形式データの一部を条件により抽出する(上の画像で言えば、mathの点数が50点以上の行を抽出するなど)
  • 複数の表形式データを結合(ジョイン)するなど(SQLのような処理が可能)

Python入門【pandas編】

このブログでは「Python入門【pandas編】」の記事群を整備中です。興味のある方は下のリンク先をチェックしてみてください。

「pandas」のオススメの本の紹介

このブログでも詳しくpandasの使い方を紹介していますが、体系的に学びたい方や、本の方が良いという方には以下の本をオススメしておきます。

pandasライブラリ活用入門[第2版] データクリーニング/前処理など一連の分析プロセスをマスター!

コメント

タイトルとURLをコピーしました