「pandas」とは
Pythonの重要ライブラリの1つpandas(パンダス)とは、下の画像のような表形式のデータを扱うためのライブラリです。
表形式のデータと聞いてピンと来ないかもしれないが、例えばExcelのシートや、データベースのテーブル、CSVファイルなども表形式のデータであり、pandasで扱うことができる。
pandasはデータサイエンスで必須のPythonライブラリであり、データサイエンスコンペサイトで有名なKaggleではpandasの理解が必須です。
pandasで出来ること
pandasで出来ることを列挙します。
- CSVファイルを読み込み「表形式データ」として扱う
- Excelファイルを読み込み「表形式データ」として扱う
- 表形式データの一部を条件により抽出する(上の画像で言えば、mathの点数が50点以上の行を抽出するなど)
- 複数の表形式データを結合(ジョイン)するなど(SQLのような処理が可能)
Python入門【pandas編】
このブログでは「Python入門【pandas編】」の記事群を整備中です。興味のある方は下のリンク先をチェックしてみてください。
「pandas」のオススメの本の紹介
このブログでも詳しくpandasの使い方を紹介していますが、体系的に学びたい方や、本の方が良いという方には以下の本をオススメしておきます。
コメント