先日(2023年10月24日)統計検定準1級のCBT試験に3回目の受験で合格したので、自分の勉強法や感想など、色々書き残しておこうと思います。
守秘義務があるので試験に出た具体的な問題などについては言及できませんが、統計検定準1級の全体的な対策について記事として残そうと思います。
長文にするつもりです。長文注意。
2級から取得すべき
私は2021年12月26日に統計検定2級を取得しています。
2021年から準1級取得(2023年10月24日)までずっと勉強していたという訳ではないので、準1級取得には2年掛かるという訳ではありません。
2級、準1級と順番に受けてみて、準1級を取る前に2級を取るべきだと強く思います。
準1級の内容は2級の内容を完全に包含していますし、2級は準1級の基礎、ベースとなる知識を学べます。
難易度もかなり違います。2級は比較的簡単に取れますが、準1級はかなり勉強したつもりですが、2回不合格をくらいました。(今回3回目の受験で合格しました)
試験範囲も2級を含めて、2級の2~3倍程度新しい内容が追加されます。試験範囲がとても広いです。
なので2級の範囲をまずしっかり理解して、2級に合格し、準1級の範囲を追加で勉強する手順を踏まないと、準1級の膨大な範囲に太刀打ちできない可能性が高いです。
2級、準1級の前に
2級では多少、準1級では顕著に大学レベルの微分積分、線形代数の知識を要求されます。
大学で学んだ方は良いのですが、そうではない方は統計検定の前に大学レベルの微分積分、線形代数を学ぶと良いでしょう。
ここで詳しく解説しませんが、微積の学び方については、次の私の旧ブログの記事が参考になるかもしれません。もしよろしければ見てみてください。
準1級試験の感想
ここからは試験について書いていきます。
まず問題全体として、しっかり理解しているかが問われていた気がします。
なので、過去問などの問題の解き方を丸暗記しているだけでは、ほぼ太刀打ちできません。
問題文を本番中にもしっかり読んでよく考えることが必要でしょう。
そうすると時間が足りなくなるかもしれませんが、それについては自分はこの記事の後半で書く方法で対処しました。
過学習対策
先程から過去問と言っているのは次の本のことです。公式が出している過去問題集です。
この過去問には当然しっかりと取り組む必要がありますが、この過去問だけだと問題を暗記してしまい、いわゆる過学習してしまいます。
過学習は問題(データ)の量を増やすと改善されるので、過学習を防ぐためにワークブック(下のリンク)の問題も例題を含めてやり込む必要があります。
ワークブックの8割くらいの問題を自力で解けるようにしておかないと合格は厳しいかもしれません。
理解を深めるために
先程理解が重要だと書きましたが、理解を深めるために勉強後半で過去問の論述問題にも挑戦すると良いでしょう。
完全に解ける必要はありませんが、論述問題に取り組むとワークブックに書いてある内容の理解が進む気が個人的にはしました。
ワークブックの論述問題に関連する章を熟読しながら論述問題に取り組むと良いでしょう。
また論述問題にも取り組むことで、過学習も抑えられます。
ワークブックを重視すべき
過去問を難易度が高すぎる2021年と論述問題を除いて95%程度完成させることは前提で、それプラス、ワークブックに過去問以上に取り組む必要があると思います。(2021年の問題も取り組んだほうが良い)
これを言う理由は察してください。(ワークブックの内容が試験に・・・)
マーカーを引くのは意味が無いという有名人もいますが、個人的にはマーカー推奨です。
どの分野のページをどれくらいやり込んだのか一目瞭然になるし、逆にどの分野のページが手薄なのかも見れば分かるようになります。
気休めだと言われますが、気が休まるなら良いのでは。
何度も読み返すうちに、なんとなく読み飛ばしていた条件が実は重要だったなんてこともあり、そういうところは気付いたときにマーカーを引きます。
マーカーは重要度順に赤・黃・青だけ使っていますが、2度目に統計検定準1級に受験した際に出題された知識や問題にはオレンジのマーカーを臨時で引きました。
マーカー不要論については、おそらく根拠になっている論文の実験デザインが良くないと思っています。
具体的な知識編
共分散と相関係数の公式など、基本的な公式は覚えて即座に思い出せるようにしておく必要があります。
$$
Cov(X, Y) = E(XY) – E(X)E(Y) \\
\rho(X, Y) = \frac{Cov(X, Y)}{\sqrt{V(X)V(Y)}}
$$
基本的な公式については息をするように式変形できることが、試験にも重要ですし、勉強段階でも基本的な式変形ができることが勉強スピードを上げるのに繋がります。
いくつか重要な公式を上げます。
$$
V(X) = E(X^2) – E(X)^2
$$
この公式はとても重要です。一瞬で思い出せる必要があります。覚え方としては「分散は二乗の平均引く平均の二乗」と呪文のように覚えましょう。
分散と共分散の関係について
$$
V(X \pm Y) = V(X) + V(Y) \pm 2Cov(X, Y) \\
V(X + Y + Z) = V(X) + V(Y) + V(Z) + 2Cov(X, Y) + 2Cov(X, Z) + 2Cov(Y, Z)
$$
共分散について
$$
Cov(aX, Y) = aCov(X, Y)
$$
↑これは、共分散は定数を外に出せるとおぼえましょう。
$$
Cov(X + a, Y + b) = Cov(X, Y)
$$
↑これは、共分散については分散と同様に定数を無視できるとおぼえましょう。
$$
Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z) \\
Cov(X + Y, Z + W) = Cov(X, Z) + Cov(X, W) + Cov(Y, Z) + Cov(Y, W)
$$
↑これは、共分散は分配法則のような演算ができると覚えましょう。
以下のような式も逐次的に考えて処理できるようにしましょう。
$$
\begin{eqnarray}
V(aX + bY) &=& V(aX) + V(bY) + 2Cov(aX, bY) \\
&=& a^2 V(X) + b^2 V(Y) + 2abCov(X, Y)
\end{eqnarray}
$$
独立に注意
確率変数が独立である、という条件に注意しましょう。
いくつかの数式がとても簡単になります。例えば
$$
V(X \pm Y) = V(X) + V(Y)
$$
これは前節で紹介した分散の式の\( Cov(X, Y) \)がXとYが独立だと0になることから導けます。
また、先程最初に紹介した以下の式から
$$
Cov(X, Y) = E(XY) – E(X)E(Y) \\
E(XY) = E(X)E(Y) + Cov(X, Y) \\
E(XY) = E(X)E(Y)
$$
確率変数XとYが独立だと積の期待値E(XY)がE(X)E(Y)に単純に分解できるということです。
逆に独立でない場合、共分散が関わってくるため単純に分解できないことに注意しましょう。
この知識は意外にも重要です。
勉強方法編
ワークブックは1つの章に1冊の本の内容を凝縮したような書き方をされているので、ワークブック単体ではかなり理解が難しいです。
そこで、主な章ごとに分かりやすい書籍を紹介していきます。
それらの書籍に迂回して最終的にワークブックに戻る方が、急がば回れで速いです。
多変量解析(回帰分析・主成分分析・因子分析・判別分析)
まず2冊紹介します。
「多変量解析がわかる (ファーストブック)」という本と、「まずはこの一冊から 意味がわかる多変量解析」という本です。
どちらも回帰分析・主成分分析・因子分析・判別分析について詳しく解説されています。
慣れるまでは難しいかもしれませんが、ワークブックよりは遥かに分かりやすいと思います。ワークブックはこれらのわき道の本を読んだ後、最終的な知識の整理のために読むと良いでしょう。
回帰分析と因子分析については以下のマンガでわかるシリーズもおすすめです。
マンガで読みやすいですが、後半に行くに連れて結構本格的になってくるので少し気合を入れて読む必要があります。良い意味で雰囲気だけの説明になっていない。数式も結構出ます。
マンガでわかるシリーズは回帰分析や因子分析について、何も知識が無い状態から大まかに手法の全体像を把握するのに適していると思います。あーだいたいこういう手法なんだなー、という理解に手早く到達でき、後半は本格的な解説もあります。
時系列解析
頻出分野なので対策をしておくと良いでしょう。
おすすめの本は「経済・ファイナンスデータの計量時系列分析」という本です。
時系列分析の入門書として有名らしく「沖本本」という通称がついているそうです。
前の方から1/4か1/3程度読めば、統計検定準1級に必要な知識は身につくと思います。
時系列解析について少し語らせてもらうと、間違っていたらコメントで指摘していただきたいのですが、自己共分散・自己相関係数がかなり重要だということを理解すると良いと思います。
統計検定準1級では自己回帰過程・移動平均過程など、いくつかの確率過程が出てきますが、それら種類がある理由は目的の自己相関の形(コレログラムの形)を実現するために色々な確率過程があるということを理解することです。
もっと詳しく説明するとラグ1、つまり1つ前の値とだけ自己相関が高い確率過程を実現したいなら1次の移動平均過程を用いれば良いですし、2つ前や3つ前、それ以前とも減衰する自己相関を持つ確率過程を考えたいのなら自己回帰過程を用いるという感じです。
移動平均過程が次数より大きなラグで自己相関を持たないことは、沖本本を良く読めば当たり前に感じるはずです。
自己相関と偏自己相関から確率過程の次数を考える問題は頻出ですが、このあたりについて当たり前となるまで理解すると合格確率はグンと上がると思います。
ベイズ法
これまた頻出です。
他にも本はありますが、多くても迷うかもしれないので、特におすすめの2冊を紹介します。
「マンガでわかるベイズ統計学」と「道具としてのベイズ統計」という本です。
マンガでわかるの方は第5章と第6章は一応統計検定準1級の試験範囲なのですが、かなり難しいのでスキップしても良いかもしれません。
この2冊はどちらも読んでみて欲しいのですが、大事なのはベイズの心を掴むことです。
これまた、私の個人的感想なのですが、ベイズで大事なのは、与えられたデータによって、事前確率(もしくは事前分布)が事後確率(もしくは事後分布)に更新されるという仕組みを理解することです。
ベイズは個人的に統計検定準1級に受かるために捨てない方が良いと思っています。
ベイズの共役事前分布などを理解すると、ワークブックの最初の方の確率分布について理解が深まりますし、統計検定を抜きにしても機械学習などの別分野の勉強に役立ちます。
ベイズをしっかり勉強したあと、ガンマ分布、ポアソン分布、ベータ分布、二項分布がただの分布ではないことに気付きます。
やむなく捨てた分野
他のブログでも書いてあることですが、捨てると決めた分野の問題が意外と問題になると簡単な場合もあるので、当初捨てる分野は作らない予定でした。
ワークブックの全分野、全章を理解するつもりで勉強していたし、それはそれで不可欠でした。
捨てるにしても、試験本番で問題として出たときに捨てる分野の問題であるかどうか、パッと判断する必要があるので、その判別ができる程度には捨て分野も勉強しておかないといけない。
結局自分は受験1週間くらい前になって、捨て分野、正確には理解が浅い分野について、勉強するよりも他に時間を回したほうが合格確率が上がると判断し以下の分野を捨てました。
確率過程・不完全データの統計処理・シミュレーション
試験ではこの捨て分野の問題が3問程度出ると予想していて、実際3問出題されました。
15~30秒程度で捨て分野の問題であると判別してランダムにマークしました。
予想通り3問程度だったので、3問分の時間は他の問題に回せると思っていて、それがこの記事の最初で言っていた時間対策です。
最初から3問程度捨てると思っていたので時間的にはあまり焦らなかったです。
知識以外のこと
受験場所には当たり外れがあります。
パソコン教室のようなところで、周りが騒々しく集中できない場合、次回の受験場所を変えることも、できる人は検討したほうが良いでしょう。
(周りがうるさくても集中できる人はどこでも良い。)
あと、CBTの受験ソフトの使い方を覚えておくと良いでしょう。
見直ししたい問題にはチェックが付けれて、あとから問題一覧で確認できることなど。
最後に
乱文でしたが、思い当たることを一通り書きました。
これから統計検定準1級を受ける人の役に立つかは分かりませんが、少しでも役に立てば幸いです。
コメント