現在データ利活用チームの業務が多くなっているが、実際に”データ分析”となると様々な分析方法が
あります。
目的によって用いる手法は異なるが基礎知識として知っておく必要があると考え記載します。
————————————-
■定量データ分析と定性データ分析
————————————-
●定量データ分析
定量データ分析は、数値をもとにデータ分析を行います。
具体的には、サービスの利用者数やイベントの来場者数などが定量データ分析に用いる数値データです。
定量データ分析は、客観的な数値でデータ分析が可能であるため主観に左右されません。
しかし、精度を高めるためにはより多くのデータが必要となるのが難点です。
また、数値の因果関係や数値の背後にあるユーザーの価値観や感情を探ることには向いていません。
●定性データ分析
定性データ分析は、数値ではなく質的データをもとにデータ分析を行います。
例えば、サービスに関する感想や印象を口コミやインタビュー、記述式アンケートで収集するのは
質的データです。
質的データをもとにしたデータ分析は、俯瞰的な情報からサービスの課題を探求できます。
定性データ分析は、分析者の主観により、解釈の違いが生じることがあるので注意が必要です。
また、定量分析よりもデータ収集と分析に時間とコストがかかる傾向があります。
————————————-
■統計学によるデータ分析7手法と特徴
————————————-
●クロス集計
クロス集計は、アンケートやリサーチなどの質問項目を2つ以上掛け合わせたデータ分析です。
集めたデータを詳細化し把握できるため、ありとあらゆる統計的調査で活用されます。
クロス集計では「性別×回答」や「年齢×職業」など原因と結果の因果関係がわかりやすい
という特徴があります。
また、必要なデータが質問項目2つ以上であるため、少ないデータから分析でき、表計算
ソフトで簡単に作成できるので、比較的簡単なデータ分析です。
●クラスター分析
クラスター分析は、さまざまな特性を持つ複数の情報から似た要素を集め、いくつかの
グループ(クラスター)に分類するデータ分析です。
大量のデータを単純化し、理解しやすくできるため分析結果から考察をしやすくなります。
例えば、あるスポーツチームに所属する選手のデータを走力、スタミナ、協調性などの項目で
クラスター分析を行うとしましょう。結果、チームにとって有用な選手とそうでない選手の差、
チーム全体としての特性を分析できます。
クラスター分析には、「階層的手法」と「非階層的手法」の2つの手法があります。
◎階層的手法
階層的手法は、要素を一つ一つ総当たりで比較して、類似したデータをクラスター
(グループ)にまとめて分類していきます。よく見るトーナメント表のような形が
できあがります。最終的にいくつのクラスターにまとめるかは事前には決まって
おらず目的に応じて可変です。
類似した要素は低い位置でクラスターが作成されていき、最終的に大きなクラスターが
できあがります。クラスター同士の関係などがひと目でわかるというメリットがあり
ますが、数が多い場合は煩雑になり、分析が難しくなってしまうので、データが大量に
ある場合は不向きであるというデメリットがあります。
データ分析中、またはデータ分析後にクラスターのレベルを増減しても再現可能な結果を
得られます。対象データが比較的少ない場合のデータ分析に適しています。
◎非階層的手法
非階層的手法は、クラスター数を設定したうえで似た要素をまとめて分類します。
クラスタ数が決まっているので計算量が少なく、階層的手法に比べるとビッグデータの
ような大きなデータを扱えます。
ただし、目的に応じたクラスター数を事前に決める明確な数式はありません。
実際は分析しながらクラスターの数を何度か試すなり、手間がかかります。クラスター
数を変える場合は、最初に戻って分析をやり直さなければなりません。
●回帰分析
回帰分析は、(原因と思われる)要素と結果のデータを分析し、それぞれの関連性を明確にする
データ分析です。
特徴として、結果の変動に要素がどの程度関連しているか分析できます。回帰分析での結果を
「目的変数」、要素を「説明変数」と呼びます。
回帰分析には、2つの分析手法があり、
1つの説明変数が目的変数にどの程度関連しているのか分析する手法が「単回帰分析」です。
説明変数が2つ以上の分析は「重回帰分析」となります。
例えば、ある店舗のデータで1年の売上高を目的変数、取り扱う商品数を説明変数として
分析するとしましょう。この例では、説明変数が1つであるため、単回帰分析です。
一方で重回帰分析では説明変数が複数存在します。商品数の他に割引サービスや店舗の位置、
スタッフの人数などをさまざまな要素を含め分析します。このように、回帰分析を活用すると
結果と要素からそれぞれの関連性を明確に分析できます。
●因子分析
因子分析とは、さまざまな要素のデータの中から潜在的な共通点を見つけ出し、類似した
要素のグループに分類するデータ分析です。さまざまな要素の中から強い影響力を与えている
要素を明確にできるのが特徴です。
例えば、多くの項目がある質問やアンケートを分析する際、回答から答えた人たちの共通点を
導き出せます。分析結果からサービスの利用につながる要素を把握でき、効果的なマーケティングが
可能になります。
●主成分分析
主成分分析は、主にマーケットリサーチを行うのに役立ちます。複数の定量的な変数を、より
少ない合成変数(主成分)に要約してデータをシンプルに把握できる手法です。
例えば、商品の感想に対する5段階評価の質問を3個用意して、この評価の合計点数を「総合評価」と
いう主成分に要約します。この総合評価の点数で、商品ランキングや、他社商品とのポジショニング
マップを作成するなど、消費者の傾向を探ることができます。また、新商品の開発の際のマーケット
リサーチ手段としても利用することができます。
因子分析が、データに影響を与えている要因の共通因子を抽出する方法であるのに対し、主成分分析
では多数のデータを少数の主成分に変換して表す方法です。
●時系列分析
時系列分析は、時間の経過とともに変化するデータを対象としたデータ分析です。
過去のデータの変化から商品の改善や未来予測に利用することができます。特徴として、
年間単位でデータ分析を行うため、長期的なトレンドやシーズンのトレンド調査が可能です。
具体的に株価や為替レート、天気など長期的に分析が必要な要素に活用されます。
例えば、毎月の商品別のデータを数年にわたって取ることで、売れなくなった商品が、
毎年のある時期に売れなくなるのか、ある時点から下降傾向にあるのかなどの原因を
把握できます。
時系列分析は年月が過ぎるほどデータの量が多くなるため、データ分析を繰り返して
いくほど精度が高まることが予測できます。しかし、変化の推移がわかるように、同じ
条件で定期的にデータを収集しなければならないデメリットがあります。
●判別分析
判別分析は、グループに分かれている既存のデータをもとにどんな基準で分けられたの
か分析し、未知のデータがどのようなグループに分類されるか予測するデータ分析です。
未知のデータを分析できるため、将来の予測が可能です。
例えば、今まで罹患した病気データを基に将来かかる病気を予測したり、過去の流行の
推移を基に数年後のトレンドを予測したりなどです。医療現場からマーケティングといった
幅広い分野で活用できます。