データ分析は、仮説の設定や分析方法の決定が肝ですが、実際の分析にも時間がかかります。
ChatGPTのデータ分析する場合は、前者は無料版でも可能です。後者は有料版を使用することで圧倒的な効率化が期待できます。
でも費用を発生させたくない人は多いと思います。今回は、無料版でどこまでデータ分析ができるか事例で確認してみました!
最近ChatGPTの有効利用の一つとして、データ分析が話題になっています!
理由は、有料版のChatGPT PLUSとAdvanced Data Analysisを利用すると、簡単にデータ分析ができるようになったからです。
この組み合わせの登場で、一般の人でもデータ分析の大幅な効率化が期待できます。
ポイントは!
データファイル読込み、分析、結果をファイルで出力可能になった! ⇒ 分析作業なくなる?!
の期待です。
有料版で利用できるこの技術は2023年7月に公開(当時の名称はCode Interpreter )され話題になり、色々なことができるようになると期待されています。
データ分析もその一つです。
Advanced Data Analysisを用いると種々の形式のファイル読込むことが可能になります。
データ分析のために情報をエクセルファイルで読込ませ、表やグラフを使った分析結果をエクセルに出力することも簡単にできます。
やはり長年愛用したエクセルにリンクできるのは嬉しい限りです!
とはいえ現段階ではまだまだ下記のような課題がありそうです。
◆課題
・ChatGPTから欲しい回答を引き出すための質問スキルが必要
・利用者は、分析方法や結果を理解できる知識が必要
・分析者担当者は、分析を行う分野の知識が必要
・ChatGPTは毎回、回答が異なる
・ChatGPTが間違った答えを出したときの対応
実際に、ChatGPTに最適な答えを引き出すプロンプトエンジニアと呼ばれる新しい技術分野が出現しています。
また、ChatGPTは、質問するごとに異なる回答をするので、違うデータを同じ方法で分析したいときは工夫が必要そうです。
更に、現時点ではChatGPTの回答は間違えることも多く、その間違えを発見できる知識やスキルも必要です。
誰もが簡単に使えるツールになるには、まだまだ進化が必要です。
有料版のChatGPT Plusは、月額20$です。使用頻度が少ない個人やお試しで使用したい人はハードルが高そうです。
費用は掛かるのですが、有料版の方が回答の精度・速度、アクセス、安全性などが優位です。
特に回答精度は少し気になる点です。
◆費用をかけない方法の選択肢
・仮説の設定や分析方法の決定だけを無料版ChatGPTを利用
・Open Interpreterの利用
話題になっている部分は、実際の分析の部分ですが・・仮説の設定や分析方法の決定も分析の肝です。
◆Open Interpreterの利用とは
Advanced Data Analysisとほぼ同じ機能がローカルで使えるOpen Interpreterというオープンソースが公開されています。
これを利用する方法です。
Open Interpreterの始め方・使い方などが紹介されているサイトもありますが、ある程度のハードルがあり、知識や意欲がある人にしかおすすめできません。
ChatGPTが担当できる部分は
一般的にはデータ分析は5つのステップで行われるといわれています。
◆5つのステップ
①目的の明確化
②仮説の設定
③分析方法の決定
④情報(データ)の収集
⑤分析実行
この5ステップを踏むとよい分析ができると言われています。
5つのステップの中で
無料版では、②仮説の設定、③分析方法の決定をサポートできそうです。
有料版では、⑤分析実行については、かなり効率化できそうです。
分析の主役はあくまでも人側にあるのは間違いありません。
①目的の明確、④情報(データ)の収集は当然、人がやる必要があります。
今回の記事を作成するに当たり参考にしたサイトを2つ紹介します。
「Ainova」では、生成AIを用いたデータ分析の事例から最新の分析ツールまで、様々な情報を幅広く提供してくれます。
特に参考になる記事は、
「ChatGPTの新機能「Advanced Data Analysis」にアパレル店舗の売上分析をお願いしたらデータサイエンティストが不要になった」
「ゼロから始めるChatGPT「Advanced Data Analysis(旧Code Interpreter)」-始め方や使い方・料金を徹底解説」
「Excelで管理している売上データの分析をChatGPTに丸投げしてみた」
等々他にも参考になる記事が満載です。
Excel Campは、Excel、PowerPointの研修事業を行っています。
こちらのサイトにAdvanced data analysis利用のシンプルで分かりやすいプロンプトの事例があります。
「ChatGPTの機能「Advanced data analysis(旧Code Interpreter)」の使い方と5つの活用事例、プロンプトのテンプレートを紹介」
今回はこのブログの主テーマの一つであるベンチプレスについてデータを分析してみました。
具体的には、ベンチプレスで以前から疑問であった、階級(体重)と年齢による衰えの関係です。
個人的な感覚では、自分の階級74kg級より、軽い階級や重い階級の方が年齢の衰えが少ないような感じがあります。
分析は5つのステップで行います。
①目的:ベンチプレスの階級(体重)別の年齢による衰えの影響の違い確認する
②仮説の設定:体重が軽い階級や重い階級の方が年齢による衰えが小さい
③分析方法の決定:無料版のChatGPTに相談
④データの収集:2023年のジャパンクラシックベンチプレス選⼿権⼤会の階級別、年齢別データ
⑤分析実行:エクセルにて実施
ChatGPTに分析方法の提案を依頼してみました。
プロンプトは2回ほど修正して以下のようにしました。
#依頼事項
ベンチプレスの階級(体重)別の年齢によるパフォーマンスへの影響度合いを比較する方法を提案して欲しい。
#使用するデータ
2023年の全日本クラッシック大会の参加者の階級(体重)と年齢によるカテゴリー別データです。
・具体的なカテゴリーは
階級は、59 ㎏級: 59.00㎏まで、74 ㎏級: 66.01㎏ ~ 74.00㎏、93 ㎏級:83.01㎏ ~ 93.00㎏の3種です。
年齢は、一般(24歳以上 40歳未満)、M1(40歳以上 50歳未満)、M2(50歳以上 60歳未満)、M3(60歳以上 70歳未満)、M4(70歳以上 80歳未満)です。
・パフォーマンスを評価する指標は
下記の2種でパフォーマンスを評価します。
①挙上重量
②IPF GL Points
IPF GL Pointsは、体重差を補正して、誰が一番強いかを評価するツールです。
#出力
箇条書きで、解析する手法とそれにより分かる内容を教えてください。
続いて、具体的にエクセル利用して解析する方法を提案してください。
これに対して、以下のような丁寧な長い回答がありました。
簡単に要約すると、①グラフなどを使って可視化をして直感的に理解する。②統計的な手法で優位差があるか確認するの2つのようです。
◆解析手法
データの準備:
2023年のジャパンクラッシック大会の参加者の階級(体重)別と年齢別のデータを収集し、エクセルに整理します。各選手の情報には、階級、年齢、挙上重量、IPF GL Pointsが含まれている必要があります。
データの集計:エクセルを使用して、各カテゴリー(階級別と年齢別)の平均挙上重量と平均IPF GL Pointsを計算します。
データの可視化:
各カテゴリーの平均挙上重量と平均IPF GL Pointsを棒グラフや折れ線グラフで可視化します。これにより、階級(体重)別と年齢別のパフォーマンスの違いを直感的に理解できます。
統計的解析:
カテゴリー別のデータを比較し、統計的な有意差を検証します。たとえば、ANOVA(分散分析)を使用して、階級別と年齢別のカテゴリー間でのパフォーマンスに差があるかどうかを確認できます。
エクセルを使用した具体的な解析方法:
以下は、エクセルを使用してデータを分析する一般的な手順です:
データのインポート:
エクセルにデータをインポートします。各列に階級、年齢、挙上重量、IPF GL Pointsなどの情報が含まれる必要があります。
データの集計:
データを集計するために、ピボットテーブルを使用します。「データ」タブから「ピボットテーブルを挿入」を選択し、必要なカテゴリー(階級、年齢)を行と列に配置し、挙上重量とIPF GL Pointsの平均値を値として配置します。
グラフの作成:
ピボットテーブルを作成したら、それをもとにグラフを作成します。例えば、階級別と年齢別の平均挙上重量と平均IPF GL Pointsを比較するために、棒グラフや折れ線グラフを作成できます。
統計的検定:
階級別や年齢別のカテゴリー間での統計的な差を確認する場合、エクセルの統計関数(例:ANOVA、t検定)を使用して、有意差を評価します。
以上の手法とエクセルを使用した具体的な解析手順を用いて、ベンチプレスの階級(体重)別の年齢によるパフォーマンスへの影響度合いを比較することができます。必要に応じて、結果をまとめて報告し、データから得られた洞察を示すことが重要です。
今回はEXCELを使って自分で分析してみました。
分析結果を要約すると 直感的には体重が重いと年齢に対するパフォーマスの落ちが小さいが、統計的には優位差がない。
直感的には:
・挙上重量のパフォーマンスの低下傾向は59kg級と74kg級では似ているが、93kg級パフォーマンスの落ちが小さい。
・強さの指標であるIPF GL Pointsは、一般からM2までは、74kgと93kgはほぼ同じ傾向、M3では93kgのパフォーマンスが高い。
59kg級ではパフォーマンスの落ちが大きい。
統計解析では:
・74kg級に比較して59kg級も93kg級も優位水準0.05より大きいので優位差はない。P値は59kg級の方が大きい。
無料版のChatGPTで分析を行ってみました。
実際には不慣れなこともあり、ChatGPTへの質問(プロンプト)をつくる時点でかなりパワーを使ってしまいます。
プロンプトを作成した時点で、ChatGPTが結果まで出力してくれるとかなり楽です。
このような分析を頻繁に行う必要がある人は、有料版を検討する価値は有りそうです。