ChatGPTでタイタニック号の予測をやってみる　その１

更新日：2024年5月13日

今回、ChatGPTの機能の一つであるCode interpreterを使って、入門として簡単なデータを分析してみました。

1.Code interpreterとは

まず機能概要についてお話します。

Code interpreter（コードインタープリタ）

プログラミング言語で書かれたコードを、一行ずつ読んでその場で実行するプログラムのことです。

これにより、プログラムの動作をすぐに確認できるため、プログラムの修正やテストが簡単になります。

ChatGPTでは、インタープリタを使ってプログラムコードを解析し、実行することが可能です。

具体的には、このプラットフォームにはPythonのコードを実行できる環境が組み込まれており、ユーザーが提供するPythonスクリプトを実行して結果を返すことができます。これにより、ChatGPTはただテキストで答えるだけでなく、プログラムを動かしてその結果を示すことができます。

ただし、他のプログラミング言語のインタープリタはサポートされていないため、現在利用可能なのはPythonのみです。

また、セキュリティと安全性を確保するために、一部の機能や外部ネットワークへのアクセスは制限されています。

個人情報や機密性の高いデータを入力しないよう気を付けてください。

2.下準備 テーマとして、タイタニック号の予測をしてみます。

タイタニック号の予測はkaggle(データサイエンスと機械学習のコンペティションを開催するプラットフォーム)で入門者向けのデータセットとして存在します。今回はこちらを使用します。参考文献にURLを載せているので同じデータで試してみたい方はそちらからダウンロードしてください。

3.分析 ChatGPTに用意したデータがどういったデータなのか、データからわかることを教えてもらいました。

まずデータを添付の上、「添付データのEDAをしてください」と送信してみます。

EDA（探索的データ分析）

データセットを詳しく調べ、理解を深めるための手法です。

データの傾向、パターン、問題点を発見することで、後の分析やモデル作成に役立てることが目的です。

具体的な手法としては、次のようなものがあります：

視覚化：ヒストグラム、散布図、箱ひげ図などを用いてデータの分布や関係を視覚的に理解します。

記述統計：平均値、中央値、標準偏差などの統計的指標を計算し、データの基本的な特性を把握します。

データの整理：欠損データの扱いや外れ値の検出など、データのクリーニングを行います。

まずはデータの概要について教えてくれました。

末尾の[>_](View analysis)を押すことでどのようなプログラムを実行したのか確認することができます。特に分析してほしいポイント等を聞かれましたが、とりあえず「データを可視化の上解説してください。」と続けて送ってみます。

具体的な分析方法等を指定しなくとも、チケットクラス、性別、年齢、運賃が乗客の生存率にどのように影響を与えたかがわかる表とそれぞれについての可能性を教えてくれました。

特に知りたい項目があれば、その項目を指定の上指示をすれば同様に分析してもらえます。

まとめ

手法などに詳しくなくともデータを用意すればこのように分析してもらうことができます。

今回は入門として簡単な分析のみに留めましたが、より詳細な分析をするために欠損値の処理を指示することも可能です。

こちらはその２で触れていく予定です。

ChatGPTは閉鎖環境ではないためデータの取り扱いには注意が必要ですが、Code interpreterの内容を参照することでどのようなプログラムを書いたのか参照することが可能になります。

参照だけでなくコピーもできますので、書き換えの上プライバシーな空間で実行するお手伝いもできるかと思います。

データ分析の入門として試していくことで理解が深まっていくのではないでしょうか。

＜参考文献＞

ChatGPT のCode Interpreterでタイタニック号の予測をやってみるhttps://note.com/hamachi_jp/n/n2289a3e88919

Kaggle入門「タイタニックコンペティション」https://www.kaggle.com/competitions/kic-titanic