機械学習 12件
今回はscikit-learnモジュールのFeatureUnionを使用して、機械学習モデルなどに与える際のデータの前処理を自動化させていきたいと思います。 データの前処理は、概ねpandasを利用して(Pythonを使っている方は)欠損値の処理や外れ値の処理、カテゴリー属性を数値に置き換えたりな…
機械学習
更新日:2024/07/09
今回は、scikit-learnのPipelineモジュールを使用して、scikit-learnのモジュールである変換器や機械学習モデルを一括処理させる実装を行っていきたいと思います。 一度Pipelineにモジュールをまとめ上げてしまえば、Pipeline独自のメソッドを利用していつでもハイパー…
今回は自作変換器にscikit-learnのTransformerMixinクラスを継承して、適合と変換を一括で処理できるfit_transformメソッドを使えるようにしていきたいと思います。 この記事の後半で話題にしますが、fit_transformメソッドが使えるようになることで、sciki…
今回は、機械学習ライブラリのscikit-learnからBaseEstimatorを継承して自作変換器のハイパーパラメータを取得していきたいと思います。 ハイパーパラメータ?と思う方もいらっしゃると思いますが、機械学習ではパラメータ(決定係数)を定めるためにハイパーパラメータを順次設定していきます…
今回は機械学習ライブラリscikit-learnのOneHotEncoderを使用して、カテゴリー属性の数値化を行っていきたいと思います。 カテゴリー属性を数値にする理由は、機械学習モデルは文字列を読み込むことができないため、代わりとなる値に置き換える必要があります。 イメージとしては、panda…
今回は機械学習ライブラリのscikit-learnから、SimpleImputerという機能を使用してデータ内の欠損値や値を置き換えて、置き換える為に計算された統計値をいつでも使用できるように保管していきたいと思います。 もちろんデータ分析ライブラリのPandasを使って欠損値の除外や置き換えは簡…
今回は第5回カリフォルニア住宅価格の予測最終回ということで、これまで行ってきたデータの前処理や最良の機械学習モデルを使って、住宅価格の予測システムを作成していきたいと思います。 第3~4回の記事を見て頂ければ、第5回の処理コードはほぼコピペで進めるはずです。 こちらが過去記事です。 【第1回カリ…
※誤ってscaler.fit_transform(X_test)とテストセットに対して平均と標準の計算をし直してしまったため(正確にはscaler.transform(X_test))、依然と結果は大きく変わりましたので、後半の内容を変更させて頂きました。 今回はカリフォルニア住宅価格の予測第4回…
※誤ってscaler.fit_transform(X_test)とテストセットに対して平均と標準の計算をし直してしまったため(正確にはscaler.transform(X_test))、依然と結果は大きく変わりましたので、後半の内容を変更させて頂きました。 今回はカリフォルニア住宅価格の予測第3回…
今回は、カリフォルニア住宅価格の予測第2回ということで、特徴量エンジニアリングとデータクリーニングの実装を行っていきたいと思います。 第1回目では、scikit-leanrモジュールからデータセットの読み込みをして、データの中身をザックリ確認し、前処理などを一切行わずに機械学習モデルへ渡しました。…
今回は有名なデータセットであるカリフォルニア住宅価格の予測を行っていきたいと思います。 このデータセットでの予測は3部作で予定しており、第1回はデータの中身を確認してどのようなタスクか、機械学習モデルの性能指標をどのようにして判断するかといった流れをざっくりですが簡単に実装します。 そして今回の実…
今回はJupyter Notebookやブログサイトの記事などで数式を綺麗に表示させるための方法をご紹介したいと思います。 Jupyter Notebookでは、デフォルトで数式表示の設定がされているので記法さえ覚えてしまえばこのように表示することができます。 $$\hat{y} = \theta…
© 2019-2024 ZerofromLight