【書評】PHPによる機械学習入門

Share on FacebookTweet about this on TwitterShare on Google+Share on LinkedInEmail this to someone

このところ、ルールベースでなく機械学習ベースで、ツール依存ではなく自分なりの論理的な環境で自然対話システムを構築したいという欲求が強くなってきています。

de:code 2016で公開された、マイクロソフトの「りんな」のアルゴリズムが一時期話題になりましたが、自然対話環境としては確かにこうなるのかな、という印象。

(引用元:ITmedia News

「発話理解」に必要な環境として、単語の多次元ベクトルを算出する「Word2Vec(文章版のDoc2Vecも併用したいところ)」と併せて、「TF-IDF」も利用したいところ。

これをPHPで…と思った時に参考になるのが、本書「PHPによる機械学習入門」です。

なかなか少ない、理論 < PHP実装を重視した良書

本書は、細かい理論よりもコードと挙動から機械学習の理解を深める事を目的としています。その為、サンプルコードやコーパスの量も多く、またコードの解説にも重点を置いています。

そもそも機械学習言語としてPHPを取り扱うものが少ないなかで、コードを追いながらなにをしているのかを理解できるというのは勉強法として優れている印象。前述のTF-IDF以外にも、その手前の形態素解析から、迷惑メールフィルタの元となるベイジアンフィルタまで実装して試せます。

必要性は薄いと思われる環境セットアップについても冒頭で説明しているのはちょっと無駄かもなぁ、と思うところもありますが、サーバー環境にも機械学習にも初心者をターゲットとしているのでしょう。特に難しい表現もなく、素直に実行して挙動の確認ができると思います。

単語のベクトル化というと、すっかりWord2Vec系が主流な印象もありますが、りんなで見られるようにTF-IDFも抑えておきたい理論ではあるため、これをPHPでコードから追えるというのはすごくありがたいです。

今後はこのサンプルを参考に、TF-IDFによる発話理解環境を構築しようと思っています。その前に、これ見て参考にしたよ、という意味での書評でした。

PHPによる機械学習入門(リックテレコム)

Share on FacebookTweet about this on TwitterShare on Google+Share on LinkedInEmail this to someone