日本の各社の事例では安藤ハザマ、オークネット、エアロセンス、Peach、三井住友カードの5社事例。これらの事例はTensorFlow User GroupやWeb記事ですでに知っているものが主だった。その中では、Speech Recognition APIを使った、Peachの運航情報自動案内の実証実験だけ聞いたことない事例(p.141-145)だった。
ときに、強化学習を教師なし学習に含めている(p.66-68)のが気にかかった。教師ラベルが与えられない点では教師なしだけれども、報酬は一種の教師とも見えなくない。Suttonが書いている通り、どちらかと言えば確かに教師なし学習に近いのだろうか。"Although one might be tempted to think of reinforcement learning as a kind of unsupervised learning because it does not rely on examples of correct behavior, reinforcement learning is trying to maximize a reward signal instead of trying to find hidden structure. [...] We therefore consider reinforcement learning to be a third machine learning paradigm, alongside supervised learning and unsupervised learning, and perhaps other paradigms as well." (Sutton & Barto, "Reinforcement Learning: An Introduction", 2nd ed., p.2f.)
コメントの投稿