核心内容摘要
沉沦或毁灭:当爱染上病态的疯狂
人工智能学习-AI入试相关题目练习-第十次1-前言3-问题题目训练【模擬問題①】基礎・頻出問題1最適探索・挖空【模擬問題②】基礎・定番問題2Q学習・挖空【予測問題①】やや難・論理構造問題3ベイズフィルタ・挖空【予測問題②】問題4教師あり・教師なし・強化学習・挖空4-练习日语版本解析【模擬問題①】問題1最適優先探索【模擬問題②】問題2Q学習【予測問題①】問題3ベイズフィルタ【予測問題②】問題4学習手法の比較✅ 最终速查版考试前 1 分钟用-単語练习日语版本5-
总结1-前言为了应对大学院考试我们来学习相关人工智能相关知识并做各种练习。
通过学习也算是做笔记让自己更理解些。
3-问题题目训练【模擬問題①】基礎・頻出問題1最適探索・挖空以下の文章を読み、空欄 (a) (f) に適切な語句を記入せよ。
最適優先探索は、ヒューリスティック関数としての (a) を用いて探索を進める手法である。
探索では、候補ノードを保持する (b) と、すでに展開済みのノードを保持する © を用いる。
アルゴリズムでは、(b) から評価値が最も (d) ノードを取り出し、© に追加する。
各ノードの評価値は、実コスト g(s) と (e) に基づいて計算され、一般にf(s) g(s) (f)として定義される。
【模擬問題②】基礎・定番問題2Q学習・挖空以下の文章を読み、空欄 (a) (g) に適切な語句を記入せよ。
Q学習では、状態 s において行動 a を選択したときの価値を表す (a) を学習する。
この値は、即時報酬 r と (b) における最大の Q 値を用いて更新される。
Q 値の更新式では、学習率を ©、割引率を (d) とし、将来報酬の影響を (e) で調整する。
また、探索と活用のバランスをとるため、確率 (f) でランダム行動を選択し、確率 (g) で greedy 行動を選択する手法が用いられる。
【予測問題①】やや難・論理構造問題3ベイズフィルタ・挖空以下の文章を読み、空欄 (a) (h) に適切な語句を記入せよ。
ベイズフィルタは、時刻 t における状態 (a) を、過去の観測 (b) と行動 © に基づいて推定する確率的手法である。
予測ステップでは、遷移モデル (d) を用いて状態分布を更新し、観測更新では、観測モデル (e) に基づいて尤度を計算する。
正規化後の状態分布は (f) と呼ばれ、全状態に対する確率の (g) が 1 となるように (h) が行われる。
【予測問題②】問題4教師あり・教師なし・強化学習・挖空以下の文章を読み、空欄 (a) (i) に適切な語句を記入せよ。
教師あり学習では、入力データとそれに対応する (a) が与えられ、誤差関数を最小化するようにモデルの (b) を更新する。
一方、教師なし学習では、(a) が与えられず、データの © や (d) を抽出することを目的とする。
強化学習では、エージェントが環境と (e) を繰り返し、報酬 (f) を最大化する方策 (g) を学習する。
このとき、状態遷移は (h) としてモデル化され、最適方策は (i) に基づいて定義される。
4-练习日语版本解析問題ahbgcfb連接のノードdコストが小さいe:h()f:h()問題a:オープンリストb:クロスりすとc:ed:peie:f;1-e問題3a:オープンリストb:クロスりすとc:ed:peie:f;1-eg:h:【模擬問題①】問題1最適優先探索アンサー(a)ヒューリスティック関数(b)オープンリスト©クローズドリスト(d)小さい(e)ヒューリスティック関数(f)h(s) 关键点f(s) g(s) h(s)【模擬問題②】問題2Q学習アンサー(a)Q値(b)次状態©学習率(d)割引率(e)割引率(f)ε(g)1−ε ε-greedy 是必背组合【予測問題①】問題3ベイズフィルタアンサー(a)状態(b)観測©行動(d)状態遷移モデル(e)観測モデル(f)事後確率(g)和(h)正規化 (f)「事後確率」是预测题最容易漏的点【予測問題②】問題4学習手法の比較アンサー(a)正解ラベル(b)パラメータ©構造(d)特徴(e)相互作用(f)報酬(g)方策(h)確率モデル(i)価値関数✅ 最终速查版考试前 1 分钟用ヒューリスティック関数 / オープン / クローズ / 小さい Q値 / 学習率 / 割引率 / ε-greedy 状態 / 観測 / 行動 / 正規化 正解ラベル / パラメータ / 方策 / 価値関数-単語练习日语版本ヒューリスティック関数heuristic function用于“估计离目标还有多远”的函数。
还没走、但估计要花的代价h(s) ← 这就是ヒューリスティック関数アルゴリズムalgorithm解决问题的“步骤流程”アルゴリズム 计算机解决问题的规则和步骤ランダム行動:不看好坏随机选一个动作去做 选当前看起来 最好的动作Q 值最大的ベイズフィルタ(Bayes Filter):用“过去怎么动 现在看到了什么”来推测“现在处于什么状态”的概率方法 把“我刚才怎么走的”和“我现在看到了什么”结合起来不给一个确定答案而是给出“我在哪的概率分布”。
5-