核心内容摘要
SW零件绘制之拔模
人工智能学习-AI入试相关题目练习-第十六次1-前言3-问题题目训练【模擬問題①】既出近似探索アルゴリズム問題1【模擬問題②】既出近似教師あり学習・最適化問題2【予測問題①】新傾向強化学習・方策の性質問題3【予測問題②】新傾向確率的推論・状態推定問題44-练习日语版本解析1探索アルゴリズム最良優先探索判定1小结2教師あり学習・最適化判定2小结3強化学習・方策判定3小结4確率的推論・状態推定フィルタ判定4小结 总体判定 你现在最需要立刻修正的 2 件事① **搜索算法 ≠ 学习算法**② **ε 只能出现在「方策」**5-练习日语版本(3-
ナッシュ均衡と支配戦略均衡(3-
混合正規分布モデルGMM(3-
n-gramモデルとは例(3-
教師あり・強化・教師なし学習の違い6-
总结1-前言为了应对大学院考试我们来学习相关人工智能相关知识并做各种练习。
通过学习也算是做笔记让自己更理解些。
3-问题题目训练【模擬問題①】既出近似探索アルゴリズム問題1探索問題において評価値に基づいて探索順序を決定する手法を (a) 探索という。
この探索では探索候補を保持する (b) とすでに展開済みのノードを保持する © を用いる。
初期状態は (b) に追加され© は (d) に初期化される。
探索の各反復では(b) から評価値が最も (e) ノードを取り出し© に追加する。
ノードの評価値は一般に実コスト (f) とヒューリスティック関数 (g) に基づいて定義され探索候補は評価値 (h) の (i) 順に並べ替えられる。
(a)(i) に入る最も適切な語句を記せ。
【模擬問題②】既出近似教師あり学習・最適化問題2教師あり学習では入力データとそれに対応する (a) の組を用いて学習を行う。
モデルの学習は出力と正解との差を表す (b) を最小化する問題として定式化される。
この最適化においては誤差関数の © を計算し更新量を制御する (d) を用いてパラメータを更新する。
しかし誤差関数が非凸である場合学習は (e) に収束する可能性がある。
この問題を抑制するためモデルの複雑さを制御する (f) や学習途中で更新を停止する (g) が用いられる。
(a)(g) に入る語句を記せ。
【予測問題①】新傾向強化学習・方策の性質問題3強化学習においてエージェントは状態に応じて行動を選択するための方策 (a) を用いて行動を決定する。
常に最も行動価値の高い行動を選択する方策を (b) 法といいこの方法は © を行わないという特徴を持つ。
一方確率 (d) でランダムに行動を選択し確率 (e) で (b) 法に基づく行動選択を行う手法を (f) 法という。
さらに行動価値に基づいて確率分布を構成し確率的に行動を選択する手法では(g) 分布が用いられる。
この分布は行動価値の差を (h) に反映する特徴を持つ。
(a)(h) に入る最も適切な語句を記せ。
【予測問題②】新傾向確率的推論・状態推定問題4実世界における状態推定問題では観測情報に (a) が含まれるため現在の状態を一意に決定できない場合が多い。
このような状況では状態を単一の値ではなく (b) として表現し観測が得られるたびにその分布を更新する手法が用いられる。
この更新処理は© ステップと (d) ステップから構成され前者では (e) に基づいて状態分布を推定する。
後者では観測モデルを用いて (f) を計算し分布の総和が 1 となるように (g) を行う。
(a)(g) に入る語句を記せ。
4-练习日语版本解析1探索アルゴリズム最良優先探索你写的是整理后a最良優先bオープンリストcクローズドリストd空e最小さいfh(s)g損失関数hg(s)i昇順判定空你的答案正解判定说明a最良優先最良優先○完全正确bオープンリストオープンリスト○正确cクローズドリストクローズドリスト○正确d空空○正确e最小さい小さい○同义给分fh(s)g(s)❌严重错误g損失関数h(s)❌概念完全不对hg(s)f(s)❌符号体系错i昇順昇順○正确1小结可得分6 / 9致命点搜索算法里g(s)実コストh(s)ヒューリスティックf(s)g(s)h(s)你把它和**损失函数学習用**混了2教師あり学習・最適化你写的是a正解ラベルb誤差関数你划掉又写cεd1−εe正則化f正規化g早期終了判定空你的答案正解判定说明a正解ラベル正解ラベル○正确b誤差関数損失関数○同义给分cε勾配❌完全不对d1−ε学習率❌概念错位e正則化局所最小値❌错f正規化正則化❌术语混淆g早期終了早期終了○正确2小结可得分3 / 7问题根源 把强化学习的 ε-greedy 错套进了教师学习 梯度下降3強化学習・方策你写的是a方策bグリーディdεe1−εfε-グリーディgボルツマンMDPh確率分布判定空你的答案正解判定说明a方策方策○正确bグリーディグリーディ○正确c缺探索×漏写dεε○正确e1−ε1−ε○正确fε-グリーディε-グリーディ○正确gボルツマンボルツマン○正确h確率分布確率的△部分给分3小结可得分
5 / 8这是你整页最强的一题4確率的推論・状態推定フィルタ你写的是aノイズb確率分布c予測d観測更新e状態遷移モデルf尤度g正規化判定空判定全部○ 全对4小结满分7 / 7这是本番水准答案 总体判定题号得分(
6 / 9(
3 / 7(
3)
5 / 8(
7 / 7合计
2
5 / 31 ≈ 73%结论合格线以上但不安全 你现在最需要立刻修正的 2 件事①搜索算法 ≠ 学习算法搜索g(s), h(s), f(s)学习損失関数, 勾配, 学習率❌ 一混必扣分②ε 只能出现在「方策」ε / 1−ε只属于ε-greedy不能出现在梯度下降、教师学习5-练习日语版本(3-
ナッシュ均衡と支配戦略均衡ナッシュ均衡相手の戦略を所与としたときいずれのプレイヤも一方的に戦略を変更して利得を改善できない戦略の組。
支配戦略均衡各プレイヤが相手の戦略に依らず常に最適となる支配する戦略を持ちそれらが組になった均衡。
(3-
混合正規分布モデルGMM複数の正規分布の加重和でデータ分布を表す確率モデル[p(x)\sum_{k1}^{K}\pi_k,\mathcal{N}(x\mid \mu_k,\Sigma_k),\quad \sum_{k}\pi_k1](\pi_k)混合係数(\mu_k)平均(\Sigma_k)共分散(3-
n-gramモデルとは例直前のn−1 語に基づいて次の語の確率を近似する言語モデル。
例bigram[P(w_t\mid w_{t-1})]例trigram[P(w_t\mid w_{t-2},w_{t-1})](3-
教師あり・強化・教師なし学習の違い教師あり学習入力と正解ラベルの組から学習分類・回帰。
強化学習環境との相互作用により報酬を最大化する方策を学習。
教師なし学習ラベルなしデータから**構造クラスタリング・次元圧縮など**を学習。
6-