G模試PRACTICE BOOK G検定 用語集

G検定 用語集 ― 頻出キーワードを10章で総まとめ

JDLA G検定(ディープラーニング ジェネラリスト検定)の出題範囲を10章に整理し、 頻出用語398語の意味を一つひとつやさしい言葉でまとめました。 勉強中に「あれ、この用語なんだっけ?」と思ったら、ページ内検索(PCは Ctrl+F)で 辞書代わりに使えます。問題を解いて間違えたら、ここで意味を確認 → また問題へ。この 「解く→調べる→納得」のループが合格への近道です。

本番形式の練習問題を解く →

第一限目:人工知能の概論と歴史

AIの定義・分類

人工知能(AI)
人間のように「考える・認識する・判断する」といった知的な処理を行う機械やシステムのこと。実は「知能とは何か」という定義そのものが研究者によって違うため、世界共通のはっきりした定義はまだありません。言葉としては1956年の「ダートマス会議」で、研究者ジョン・マッカーシーが初めて使いました。
AIのレベル分け
AIは賢さの度合いで4段階に分けて説明されることがあります。①単純な制御プログラム、②古典的AI、③機械学習、④深層学習、の順に賢く・柔軟になっていきます。
単純な制御プログラム(レベル1)
あらかじめ決められた動作だけを行うもの。たとえば「設定温度になったら止まるエアコン」など。状況に合わせて自分で動きを変えることはできません。
古典的な人工知能(レベル2)
人間があらかじめ教えた知識やルールの範囲内で、推論や判断を行うAI(ルールベース)。診断プログラムや制御ロボットなどが例です。ルールにないことには対応できません。
機械学習(レベル3)
人間がルールを全部書かなくても、大量のデータから「パターン」を自動で見つけ出し、予測や判断を行う手法。
深層学習(レベル4)
人間の脳の神経回路をまねた「多層のニューラルネットワーク」を使う機械学習の一種。注目すべき特徴(特徴量)まで自分で見つけ出せるのが大きな強みです。
AI効果
AIが新しいことをできるようになると、人々がその仕組みを理解した途端に「これはただの自動処理で、本当の知能ではない」と過小評価してしまう心理的な現象。
人工知能とロボットの違い
人工知能は主に「考える」という頭脳の部分を指し、ロボットは「物理的に動く・作業する」という体の部分を指します。自動運転車のように両者が組み合わさり、境界があいまいになってきています。

探索・推論(第一次AIブーム)

探索・推論
問題を解くための道筋を、コンピュータが順々に調べていく(探索する)ことで答えを見つけるアプローチ。第一次AIブームの中心でした。
探索木
迷路などの問題を、分岐点を「点」、道を「線」で表した木の形のデータに変換したもの。これをたどることで答えを探します。
幅優先探索
スタート地点に近いところから、横方向に少しずつ広げて調べていく方法。最短ルートを必ず見つけられますが、通った道をすべて覚えておく必要があるためメモリ(記憶領域)をたくさん使います。
深さ優先探索
とりあえず一本の道を行き止まりまで進み、ダメなら一つ戻って別の道を試す方法。メモリは少なくて済みますが、最短ルートを見つけられるとは限りません。
ハノイの塔
3本の棒と円盤を使うパズル。これも探索木に変換することで、コンピュータに解かせることができます。
プランニング(行動計画)
ロボットなどに、現在の状態・取れる行動・行動の結果を定義しておき、目標達成までの最適な行動の順番を探索させること。
Mini-Max法
自分の手番では「自分の利益が最大(Max)」、相手の手番では「自分の利益が最小(Min)」になるように相手も動くと仮定して先読みし、最善の一手を選ぶ手法。将棋やチェスで使われます。
モンテカルロ法
ある局面からゲーム終了までを「ランダムに何度も最後までやってみて」、最も勝率が高かった手を選ぶ方法。手の良し悪しを計算する評価式を作れなくても使えるのが利点です。
STRIPS
1971年にスタンフォード研究所で開発された、自動でプランニングを行うための「行動の書き方のルール」(表現形式)。
SHRDLU(シュルドゥル)
英語の命令を理解して、画面の中の「積み木」を動かす初期のAIプログラム。
東ロボくん
「ロボットは東大に入れるか」というプロジェクトで、2011年から開発されたAI。

知識表現(第二次AIブーム)

知識表現
人間が持つ知識を、コンピュータが扱いやすい形で表現する方法のこと。
エキスパートシステム
医者や弁護士など、特定分野の専門家の知識をルールとしてコンピュータに入れ、専門家のように判断・助言させるプログラム。第二次AIブームの主役です。
MYCIN(マイシン)
細菌感染症の診断と、適切な抗生物質の処方を行う初期のエキスパートシステム。約500個の「もし〜なら〜」ルールでできており、正答率は約69%(専門医には及ばず)でした。
DENDRAL(デンドラル)
1960年代に作られた、未知の有機化合物を特定する科学分野のエキスパートシステムの先駆け。
知識獲得のボトルネック
専門家が頭の中に持つ「勘」や「経験」(暗黙知)を、うまく聞き出してルール化するのが非常に難しいという問題。エキスパートシステムの限界として表面化しました。
意味ネットワーク
「概念」を点(ノード)、「概念どうしの関係」を矢印(リンク)でつないで知識を表す方法。人間にとって直感的でわかりやすいのが特徴です。
is-a / part-of
意味ネットワークでよく使う関係。is-aは「〜の一種である」(例:犬は動物である)という継承関係、part-ofは「〜の一部である」(例:目は頭の一部)という部分全体関係です。
オントロジー
ある分野の言葉の意味や関係を、誰が見ても同じになるよう厳密に定義したもの。これにより、別々の人が作った知識を統合して使えるようになります。
ヘビーウェイトオントロジー/ライトウェイトオントロジー
人手で哲学的に厳密に定義する重い方式(例:すべての常識を手作業で入れる「Cycプロジェクト」)/とにかくデータを読み込んで自動で知識を抽出する軽い方式(実用・効率重視)。
セマンティックWeb/LOD
Web上の情報に「意味」を付け加え、コンピュータが自動で処理できるようにする技術/コンピュータが扱いやすい形でWeb上にデータを公開する取り組み。
ワトソン
IBMが開発し、2011年にクイズ番組「Jeopardy!」で人間のチャンピオンに勝ったAI。質問に答える「質問応答」技術の成果で、ライトウェイトオントロジーを使っています。

機械学習・ディープラーニングの発展

機械学習が注目された背景
1990年代以降にインターネットが普及し、Web上に大量のデータ(ビッグデータ)が蓄積されたことで、「データから自動で学ぶ」機械学習の価値が一気に高まりました。
次元の呪い
データの特徴の種類(次元)が増えるほど、きちんと学習するために必要なデータ量が爆発的に増えてしまう現象。次元を減らす工夫が重要になります。
チューリングテスト
人間の審査員が文字でやり取りして、相手が人間か機械か見分けられなければ、その機械は知能があるとみなす、という判定方法。アラン・チューリングが提案しました。
ローブナーコンテスト
チューリングテストに基づき、最も人間らしい対話AIを決めるコンテスト。
ELIZA(イライザ)
1966年に作られた対話プログラム。決まったパターンで応答するだけですが、本物のセラピストのようだと話題になりました。
強いAI/弱いAI
哲学者ジョン・サールが1980年に提唱した区別。強いAIは「人間と同じように心や意識を本当に持つAI」、弱いAIは「心は持たず、あくまで便利な道具として賢く振る舞うAI」。サールは「中国語の部屋」という思考実験で、実現できるのは弱いAIだけだと論じました。
中国語の部屋
中国語を理解できない人でも、マニュアル通りに記号を操作すれば中国語の受け答えができてしまう、という思考実験。「正しく応答できても、本当に意味を理解しているとは限らない」ことを示します。
フレーム問題
何か行動するとき、世の中の無限の事柄の中から「今、関係のあることだけ」を選び出して考えるのが難しい、という難問。1969年に提起され、今も完全には解決していません。
シンボルグラウンディング問題(記号接地問題)
「シマウマ」という言葉(記号)と、実物のシマウマを、コンピュータが結びつけられないという問題。実体験がないため本当の意味で理解できないのです。1990年にハルナッドが提唱しました。
身体性(Embodiment)
知能が育つには、外の世界とやり取りできる「体」が必要だという考え方。見る・触るといった経験がないと、概念を正しくつかめないとされます。
ニューロンモデル(1943年)
マカロックとピッツが、生物の神経細胞を単純化して数式で表したモデル。今のAIの原点です。
パーセプトロン(1958年)
ローゼンブラットが提案した、学習できるニューロンモデル。後にミンスキーが「直線で分けられない問題は解けない」と限界を指摘し、研究は一度停滞しました。
誤差逆伝播法の登場(1986年)
ラメルハートらが、多層のニューラルネットワークを学習させる方法を提唱し、第二次ニューラルネットワークブームが起きました。
ILSVRC
大規模な画像認識のコンペティション。2012年に深層学習を使った「AlexNet」が圧勝し、第三次AIブームの引き金になりました。
AIブームの3区分
第一次(探索・推論)→第二次(知識表現・エキスパートシステム)→第三次(機械学習・深層学習でAIが自ら学習)。
代表的画像認識モデルの流れ
2012年のAlexNet優勝以降、VGG(層を深く)、GoogLeNet(Inceptionモジュール)、ResNet(スキップ結合で超深層)と進化し、人間の認識精度を超えていきました。

▲ 目次へ戻る

第二限目:機械学習の学習法

機械学習の全体像

機械学習
プログラマーがルールを書かなくても、大量のデータから自動でパターンを学び、新しい入力に対して予測・判断を行う技術。
機械学習 vs ルールベース
機械学習は複雑なパターンを自動で見つけられるが「なぜそう判断したか」が見えにくい(ブラックボックス)。ルールベースは人間が理解・制御しやすいが、複雑な変化への対応や更新が難しい。実際は両方を組み合わせて使うことが多いです。
特徴量
モデルに入力するデータの「特徴」を数値にしたもの。たとえば画像なら色・形・大きさなど。
特徴表現学習
AIが生のデータ(画像・音声・文章など)から、目的に役立つ特徴量を自分で見つけ出して学習すること。
ブラックボックス問題
機械学習(特に深層学習)が高い精度を出す一方で、「なぜその結論に至ったのか」という判断のプロセスが人間には分かりにくい問題。

教師あり学習

教師あり学習
「入力(特徴量)」と「正解(ラベル=教師データ)」がセットになったデータで学習させ、新しい入力にも正しく予測できるようにする手法。正解があるので性能を評価しやすいのが利点。一方、大量の正解付きデータを用意するコストがかかります。
回帰問題
売上金額や株価のような「連続した数値」を予測する問題。
分類問題
「犬か猫か」「スパムかどうか」のような、決まったカテゴリ(離散的な値)を予測する問題。
線形回帰
入力と出力に「まっすぐな直線の関係」があると仮定して、最もよく当てはまる直線を引くモデル。最も基本的で解釈しやすいですが、曲線的な関係は苦手です。
正則化(ラッソ回帰・リッジ回帰)
線形回帰などが訓練データに過剰に合いすぎないよう、ペナルティを加えて調整する技術。L1正則化を使うのがラッソ回帰、L2正則化を使うのがリッジ回帰です。
ロジスティック回帰
名前は「回帰」ですが、主に分類に使うモデル。シグモイド関数を使って出力を0〜1の「確率」に変換し、「あるカテゴリに属する確率」を予測します。
シグモイド関数(ロジスティック関数)
どんな入力でも0〜1の間の値に変換する、なめらかなS字カーブの関数。出力を確率として扱えます。
ソフトマックス関数
複数の選択肢それぞれの確率を出し、合計が1になるように変換する関数。3つ以上に分ける「多クラス分類」で使います。
決定木
データを「はい/いいえ」の質問で次々に枝分かれさせ、最終的に分類・予測を行う、木のような形のモデル。
ランダムフォレスト
たくさんの決定木をランダムなデータで作り、それぞれの予測を多数決(または平均)してまとめるアンサンブル学習。1本の木より精度が高く、過学習しにくく、どの特徴量が重要かも分かります。
サポートベクターマシン(SVM)
データを2つのグループに分ける「最も余裕(マージン)のある境界線」を引く手法。境界に最も近いデータ点(サポートベクター)を基準に決めます。
カーネル関数/カーネルトリック
直線では分けられないデータを、あえて高い次元に持ち上げると分けやすくなる、という発想を実現する関数/その計算を、実際に高次元に変換せず内積だけで効率的に行う技。計算量の爆発を防ぎます。
自己回帰モデル
過去の自分自身のデータ(株価や天気など)を使って、将来の値を予測する時系列向けのモデル。
アンサンブル学習
単体では精度の低い複数のモデル(弱学習器)を組み合わせて、1つの強力なモデルを作る手法。
ブートストラップサンプリング
元のデータから、重複を許してランダムにデータを抜き出す方法。
バギング
複数のモデルに別々のデータで学習させ、最後に多数決・平均で答えを出す手法(並行して学習)。
ブースティング
モデルを順番に学習させ、前のモデルが間違えたところを次のモデルが重点的に学ぶ手法(直列で学習)。
交差エントロピー
正解ラベルと、モデルが予測した確率が、どれくらい離れているかを測る指標。分類問題でよく使います。

教師なし学習

教師なし学習
正解ラベルを使わず、入力データだけから、その中に隠れている構造・パターン・関係性を見つけ出す手法。
クラスタリング
似た者どうしのデータを、自動的にグループ(クラスタ)に分ける手法。データ全体の構造を把握するのに役立ちます。
K-means法
データをあらかじめ決めたk個のグループに分ける手法。「各グループの中心点」と「データの振り分け」を交互に繰り返し、グループ内のばらつきが最小になるよう調整します。グループ数kを事前に自分で決める必要があります。
階層型クラスタリング
似ているデータを順番にくっつけていき、その過程を「樹形図(デンドログラム)」で見える化する手法(ウォード法・最短距離法など)。
シルエット分析
クラスタリングの結果が「うまく分けられているか」を評価する手法。
主成分分析(PCA)
たくさんの特徴量を、情報をなるべく失わずに「少数の重要な軸(主成分)」にまとめて、次元を減らす手法。データを2次元・3次元に圧縮して見える化したり、計算を軽くしたりできます。
寄与率
主成分分析で、その主成分が元のデータの情報をどれくらい説明できているかを表す割合。
トピックモデル
大量の文書から、その背後に潜んでいる「話題(トピック)」を自動で抽出する手法。
LDA(潜在的ディリクレ配分法)
トピックモデルの代表で、各文書が「どの話題を、どれくらいの割合で含んでいるか」を確率的に表す手法。
協調フィルタリング
似た買い物・行動パターンを持つ人どうしの情報を使って、「この人が好きそうな商品」を推薦する手法。ネット通販などのレコメンドで使われます。
コールドスタート問題
新規ユーザーや新商品は、まだデータがほとんどないため、うまく推薦できないという問題。

強化学習

強化学習
AI(エージェント)が、環境の中で試行錯誤しながら、もらえる「報酬」の合計が最大になる行動を、自分で学んでいく手法。「状況を見る→行動する→環境が変わる→報酬をもらう→その行動を評価する」を繰り返します。
報酬/累積報酬(価値)
行動の結果として与えられる評価の点数/将来にわたって得られる報酬の合計。強化学習はこの累積報酬を最大化するのが目標です。
マルコフ決定過程(MDP)
「次にどうなるか」が、現在の状態だけで決まり、それより前の経緯には左右されない、という性質(マルコフ性)を使って強化学習をモデル化したもの。問題を扱いやすくできます。
活用(Exploitation)と探索(Exploration)
これまでの経験から「最も良いと分かっている行動」を選ぶこと(活用)と、「まだ試していない行動」を選んで新しい可能性を探ること(探索)。この2つのバランスが強化学習のカギです。
価値関数
状態や行動の「価値」を数値で表したもの。これを最大化する方向に学習します。
行動価値関数(Q関数)
「ある状態で、ある行動を取ったら、将来どれくらいの報酬が見込めるか」を表す値。Q値が高いほど良い行動です。
状態価値関数(V関数)
「ある状態からスタートしたら、将来どれくらいの報酬が見込めるか」を表す値。
Q学習/SARSA
どちらもQ値を更新して学習する手法。Q学習は「次の状態で取りうる“最大”のQ値」を使って更新(実際の行動と切り離して理想を見る)、SARSAは「実際に次に選んだ行動のQ値」を使って更新(現実に沿った慎重派)。
方策(ポリシー)
「どの状態でどう行動するか」という行動の選び方の方針。
方策勾配法/REINFORCE
価値ではなく「方策」そのものを直接調整して最適化する手法/その代表で、得られた累積報酬を使って方策を直接更新する手法。行動の選択肢が多いロボット制御などで有効です。
Actor-Critic
行動を決める「Actor(行動器・方策担当)」と、その行動を評価する「Critic(評価器・価値担当)」を組み合わせ、両者の良いところを合わせた手法。
バンディットアルゴリズム
活用と探索のバランスを取るための方法の総称。
ε-greedy方策
基本は最も報酬が高そうな行動を選びつつ、一定の確率εだけ「あえてランダムな行動」を選んで探索する手法。
UCB方策
報酬の期待値が高い選択肢を中心にしつつ、まだ試した回数が少ない行動も積極的に試す手法。
A3C
強化学習の応用手法の一つで、複数のエージェントを並行して動かして効率的に学習させる方法。

モデルの評価と選択

データ分割(訓練・検証・テスト)
手元のデータを、学習用(訓練データ)、調整用(検証/バリデーションデータ)、最終評価用(テストデータ)に分けること。過学習を防ぎ、未知データへの実力を正しく測るためです。
交差検証
データの分け方を変えながら何度も学習・評価し、汎化性能(未知データへの実力)を正確に測る手法。データが少ないときに特に有効です。
ホールドアウト検証
データを1回だけ「訓練用」と「テスト用」に分ける、シンプルでコストの低い方法。大規模データに向きます。
k分割交差検証
データをk個に分け、1つをテスト・残りを訓練として、役割を変えながらk回評価する方法。少ないデータでも信頼性高く評価できますが、計算コストは高めです。
過学習(オーバーフィッティング)
モデルが訓練データに合わせすぎて、データのノイズまで覚えてしまい、未知のデータに対する精度が落ちてしまう現象。例:訓練データでは99%正解なのに、テストデータでは50%しか当たらない。
未学習(アンダーフィッティング)
学習が足りず、訓練データにもテストデータにもうまく当てはまらない状態。
汎化性能
学習に使っていない「未知のデータ」に対して、どれだけ正確に予測できるかという実力。機械学習で最も大切な目標です。
訓練誤差/汎化誤差
訓練データに対する予測のズレ/未知のデータに対する予測のズレ。理想は両方とも小さいことですが、複雑にしすぎると訓練誤差は小さいのに汎化誤差が大きくなります(=過学習)。
MSE(平均二乗誤差)
予測値と実際の値の差を2乗して平均したもの。大きな誤差を厳しく評価したいときに使う、回帰問題の指標。
RMSE(二乗平均平方根誤差)
MSEの平方根を取ったもの。元のデータと同じ単位になるので、解釈しやすいのが利点。
MAE(平均絶対誤差)
予測の誤差の絶対値を平均したもの。極端な外れ値の影響を受けにくい指標。
正解率(Accuracy)
全体のうち、正しく分類できたデータの割合。
適合率(Precision)
「陽性だ」と予測したものの中で、本当に陽性だった割合。=「ムダな誤検出の少なさ」。
再現率(Recall)
本当に陽性だったものの中で、ちゃんと陽性だと予測できた割合。=「見逃しの少なさ」。たとえば不良品検出では、見逃しを減らしたいので再現率が重視されます。
F値(F-measure)
適合率と再現率の調和平均。両者のバランスを見たいときに使う指標。
混同行列
予測と実際の正誤を、真陽性(TP)・偽陽性(FP)・偽陰性(FN)・真陰性(TN)の4マスで整理した表。
ROC曲線/AUC
分類のしきい値を変えたときの「真陽性率」と「偽陽性率」の関係を描いた曲線/その曲線の下の面積。AUCは0〜1で表し、1に近いほど高性能。2クラス分類でとても重要です。
情報量基準(AIC・BIC)
モデルの「予測性能」と「複雑さ(パラメータ数)」のバランスを評価し、ちょうど良い複雑さを選ぶための指標。BICのほうが、複雑なモデルにより強くペナルティをかけます。
オッカムの剃刀
「同じくらいの性能なら、よりシンプルなモデルのほうが良い」という考え方。必要以上に複雑にしないための指針です。
ノーフリーランチ定理
「どんな問題にも通用する、万能で最強のアルゴリズムは存在しない」という定理。問題に応じて手法を選ぶ必要がある、という教えです。

▲ 目次へ戻る

第三限目:ニューラルネットワーク

基礎

ニューラルネットワーク(NN)
人間の脳の神経細胞(ニューロン)のつながりをまねて作ったアルゴリズム。数値を受け取り、重みをかけて計算し、次々と層を通して答えを出します。
パーセプトロン
最も基本的なニューラルネットワーク。単純パーセプトロンは「直線で分けられる問題」しか解けませんが、中間層(隠れ層)を加えた多層パーセプトロンは、複雑(非線形)な問題も解けるようになります。
隠れ層(中間層)
入力層と出力層の間にある層。ここでデータの特徴を段階的に捉えていきます。層が深い(多い)ほど複雑な問題を扱えます。
ディープニューラルネットワーク(DNN)
隠れ層を何層も(一般に4層以上)深く重ねたニューラルネットワーク。深層学習の基盤技術です。「深い(ディープ)」とは、この層が深くなったことを指します。
パラメータ(重み・バイアス)
学習によってAIが自分で調整していく数値。「重み」は各入力の重要度を、「バイアス」は出力の出やすさを調整します。学習=このパラメータの最適化、と言えます。GPT-4は1兆個以上のパラメータを持つとされます。
バーニーおじさんのルール
「モデルのパラメータ数の、およそ10倍の学習データが必要」という経験的な目安。
CPU/GPU/GPGPU/TPU
CPUは様々な処理を順番にこなす汎用の頭脳/GPUは同じ計算を大量に同時並行で行うのが得意な装置(元は画像処理用)/GPGPUはそのGPUを画像以外の計算にも使うこと/TPUはGoogleが機械学習専用に開発したチップで、テンソル(行列)計算に特化しています。深層学習は大量の行列計算を行うため、並列処理が得意なGPU/TPUが向いています。

活性化関数

活性化関数
ニューロンが受け取った数値の合計を変換して、次の層へ「どれくらいの強さで伝えるか」を決める関数。これがあるおかげで、AIは単純な足し算を超えた複雑な(非線形な)判断ができます。
シグモイド関数
入力を0〜1のなめらかなS字に変換する関数。昔よく使われましたが、微分の最大値が0.25と小さいため、層が深いと「勾配消失問題」を起こしやすい弱点があります。主に二値分類の出力層で使います。
tanh関数
シグモイドを改良し、出力を−1〜1に広げ、原点を中心に対称にした関数。微分の最大が1なので勾配消失が起きにくく、隠れ層でシグモイドの代わりに使われます(ただし完全には解決しません)。
ReLU関数
入力が0以上ならそのまま出力、0未満なら0を出力する関数。正の側では勾配が常に1なので勾配消失が起きにくく、非常に深いネットワークでも学習が進みます。現在最もよく使われています。
ReLUの死活問題
ReLUは負の入力に対して常に0を出すため、学習中にニューロンが「ずっと0しか出さない=死んだ」状態になることがある問題。
Leaky ReLU関数
ReLUの死活問題を補うため、負の領域にもわずかな傾きを持たせた関数。
ソフトマックス関数
出力を合計1の確率に変換する関数。多クラス分類の出力層で使います。
Swish/Mish/Parametric ReLU/Randomized ReLU
ReLUをさらに改良した新しめの活性化関数たち。負の傾きを学習で決めたり、なめらかさを工夫したりして、勾配消失を抑えます。
活性化関数の使い分け
隠れ層はReLU系、出力層は「二値分類ならシグモイド」「多クラス分類ならソフトマックス」「回帰なら線形関数」を使うのが基本です。

誤差関数(損失関数)

誤差関数(損失関数)
モデルの予測と正解が、どれくらいズレているかを数値にしたもの。このズレを最小にすることが学習のゴールです。
平均二乗誤差(MSE)
予測と正解の差を2乗して平均したもの。主に回帰問題で使います。
交差エントロピー誤差
2つの確率分布のズレを測る誤差関数で、主に分類問題で使います。シグモイドやソフトマックスの計算と数学的に相性が良く、効率的に学習できます。
Contrastive Loss/Triplet Loss
データ間の「似ている/似ていない」を学習する距離学習用の誤差関数。Triplet Lossは顔認証などで使われます。
KLダイバージェンス/JSダイバージェンス
2つの確率分布がどれくらい離れているかを測る指標。画像などを作る生成モデルで使われます。

正則化

正則化(Regularization)
モデルが訓練データに合わせすぎる「過学習」を防ぐため、誤差関数に「複雑さへのペナルティ」を加える手法。汎化性能(未知データへの実力)を高めます。
L1正則化(Lasso)
パラメータの「絶対値の合計」をペナルティとして加える。すると一部のパラメータがきっちり0になるため、不要な特徴量が削られ(スパース化)、重要な特徴だけが残ってモデルが解釈しやすくなります。
L2正則化(Ridge)
パラメータの「2乗の合計」をペナルティとして加える。すると極端に大きなパラメータが抑えられ、全体的になめらかなモデルになります。
ドロップアウト
学習のたびに、ニューロンをランダムに一部「お休み」させる手法。特定の特徴に頼りすぎるのを防ぎ、過学習を抑えます。たくさんのモデルを混ぜたような(アンサンブルに似た)効果が得られます。
ハイパーパラメータ
学習を始める前に、人間があらかじめ設定しておく値(学習率、正則化の強さ、バッチサイズ、エポック数など)。学習でAIが自分で調整する「パラメータ」とは区別されます。
エポック
訓練データを全部使い切って、一通り学習し終えることを「1エポック」と数えます。
グリッドサーチ/ランダムサーチ/ベイズ最適化
ハイパーパラメータの良い組み合わせを探す方法。全組み合わせをしらみつぶしに試す/決めた範囲からランダムに試す/過去の結果を活かして次に試す値を賢く選ぶ。

学習の仕組み

誤差逆伝播法(バックプロパゲーション)
出力で分かった「誤差」を、出力層から入力層へ逆向きにたどりながら、各重みをどれだけ直せばよいかを効率よく計算する方法。出力に近い側から計算するほうがラクなので、この順番で行います。深層学習の土台となる技術です。
連鎖律
合成関数(関数の中に関数が入った形)の微分を、かけ算でつないで計算できるという数学のルール。誤差逆伝播法はこれを使って計算を再利用し、効率化しています。
信用割当問題
「結果に対して、どのニューロン(要素)がどれだけ貢献したか」を特定する問題。誤差逆伝播法はこの解決に役立ちました(ただし「場所」は分かっても「理由」までは分かりません)。
勾配
誤差を減らすために、重みを「増やすべきか・減らすべきか、どれくらいか」を示す手がかり(傾き)。AIの学習は、この勾配を頼りに誤差という山を下っていく作業だとイメージできます。
勾配消失問題
層が深いと、誤差を逆向きに伝える途中で勾配がどんどん小さくなり、入力層に近い側まで届かず、そこの重みが更新されなくなって学習が進まない問題。シグモイド関数の微分が最大0.25と小さいことが主因の一つです。
勾配爆発問題
逆に、勾配が極端に大きくなりすぎて、重みの更新が不安定になり、学習がうまく進まなくなる問題。
勾配降下法
誤差関数の勾配(傾き)に沿って、パラメータを少しずつ動かし、誤差が一番小さくなる谷底を探す方法。
学習率
1回の更新で、パラメータをどれだけ大きく動かすかを決める値。大きすぎると最適な谷底を飛び越えてしまい、小さすぎると谷底に着くまで時間がかかります。
バッチ勾配降下法/確率的勾配降下法(SGD)/ミニバッチ勾配降下法
全データを使って一度に更新(安定だが重い)/1データずつ更新(軽いが不安定)/一部のまとまり(32個や64個など)ずつ更新(効率と安定のバランスが良く、現在最も使われる)。
局所最適解
全体で見れば最小ではないのに、その周辺だけ見ると最小に見える「ニセの谷底」。ここで学習が止まってしまうことがあります。学習率を調整して抜け出します。
鞍点(あんてん)
ある方向から見ると谷底、別の方向から見ると山頂に見える点。高次元の空間でよく現れ、学習が停滞する原因になります。
モーメンタム
これまで動いてきた方向を「勢い(慣性)」として加味することで、停滞しがちな鞍点などから抜け出しやすくする工夫。
最適化アルゴリズム(Adagrad・RMSprop・Adam など)
勾配降下法をより賢く・速くする手法たち。Adagradはパラメータごとに学習率を調整、RMSpropは過去の勾配情報を活用、AdamはモーメンタムとRMSpropの良いとこ取り。新しいものほど効率的な傾向があります。
早期終了(アーリーストッピング)
検証データに対する誤差が増え始めたら、過学習する前に学習を止める手法。
二重降下現象
一度テストの誤差が増えた後、さらに学習を続けると再び誤差が下がる、という近年確認された現象。早期終了は慎重に判断する必要があります。

▲ 目次へ戻る

第四限目:隠れ層の種類と発展

隠れ層の進化の流れ

隠れ層の発展系統
全結合層(1950s〜)→ 畳み込み層・プーリング層・RNN(1980s)→ 正規化層・GAP(2010s)→ Attention層(2015)→ Transformer(2017)→ GPTシリーズ(2022以降)、という流れで進化してきました。

各層

全結合層
前の層のすべてのニューロンが、次の層のすべてのニューロンとつながっている層。データ全体の特徴をまとめて捉えられ、最終的な判断によく使われます。ただしパラメータ数が多く計算コストが大きく、データの「位置関係(空間構造)」を考慮できないため画像処理には不向きです。
パラメータ数の計算(全結合層)
「(入力ユニット数 × 出力ユニット数) + 出力ユニット数」で計算します(重みの数+バイアスの数)。例:入力100・出力10なら、100×10+10=1,010個。
GAP(Global Average Pooling)
各特徴マップの平均値を1つの値として使い、全結合層の代わりにする手法。パラメータ数を大きく減らしながら、全体の特徴を捉えられます。
畳み込み層
小さな「フィルタ(カーネル)」を画像の上で少しずつずらしながら計算し、局所的な特徴(線・角・模様など)を抽出して「特徴マップ」を作る層。データの位置関係を保ったまま処理できるので、画像処理に最適です。フィルタの値は人間が決めるのではなく、学習(誤差逆伝播法)で自動調整されます。
特徴マップ
畳み込みによって、「フィルタがどこに強く反応したか」を表したマップ。
パディング
畳み込みを繰り返すと特徴マップが小さくなりすぎるので、入力データの周囲に0などの値を付け足してサイズを保つ処理。
ストライド
フィルタをずらす歩幅。大きくするとフィルタの移動が大きくなり、特徴マップが小さくなります。
パラメータ数の計算(畳み込み層)
「(フィルタの縦×横×入力チャネル数N×フィルタ数M) + M」で計算します。畳み込み層は、画像がいくら大きくてもこのパラメータ数が変わらないため、全結合層よりも画像処理に向いています。
プーリング層
特徴マップの情報を圧縮・要約する層。一定範囲の最大値を取る「最大値プーリング」が代表的です。①次元を減らして計算を軽くする、②画像が少しズレても出力が変わらない「位置不変性」を持たせる、③ニューロンが見る範囲(受容野)を広げる、といった効果があります。
受容野
ある層のニューロンが見ている、入力画像の範囲のこと。
CNN(畳み込みニューラルネットワーク)
畳み込み層とプーリング層を何度も繰り返して、点や線→パーツ→全体、と段階的に特徴を抽出し、最後に全結合層で判断を下す、画像認識に強いネットワーク。
Flatten(平坦化)
CNNで、2次元の特徴マップを1列(1次元のベクトル)に並べ替えて、全結合層に入力できるようにする処理。

正規化層

正規化層
各層に伝わるデータの「分布のばらつき」を整え、平均0・分散1に近づけることで、学習を安定させ高速化する層。
バッチ正規化
正規化層の代表。活性化関数を適用する前のデータを、ミニバッチ内でチャネルごとに正規化します。学習の安定・高速化、過学習の抑制、汎化性能の向上につながります。ただしバッチサイズに依存し、小さすぎると効果が薄れます。
レイヤ正規化
データ1個ごとに、全チャネルをまとめて正規化する方法。バッチサイズに依存せず、特に自然言語処理(Transformer)でよく使われます。
インスタンス正規化
データ1個ごとに、各チャネルを個別に正規化する方法。画像のスタイル変換などで高い性能を発揮します。
グループ正規化
データ1個ごとに、複数チャネルをグループにまとめて正規化する中間的な方法。バッチサイズに依存せず安定します。

深い層を可能にする工夫

スキップ結合(残差接続)
層を飛び越えるように接続を追加し、入力に近い情報を、ずっと先の層へ直接渡す仕組み。情報や勾配が伝わりやすくなり、勾配消失を軽減して、より深いネットワークの学習を可能にします。
残差学習/ResNet
目標の出力H(x)をゼロから学ぶのではなく、「入力xとの差分(残差)F(x)=H(x)−x」だけを学べばよい、という考え方。スキップ結合を使ってこれを実現したのがResNetで、152層という超深層を可能にしました。

RNN(時系列を扱う層)

RNN(リカレントニューラルネットワーク)
「回帰結合層」を持ち、過去の情報を現在の処理に反映できる、時系列データ向けのネットワーク。前の単語を踏まえて次の単語を解釈する、といった処理ができます。
回帰結合層(リカレント層)
RNNの核心部分で、過去の情報を現在に持ち越す機能を担う層。
BPTT(通時的誤差逆伝播法)
誤差を時間軸に沿って過去にさかのぼって伝える、RNN用の誤差逆伝播法。
教師強制
RNNの学習時に、「1つ前の時刻の正解データ」を、現在の時刻の入力として使う手法。学習は速く進みますが、本番では正解が使えないため、学習時とのギャップが生まれます。
暴露バイアス(露出バイアス)
教師強制が原因で、本番で正解が使えないために、繰り返し・矛盾・ハルシネーション(もっともらしい嘘)が起きやすくなる問題。
入力重み衝突
時系列を扱う際、「今は関係ないが将来重要になる情報」をどう扱うか、重みの設定に矛盾が生じる問題。
LSTM
RNNの弱点(長い文だと前半を忘れる勾配消失)を改良したモデル。3つのゲート(入力・出力・忘却)と、情報を劣化させずに保つ「CEC(記憶セル)」を持ち、長期的な関係を学習できます。
GRU
LSTMを簡略化したモデル。計算コストが低く実装が簡単ながら、長期記憶を扱えます。
エルマンネットワーク/ジョルダンネットワーク
RNNの元祖。エルマンは隠れ層の状態を、ジョルダンは出力層の状態を、次の時刻に持ち越します。
Seq2Seq
「入力を理解する担当(エンコーダ)」と「出力を生成する担当(デコーダ)」が連携して、系列を別の系列に変換する仕組み(例:日本語→英語の翻訳)。

Attention・Transformer

Attention
入力データの各要素に「重み(重要度)」を付けて、特に重要な部分に注意を集中させる仕組み。これにより時系列タスクの精度が大きく上がりました。
Source-Target Attention(Encoder-Decoder Attention)
入力文と出力文の単語どうしの関連度を計算する仕組み(例:翻訳で、英語のどの単語に注目して日本語を出すか)。
Self-Attention
同じ文の中の単語どうしの関連度を計算する仕組み。文中の全単語の関係を一度に・高速に計算でき、RNNが苦手だった「遠く離れた単語どうしの関係」も簡単に捉えられます。
Query / Key / Value
Attentionの3つの要素。図書館の検索でたとえると、Query=探している「検索キーワード」、Key=本の背表紙の「索引・見出し」、Value=本の中の「実際の中身」。Queryと各Keyの一致度(内積)でどこに注目するかを決め、その重みでValueをまとめて答え(コンテキストベクトル)を作ります。
Scaled Dot-Product Attention
QueryとKeyの内積を計算し、大きくなりすぎないよう調整(スケール)してから、ソフトマックスで重みにする、Attentionの基本計算方式。
Multi-Head Attention
複数の視点(ヘッド)から同時にAttentionを計算する手法。文法・意味など異なる関係性を一度に捉えられ、より豊かな表現が得られます。
Transformer
RNNを一切使わず、Self-Attentionを中心に組み立てた革新的なモデル。論文名は「Attention Is All You Need」。順番に読むのをやめたことで、文章全体を一度に並列処理でき、長い文章でも情報が劣化しません。
エンコーダ/デコーダ(Transformer)
エンコーダは入力を扱いやすいベクトルに変換する担当、デコーダはそれを使って出力を生成する担当。
位置エンコーディング
Transformerは単語を順番に読まないため、失われがちな「語順(単語の位置)」の情報を、あとから付け加えてモデルに認識させる仕組み。
Cross Attention
デコーダがエンコーダの情報を見に行くときに使うAttention(例:翻訳で、入力文のどこに注目して出力を作るか)。

▲ 目次へ戻る

第五限目:DLの手法と各認識分野

学習方法・データ拡張

バッチ学習/オンライン学習/ミニバッチ学習
全データを一気に計算(重い)/1件ずつ計算(不安定)/32〜64個などのまとまりで計算(効率と安定のバランスが良く、最もよく使われる)。
データ拡張
手元のデータに変換を加えて、人工的にデータの量を水増しする技術。深層学習には大量のデータが必要ですが、現実には用意が難しいため重宝されます。目的は「現実に起こりうるデータのバリエーションを再現すること」。
画像のデータ拡張テクニック
上下左右の移動、反転、回転、拡大・縮小、変形、ノイズ付加などを組み合わせて新しいデータを作ります。
Cutout/Random Erasing
画像の一部を消して(0やランダム値にして)モデルを鍛える手法。
Mixup
2枚の画像を合成して新しいデータを作る手法。
CutMix
CutoutとMixupを組み合わせ、より多様なデータを作る手法。
RandAugment
「どのデータ拡張を、どれくらいの強さで行うか」を自動で見つけてくれる手法。やみくもに拡張すると逆効果(例:👍を180度回転すると👎の意味になる)になるため、最適な拡張を選びます。

オートエンコーダ

オートエンコーダ
入力と出力が「同じ」になるように学習するニューラルネットワーク(教師なし学習)。一見ムダに見えますが、途中の隠れ層をわざと小さく絞ることで、データの本質的な特徴だけを抽出(ノイズ除去)できます。
エンコード/デコード
オートエンコーダの2段階の処理。エンコードはデータを圧縮すること、デコードはそこから元の形に再構成すること。
積層オートエンコーダ
オートエンコーダを何層も積み重ねて、より深い構造にしたもの。各層を順番に学習させる「事前学習」で、全体の重みを効率的に整えます。
変分オートエンコーダ(VAE)
入力を単なる圧縮データではなく「確率分布(平均と分散)」に変換するオートエンコーダ。その分布からサンプリングすることで、新しいデータを生成できます。
VQ-VAE/β-VAE/infoVAE
VAEの派生。潜在変数を離散値にする/目的に応じて正則化を調整する/潜在変数とデータの相関を高める、といった工夫がされています。

画像認識

画像認識
コンピュータが画像を解析し、その内容を理解する技術。防犯カメラ、医療診断、自動運転、小売、農業など幅広く使われています。
物体認識
画像に写っている主な物体が「何か」を当てるタスク。
物体検出
画像の中の複数の物体について、「何か」だけでなく「どこにあるか(位置)」まで特定するタスク。
R-CNN/Faster R-CNN/Mask R-CNN/YOLO/SSD
代表的な物体検出手法。R-CNNは検出に深層学習を持ち込んだ先駆者、Faster R-CNNは精度と速度を両立、Mask R-CNNは検出と領域分けを合体、YOLOは画像を一目見て高速に検出、SSDは様々な大きさの物体を高速に捉えます。
セグメンテーション
画像を「ピクセル単位」で細かく分類するタスク。①セマンティック(空・道路などカテゴリ単位で分ける)、②インスタンス(同じカテゴリでも人物Aと人物Bを区別する)、③パノプティック(両方を統合)の3種類があります。
FCN/SegNet/U-Net/PSPNet/DeepLab
セグメンテーションの代表モデル。FCNが元祖、U-Netはスキップ接続で細かい位置情報を逃さず復元(医療・生成AIの定番)、DeepLabはDilated Convolution(フィルタに隙間を空けて広い範囲を見る技術)を使って高精度に塗り分けます。
姿勢推定
画像から人物の関節の位置を特定し、体の姿勢や動きを理解するタスク(例:OpenPose)。スポーツ分析やモーションキャプチャに使われます。
代表的な画像認識モデル
LeNet(1980年代の元祖)→ AlexNet(2012年、DLの有効性を証明)→ VGG(小さな3×3フィルタを深く重ねる単純な構造)→ GoogLeNet(Inceptionモジュールで異なるサイズの畳み込みを同時実行)→ ResNet(スキップ接続で152層という超深層を実現、人間の精度を超える)。
MobileNet/EfficientNet/NASNet
軽量・高効率を追求したモデル。MobileNetは「Depthwise Separable Convolution(畳み込みを空間とチャネルに分解して計算量を約9分の1に減らす技術)」でスマホでも動かせます。
NAS(Neural Architecture Search)
AI自身が、最適なネットワーク構造を自動で探し出す技術。

自然言語処理(NLP)

自然言語処理(NLP)
人間が日常的に使う言葉(自然言語)を、コンピュータに処理させる技術。
形態素解析
文を「形態素」という、意味を持つ最小単位(単語に近い)に分割する処理。高度な解析の基礎になります。
構文解析
形態素どうしの関係を分析し、文全体の構造を明らかにするタスク。
n-gram
単語や文字をn個ずつ並べたもの。n=1はユニグラム、n=2はバイグラム、n=3はトライグラム。
Bag-of-Words (BoW)
文章中の単語の「出現回数」を数えて、文章をベクトル(数値の並び)にする手法。単語の順序の情報は失われますが、シンプルで効率的です。
ワンホットベクトル
各単語にID(整数)を割り当て、「その単語のところだけ1、他は全部0」というベクトルで表す方法。
skip-gram/CBOW
単語の意味を学ぶための仕組み。skip-gramは「ある単語から周りの単語を予測」、CBOWは「周りの単語から中心の単語を予測」します。
TF-IDF
単語の重要度を測る手法。「その文書内での出現頻度(TF)」と「その単語が珍しいか=出現する文書の少なさ(IDF)」を掛け合わせます。よく出てきて、かつ他ではあまり使われない単語ほど重要度が高くなります。
単語埋め込み(Word Embedding)
単語を、意味の近さを反映した「密な数値ベクトル」で表す方法。「単語の意味は、その周りの単語で決まる」という考えに基づきます。
word2vec
単語をベクトルで表し、単語どうしの関係を計算(足し算・引き算など)できるようにした代表的手法。
fastText
単語を文字単位(n-gram)に分解して学習することで、知らない単語や表記ゆれにも強い、高速な単語ベクトル化手法。
ELMo
文脈によって意味が変わる単語(「ハシ」が橋か箸か)を、双方向のLSTMで読み解くベクトル表現。
BERT
文章を「前からも後ろからも(双方向)」見て、文脈を踏まえた単語の意味を理解する言語モデル。文の一部を隠して当てるMLMと、2文が連続するか判定するNSPで学習します。
GPT
大量のテキストで事前学習し、「文章の生成」に特化したモデル。
GPT-3/PaLM
超巨大な言語モデル。GPT-3は1750億個のパラメータ、PaLMは5400億個のパラメータを持ち、高度な文章生成や推論ができます。
LLM(大規模言語モデル)
膨大なテキストを、膨大な数のパラメータを持つ巨大なニューラルネットワークで学習させたモデルの総称。
GLUE
AIの「国語力」を総合的に測るための共通テスト。BERTなどのモデルを客観的に比較するために作られました。

音声処理

音声認識(STT: Speech-To-Text)
音声をテキストに変換する技術。自動議事録や音声検索などで使われます。
音声合成(TTS: Text-To-Speech)
テキストを自然な音声に変換する技術。アナウンスや読み上げ、カーナビなどで使われます。
話者認識/感情認識
音声から「誰が話しているか」を特定する技術/音声のイントネーションや音質から「話者の感情」を推定する技術。
A-D変換/PCM
連続的なアナログ音声を、コンピュータが扱えるデジタルデータに変換すること/その代表的な方式で、音声を一定間隔で区切って数値化する方法。
高速フーリエ変換(FFT)
音声信号を「どの周波数がどれくらい含まれているか」に効率よく分解する手法。音声の特徴を捉えるために使います。
メル尺度
人間の耳が感じる「音の高さの差」に合わせて作られた尺度。人間の聴覚に近い分析ができます。
MFCC(メル周波数ケプストラム係数)
メル尺度に基づいて、音声の「音色」を表現する特徴量。音声処理でとても重要です。
音響モデル/言語モデル
音声認識システムを構成する2つのモデル。音響モデルは「音声と音素(音の最小単位)の関係」を、言語モデルは「単語の並びの自然さ」を表します。両者を組み合わせて、最もありそうな単語列を推定します。
HMM(隠れマルコフモデル)
従来の音声認識で長年使われてきた、音素を確率的に扱うモデル。
CTC
音声データの「時間の長さ」と「音素の数」が一致しない問題を、空文字を出力候補に加えることで解決する手法。
End-to-Endモデル
音響モデルと言語モデルを統合し、音声から直接、単語列を生成するモデル。
WaveNet
深層学習を使った音声合成方式の代表。2016年にGoogle DeepMindが発表し、人間と区別がつかないほど自然な音声を生成できるようになりました。

▲ 目次へ戻る

第六限目:強化学習の発展・生成・転移・マルチモーダル

強化学習の発展

Policy Gradient法(方策勾配法)
Q値(価値)を推定するのではなく、行動の方針(方策)を直接最適化する手法。
PPO(近接方策最適化)
方策を一度に大きく変えすぎないよう更新幅を制限し、学習を安定させたアルゴリズム。
AlphaGo/AlphaGo Zero
囲碁で人間のトップ棋士に勝ったAI(2016年)/人間の棋譜を一切使わず、自己対戦だけで学習し、さらに強くなったAI。
OpenAI Five/AlphaStar
多人数対戦ゲームDota2/RTSゲームのスタークラフト2で、トップ級プレイヤーに勝ったAI。複数のエージェントが協調・競争する「マルチエージェント強化学習」が重要な役割を果たしました。
DQN(Deep Q-Network)
Q学習に深層学習を組み合わせ、画像のような高次元の入力にも対応できるようにした手法。
経験再生
エージェントが過去の経験をメモリにためておき、そこからランダムに取り出して学習する手法。データの時間的な偏り(相関)を減らし、学習を安定させます。
ターゲットネットワーク
Q値の推定に使う「もう一つのネットワーク」。定期的にしか更新しないことで、学習を安定させます。
Double DQN/Dueling DQN/Rainbow
DQNの改良版。Double DQNは行動の選択と評価を別々に行いQ値の過大評価を防ぐ、Dueling DQNは「状態の価値」と「各行動の優位性」を分けて学習、Rainbowは主要な7つの改良を全部のせした最強モデル。
Noisy Networks
ネットワークの重みにノイズを加えることで、効率よく新しい行動を試す(探索する)手法。
連続値制御問題
「右に3.5度傾ける」「アクセルを40%踏む」のように、途切れのない連続的な数値を直接出力して制御する問題。選択肢が無限にあるため、全選択肢のQ値を計算できず、方策勾配法やActor-Critic構造が必要になります。
sim2real
コンピュータ上のシミュレーションで学習させたAIを、現実世界で使えるようにする技術。
ドメインランダマイゼーション
シミュレーション内の摩擦・重力・色・照明などをあえてランダムに変えて学習させ、現実世界の多様さに対応できるAIを作る手法。
オフライン強化学習/世界モデル
事前に集めたデータだけから方策を学ぶ手法/環境のモデルを学習して、周囲の世界の動きを予測する手法。
RLHF(人間のフィードバックによる強化学習)
人間の評価(フィードバック)を使って、AIをより人間にとって安全で役立つように微調整する技術。ChatGPTなどで使われています。

データ生成タスク

データ生成タスク
画像・音声・文章など、新しいデータを人工的に作り出す技術。まず学習データから「潜在空間」を学びます。
潜在空間
データの特徴を数学的に表した空間。この空間の点(ベクトル)を扱うことで、新しいデータを生成できます。
VAE(変分オートエンコーダ)
入力を確率分布に変換し、そこからサンプリングして新しいデータを生成するモデル(第五限目参照)。
GAN(敵対的生成ネットワーク)
2つのネットワークを競わせて、本物そっくりのデータを生成する手法。特に画像生成で優れた成果を出しました。
ジェネレータ/ディスクリミネータ
GANの2つの部品。ジェネレータ(生成器)は偽物のデータを作る役、ディスクリミネータ(識別器)は本物か偽物かを見分ける役。互いに競い合うことで、どんどん本物らしくなっていきます。
DCGAN/Pix2Pix/CycleGAN
GANの発展形。DCGANは畳み込みで高解像度化、Pix2Pixはペア画像で変換(昼→夜など)、CycleGANはペアなしで画像変換(変換後に元へ戻す循環を学習)。
Diffusion Model(拡散モデル)
データに少しずつノイズを加えていく過程と、逆にノイズを取り除いて元データを復元する過程を学習し、高品質なデータを段階的に生成する手法。現在の生成AIの代表的アプローチです。
NeRF
複数の視点から撮った画像を使って、3次元の形状を復元し、新しい視点からの画像を生成する技術(VRなどで活用)。
Flowベース生成モデル
単純な分布を、数学的に「逆計算が可能」な変換を繰り返して複雑なデータの分布に変形させる生成モデル。GAN・VAEに続く第3の生成モデルと呼ばれます。

転移学習・ファインチューニング

転移学習
すでに大量のデータで学習済みのモデルの「知識」を、新しいタスクに応用する手法。出力層だけを付け替えて学習させるので、少ないデータと計算で済みます。
ファインチューニング
転移学習をさらに一歩進め、付け替えた層だけでなく「モデル全体の重み」も再調整する手法。より細かく新タスクに適応できますが、過学習に注意が必要です。
事前学習済みモデル
ImageNetなどの大規模データであらかじめ学習され、一般的な特徴を習得済みのモデル。多くは公開されており、別のタスクに応用できます。
破壊的忘却
AIが新しいタスクを学習したときに、それまで覚えていた古いタスクの知識をすっかり忘れてしまう現象。
Few-shot学習/One-shot学習
数枚程度の少ないデータで学習する手法/たった1つのデータで学習しようとする手法。
MAML(メタ学習)
重みそのものではなく、「重みの更新のしかた(学習の方法)」自体を学習するアプローチ。
半教師あり学習/自己教師あり学習
少量のラベル付きデータと大量のラベルなしデータを併用する手法/データ自体から教師信号を作り出して学習する手法。転移学習と組み合わせると、ラベルなしデータも有効活用できます。

マルチモーダルタスク

マルチモーダルタスク
画像・テキスト・音声など、異なる形式(モダリティ)のデータを同時に扱う分野。
Image Captioning
画像を入力として受け取り、その内容を説明する文章を生成するタスク(例:犬の写真→「公園で遊ぶ茶色の犬」)。
Text-to-Image
テキストで指示すると、それに対応した画像を生成するタスク(例:「夕日に浮かぶ灯台」→画像)。
Visual Q&A
与えられた画像について、人間がした質問にAIが答えるタスク。
CLIP
画像から抽出した特徴と、テキストから抽出した特徴が「同じようになる」ように、大量のデータで学習したモデル。画像とテキストを共通の特徴空間で結びつけます。
Zero-shot学習
学習していない新しいタスクでも、そのタスクの「説明」を与えるだけで実行できること。CLIPはこれが得意です。
DALL-E
CLIPとDiffusion Modelを組み合わせ、テキストで指定した高品質な画像を生成するモデル。
Flamingo/Unified-IO
画像とテキストの関連を捉える基盤モデル。Flamingoは少数の例(Few-shot)だけで画像や動画を説明・回答でき、Unified-IOは画像・テキストあらゆる入出力を扱える汎用モデルです。
基盤モデル
様々なタスクの「土台」となる、大規模に事前学習されたモデル。

モデルの解釈性・軽量化

モデルの解釈性
AIが「なぜその判断をしたのか」を人間が理解できるようにすること。医療診断や金融の与信判断など、重要な意思決定では信頼性・透明性のために特に大切です。
CAM/Grad-CAM/Guided Grad-CAM
画像認識でモデルが「画像のどこを見て判断したか」をヒートマップで見える化する手法。Grad-CAMは勾配情報を使い、Guided Grad-CAMはさらに詳細に可視化します。
LIME
入力データの一部の特徴だけを使って、モデルの振る舞いを部分的に(局所的に)近似して解釈する手法。
Permutation Importance
ある特徴量の値をランダムに入れ替えてみて、予測精度がどれだけ落ちるかで、その特徴の重要度を測る手法。
SHAP
各特徴量が予測結果にどれだけ貢献したか(寄与度)を測ってモデルを解釈する手法。様々な機械学習に使える汎用性の高さが特徴です。
説明可能AI(XAI)
ブラックボックスになりがちなAIの判断プロセスを、人間が理解できるよう説明可能にする取り組み全般。
モデルの軽量化
高性能なAIモデルは巨大で計算コストが高いため、スマホなどの「エッジデバイス」でも動くように、性能を保ちつつサイズと計算量を減らす技術。
エッジデバイス
スマホやセンサー、組み込み機器など、現場の端末そのもの。メモリや計算能力、バッテリーが限られています。
蒸留(Distillation)
大きく高性能なモデル(教師)の知識を、小さなモデル(生徒)に教え込む軽量化手法。教師が出力する確率分布(ソフトターゲット)を使って、豊富な知識を伝えます。
枝刈り(Pruning)
ニューラルネットワークの中で重要度の低い接続(重み)を0にして削除し、構造を単純化する軽量化手法。
宝くじ仮説
大きなモデルの中には、良い初期値を持つ「当たりの小さなネットワーク(サブネットワーク)」が隠れている、という考え方。
量子化(Quantization)
パラメータを、より少ないビット数で表現する手法。たとえば通常32ビットの数値を8ビットに変換し、構造は変えずにメモリ使用量を大きく減らします。

▲ 目次へ戻る

第七限目:AIプロジェクトとデータ・数学基礎

AIプロジェクトの進め方

AIプロジェクトの進め方
まずAIが本当に必要かを慎重に検討し、利益計画を立てて投資判断します。その後は「データの確認→モデルの試作→運用に向けた開発」と進め、柔軟に方針修正できる体制(アジャイル的)が重要です。
CRISP-DM
データマイニングの標準プロセス。「ビジネスの理解→データの理解→データの準備→モデル作成→評価→展開」の6段階からなる、すべての元祖となる進め方。
CRISP-ML
CRISP-DMを機械学習プロジェクト向けに特化させたもの(2021年)。モデルの品質管理や、本番環境での継続的な監視・更新を重視します。
MLOps
機械学習モデルを、本番環境で安定して動かし、改善し続けるための運用・管理の仕組み・体制。
PoC(概念実証)
本格的な開発の前に、「そのAIが実際に使えるか・効果があるか」を小規模に試して確かめる段階。
ウォーターフォール/アジャイル
最初に完璧な設計図を描き、後戻りせず順番に作る手法/小さな単位で「計画→開発→テスト」を素早く繰り返し、変化に柔軟に対応する手法。
データリーケージ(データ漏洩)
学習のときに、本来は知ってはいけない情報(未来の情報やテストの正解)が、うっかりモデルに紛れ込んでしまう現象。性能が不当に高く見えてしまう原因になります。

データの収集と準備

データの収集源
オープンデータの利用、自社でのデータ収集、外部からの購入など。オープンデータは商用利用が可能かライセンスの確認が必要です。
アノテーション
教師あり学習のために、データに「正解のラベル(タグ)」を付ける作業。複数人で行うと作業者ごとにばらつきが出るため、明確なルール作りが必要です。
データの偏り(バイアス)
訓練データが現実のデータの分布を正しく反映していないと、不公平なAIができてしまう問題。バランスの取れたデータセットが公平なAIの基盤になります。
匿名加工
データに含まれる個人情報を、個人を特定できないように加工すること。
開発環境
AI開発には主にPythonが使われます。環境としてテキストエディタ、IDE(統合開発環境)、Jupyter Notebook、Google Colabなどがあります。
Pyenv/Docker
1台のPCでPythonのバージョンを使い分けるツール/プログラムと動作環境を丸ごと「コンテナ」に詰めて、どこでも同じように動かせるツール。複数人開発で環境をそろえるのに役立ちます。
オープンデータ(WordNet/ImageNet/DBpedia/LibriSpeech)
WordNetは単語の上位下位・類義関係の辞書、ImageNetは1400万枚超のラベル付き画像DB、DBpediaはWikipediaを構造化した知識ベース、LibriSpeechは音声認識用の英語音声データセット。
コーパス
自然言語の文章や発話を、構造化して大量に集めた「言葉の標本集(データベース)」。

数学の基礎(距離・相関)

ユークリッド距離
2点間の「まっすぐな直線距離」。ピタゴラスの定理がもとになっています。特徴量のスケール(単位)の影響を受けやすいため、標準化が必要です。
マハラノビス距離
データのばらつきや、変数どうしの相関を考慮して測る距離。多次元データに適し、異常検知などに使われます。
コサイン類似度
2つのベクトルの「向き(なす角度)」で類似度を測る手法。大きさではなく方向に注目するので、データの大小に左右されず比較できます。値は−1〜1で、1に近いほど似ています。
最小二乗法
データに最もよく当てはまる直線や曲線を求める手法。予測値と実際の値の差(残差)の2乗の合計が、最も小さくなるようにします。主に回帰分析で使われます。
共分散
2つの変数が、どの方向に・どれくらい一緒に変動するかを示す指標(例:身長が伸びると体重も増える=正の共分散)。単位の影響を受けるため、解釈しやすくした相関係数がよく使われます。
相関係数
2つのデータの関係の強さを−1〜1で表したもの。1に近いと正の相関、−1に近いと負の相関、0は無相関。
偏相関係数
第三の変数の影響を取り除いたうえで、2つの変数の「純粋な」相関を測る指標。

数学の基礎(確率・統計)

期待値
確率変数が取りうる値を、それぞれの発生確率で重みづけして平均したもの。「将来得られそうな結果の平均値」を表し、予測や意思決定(投資など)で使われます。
ベルヌーイ分布
「成功か失敗か」「表か裏か」のように、結果が2つしかない試行を1回だけ行ったときの確率分布。二項分布の基礎です。
二項分布
成功か失敗かの試行(ベルヌーイ試行)をn回繰り返したとき、成功が何回起こるかの確率を表す分布。試行回数が多くなると正規分布に近づきます。
ポアソン分布
一定の期間内に、低い確率で起こる「めったにない出来事」の発生回数を表す分布(例:ある交差点での事故の発生回数)。
正規分布
データの多くが平均値の付近に集まり、平均から離れるほど出にくくなる、左右対称のベル型の分布。平均値・中央値・最頻値が一致し、広がりは標準偏差で決まります。
平均値・中央値・最頻値
データの中心を表す3つの指標。平均値は合計÷個数、中央値は真ん中の値(外れ値に強い)、最頻値は最も多く出る値。
分散・標準偏差
データのばらつきを表す指標。分散は平均からの差の2乗の平均(単位が2乗になり解釈しにくい)、標準偏差はその平方根(単位が元と同じで解釈しやすい)。
条件付き確率
ある事象が起きたという条件のもとで、別の事象が起きる確率。
相互情報量/エントロピー
一方の変数を知ることで、もう一方の不確実性がどれだけ減るかを示す指標/情報の不確実性・散らばりの大きさ。エントロピーが高いほど不確実性が大きく、相互情報量はその削減量を表します。
帰無仮説/対立仮説
統計の検定で最初に立てる「差や効果はない」という仮説/それに対する「差や効果がある」という主張。
仮説検定/p値
データをもとに仮説が正しいか判断するプロセス/「帰無仮説が正しいと仮定したとき、得られたデータが偶然起こる確率」。p値が有意水準(通常0.05)を下回れば、帰無仮説を棄却します。
疑似相関
本当は因果関係がないのに、相関があるように見えてしまう関係。背後に第三の変数が隠れていることが原因です。相関だけで因果を結論づけないことが大切です。
移動平均(SMA/EMA)
時系列データの細かな変動をならして、全体の傾向(トレンド)を見やすくする手法。SMAは単純な平均、EMAは直近のデータを重視する指数移動平均。
最尤法(さいゆうほう)
観測されたデータが「最も起こりやすくなる」ように、モデルのパラメータを決める方法。ロジスティック回帰などで使われます。
度数分布
集めたデータをいくつかの範囲に分け、それぞれに何個のデータがあるか(度数)を整理したもの。データの特徴をつかむ最初のステップです。
サンプリングバリアンス
抽出するサンプル(標本)の組み合わせによって、結果がばらついてしまうこと。

▲ 目次へ戻る

第八限目:法規制(個人情報・知的財産)

個人情報保護法

個人情報保護法
「生存する個人に関する情報」で、特定の個人を識別できるものを保護する日本の法律。
個人情報/個人データ/保有個人データ
個人情報は氏名・顔写真など個人を特定できる情報、個人データは顧客リストなどデータベース化された個人情報、保有個人データは企業が開示・訂正・削除の権限を持つ個人データ。後者ほど、本人からの請求に応じる義務が重くなります。
要配慮個人情報
人種・信条・社会的身分・病歴・犯罪歴など、取り扱いに特に配慮が必要な情報。原則として、取得には本人の同意が必要です。
個人識別符号
指紋・DNA・顔などの生体情報や、免許証番号・パスポート番号など、それ単体で個人を識別できる符号。
匿名加工情報
個人を特定できないように加工した情報(元データとの対応表も削除)。一定の手続きを公表すれば、本人の同意なしに第三者に提供できます。
仮名加工情報
匿名加工情報より加工の程度が低い情報。第三者への提供は原則禁止で、社内での活用を想定しています。
GDPR(EU一般データ保護規則)
EUが定めた、世界で最も厳格とされる個人情報保護のルール。EUに関わるすべての企業に適用され、データポータビリティ権などがあり、違反すると巨額の制裁金が科されます。

著作権

著作権
思想や感情を創作的に表現したものを保護する権利。作品が作られた時点で「自動的に」発生し、保護期間は創作者の死後70年(特許より長い)。守られるのは「表現」であって、アイデアそのものではありません。
AI生成物の著作権
AIが単独で作ったものには、原則として著作権は認められません。ただし、人間の創作的な関与があれば著作権が成立する可能性があります(現在も議論が続いています)。
依拠性(いきょせい)
ある作品を作るときに、既存の他者の作品を知っていて、それを参考にした事実があるかどうか。著作権侵害が成立するための重要な要件です。
著作権法第30条の4
コンピュータによる情報解析(機械学習など)のために必要な場合、著作物を許諾なしで複製・利用できるとした例外規定。ただし、著作権者の利益を不当に害してはいけません。
ライセンス(GPLなど)
プログラムコードも著作物なので、オープンソースを使うときは利用条件(ライセンス)の確認が必須です。GPLの場合、それを使ったプログラムも同じライセンスで公開する必要があります。

特許権・知的財産

特許権
新しい技術的なアイデア(発明)を保護する権利。出願・審査を経て成立し、保護期間は出願から20年(著作権より短い)。同じアイデアなら、実装方法が違っても侵害になりうる点が著作権と異なります。
新規性/進歩性
特許取得に欠かせない要件。新規性は「世界中のどこにも存在しないこと」、進歩性は「その分野の専門家が簡単には思いつかないこと」。
職務発明
従業員が、仕事に関連して生み出した発明。契約や就業規則で定めておけば、特許を受ける権利を雇用主(企業)のものにできますが、その場合も従業員に「相当の対価」を支払う必要があります。
不正競争防止法
「営業秘密」と「限定提供データ」を保護する法律。著作権で守られなくても、一定の条件下で保護されます。
営業秘密
不正競争防止法で守られる、秘密として管理された有用な情報。特許と違い公開しないので期限はありませんが、他社が独自に同じものを開発した場合は権利を主張できません。
営業秘密の三要件
①秘密管理性(秘密として管理する意思が明確な措置で示されている)、②有用性(事業に役立つ価値がある)、③非公知性(一般に知られていない)の3つを満たす必要があります。
限定提供データ
企業が一定の条件下で第三者に提供しているデータ(例:携帯会社の位置情報をもとにした人流データ)。相当量が蓄積された電子データなどが対象で、不正な窃取などは処罰されます。
独占禁止法
事業者間の公正な競争を守るための法律。これにより消費者は良質で安価な商品を受けられます。AI時代には、大企業によるデータの独占や、AIを使った価格カルテルなどが論点になっています。

▲ 目次へ戻る

第九限目:AI開発フェーズと契約・公平性

契約とフェーズ

準委任契約
業務を遂行すること自体に対価を払う契約。特定の成果の完成は保証しませんが、「善管注意義務(プロとして最善を尽くす義務)」を負います。不確実性の大きいAI開発で広く使われます。
請負契約
完成品の納品を約束する契約。完成責任があり、バグがあれば直す義務(契約不適合責任)を負います。
成果完了型準委任契約
業務の結果得られる「成果」に対して報酬を払う契約。請負と違い、特定の結果を保証するものではありません。
AI開発の4フェーズ
①アセスメント(AIで解くべき課題を明確にし、実現可能性を探る)→②PoC(概念実証、実運用できるか判定)→③実装(本開発、実際の環境で使うAIを開発)→④追加学習(運用後の保守・改善)。
NDA(秘密保持契約)
開発の初期段階などで、相手から提供された機密情報を外部に漏らさないと約束する契約。
SaaS型AI
クラウド上で、不特定多数のユーザーに提供されるAIサービス(1つのAIを複数ユーザーで共有)。提供者が独自に追加学習でき、それによってAIの出力が変化しうる点が大きな特徴です。

ガバナンス・公平性・プライバシー

AIガバナンスのガイドライン
AIを適切に使うための指針。公平性の確保、安全性と有効性のバランス、プライバシーの保護、透明性とアカウンタビリティ、セキュリティと悪用防止などが含まれます。
ハードロー/ソフトロー
公的機関が定め、遵守が義務づけられる法律(拘束力は強いが、変更に時間がかかり柔軟性に欠ける)/業界団体や学会が作る自主規制・ガイドライン(拘束力はないが、迅速で柔軟な対応ができる)。
リスクベースアプローチ
AIのリスクの大きさに応じて、規制の強さを変える考え方。EUのAI法案がこの方式を採っています。
バイ・デザイン
システムが完成する前の、企画・設計(デザイン)の初期段階から、あらかじめ対策を組み込んでおく考え方。
プライバシー・バイ・デザイン/セキュリティ・バイ・デザイン
設計段階から個人情報・プライバシー保護を組み込む/設計段階からサイバー攻撃や脆弱性への対策を組み込む。
公平性の問題
AIの出力に偏りが生じ、社会問題になるリスク。例:採用AIが男性を優遇する、顔認証が性別や肌の色で認識率に差が出て誤認逮捕につながる、など。
公平性の問題の原因
主に学習データ。データの生成・収集・アノテーション・前処理の各段階で、人間の偏見や思い込み(認知バイアス・無意識バイアス)が入り込むことで生じます。
プライバシー問題の発生場面
AIのプライバシー問題は「データ収集段階」と「推論段階」の2つで起こります。対策として、データの最小化(必要最小限だけ集める)、匿名化技術の活用、透明性の確保などがあります。

▲ 目次へ戻る

第十限目:安全性・セキュリティ・倫理

安全性とセキュリティ

AI安全性
AIの利用によって、人々の生命・身体・財産に悪影響が及ばないようにすること。
有効性
AIが、与えられた課題に対して適切に判断・処理できる能力。安全性と有効性は関連しますが、常に一致するわけではありません(例:がん診断AIは、全体の正確さより「がんの見落としを防ぐこと」が安全上は重要)。
データ汚染攻撃
モデルの学習時や追加学習時を狙い、わざと細工したデータを学習データに混ぜ込んで、モデルの動作を誤らせる攻撃。
敵対的事例攻撃(Adversarial Example)
AIの推論段階を狙い、人間には気づけないほど微細なノイズを入力に加えて、出力を大きく狂わせる攻撃(例:交通標識を別の標識と誤認させる)。こうした攻撃の総称をAdversarial Attack(敵対的攻撃)と呼びます。
モデル推測攻撃(モデル窃取)
多数の入力と出力を分析して、モデルの内部構造や学習データを推測・盗み出そうとする攻撃。知的財産や個人情報の漏洩につながります。
モデル汚染攻撃
悪意のある動作を仕込んだAIモデルを配布する攻撃。特定の条件で誤った出力をするよう設計されており、公開モデルや事前学習済みモデルを使う際は注意が必要です。

AIの社会的影響と倫理

ディープフェイク/顔加工技術
AIで動画の顔などを、本人の同意なく加工・合成する技術。プライバシー侵害や偽情報の拡散の問題を生みます。
選挙・民主主義への影響
AIによる不正確な情報の拡散が、選挙結果に悪影響を与える恐れ。「正確な情報に基づく意思決定」という民主主義の基本を損なう可能性があります。
エコーチェンバー効果/フィルターバブル
レコメンドが好みの情報ばかり見せる結果、自分の考えが偏って極端になっていく現象/見たい情報しか見えなくなる「情報の孤立状態」。
環境への負荷
AIの学習には膨大な計算と電力が必要で、環境への負担になっています(一方で、衛星画像分析など環境保護に役立つ面もあります)。
AIが雇用にもたらす影響
一部の仕事が失われる可能性。対策として、別の仕事に移れる支援や、「人間とAIの協働」が重要とされます。
透明性
AIに関する情報(利用の有無、判断の根拠、目的、責任者など)を、適切に提示すること。
説明可能性(アカウンタビリティ)
AIに関する責任を明確にする原則。追跡可能性・検証可能性・適切な文書化により、問題発生時に原因を特定して対応できるようにします。
AIガバナンス
説明可能性と透明性を確保するための組織的な取り組み。経営層の関与、AIポリシーの策定、責任者の明確化、リスク評価、社内教育、内部監査などを含みます。
データの来歴
データがどのように生成され、どう処理されてきたかの記録。AIシステムの信頼性と公平性を確保するために重要です。

重要な原則・用語

人間中心のAI社会原則
2019年に内閣府が策定した、AIを社会で活用するための最も根本的な指針。「①人間の尊厳が尊重される社会、②多様な背景の人々が多様な幸せを追求できる社会、③持続性ある社会」の3つの基本理念と、7つの原則からなります。
AIシステムのインクルージョン
AIが社会のあらゆる層の人々に公平に機能し、誰も取り残されないようにすること。
AIの軍事利用
AIを使った自律型兵器は、国際的な安全保障や人道法の観点から大きな懸念を引き起こしています(責任の所在の不明確化、予期せぬ事態の危険性など)。
LAWS(自律型致死兵器システム)
人間の判断や引き金を介さず、AIが自分で標的を探して攻撃を決定・実行してしまう「自律型の殺人兵器」。
CCW(特定通常兵器使用禁止制限条約)
過度に非人道的な兵器の使用を禁止・制限する国際条約。近年、ここでAI兵器の規制が議論されています。
AIシステムの自律性のジレンマ
「AIの判断の速さ・正確さ」と「人間による監督・責任」のどちらを取るか、というジレンマ。
AI倫理アセスメント
AIシステムが社会や個人に与える倫理的な影響(公平性・透明性・安全性・プライバシーなど)を、事前に分析・評価するプロセス。
ELSI(倫理的・法的・社会的課題)
新しい技術を世に出すときに、技術面以外で事前にクリアすべき「倫理・法律・社会への影響」の総称。
センシティブ情報
差別や偏見の原因になるため、AIの判断基準にしてはいけない情報(人種、性別、国籍、宗教、年齢、病歴など)。
潜在変数/代理変数
直接は測れないが裏に隠れている要素(本当の性格、意図的に消した性別など)/その潜在変数を間接的に推測できてしまう別のデータ(郵便番号、購買履歴、言葉づかいなど)。センシティブ情報を消しても、代理変数から推測されてしまう危険があります。
ステークホルダー
AIシステムの開発・利用によって、直接・間接に影響を受ける関係者。多様な立場の意見を聞くことが、リスクを多角的に判断するうえで大切です。

▲ 目次へ戻る

用語の意味がわかったら、あとは演習あるのみ。

G模試で練習問題を解く →