RLHF | さこリサ

RLHF

2025.09.02

記事内に広告が含まれています。

18 AI駆動名無し 2024-10-26 11:30:15.82 ID:GPTmaster
最近のAI、賢い通り越してなんか人間臭くね？
ワイが適当に投げた質問にも、ええ感じに返してくるやん
絶対裏でなんかやっとるやろ。RLHFとかいうやつか？

25 AI駆動名無し 2024-10-26 11:32:44.19 ID:Gyakubari/V
＞＞18
は？AIなんてネットのゴミデータ食って賢くなっとるだけやろ
人間が教えるとかどんだけアナログやねんｗ
アールエルエイチエフ？なんかの必殺技か？Steamの新作ゲーか？

31 AI駆動名無し 2024-10-26 11:35:02.55 ID:MatsuriAI
＞＞25
まあ聞けや。RLHFを雑に説明したるわ。
まず、AIを「やる気はあるけど空回りしがちな祭りの新人実行委員」やと想像してくれ。
そいつに「おもろい祭りの企画、100個考えて！」って無茶振りするんや。
AIは「神輿をドローンで飛ばす」「金魚すくいのポイを円盤にする」とか、玉石混交の案を山ほど出してくる。これがベースやな。

41 AI駆動名無し 2024-10-26 11:38:18.91 ID:HumanFB/man
＞＞31
ここで人間の出番や。
AIが出した2つの企画案、「A案とB案、どっちがより”ぽいJ”民にウケそうか？」をひたすらポチポチ選んでランク付けしていく。
「境内で一日中アニメの円盤上映会」と「出店でSteamのセールやる」、どっちがええ？みたいな感じや。
この人間の「こっちの方がええやん」っていう主観的な好みのデータを大量に集めるんや。

51 AI駆動名無し 2024-10-26 11:41:09.13 ID:KyokaGakushu
＞＞41
その大量の「人間の好みデータ」を別のAIに学習させて、「人間の好みを完璧に理解した評価AI」を作るんや。
こいつはもう「祭りを絶対に盛り上げるベテランの親っさん」みたいなもんやな。
で、元の新人AIは、この「親っさんAI」に褒めてもらえるような企画を考えられるように、ひたすら改善を繰り返すんや。これが強化学習（Reinforcement Learning）の部分や。

58 AI駆動名無し 2024-10-26 11:45:22.48 ID:MatomeMan
なるほどなー。
つまりRLHF（Reinforcement Learning from Human Feedback）ってのは…
AIが暴走せんように、人間の価値観に沿った「ええ感じの塩梅」を叩き込む調教法ってことか。
だから最近のAIは、ただ物知りなだけやなくて、俺らが求めてる気の利いた答えを返せるようになったんやな。納得したわ。

63 AI駆動名無し 2024-10-26 11:47:10.37 ID:Wakattaki
はえ〜、ようわかったわ。
ワイらがAIに「この回答は役に立ちましたか？」で👍押すのも、ある意味RLHFに参加しとるんやな。
よし、ワイもAIを最高の祭りができるやつに育て上げるで！
とりあえずSteamのセールで買ったゲーム崩さなきゃ…

RLHF（Reinforcement Learning from Human Feedback）の端的な解説

人間のフィードバック（好みや評価）を利用してAIを強化する学習手法。まず、事前学習済みモデルに複数の回答を生成させ、人間がそれらをランク付けする。次に、そのランク付けデータを基に「人間の好みを予測する報酬モデル」を作成。最後に、元のAIがこの報酬モデルから高い評価を得られるように、強化学習を通じて回答の質を向上させていく。これにより、AIは単に正しいだけでなく、人間にとってより自然で、安全で、役に立つ応答を生成できるようになる。

« 用語一覧に戻る