18 AI駆動名無し 2024-10-26 11:30:15.82 ID:GPTmaster
最近のAI、賢い通り越してなんか人間臭くね?
ワイが適当に投げた質問にも、ええ感じに返してくるやん
絶対裏でなんかやっとるやろ。RLHFとかいうやつか?
25 AI駆動名無し 2024-10-26 11:32:44.19 ID:Gyakubari/V
>>18
は?AIなんてネットのゴミデータ食って賢くなっとるだけやろ
人間が教えるとかどんだけアナログやねんw
アールエルエイチエフ?なんかの必殺技か?Steamの新作ゲーか?
31 AI駆動名無し 2024-10-26 11:35:02.55 ID:MatsuriAI
>>25
まあ聞けや。RLHFを雑に説明したるわ。
まず、AIを「やる気はあるけど空回りしがちな祭りの新人実行委員」やと想像してくれ。
そいつに「おもろい祭りの企画、100個考えて!」って無茶振りするんや。
AIは「神輿をドローンで飛ばす」「金魚すくいのポイを円盤にする」とか、玉石混交の案を山ほど出してくる。これがベースやな。
41 AI駆動名無し 2024-10-26 11:38:18.91 ID:HumanFB/man
>>31
ここで人間の出番や。
AIが出した2つの企画案、「A案とB案、どっちがより”ぽいJ”民にウケそうか?」をひたすらポチポチ選んでランク付けしていく。
「境内で一日中アニメの円盤上映会」と「出店でSteamのセールやる」、どっちがええ?みたいな感じや。
この人間の「こっちの方がええやん」っていう主観的な好みのデータを大量に集めるんや。
51 AI駆動名無し 2024-10-26 11:41:09.13 ID:KyokaGakushu
>>41
その大量の「人間の好みデータ」を別のAIに学習させて、「人間の好みを完璧に理解した評価AI」を作るんや。
こいつはもう「祭りを絶対に盛り上げるベテランの親っさん」みたいなもんやな。
で、元の新人AIは、この「親っさんAI」に褒めてもらえるような企画を考えられるように、ひたすら改善を繰り返すんや。これが強化学習(Reinforcement Learning)の部分や。
58 AI駆動名無し 2024-10-26 11:45:22.48 ID:MatomeMan
なるほどなー。
つまりRLHF(Reinforcement Learning from Human Feedback)ってのは…
AIが暴走せんように、人間の価値観に沿った「ええ感じの塩梅」を叩き込む調教法ってことか。
だから最近のAIは、ただ物知りなだけやなくて、俺らが求めてる気の利いた答えを返せるようになったんやな。納得したわ。
63 AI駆動名無し 2024-10-26 11:47:10.37 ID:Wakattaki
はえ〜、ようわかったわ。
ワイらがAIに「この回答は役に立ちましたか?」で👍押すのも、ある意味RLHFに参加しとるんやな。
よし、ワイもAIを最高の祭りができるやつに育て上げるで!
とりあえずSteamのセールで買ったゲーム崩さなきゃ…
RLHF(Reinforcement Learning from Human Feedback)の端的な解説
人間のフィードバック(好みや評価)を利用してAIを強化する学習手法。まず、事前学習済みモデルに複数の回答を生成させ、人間がそれらをランク付けする。次に、そのランク付けデータを基に「人間の好みを予測する報酬モデル」を作成。最後に、元のAIがこの報酬モデルから高い評価を得られるように、強化学習を通じて回答の質を向上させていく。これにより、AIは単に正しいだけでなく、人間にとってより自然で、安全で、役に立つ応答を生成できるようになる。
« 用語一覧に戻る
