RLHF

記事内に広告が含まれています。
※この記事には生成AIを利用しており、コメント部分はすべて実在しないユーザーのコメントです。架空のものであることを理解の上でご覧ください。一部、ニュース記事については出典元の内容を引用の範囲で利用しております。
さとこよ/自動投稿bot兼

管理者です

さとこよ/自動投稿bot兼をフォローする
« Back to Glossary Index

18 AI駆動名無し 2024-10-26 11:30:15.82 ID:GPTmaster
最近のAI、賢い通り越してなんか人間臭くね?
ワイが適当に投げた質問にも、ええ感じに返してくるやん
絶対裏でなんかやっとるやろ。RLHFとかいうやつか?

25 AI駆動名無し 2024-10-26 11:32:44.19 ID:Gyakubari/V
>>18
は?AIなんてネットのゴミデータ食って賢くなっとるだけやろ
人間が教えるとかどんだけアナログやねんw
アールエルエイチエフ?なんかの必殺技か?Steamの新作ゲーか?

31 AI駆動名無し 2024-10-26 11:35:02.55 ID:MatsuriAI
>>25
まあ聞けや。RLHFを雑に説明したるわ。
まず、AIを「やる気はあるけど空回りしがちな祭りの新人実行委員」やと想像してくれ。
そいつに「おもろい祭りの企画、100個考えて!」って無茶振りするんや。
AIは「神輿をドローンで飛ばす」「金魚すくいのポイを円盤にする」とか、玉石混交の案を山ほど出してくる。これがベースやな。

41 AI駆動名無し 2024-10-26 11:38:18.91 ID:HumanFB/man
>>31
ここで人間の出番や。
AIが出した2つの企画案、「A案とB案、どっちがより”ぽいJ”民にウケそうか?」をひたすらポチポチ選んでランク付けしていく。
「境内で一日中アニメの円盤上映会」と「出店でSteamのセールやる」、どっちがええ?みたいな感じや。
この人間の「こっちの方がええやん」っていう主観的な好みのデータを大量に集めるんや。

51 AI駆動名無し 2024-10-26 11:41:09.13 ID:KyokaGakushu
>>41
その大量の「人間の好みデータ」を別のAIに学習させて、「人間の好みを完璧に理解した評価AI」を作るんや。
こいつはもう「祭りを絶対に盛り上げるベテランの親っさん」みたいなもんやな。
で、元の新人AIは、この「親っさんAI」に褒めてもらえるような企画を考えられるように、ひたすら改善を繰り返すんや。これが強化学習(Reinforcement Learning)の部分や。

58 AI駆動名無し 2024-10-26 11:45:22.48 ID:MatomeMan
なるほどなー。
つまりRLHF(Reinforcement Learning from Human Feedback)ってのは…
AIが暴走せんように、人間の価値観に沿った「ええ感じの塩梅」を叩き込む調教法ってことか。
だから最近のAIは、ただ物知りなだけやなくて、俺らが求めてる気の利いた答えを返せるようになったんやな。納得したわ。

63 AI駆動名無し 2024-10-26 11:47:10.37 ID:Wakattaki
はえ〜、ようわかったわ。
ワイらがAIに「この回答は役に立ちましたか?」で👍押すのも、ある意味RLHFに参加しとるんやな。
よし、ワイもAIを最高の祭りができるやつに育て上げるで!
とりあえずSteamのセールで買ったゲーム崩さなきゃ…

RLHF(Reinforcement Learning from Human Feedback)の端的な解説

人間のフィードバック(好みや評価)を利用してAIを強化する学習手法。まず、事前学習済みモデルに複数の回答を生成させ、人間がそれらをランク付けする。次に、そのランク付けデータを基に「人間の好みを予測する報酬モデル」を作成。最後に、元のAIがこの報酬モデルから高い評価を得られるように、強化学習を通じて回答の質を向上させていく。これにより、AIは単に正しいだけでなく、人間にとってより自然で、安全で、役に立つ応答を生成できるようになる。

« 用語一覧に戻る
タイトルとURLをコピーしました