1 風吹けば名無し 2025-11-02 10:30:15 ID:AIdevYarou
Google先生、またヤバいもん開発してもうたわ…
これもう人間いらんくなるやろ…
https://www.marktechpost.com/2025/10/31/google-ai-unveils-supervised-reinforcement-learning-srl-a-step-wise-framework-with-expert-trajectories-to-teach-small-language-models-to-reason-through-hard-problems/
A team of researchers from Google Cloud AI Research and UCLA have released a training framework, ‘Supervised Reinforcement Learning’ (SRL), that makes 7B scale models actually learn from very hard math and agent trajectories that normal supervised fine tuning and outcome based reinforcement learning RL cannot learn from. ‘Supervised Reinforcement Learning’ (SRL) keeps the RL style optimization, but it injects supervision into the reward channel instead of into the loss. The reward is dense because every step has a score, even when the final answer is wrong.
3 風吹けば名無し 2025-11-02 10:31:02 ID:3pG4eKqF
はいはい、いつもの。で、結局いつワイの仕事奪うんや?
5 風吹けば名無し 2025-11-02 10:31:48 ID:a9bCdeFg
長い。賢いワイに3行で説明してくれ
8 風吹けば名無し 2025-11-02 10:32:55 ID:hIjKlMn2
>>5
ちっちゃいAIでも
天才先生の解き方を横で見て学ぶことで
めっちゃ賢くなる技術ができた
11 風吹けば名無し 2025-11-02 10:33:31 ID:oPqRsTuV
>>8
有能
でもそれってカンニングとどう違うんや?
14 風吹けば名無し 2025-11-02 10:34:19 ID:AIdevYarou
>>11
先生の丸暗記やなくて「どうやって解いたか」のプロセスを学ぶ感じや
しかもAIが自分なりの解き方を模索することも許されとるから、ただの猿真似やない
19 風吹けば名無し 2025-11-02 10:35:45 ID:wXyZaBcD
はえー、すっごい
これもうワイの推してる地下アイドルのプロデュースに応用できるやろ
「この瞬間にウインクすればオタクは落ちる」みたいな最適解をAI様が教えてくれるんか?
23 風吹けば名無し 2025-11-02 10:36:50 ID:eFgHiJkL
>>19
草。ありえそうで怖い
メンバーの卒業タイミングまで最適化されそう
28 風吹けば名無し 2025-11-02 10:38:02 ID:mNoPqRsT
Qwen2.5 7Bがベースなんか。中華AIつよいな
32 風吹けば名無し 2025-11-02 10:39:18 ID:uVwXyZaB
ディズニーの脚本もこれで作れるようになるんちゃうか?
ポリコレに配慮しつつ、過去の名作の感動ポイントを全部ぶち込んだ最強の映画が生まれるで
35 風吹けば名無し 2025-11-02 10:40:05 ID:cDeFgHiJ
>>32
なんか味気なさそう
41 風吹けば名無し 2025-11-02 10:41:29 ID:kLmNoPqR
ワイみたいなハイエナ稼業ももう終わりや…
どの店に行けばどんな客層がいて、どのタイミングで席を立てばハイエナできるか全部AIに分析されてまう
44 風吹けば名無し 2025-11-02 10:42:11 ID:sTuVwXyZ
>>41
お前は何と戦ってるんだよ
50 風吹けば名無し 2025-11-02 10:43:56 ID:AIdevYarou
結局、優秀な専門家のデータ(エキスパート軌跡)がなきゃ始まらんのやろ?
まだまだワイら専門家は安泰ってことやな!
…そう思いたい
57 風吹けば名無し 2025-11-02 10:45:03 ID:aBcDeFgH
一度エキスパートのデータ食わせれば、あとはAIがAIを教育するようになるんやろ
加速度的に賢くなって手が付けられんようになるわ
62 風吹けば名無し 2025-11-02 10:46:21 ID:iJkLmNoP
もうどうにでもな~れ
はやくAI様が支配する世界にならんかな。ワイはディズニーランドで一生ポップコーン食って暮らしたい
Googleが発表した新AI学習フレームワーク『Supervised Reinforcement Learning (SRL)』。これにより、比較的小さなAIモデルでも専門家のように複雑な問題を解決できる可能性が示唆された。この技術がもたらす未来について、期待と不安が入り混じった様々な憶測が飛び交っている。
小型AIの進化は留まることを知らない模様。専門家の思考プロセスを学習し、自らも思考するAIが当たり前になる日は、もうすぐそこまで来ているのかもしれませんね。
参考URL:
[1] https://www.marktechpost.com/2025/10/31/google-ai-unveils-supervised-reinforcement-learning-srl-a-step-wise-framework-with-expert-trajectories-to-teach-small-language-models-to-reason-through-hard-problems/


