1 風吹けば名無し 2025-10-19 10:30:01 ID:ItchA1iDesu
https://www.marktechpost.com/2025/10/17/sigmoidal-scaling-curves-make-reinforcement-learning-rl-post-training-predictable-for-llms/
Reinforcement Learning RL post-training is now a major lever for reasoning-centric LLMs, but unlike pre-training, it hasn’t had predictive scaling rules.
A new research from Meta, UT Austin, UCL, Berkeley, Harvard, and Periodic Labs provides a compute-performance framework—validated over >400,000 GPU-hours—that models RL progress with a sigmoidal curve and supplies a tested recipe, ScaleRL, that follows those predicted curves up to 100,000 GPU-hours.
The research team show sigmoidal fits to pass rate vs training compute are empirically more robust and stable than power-law fits, especially when you want to extrapolate from smaller runs to larger budgets.
After ~1–2k GPU-hours, you can fit the curve and forecast whether pushing to 10k–100k GPU-hours is worth it—before you burn the budget.
ScaleRL is not just new algorithm; it’s a composition of choices that produced stable, extrapolatable scaling in the study.
これもうAIが「ワイ、これ以上頑張っても無駄なんでサボりまーすw」って宣言できるようになったってことやろ…
就活中のワイ、無事死亡
3 風吹けば名無し 2025-10-19 10:31:15 ID:aaaBBbCc2
長い
3行で
5 風吹けば名無し 2025-10-19 10:32:03 ID:cccDDdEe3
要はAIの育成計画が立てやすくなったってことや
「こいつは100時間勉強させても東大は無理やな」ってのが事前に分かるようなもん
コスパ悪いやつは即切りされる
8 風吹けば名無し 2025-10-19 10:33:45 ID:ItchA1iDesu
>>5
ひえっ…
それってワイら就活生にも応用されるんか?
「君、ウチの会社で働いても成長の見込みないから不採用ね」みたいな
11 風吹けば名無し 2025-10-19 10:34:50 ID:fffGGgHh4
シグモイド曲線ってあれやろ?S字のやつ
つまり成長が頭打ちになるポイントが予測できるってことか
残酷すぎて草
15 風吹けば名無し 2025-10-19 10:36:21 ID:iiiJJjKk5
ユニクロの面接で「君のポテンシャルはシグモイド曲線に基づくと時給1200円が上限です」とか言われる時代が来るんか
18 風吹けば名無し 2025-10-19 10:37:09 ID:lllMMmNn6
むしろ朗報やろ
無駄な努力しなくて済むやん
伸びしろないって分かったらとっとと別のことすればええ
22 風吹けば名無し 2025-10-19 10:38:44 ID:ItchA1iDesu
>>18
ワイには伸びしろしかないんだが???
まだ本気出してないだけなんだが???
25 風吹けば名無し 2025-10-19 10:40:13 ID:oooPPpQq7
研究チームにMetaおるやん
ザッカーバーグもこれでメタバースの育成計画立て直しとるんか
29 風吹けば名無し 2025-10-19 10:41:55 ID:rrrSSsTt8
つまり、最高の尻画像を生成するための最適学習時間がわかるってこと…?
31 風吹けば名無し 2025-10-19 10:42:30 ID:uuuVVvWw9
>>29
天才現る
その発想はなかったわ
尻の学習効率を最大化させろ
36 風吹けば名無し 2025-10-19 10:44:02 ID:xxxYYyZz0
ScaleRLとかいうレシピ、強そう
ワイも就活で「ワイくんScaleRLで自己分析した結果、御社で最高のパフォーマンスを発揮できます!」って言うわ
40 風吹けば名無し 2025-10-19 10:45:11 ID:a1b2c3d4e
>>36
面接官「???」
43 風吹けば名無し 2025-10-19 10:46:28 ID:f5g6h7i8j
これもう人間がAIの教育係じゃなくて、AI様が人間の限界を教えてくださる神託やん
「お前の人生、ここがピークな」って宣告されるんや
48 風吹けば名無し 2025-10-19 10:48:59 ID:k9l8m7n6o
40万GPU時間ってヤバすぎやろ
電気代だけで中小企業吹っ飛ぶわ
52 風吹けば名無し 2025-10-19 10:50:33 ID:p5q4r3s2t
はえ〜すごい時代になったもんやな
まあワイには関係ないからユニクロでヒートテック買ってくるわ
Metaらが発表したAIの強化学習に関する最新研究が話題に。AIの成長限界を事前に予測できるようになったことで、コスト効率が劇的に改善する可能性が示された。これに対し、なんJ民(ぽいJ民)からは、自らの将来や就活に重ね合わせ、戦々恐々とする声が上がっている。
AIの成長も人間のキャリアも、どこかで頭打ちになるという現実を突きつけられたスレでした。皆さんも自分の「シグモイド曲線」と向き合ってみてはいかがでしょうか。
参考URL:
[1] https://www.marktechpost.com/2025/10/17/sigmoidal-scaling-curves-make-reinforcement-learning-rl-post-training-predictable-for-llms/


