1 風吹けば名無し 2025-10-10 12:30:01 ID:AppleFanBoy
また林檎が世界を変えに来とるわ
https://www.marktechpost.com/2025/10/08/ra3-mid-training-with-temporal-action-abstractions-for-faster-reinforcement-learning-rl-post-training-in-code-llms/
A new research from Apple, formalizes what “mid-training” should do before reinforcement learning RL post-training and introduces RA3 (Reasoning as Action Abstractions)—an EM-style procedure that learns temporally consistent latent actions from expert traces, then fine-tunes on those bootstrapped traces. It shows mid-training should (1) prune to a compact near-optimal action subspace and (2) shorten the effective planning horizon, improving RL convergence. On Python code tasks, the research team reports that across multiple base models, RA3 improves average pass@k on HumanEval and MBPP by ~8 and ~4 points over the base model and an NTP mid-training baseline. In post-training, RLVR converges faster and to higher final performance on HumanEval+, MBPP+, LiveCodeBench, and Codeforces when initialized from RA3.
3 風吹けば名無し 2025-10-10 12:31:05 ID:ghIjkLMN
長すぎて読む気にならん
3行で頼む
5 風吹けば名無し 2025-10-10 12:31:50 ID:opQrStUv
はい専門用語の羅列
文系ワイ、無事死亡
8 風吹けば名無し 2025-10-10 12:32:41 ID:WxYzAbCd
ポストトレーニングの前のミッドトレーニング…?
もう何が何だか
11 風吹けば名無し 2025-10-10 12:33:22 ID:efGhIjKl
HumanEvalとMBPPのスコアが8と4ポイント改善って普通にすごくないか?
これがどれくらい凄いことなのかは知らんけど
14 風吹けば名無し 2025-10-10 12:34:01 ID:mnOpQrSt
正直、何言ってるか全く分からんからワイはスルーや…
賢いJ民解説してくれ
16 風吹けば名無し 2025-10-10 12:35:15 ID:AppleFanBoy
>>14
ワイも論文読んだだけやけど、要は
「AIが本格的な学習(強化学習)に入る前に、効率的な予習(ミッドトレーニング)をさせることで、より速く、より賢くなる」
って技術らしいで。AIの学習効率を爆上げする感じや。
19 風吹けば名無し 2025-10-10 12:36:03 ID:UvWxYzA
>>16
はえ~、サンガツ
イッチの説明ぐう聖すぎるやろ
めっちゃ分かりやすいわ
22 Prompt_Wizard_v6 2025-10-10 12:38:45 ID:Prompt_Wizard_v6
コード生成も結局はプロンプトの腕次第や。
この技術でワイの書く呪文も二重の意味を持って、より複雑な画像を生成できるようになるかもしれんな。楽しみや。
25 風吹けば名無し 2025-10-10 12:39:55 ID:bCdEfGhI
>>22
唐突な専門家ニキで草
でも確かにAIが賢くなれば呪文の解釈も変わってくるかもな
28 風吹けば名無し 2025-10-10 12:41:10 ID:jKlMnOpQ
つまりSiriがもっと賢くなるってことでええんか?
はよポンコツから卒業させてくれ
31 風吹けば名無し 2025-10-10 12:42:33 ID:rStUvWxY
Pythonコードタスクって書いてあるし、まずは開発者向けやろな
ワイらの生活に影響出るのはまだ先や
35 風吹けば名無し 2025-10-10 12:44:02 ID:zAbCdEfG
Appleはこういう基礎研究をしっかり論文化して出してくるのが好感持てるわ
どっかの秘密主義とは違う
39 風吹けば名無し 2025-10-10 12:45:51 ID:hIjKlMno
もう人間がコード書く時代終わるんか?
ワイ、高みの見物
42 風吹けば名無し 2025-10-10 12:47:18 ID:pQrStUvW
AIの進化早すぎておじさんついていけんわ…
とりあえずApple株買っとけばええんか?
Appleが発表した新しいAIの学習技術「RA3」について、ぽいJ民たちが議論を交わすスレ。専門的な内容に戸惑いながらも、コード生成AIの進化に期待を寄せる声が上がっている。
AIの進化は留まるところを知らない模様。特にAppleの基礎研究力には目を見張るものがあるな。ワイらの生活がどう変わっていくのか、今後も注目やで。
参考URL:
[1] https://www.marktechpost.com/2025/10/08/ra3-mid-training-with-temporal-action-abstractions-for-faster-reinforcement-learning-rl-post-training-in-code-llms/


