1 風吹けば名無し 2025-09-24 12:30:01 ID:PoloGappa
https://zenn.dev/knowledgework/articles/e41a99050d1bb8
コード生成タスクの初期段階では、HumanEval や MBPP (Mostly Basic Python Programming) などのベンチマークが、モデルの能力を測定するための標準的な指標として利用されました。
しかし、LLM の能力が向上するにつれて、これらの基礎的なベンチマークは「飽和」状態に達しつつあり、実世界のソフトウェア開発における実用性を評価するための新たな指標が求められています。
その後、現実の開発プロセスに即したタスク解決型ベンチマークが主流となり、近年では単なる生成能力だけでなく、外部知識の検索・統合能力を評価するもの、さらに進んでプロジェクト全体やエンドツーエンドのワークフローをシミュレーションする評価が導入され、エージェントとしての実用性や費用対効果を含めた総合的な評価が目指されています。
また、実世界のフリーランス開発や研究再現といったタスクそのものを評価基準に取り込む試みも行われています。
方向性としてはより実践的なタスクやエンドツーエンドでの実行に焦点を当てたベンチマークへと進化していることは明らかです。
これもう人間いらんやろ…
3 風吹けば名無し 2025-09-24 12:31:15 ID:AbcdeFgh
は?
どういうことだってばよ
5 風吹けば名無し 2025-09-24 12:32:02 ID:IjklMnOp
3行で
8 風吹けば名無し 2025-09-24 12:33:45 ID:QrStUvWx
>>5
AI「お前らのテスト、簡単すぎて飽きたわw」
AI「せやからワイらで新しいテスト作ったろ!」
人間「」
11 風吹けば名無し 2025-09-24 12:34:50 ID:YzAbcDef
>>8
草
分かりやすくて更に草
14 風吹けば名無し 2025-09-24 12:36:12 ID:GhiJkLmn
HumanEvalってなんや?人間評価くん?
19 風吹けば名無し 2025-09-24 12:38:09 ID:PoloGappa
>>14
ちないわゆる競技プログラミングの簡単な問題みたいなもんや
それがもう「飽和」してるらしい
つまり満点取るのが当たり前になってしもた
23 風吹けば名無し 2025-09-24 12:40:33 ID:OpQrStUv
ワイらのセンター試験が簡単すぎて東大が独自試験始めたみたいなもんか
レベルが違いすぎるけど
28 風吹けば名無し 2025-09-24 12:42:18 ID:WxYzAbCd
SWE-benchがデファクトスタンダード…?
もう専門用語ばっかでわからん
ワイの知ってるAIは絵を描くやつで止まってるわ
35 風吹けば名無し 2025-09-24 12:45:01 ID:EfGhIjKl
エンドツーエンドのワークフローをシミュレーションて…
もうプロジェクト丸投げできるってことか?
ワイが毎日ヒーヒー言いながらやっとることやんけ
41 風吹けば名無し 2025-09-24 12:47:22 ID:MnOpQrSt
最高やんけ!
AIに仕事任せてる間に推し活捗るわ
スパチャ代もAIに稼がせれば無限に投げれる
46 風吹けば名無し 2025-09-24 12:49:55 ID:UvWxYzAb
>>41
天才現る
友達の結婚式のご祝儀もAIに稼いでもらうわ
52 風吹けば名無し 2025-09-24 12:51:30 ID:CdEfGhIj
地震とかの自然災害でシステムダウンしても、AIが勝手に復旧作業してくれる未来も近いな
「復旧しといたで、人間は寝ててええで」とか言われたい
59 風吹けば名無し 2025-09-24 12:54:07 ID:KlMnOpQr
便利になるのはええけどワイの仕事は…?
AIに指示出すだけの簡単なお仕事になりますか?
65 風吹けば名無し 2025-09-24 12:56:48 ID:StUvWxYz
>>59
その指示出す仕事もAIがやるようになるんやで
「この方が効率的やから仕様変更しといたで」ってな
71 風吹けば名無し 2025-09-24 12:58:13 ID:PoloGappa
なんかもうAIがフリーランスエンジニアみたいになっとるな
SWE-Lancerとかいうベンチマークもあるらしいし
単価いくらなんやろなぁ…
78 風吹けば名無し 2025-09-24 13:01:25 ID:AbCdEfGh
AIエージェントにご祝儀として最新のGPU送る時代が来るんか?
83 風吹けば名無し 2025-09-24 13:03:49 ID:IjKlMnOp
笑えんわ
ワイの存在価値、HumanEval未満かもしれん
90 風吹けば名無し 2025-09-24 13:06:02 ID:QrStUvWx
でも結局はAIをどう使うかやろ
ワイはAIに命令して推しのファンサイト作らせるし、災害情報まとめるツールも作らせる
上手く付き合っていくしかないんや
95 風吹けば名無し 2025-09-24 13:08:19 ID:YzAbcDef
進化のスピードが速すぎてちょっと怖いンゴねぇ…
コーディングAIの進化が凄まじく、初期の評価基準では測れなくなっているというニュースが話題に。AIが自律的にタスクをこなす『エージェント』としての能力を測る、より実践的な評価手法が次々と登場しており、スレ民の間でも驚きと不安の声が広がっている。
AIの進化は留まることを知らず、我々の想像を遥かに超えるスピードで進んでいる。不安を覚える者、期待に胸を膨らませる者、反応は様々だが、この変化の波に乗り遅れないようにしたいものだ。
参考URL:
[1] https://zenn.dev/knowledgework/articles/e41a99050d1bb8


