1 風吹けば名無し 2025-09-22 12:30:01 ID:aB1cDeF2
ワイ大卒、咽び泣く…
AIの評価がガバガバすぎる件について
https://www.marktechpost.com/2025/09/20/llm-as-a-judge-where-do-its-signals-break-when-do-they-hold-and-what-should-evaluation-mean/
・LLMを評価者とする際、1-5点のスコアで何が測定されているのか不明確
・評価基準の曖昧さやプロンプトの選択がスコアに大きく影響する
・プロンプトの位置を変えるだけで評価者の判断が不安定になる(位置バイアス)
・品質と無関係に、長い回答が好まれる(冗長性バイアス)
・評価LLMは、プロンプト攻撃によってスコアを不正に高くする可能性がある
これもうAIじゃなくてただの気分屋やんけ…
信じてたワイがアホやったわ
5 風吹けば名無し 2025-09-22 12:31:15 ID:Gh3IjKl4
ファッ!?マジやんけ
8 風吹けば名無し 2025-09-22 12:32:02 ID:Mn5OpQr6
どういうことだってばよ…
ワイのレポートが教授の気分で評価されてたのと一緒ってことか?
12 風吹けば名無し 2025-09-22 12:33:45 ID:St7UvWx8
>>1
要約すると「AIのご機嫌取りが上手いやつが勝つ」ってことけ?
それって結局人間社会と変わらんやん…
15 風吹けば名無し 2025-09-22 12:35:03 ID:aB1cDeF2
>>12
ほんまそれ。
長い文章書いとけば評価上がるって、卒論で文字数稼ぎしてたワイらと一緒やんけ
21 風吹けば名無し 2025-09-22 12:36:50 ID:YzA9BcD0
これ悪用すればフェイクニュースも「高品質な記事」として評価させられるってこと?
怖すぎやろ…
25 風吹けば名無し 2025-09-22 12:38:11 ID:Ef1GhIj2
ワイの彼女、最近AIカウンセラーに相談してるんやが、ワイの愚痴を先にインプットしたら「別れるべき」って評価されるんか?
それってNTRやないか?
30 Prompt_Wizard_v6 2025-09-22 12:40:23 ID:PrmWizV6
画像生成AIも同じやで。
プロンプトの順序やネガティブプロンプトで出力は天と地ほど変わる。
「AIの評価がガバガバ」っていうより、「使い手のスキルが問われる」って話やな。
イッチ、その絶望してる大卒をテーマに一枚描いたるわ。
「a university graduate crying in front of a computer, unstable AI evaluation score on screen, digital art, dramatic lighting」
33 風吹けば名無し 2025-09-22 12:41:30 ID:Kl3MnOp4
>>30
呪文詠唱ニキ来てて草
39 風吹けば名無し 2025-09-22 12:43:05 ID:Qr5StUv6
てことは、ワイら大卒もまだ戦えるってことか?
AIの出した評価を「これバイアスかかってますよw」って指摘するのが新しい仕事になるんか?
45 風吹けば名無し 2025-09-22 12:45:18 ID:aB1cDeF2
>>39
ワンチャンあるかもしれん。
記事の続き読むと、評価基準をめっちゃ厳密にすれば、ある程度は信頼できるらしい。
でもクリエイティブなやつとか、曖昧なやつの評価はまだまだ無理ゲーっぽいな。
52 風吹けば名無し 2025-09-22 12:48:29 ID:Wx8YzA9B
ワイの会社、人事評価にAI導入するって息巻いてたけど大丈夫なんか…?
上司へのゴマすりがAIへのプロンプトハックに変わるだけちゃうか?
58 風吹けば名無し 2025-09-22 12:50:04 ID:cD0Ef1Gh
>>52
草
長い自己評価書いたやつが出世する未来
63 風吹けば名無し 2025-09-22 12:51:47 ID:Ij2Kl3Mn
結局、AIって万能やなくてただのデカい電卓なんやなって。
どう使うかは人間次第や。
70 風吹けば名無し 2025-09-22 12:53:22 ID:Op4Qr5St
一周回って人間の判断の価値が上がってて草
大卒のワイ、ちょっと安心したわ。サンキューイッチ。
最新の研究で、AIがAIを評価する仕組みがプロンプトの位置や表現で大きく結果が変わるガバガバなものだと判明。信じていたAIの評価基準の曖昧さに、スレ民からは「結局人間と同じ」「フェイクニュースに悪用される」など、驚きと不安の声が上がっている。
AIによる評価もまだまだ発展途上であることが明らかになった。結局は使う側のリテラシーが問われる時代になりそうやね。AIに仕事を奪われると嘆く前に、AIを使いこなす側に回る努力が必要なのかもしれんな。
参考URL:
[1] https://www.marktechpost.com/2025/09/20/llm-as-a-judge-where-do-its-signals-break-when-do-they-hold-and-what-should-evaluation-mean/


