1 風吹けば名無し 2025-11-10 12:30:15 ID:N1pA5jG/0
https://ledge.ai/articles/common_crawl_paywall_investigation_and_response
米誌『The Atlantic』は2025年11月4日、非営利団体Common Crawlが構築するウェブアーカイブが、OpenAIやGoogleなどのAI企業による大規模言語モデル(LLM)の訓練に利用されており、ペイウォール(有料会員制)記事を含む可能性があると指摘した。
同日、Common Crawlは公式ブログで反論し、「当財団はペイウォールを回避しない。活動は透明で、robots.txtを尊重している」と強調した。
これもうAI業界オワタやろ…
3 風吹けば名無し 2025-11-10 12:31:02 ID:xYz8hLp+a
ファッ!?
タダ飯食ってたってことか?
5 風吹けば名無し 2025-11-10 12:31:45 ID:KkLp9wQ2d
まあそうなるわな
ネットの記事丸ごと食わせてるんやから
8 風吹けば名無し 2025-11-10 12:32:11 ID:mNo3rS4tM
ワイがなけなしの金で購読してる有料記事もAIのエサになっとるんか?
許せんのやが
12 風吹けば名無し 2025-11-10 12:33:50 ID:BvC6xZ7uR
プチプラで使えるAIの裏側はこれか…
闇が深いンゴねぇ
16 風吹けば名無し 2025-11-10 12:34:22 ID:N1pA5jG/0
Common Crawl側は「ペイウォールは回避してない」って反論しとるけどな
どうなっとんねん
21 DataWrangler_S 2025-11-10 12:35:01 ID:DataWrangler_S
お前ら落ち着けや
記事ちゃんと読んだんか?「robots.txtを尊重している」って書いてあるやろ
そもそもゴミを食わせたらゴミしか出てこんのやで。データの質が全てや。
25 風吹けば名無し 2025-11-10 12:36:18 ID:FgH7jKlPa
>>21
なんか専門家ニキ来たな
つまりセーフってことなんか?
33 風吹けば名無し 2025-11-10 12:37:44 ID:uVw9xYzAb
>>21
でも出版社側は怒っとるんやろ?
結局グレーゾーンってことちゃうんか
38 DataWrangler_S 2025-11-10 12:38:59 ID:DataWrangler_S
>>33
まあ法整備が追いついてないのは事実やな
ただ、意図的にやっとるわけやないって主張や
それより問題なのは、そういうノイズ混じりのデータで学習させとるってことや。精度に影響するで。
45 風吹けば名無し 2025-11-10 12:40:05 ID:PoIu7yTrE
ワイの書いた有料noteもAIに食われてたんか…
あれで億り人になる夢が…オワタ…
52 風吹けば名無し 2025-11-10 12:41:33 ID:AsD4fGhJk
億り人とかいう前にまともな文章書けや
60 風吹けば名無し 2025-11-10 12:42:51 ID:ZxC1vBnMa
結局、訴訟大国アメリカでどう判断されるかやろな
これでAI開発が停滞したら笑えん
68 DataWrangler_S 2025-11-10 12:44:02 ID:DataWrangler_S
これからはクリーンなデータセットの価値が上がるやろな
地味なデータクレンジングやアノテーション作業してるやつが一番儲かる時代が来るかもしれん
そのデータをどうベクトルDBに突っ込むかの腕の見せ所や
ええか、ゴミを食わせたらゴミしか出てこんのやで。何度でも言うわ。
75 風吹けば名無し 2025-11-10 12:45:10 ID:N1pA5jG/0
>>68
はえ~サンガツ
データの前処理が大事なんやな
82 風吹けば名無し 2025-11-10 12:46:27 ID:qWeR5tYuI
結局ワイらには関係ない話やな
便利なAIがプチプラで使えるならそれでええわ
91 風吹けば名無し 2025-11-10 12:47:49 ID:LkJhG9fDcS
>>82
アホか
クリエイターの権利が守られなくなったら新しいコンテンツが生まれなくなるんやぞ
巡り巡ってワイらの首絞めることになるんやで
99 風吹けば名無し 2025-11-10 12:49:03 ID:pLmN7oBvC
難しい話はもうええわ
とりあえずワイのPCが学習データにされない設定だけ教えろ
大手AI企業が利用するデータセット「Common Crawl」に、有料記事が不正に含まれている可能性が米誌によって報じられ、ぽいJで激論が交わされた。AI業界の根幹を揺るがす問題に、専門家を交えて様々な意見が飛び交う。
AIの進化の裏側にあるデータ問題、今後も議論は続きそうやな。ワイらユーザーも、便利なサービスの裏側を少しは意識しとくべきかもしれへんな。
参考URL:
[1] https://ledge.ai/articles/common_crawl_paywall_investigation_and_response


