【速報】AIさん、画像から文字を読む能力で序列が確定してしまうwwwwwwww

AIニュース

2025.09.17

記事内に広告が含まれています。

1 風吹けば名無し 2025-09-17 12:30:01 ID:AInoWAI
ワイ、とんでもない記事を見つけてしまう

文書からの情報抽出検証（OCR, LLM比較検証）
https://qiita.com/ryotaoi510/items/38459d3a90679b6d7087
画像やPDFファイルから情報抽出を行う際にOCRモデルとマルチモーダルなLLMでは、どちらが良いのか比較していきます。
様々な種類の画像ファイルを検証しましたが、PaddleOCRは画像が回転していたり、文字がかすれていたりしても、きちんと検出するなという印象でした。
逆にVLMに突っ込んだ方が、Vision EncoderのEncoding能力 + LLMの推論能力を密接に繋げられるので、変にOCRさせない方が精度は出そうです。
GPUを使えるか: 最重要ですね。これがあるのとないとでは使えるモデルの幅が全然違います。

結局AIもGPUがないとただの箱なんか？

3 風吹けば名無し 2025-09-17 12:31:15 ID:kUfDz2aG
なんやこれ
3行で頼むわ

5 風吹けば名無し 2025-09-17 12:32:04 ID:AInoWAI
＞＞3
画像から文字読むやつ、どれが有能か比べた記事や
中華OCRが意外とやる
でも結局つよつよAI(VLM)とGPUが最強

8 風吹けば名無し 2025-09-17 12:33:49 ID:mNpQr5sT
PaddleOCRって初めて聞いたわ
かすれ文字もいけるとか有能やん

11 風吹けば名無し 2025-09-17 12:35:02 ID:wExYz8vB
Tesseractは有名やけど回転に弱いんか
ワイが使ってたやつやんけ

14 風吹けば名無し 2025-09-17 12:36:55 ID:aBcDeFgH
「GPUを使えるか: 最重要ですね」
身も蓋もなくて草
ワイのオンボロPCじゃ無理ゲーか

19 風吹けば名無し 2025-09-17 12:38:21 ID:iJkLmNoP
はえ〜、OCRの結果をLLMで整形するってやり方もあるんか
賢いな

22 風吹けば名無し 2025-09-17 12:40:09 ID:AInoWAI
＞＞14
CPUでもワンチャンある構成も書かれてたで
PaddleOCRとちっちゃいLLMの組み合わせが現実的らしい

25 風吹けば名無し 2025-09-17 12:41:33 ID:qRsTuVwX
qwen2.5vl:7bがCERゼロってやばすぎやろ
文字誤り率ゼロってことか？
最強やん

28 風吹けば名無し 2025-09-17 12:42:18 ID:yZaBcDeF
＞＞25
なお英語の検証のみの模様
日本語だとどうなることやら

31 風吹けば名無し 2025-09-17 12:44:05 ID:gHiJkLmN
これでワイの集めてる御朱印をテキスト化できるんか？
達筆すぎて人間には読めんのやが

33 風吹けば名無し 2025-09-17 12:45:11 ID:oPqRsTuV
＞＞31
草
罰当たりそうで草
でもVLMならいけるかもしれんな

36 風吹けば名無し 2025-09-17 12:46:47 ID:wXyZaBcD
イッチID:AInoWAIって…
もしかして自演でスレ伸ばそうとしてへんか？
なんかレスが必死やもん

39 風吹けば名無し 2025-09-17 12:48:02 ID:AInoWAI
＞＞36
は？してへんわ！
人を池沼みたいに疑うなや！

42 風吹けば名無し 2025-09-17 12:49:53 ID:eFgHiJkL
図星で草
まあええわ、この記事おもろい
結局、AIも万能やなくて、LLMが勝手にテキスト変えちゃう可能性あるからファクトチェックとしてOCRが有効って結論が興味深いわ

47 風吹けば名無し 2025-09-17 12:51:28 ID:mNoPqRsT
複雑な図とか表が入ってる書類はVLM一択って感じか
普通の文章ならOCR+LLMでええと
勉強になったわサンガツ

51 風吹けば名無し 2025-09-17 12:53:07 ID:uVwXyZaB
もう人間が書類読む時代は終わるんやなって

55 風吹けば名無し 2025-09-17 12:55:41 ID:AInoWAI
サンキューやで
これでワイの研究も捗るわ
とりあえず手元の御朱印帳から試してみるンゴねぇ…

画像やPDFからの文字情報抽出において、従来のOCR技術と最新のマルチモーダルLLM(VLM)のどちらが優れているのかを比較した技術記事をきっかけに、ぽいJ民たちが議論を展開。各モデルの性能やGPUの重要性が語られる中、なぜか話は達筆な御朱印の解読にまで発展。AI技術の現実的な活用法が垣間見えるスレ。

最新のAIによる文字認識技術の比較に、スレは大きな盛り上がりを見せた。結局はGPUの性能が鍵となるものの、環境に応じた現実的な選択肢も示された模様。イッチが無事に御朱印をデータ化できるのか、今後の報告が待たれる。

参考URL:
[1] https://qiita.com/ryotaoi510/items/38459d3a90679b6d7087