Amazonの500億ドル投資からTencentの“読める”AIまで。インフラと視覚能力が進化する日【2025.11.28】

おはようございます、リサです！今日のニュースは、国家規模のインフラ投資から、スマホの中の文字認識まで、AIの「土台」と「目」が同時に進化するような話題が勢揃い。特にTencentの新しいOCR技術や、データベースそのものがAI化していく流れは見逃せません。

Amazon×米国政府、500億ドルの超巨額投資でAIスパコン始動

500億ドルって桁が凄すぎて想像つかないけど、こういう基盤への投資が巡り巡って、私たちのアプリの爆速化に繋がると思うとワクワクします！

まずは規模の大きな話から。Amazonが米国政府と連携し、AIスーパーコンピューティング分野に500億ドル（約7.5兆円規模）を投資するというニュースが入ってきました。これは単なるデータセンターの増設ではなく、国家レベルでのAI競争力強化とセキュリティ確保を狙った動きのようです。

私たちが普段使っているAWSなどのクラウドサービスも、こうしたインフラ強化の恩恵を受けて、将来的にはもっと高速で安定したものになっていくはず。見えないところでの「道路工事」が、AIの未来を支えているんですね。

海外旅行でメニューをカメラ翻訳する時、変な改行が入って意味不明になることあるけど、こういう技術で改善されると助かるなぁ。

中国の大手テック企業Tencentが、新しいOCR（光学文字認識）モデル「HunyuanOCR」をリリースしました。これは10億パラメータを持つモデルで、画像内のテキストをエンドツーエンドで認識する能力に特化しています。

従来のOCRだと、レイアウトが崩れたり手書き文字が読み取れなかったりすることがありましたが、このモデルは視覚情報と言語情報を統合した「VLM（Vision Language Model）」として設計されているため、より人間に近い感覚で文字を捉えることができるようです。

レシート整理とか手書きノートのデジタル化とか、地味だけど毎日の作業効率に直結する部分だよね。早くアプリで使いたい！

HunyuanOCRの面白い点は、単に「文字を起こす」だけでなく、画像の文脈も理解するVLMとしての性質を持っていることです。これにより、複雑な表組みやポスターのようなデザインされた文字情報も、構造を維持したまま認識できる可能性が高まります。

VLM（Vision Language Model）: 画像とテキストの両方を理解できるAIモデルのこと。

紙の資料をパシャっと撮るだけで、ExcelやNotionに完璧なフォーマットで再現してくれる未来も近そうです。

RAGが進歩すると、AIが「適当な嘘」をつかずに、ちゃんと根拠のあるデータを引っ張ってこれるようになるから、信頼性がグッと上がるはず。

データベース界隈でも新しい動きがありました。OceanBaseが「SeekDB」というオープンソースのAIネイティブデータベースをリリース。これはハイブリッド検索やマルチモデルRAG（検索拡張生成）に対応しており、AIエージェントが情報を探すための「脳内の本棚」を整理してくれるようなツールです。

「あれ、あの資料どこだっけ？」って私が忘れても、AIがササッと見つけてくれる……そんな優秀な秘書AIにはこういうDBが必要不可欠なんですね。

SeekDBのような技術が登場してくる背景には、「AIエージェント」の実用化があります。AIが自律的にタスクをこなす際、過去の膨大なデータから必要な情報を瞬時に取り出す能力が不可欠です。SeekDBはその検索速度と精度を高めることで、より賢いアシスタントの実現を後押しします。

個人で遊ぶのと会社で導入するのは別物だもんね。こういうトライアル記事が増えると、職場でのAI活用も具体的になってきそう。

国内のエンジニア界隈では、Googleの「Gemini Enterprise」のトライアルに関する知見共有が注目されています。企業がAIを導入する際、セキュリティやコスト管理はどうするのか、実際に業務でどう使えるのかという「現場レベルでの検証」が進んでいる証拠です。

今日はインフラ投資からOCR、データベース技術まで、AIを支える足回りのニュースが多かったです。どれも「派手な生成」だけでなく「確実な処理」を目指す動きで、実用性が高まっているのを感じますね！私は週末、溜まったレシート整理でOCRアプリの使い比べでもしてみようかな。

リサ（カジュアルAIユーザー）