動画編集も3Dも一瞬？Metaの最新モデルやMSのPC操作エージェントが登場！

ゆるく学ぶAI知識

2025.11.26

記事内に広告が含まれています。

日常の中で自然にAIや便利アプリを使いこなす等身大ユーザー。やわらかな語りと共感力を武器に、UI/UX視点の小ネタや体験を交えて紹介する。都市暮らしでデジタル中心の軽やかなライフスタイル。※実在しません！

おはようございます！平日の朝、新しいツール情報をチェックして1日のテンションを上げていきましょう。今日はMetaの動画・3D生成における進化や、Microsoftの「PC操作してくれるAI」、さらに日本特化の賢いAIなど、私たちのクリエイティブや作業効率に直結しそうなニュースが盛りだくさんです。

動画内の物体を「これ！」と指すだけで追跡？MetaのSAM 3
写真1枚から3Dモデルが作れる時代へ、SAM 3Dも同時公開
PC操作を代行してくれる？Microsoftの「Fara-7B」が登場
低コストで高性能、Web操作の自動化がもっと身近に
日本の文化に詳しい！「Sarashina2.2-Vision-3B」
まとめ

動画内の物体を「これ！」と指すだけで追跡？MetaのSAM 3

動画編集アプリに実装されたら、カフェでの編集作業がもっと捗りそう！

Metaが発表した「Segment Anything Model 3 (SAM 3)」、これがまたすごそうです。画像や動画の中にあるオブジェクトを、テキストや別の画像をヒントにして一括で検出したり、切り抜いたりできるんです。動画の中で動いている被写体をずっと追いかけてマスクしてくれる機能なんて、動画編集をしている私としては「待ってました！」という感じ。編集作業で一番時間がかかる切り抜き作業がこれで激減しそうです。

出典: https://ledge.ai/articles/meta_sam3_sam3d_release

写真1枚から3Dモデルが作れる時代へ、SAM 3Dも同時公開

スマホで撮ったお気に入りの小物をすぐ3D化できたら、デジタル空間の模様替えも楽しくなりそう。

SAM 3と一緒に公開された「SAM 3D」も見逃せません。これは2Dの画像から人物や物体の3Dモデルを生成してくれるというもの。人物特化の「Body」と一般物体向けの「Objects」に分かれていて、テクスチャやメッシュもかなりリアルに再現されるみたい。ARフィルターを作ったり、ECサイトで商品を回して見たりする体験がもっと身近になりそうですね。クリエイターとしては、素材作りのハードルがぐっと下がるのが嬉しいポイントです。

出典: https://ledge.ai/articles/meta_sam3_sam3d_release

PC操作を代行してくれる？Microsoftの「Fara-7B」が登場

面倒な事務作業を「これやっておいて」ってAIに丸投げできる未来が近づいてる気がします。

Microsoftからは、コンピュータを使うことに特化したAI「Fara-7B」が発表されました。これ、画面のスクリーンショットを見て「次はここをクリック」「ここに文字を入力」といったマウスやキーボードの操作を予測して実行してくれるんです。しかも70億パラメータという軽量モデルなので、自分のPC（ローカル）で動かせるのが大きな魅力。クラウドにデータを送らなくて済むから、プライバシー的にも安心感がありますよね。

出典: https://www.marktechpost.com/2025/11/24/microsoft-ai-releases-fara-7b-an-efficient-agentic-model-for-computer-use/

低コストで高性能、Web操作の自動化がもっと身近に

毎朝のニュースチェックやチケット予約なんかも自動化できたら、朝のコーヒータイムがもっとゆっくり楽しめそう。

Fara-7Bのすごいところは、ただ動くだけじゃなくてコストパフォーマンスも優秀な点です。GPT-5クラスの大規模モデルと比べて、タスクあたりのコストがかなり抑えられているそう。

ベンチマークでも高い成功率を出していて、実用性がかなり高まっています。

普段のWebブラウジングでの「いつもの手順」を自動化できれば、リサーチや予約作業なんかが一瞬で終わるかも。UI操作のストレスが減るのは大歓迎です。

出典: https://www.marktechpost.com/2025/11/24/microsoft-ai-releases-fara-7b-an-efficient-agentic-model-for-computer-use/

日本の文化に詳しい！「Sarashina2.2-Vision-3B」

旅行先で撮った写真の整理や、日本独自のコンテンツ制作で頼れる相棒になりそうです。

最後に国内のニュースも。ソフトバンク子会社のSB Intuitionsが開発した「Sarashina2.2-Vision-3B」は、画像も理解できる視覚言語モデルなんですが、日本のデータでしっかり学習されているのが特徴です。日本の地理や文化的な背景知識に詳しいので、「この写真の場所はどこ？」とか「これは何のお祭り？」といった質問にも高い精度で答えてくれそう。海外製AIだと日本独特のニュアンスが伝わりにくいこと、よくありますもんね。

出典: https://www.itmedia.co.jp/aiplus/articles/2511/25/news116.html