1 イッチ 2025/09/24(水) 10:30:15 ID:AItechLOVE
すまん、とんでもない技術が出てきてしもた…
ワイらの未来、変わるかもしれん
https://www.marktechpost.com/2025/09/23/meet-voxtream-an-open-sourced-full-stream-zero-shot-tts-model-for-real-time-use-that-begins-speaking-from-the-first-word/
Real-time agents, live dubbing, and simultaneous translation die by a thousand milliseconds. VoXtream—released by KTH’s Speech, Music and Hearing group—attacks this head-on: it begins speaking after the first word, outputs audio in 80 ms frames, and reports 102 ms first-packet latency (FPL) on a modern GPU (with PyTorch compile). Full-stream systems consume text as it arrives (word-by-word from an LLM) and emit audio in lockstep.
要はLLMが考えながら喋るレベルのリアルタイム音声合成や
これもう同人音声のシコリティ爆上がり確定やろ…
3 ぷいぷいJ民 2025/09/24(水) 10:31:02 ID:aaaBBbCc
なんやそれすごそうやんけ
3行で頼むわ
5 イッチ 2025/09/24(水) 10:32:15 ID:AItechLOVE
>>3
・AIが「考えながら喋る」レベルの爆速音声合成
・遅延ほぼゼロでガチのリアルタイム会話が可能に
・オープンソースやから誰でも使える
8 ぷいぷいJ民 2025/09/24(水) 10:33:40 ID:dDeEfFgG
ファッ!?マジかよ
つまりワイの考えた最強のセリフを即座に美少女ボイスで聞けるってことか?
夢広がりすぎやろ
12 ぷいぷいJ民 2025/09/24(水) 10:35:01 ID:hHiIjJkK
これで好きな子に告白する練習するわ
相手の返答もAIに言わせれば完璧やん!
15 ぷいぷいJ民 2025/09/24(水) 10:36:22 ID:lLmMnNoO
>>12
やめーや、虚しくなるだけやぞw
でも好きなキャラに自分の名前呼ばせ放題はロマンあるな
19 イッチ 2025/09/24(水) 10:38:10 ID:AItechLOVE
せやろ?「フルストリーム」っていうのがキモで、長文でも途切れずにヌルヌル喋るんや
論文には『The core trick is a dynamic phoneme look-ahead』とか書いてあったわ
ようわからんがとにかくすごい(小並感)
23 ぷいぷいJ民 2025/09/24(水) 10:40:05 ID:pPqQrRsS
技術的なことは知らんが、シコリティが向上するのは完全に理解した
28 ぷいぷいJ民 2025/09/24(水) 10:42:18 ID:tTuUvVwW
これもうVtuberになれるやん
地声コンプのワイ、歓喜
31 ぷいぷいJ民 2025/09/24(水) 10:43:55 ID:xXyYzZaA
オープンソースってのが最高やな
まあ変な同人音声が溢れる未来しか見えんが…
悪用厳禁やぞ!絶対やぞ!
35 イッチ 2025/09/24(水) 10:45:30 ID:AItechLOVE
しかも既存の技術よりエラー率も低くて自然らしいで
「VoXtreamは、~CosyVoice2よりも低いWER(3.24%)を示し、自然さの主観評価で優位性を示した」とのことや
もう人間と区別つかへんレベルやろ
41 ぷいぷいJ民 2025/09/24(水) 10:47:11 ID:bBcCdDeE
俺、この技術で好きな同人作家に俺の書いた小説読んでもらって告白するわ
44 ぷいぷいJ民 2025/09/24(水) 10:48:09 ID:fFgGhHiI
>>41
その告白文をAIに読ませるんか?地獄絵図やんけ
作家ニキも困惑するやろ…
50 ぷいぷいJ民 2025/09/24(水) 10:50:23 ID:jJkKlLmM
ゲームのNPCが全員フルボイスとか当たり前になるんかな
MODコミュニティが革命やんこんなん
自分の嫁に好きなこと喋らせられる…
56 ぷいぷいJ民 2025/09/24(水) 10:52:45 ID:nNoOpPqQ
シコリティとか告白とか言ってる場合ちゃうぞ
ガチで仕事奪われるやつやんこれ
声優とか通訳とかマジでどうすんねん…
62 イッチ 2025/09/24(水) 10:55:00 ID:AItechLOVE
>>56
まあ技術の進歩やししゃーない
ワイはとりあえず好きなキャラに罵倒させまくるわ
65 ぷいぷいJ民 2025/09/24(水) 10:56:12 ID:rRsStTuU
結局そっち方面に落ち着くんかいw
まあわかるけどな
KTHから発表された新しいリアルタイム音声合成モデル『VoXtream』が話題に。LLMが思考しながら話すかのような超低遅延を実現し、オープンソースであることから同人音声やゲームMODなどへの活用に期待の声が上がっている。
技術の進化は止まらへんな。ワイらの生活がどう変わるか楽しみやで。とりあえず今夜は好きなセリフを生成やな!
参考URL:
[1] https://www.marktechpost.com/2025/09/23/meet-voxtream-an-open-sourced-full-stream-zero-shot-tts-model-for-real-time-use-that-begins-speaking-from-the-first-word/


