
世界最速の GLM-5.2 API を構築した舞台裏
AI 機能
- 表示
- 462K
- いいね
- 1.4K
- リポスト
- 125
- コメント
- 45
- ブックマーク
- 2.4K
TL;DR
Baseten が GLM-5.2 API の背後にあるエンジニアリングを詳述。NVFP4 量子化、ディスアグリゲーテッド推論、MTP を活用し、毎秒 280 トークン超の速度を達成しました。
日本語 の翻訳を表示中

AI 機能
TL;DR
Baseten が GLM-5.2 API の背後にあるエンジニアリングを詳述。NVFP4 量子化、ディスアグリゲーテッド推論、MTP を活用し、毎秒 280 トークン超の速度を達成しました。
日本語 の翻訳を表示中
自分の長文を投稿するとき、画像・表・コードブロックを 𝕏 向けに整形するのは手間がかかります。YouMind は Markdown 全体を、そのまま投稿できるきれいな 𝕏 記事に変換します。
Markdown → 𝕏 を試す解読すべきパターンをもっと