
LLM 應用程式追蹤指南入門
AI 功能
- 曝光
- 319K
- 讚
- 42
- 轉發
- 5
- 留言
- 2
- 收藏
- 110
TL;DR
本指南說明了追蹤如何作為 AI 工程循環的基礎,並詳細介紹了觀測結構、階層式追蹤(traces)以及追蹤與工作階段(sessions)之間的差異。
正在看 繁體中文 譯文
這是我們在 Langfuse Academy 系列中發布的一部分內容,該系列會完整介紹 AI 工程的生命週期。如果你是第一次接觸這個系列,建議從 AI 工程循環 開始。
AI 工程循環快速回顧
AI 工程循環是團隊持續改進 AI 系統的方式。它將生產環境中發生的事(追蹤、監控)與開發期間的結構化迭代(資料集、實驗、評估)連結起來。每次上線的改進都會產生新的資料,團隊會不斷循環這個過程。

你可以在這裡閱讀更多相關內容。
追蹤如何融入循環
傳統軟體大多是確定性的,執行過程遵循預先定義的格式。但 LLM 應用並非如此。Agent 的執行可能很混亂,我們面對的是湧現行為,輸入、輸出和執行順序都豐富且不可預測。你需要其他東西來追蹤你的 Agent 行為:追蹤記錄。
追蹤是整個改進循環的核心。其他每個步驟(審查、建立資料集、執行實驗、評估)都基於追蹤記錄進行。
如果你已經熟悉傳統的可觀測性概念,接下來的內容可能會有些重複。你可以快速瀏覽或跳過。
追蹤記錄的結構
追蹤記錄可以像你的應用程式一樣複雜或簡單,但所有追蹤記錄都有相同的基本結構。它由一組觀測組成,這些觀測描繪了你的 Agent 所走過的路徑。
觀測是過程中的一個步驟。它包含輸入、輸出、開始/結束時間,以及關於該步驟發生什麼的元資料。
層級結構
追蹤記錄具有層級樹狀結構。內部嵌套的觀測可以包含其他觀測,形成一個父子結構,反映你的 AI 應用程式的實際執行情況。

你可以看到事件發生的順序,以及哪些步驟屬於哪個較大的步驟。
觀測資料
輸入與輸出。每個觀測都可以有輸入和輸出。大多數情況下兩者都有;在某些特定情況下可能只有其中一個。為了便於解讀,你應該設定一個對該觀測中發生的動作類型有意義的輸入和/或輸出。
觀測類型。為了方便區分操作,你會看到不同類型的觀測。每種觀測類型用於捕捉 Agent 的不同互動方式。

觀測類型讓閱讀追蹤記錄和篩選變得更簡單。在一個有 20 個觀測的追蹤記錄中,能夠快速找出 LLM 呼叫可以節省時間。
成本、延遲、Token 用量
除了輸入和輸出之外,觀測上還有一些在任何 LLM 應用中都是基本屬性的項目:成本、延遲和 Token 用量。這些會按每個觀測記錄,並在追蹤記錄層級匯總。
追蹤記錄 vs 會話
大多數情況下,你不會在一個追蹤記錄中看到整個 Agent 的生命週期執行。追蹤記錄可以分組為會話。但追蹤記錄和會話之間的分界線在哪裡?

一個常見的經驗法則是:一個追蹤記錄對應系統的一次呼叫,通常是一次 API 呼叫或一次 Agent 執行。而一個會話則將多個追蹤記錄分組在一起,例如多輪對話中的所有輪次。
從哪裡開始
如果你剛開始,請先專注於為一個真實的工作流程建立端到端的儀器化,而不是試圖涵蓋所有可能的路徑。
- 為應用程式中一個重要的請求路徑設定追蹤。
- 確保每個觀測都能捕捉到該步驟有用的輸入、輸出和元資料。
- 手動審查幾個真實的追蹤記錄,確認結構易於理解且對除錯有幫助。
接下來是什麼
一旦你看到追蹤記錄,就可以進入下一步:監控。監控是將追蹤記錄與改進和迭代你的 Agent 的循環連結起來的關鍵。


