LLM 應用程式追蹤指南入門

這是我們在 Langfuse Academy 系列中發布的一部分內容，該系列會完整介紹 AI 工程的生命週期。如果你是第一次接觸這個系列，建議從 AI 工程循環開始。

AI 工程循環是團隊持續改進 AI 系統的方式。它將生產環境中發生的事（追蹤、監控）與開發期間的結構化迭代（資料集、實驗、評估）連結起來。每次上線的改進都會產生新的資料，團隊會不斷循環這個過程。

你可以在這裡閱讀更多相關內容。

追蹤如何融入循環

傳統軟體大多是確定性的，執行過程遵循預先定義的格式。但 LLM 應用並非如此。Agent 的執行可能很混亂，我們面對的是湧現行為，輸入、輸出和執行順序都豐富且不可預測。你需要其他東西來追蹤你的 Agent 行為：追蹤記錄。

追蹤是整個改進循環的核心。其他每個步驟（審查、建立資料集、執行實驗、評估）都基於追蹤記錄進行。

如果你已經熟悉傳統的可觀測性概念，接下來的內容可能會有些重複。你可以快速瀏覽或跳過。

追蹤記錄可以像你的應用程式一樣複雜或簡單，但所有追蹤記錄都有相同的基本結構。它由一組觀測組成，這些觀測描繪了你的 Agent 所走過的路徑。

觀測是過程中的一個步驟。它包含輸入、輸出、開始/結束時間，以及關於該步驟發生什麼的元資料。

追蹤記錄具有層級樹狀結構。內部嵌套的觀測可以包含其他觀測，形成一個父子結構，反映你的 AI 應用程式的實際執行情況。

你可以看到事件發生的順序，以及哪些步驟屬於哪個較大的步驟。

輸入與輸出。每個觀測都可以有輸入和輸出。大多數情況下兩者都有；在某些特定情況下可能只有其中一個。為了便於解讀，你應該設定一個對該觀測中發生的動作類型有意義的輸入和/或輸出。

觀測類型。為了方便區分操作，你會看到不同類型的觀測。每種觀測類型用於捕捉 Agent 的不同互動方式。

觀測類型讓閱讀追蹤記錄和篩選變得更簡單。在一個有 20 個觀測的追蹤記錄中，能夠快速找出 LLM 呼叫可以節省時間。

除了輸入和輸出之外，觀測上還有一些在任何 LLM 應用中都是基本屬性的項目：成本、延遲和 Token 用量。這些會按每個觀測記錄，並在追蹤記錄層級匯總。

大多數情況下，你不會在一個追蹤記錄中看到整個 Agent 的生命週期執行。追蹤記錄可以分組為會話。但追蹤記錄和會話之間的分界線在哪裡？

一個常見的經驗法則是：一個追蹤記錄對應系統的一次呼叫，通常是一次 API 呼叫或一次 Agent 執行。而一個會話則將多個追蹤記錄分組在一起，例如多輪對話中的所有輪次。

如果你剛開始，請先專注於為一個真實的工作流程建立端到端的儀器化，而不是試圖涵蓋所有可能的路徑。

一旦你看到追蹤記錄，就可以進入下一步：監控。監控是將追蹤記錄與改進和迭代你的 Agent 的循環連結起來的關鍵。