LLM 應用程式追蹤指南入門

LLM 應用程式追蹤指南入門

@lotte_verheyden
英語1 天前 · 2026年5月15日

AI 功能

319K
42
5
2
110

TL;DR

本指南說明了追蹤如何作為 AI 工程循環的基礎,並詳細介紹了觀測結構、階層式追蹤(traces)以及追蹤與工作階段(sessions)之間的差異。

這是我們在 Langfuse Academy 系列中發布的一部分內容,該系列會完整介紹 AI 工程的生命週期。如果你是第一次接觸這個系列,建議從 AI 工程循環 開始。

AI 工程循環快速回顧

AI 工程循環是團隊持續改進 AI 系統的方式。它將生產環境中發生的事(追蹤、監控)與開發期間的結構化迭代(資料集、實驗、評估)連結起來。每次上線的改進都會產生新的資料,團隊會不斷循環這個過程。

Lotte - inline image

你可以在這裡閱讀更多相關內容。

追蹤如何融入循環

傳統軟體大多是確定性的,執行過程遵循預先定義的格式。但 LLM 應用並非如此。Agent 的執行可能很混亂,我們面對的是湧現行為,輸入、輸出和執行順序都豐富且不可預測。你需要其他東西來追蹤你的 Agent 行為:追蹤記錄

追蹤是整個改進循環的核心。其他每個步驟(審查、建立資料集、執行實驗、評估)都基於追蹤記錄進行。

如果你已經熟悉傳統的可觀測性概念,接下來的內容可能會有些重複。你可以快速瀏覽或跳過。

追蹤記錄的結構

追蹤記錄可以像你的應用程式一樣複雜或簡單,但所有追蹤記錄都有相同的基本結構。它由一組觀測組成,這些觀測描繪了你的 Agent 所走過的路徑。

觀測是過程中的一個步驟。它包含輸入、輸出、開始/結束時間,以及關於該步驟發生什麼的元資料。

層級結構

追蹤記錄具有層級樹狀結構。內部嵌套的觀測可以包含其他觀測,形成一個父子結構,反映你的 AI 應用程式的實際執行情況。

Lotte - inline image

你可以看到事件發生的順序,以及哪些步驟屬於哪個較大的步驟。

觀測資料

輸入與輸出。每個觀測都可以有輸入和輸出。大多數情況下兩者都有;在某些特定情況下可能只有其中一個。為了便於解讀,你應該設定一個對該觀測中發生的動作類型有意義的輸入和/或輸出。

觀測類型。為了方便區分操作,你會看到不同類型的觀測。每種觀測類型用於捕捉 Agent 的不同互動方式。

Lotte - inline image

觀測類型讓閱讀追蹤記錄和篩選變得更簡單。在一個有 20 個觀測的追蹤記錄中,能夠快速找出 LLM 呼叫可以節省時間。

成本、延遲、Token 用量

除了輸入和輸出之外,觀測上還有一些在任何 LLM 應用中都是基本屬性的項目:成本、延遲和 Token 用量。這些會按每個觀測記錄,並在追蹤記錄層級匯總。

追蹤記錄 vs 會話

大多數情況下,你不會在一個追蹤記錄中看到整個 Agent 的生命週期執行。追蹤記錄可以分組為會話。但追蹤記錄和會話之間的分界線在哪裡?

Lotte - inline image

一個常見的經驗法則是:一個追蹤記錄對應系統的一次呼叫,通常是一次 API 呼叫或一次 Agent 執行。而一個會話則將多個追蹤記錄分組在一起,例如多輪對話中的所有輪次。

從哪裡開始

如果你剛開始,請先專注於為一個真實的工作流程建立端到端的儀器化,而不是試圖涵蓋所有可能的路徑。

  1. 為應用程式中一個重要的請求路徑設定追蹤
  2. 確保每個觀測都能捕捉到該步驟有用的輸入、輸出和元資料。
  3. 手動審查幾個真實的追蹤記錄,確認結構易於理解且對除錯有幫助。

接下來是什麼

一旦你看到追蹤記錄,就可以進入下一步:監控。監控是將追蹤記錄與改進和迭代你的 Agent 的循環連結起來的關鍵。

更多可拆解樣本

近期爆款文章

探索更多爆款文章

為創作者而生。

從全球 𝕏 爆款文章裡發現選題,拆解它為什麼能爆,再把可複用的內容結構變成你的下一篇創作靈感。