RẺ NHẤT LÀ $249 VÀ CHẠY MÔ HÌNH 7B CẢ NGÀY
Theo dõi
@antisadh trước khi bạn đọc. Còn 4 bài viết tương tự sắp ra mắt trong tháng này. Bỏ lỡ theo dõi, bỏ lỡ cơ hội.
Tomás 28 tuổi, sống ở Porto, và từng làm kỹ sư QA tại một công ty fintech cho đến khi anh mở ứng dụng ngân hàng vào tháng 3 và thấy thẻ của mình âm €187. Anh đã trả $459 mỗi tháng cho ChatGPT Pro, Claude Code Max, Cursor, GitHub Copilot và Gemini Advanced, và không để ý đến tổng số tiền cho đến khi tiền thuê nhà bị trả lại.
Anh mua một chiếc RTX 3090 đã qua sử dụng trên OLX ngay tối hôm đó với giá €680, hủy mọi thứ ngoại trừ một gói ChatGPT Plus $20, và 4 tháng sau, chiếc thẻ đã tự trả lại gấp đôi. Giờ đây, cùng một GPU đó tự cho thuê trên Vast.ai khi anh ngủ và kiếm thêm $520 mỗi tháng.
Anh chạy các mô hình lớn hơn cục bộ so với những gì Claude Code Max từng cung cấp cho anh.
Đây không phải là một chiêu trò khoe khoang. Các cửa hàng Apple Store trên thực tế đã hết hàng Mac Mini trong quý 1 vì các nhà phát triển đang biến chúng thành máy chủ AI gia đình. NVIDIA đã định giá một bộ công cụ phát triển $249 có thể chạy mô hình 7B cục bộ. CEO của AMD đã đích thân ký tặng một chiếc PC mini $1,700 có thể chạy các mô hình lớn hơn những gì Claude Pro cung cấp cho bạn. Toàn bộ hệ thống đăng ký có ý nghĩa vào năm 2024 đã phá sản vào giữa năm 2026, và hầu như không ai nói rõ về điều này.
PHẦN 1
$5,508 MỖI NĂM MÀ HẦU HẾT CÁC NHÀ PHÁT TRIỂN KHÔNG NHẬN RA HỌ ĐANG TRẢ
Hầu hết mọi người không cộng dồn chi tiêu AI của họ. Các khoản đăng ký trông có vẻ nhỏ riêng lẻ và ẩn bên trong các bảng sao kê thẻ hàng tháng.
Bộ công cụ mà một người dùng AI nghiêm túc sử dụng trong năm 2026:
1Claude Code Max (20x) $200/tháng $2,400/năm2ChatGPT Pro $200/tháng $2,400/năm3Gemini Advanced $20/tháng $240/năm4GitHub Copilot $19/tháng $228/năm5Cursor Pro $20/tháng $240/năm67Tổng cho người dùng nặng $459/tháng $5,508/năm
$5,508 một năm. Cho phần mềm chạy trên máy tính của người khác, gửi dữ liệu của bạn đến máy chủ của họ và giới hạn tốc độ chính xác khi bạn cần nhất (sáng thứ Hai, chiều thứ Sáu, ngày ra mắt).
Mọi thiết bị trên bản đồ dưới đây biến hóa đơn định kỳ đó thành một lần mua phần cứng duy nhất cộng với $2 đến $9 mỗi tháng tiền điện. Phép tính có cùng hình dạng bất kể bạn chọn tầng nào:
1Năm 1: Tiết kiệm $5,508 Chi tiêu $249 đến $1,700 + $50 đến $200 tiền điện2Năm 2: Tiết kiệm $11,016 $100 tiền điện3Năm 3: Tiết kiệm $16,524 $100 tiền điện
Đến năm thứ 3, ngay cả thiết bị đắt nhất trên bản đồ cũng đã tự trả lại gấp 6 đến 10 lần. Và đó là trước khi bạn xem xét con đường thu nhập cho thuê trong Phần 6.
PHẦN 2
CẤP ĐỘ 1: JETSON ORIN NANO SUPER, $249, ĐIỂM KHỞI ĐẦU
Jensen Huang đã công bố thiết bị này với mức giá không tưởng: $249 cho một máy tính có GPU NVIDIA chuyên dụng nhỏ hơn một bộ bài. Nó được giao từ Amazon với giá thấp hơn một bữa tối ngon lành.
Những gì nó chạy: Llama 3.2 (3B), Mistral 7B, Gemma 2 (9B), DeepSeek R1 (1.5B), Qwen 2.5 (7B). Tất cả đều miễn phí, tất cả đều cục bộ, tất cả mãi mãi. Các mô hình 7B xử lý khoảng 80% những gì mọi người sử dụng ChatGPT Plus hàng ngày. Soạn thảo, tóm tắt, viết mã script, hỏi đáp nhanh.
Những gì nó không xử lý được: suy luận phức tạp nhiều bước, cửa sổ ngữ cảnh lớn trên 8K token, bất cứ thứ gì yêu cầu trí thông minh mô hình tiên tiến.
Thông số kỹ thuật sơ qua: 8GB bộ nhớ hợp nhất, hiệu suất AI 67 TOPS, mức tiêu thụ điện 7 đến 25W, khoảng $2 mỗi tháng tiền điện khi chạy 24/7. Hòa vốn so với một gói đăng ký ChatGPT Plus $20 duy nhất là 13 tháng. Hòa vốn so với Claude Code Max là 6 tuần.
Đây là thiết bị dành cho người trả $20/tháng cho ChatGPT Plus và chỉ muốn dừng lại.
PHẦN 3
CẤP ĐỘ 2: MAC MINI M4, $599, LỰA CHỌN MẶC ĐỊNH
Các cửa hàng Apple Store đã hết hàng Mac Mini vào đầu năm 2026, và đó không phải vì ra mắt sản phẩm. Các nhà phát triển đã phát hiện ra rằng kiến trúc bộ nhớ hợp nhất bên trong chip M4 khiến nó trở thành một trong những máy suy luận AI hiệu quả nhất bạn có thể mua ở bất kỳ mức giá nào.
Hai tầng có ý nghĩa:
1Mac Mini M4 $599 16GB bộ nhớ, chạy thoải mái mô hình 8B2Mac Mini M4 Pro $1,399 48GB bộ nhớ, chạy cục bộ mô hình 70B
Mẫu cơ bản $599 chạy thoải mái các mô hình tham số 8B. Mẫu M4 Pro $1,399 với 48GB chạy Llama 3.3 70B, thứ gần nhất với GPT-4 mà bạn có thể chạy trên phần cứng tiêu dùng hiện nay.
Lý do nó hoạt động tốt như vậy: trên PC thông thường, dữ liệu liên tục sao chép giữa RAM hệ thống và VRAM GPU, làm chậm tốc độ suy luận. Trên Apple Silicon, CPU và GPU chia sẻ một nhóm bộ nhớ duy nhất, vì vậy mô hình tải một lần và cả hai bộ xử lý đọc từ cùng một nơi. Đây là lý do tại sao Mac Mini $599 vượt trội hơn các máy AI Windows $1,500 trên cùng một điểm chuẩn.
Một nhà phát triển đã ghi lại quá trình chuyển đổi trên XDA vào tháng 4 năm 2026, thay thế Claude Pro bằng thiết lập Mac Mini M4 và báo cáo "năng suất không hề giảm một chút nào." Hòa vốn so với Claude Code Max $200/tháng là 3 tháng trên mẫu cơ bản, 7 tháng trên mẫu Pro.

PHẦN 4
CẤP ĐỘ 3: RTX 3090 ĐÃ QUA SỬ DỤNG, $700, GIÁ TRỊ TỐT NHẤT TRÊN MỖI ĐÔ LA
Mọi GPU được phát hành trong hai năm qua đều có cùng một điểm yếu cho AI: không đủ bộ nhớ. RTX 5090 có 32GB và có giá $3,800. RTX 4090 có 24GB và có giá $2,000+. RTX 3090 đã 5 năm tuổi, cũng có 24GB, có giá $700 đã qua sử dụng trên eBay.
Đối với AI cục bộ, VRAM quan trọng hơn thế hệ chip. Một card 2020 với 24GB luôn đánh bại card 2024 với 12GB. RTX 3090 không chỉ rẻ, mà còn thực sự tốt hơn các đàn em nhỏ hơn mới hơn của nó cho công việc cụ thể này.
Mô hình làm cho điều này trở nên đáng giá: Qwen 3.6 27B. Alibaba đã âm thầm tung ra nó vào đầu năm 2026 và các điểm chuẩn đã làm chao đảo internet.
1Điểm chuẩn Qwen 3.6 27B (miễn phí, cục bộ) Claude 4.5 Opus ($200/tháng)2RealWorldQA (thị giác) 84.1 77.03IFBench (hướng dẫn) 76.5 58.04AIME 2026 (toán học) 91.3 93.35MMLU (kiến thức) 83.2% ~82%
Một mô hình 27B có thể chạy cục bộ miễn phí đánh bại mô hình hàng đầu của Anthropic về thị giác 7 điểm và về hướng dẫn 18 điểm. Đây là thiết bị dành cho người đã có PC và chỉ cần gắn thêm một card. Mua từ người bán eBay có phản hồi 98%+, yêu cầu ảnh chụp màn hình GPU-Z để kiểm tra lỗi bộ nhớ và tránh các card được mô tả là "từ giàn khai thác."
Hòa vốn so với Claude Code Max là 3.5 tháng. Sau đó, card này là khoản tiết kiệm thuần túy cho đến khi nó chết về mặt vật lý, thường là 5 đến 8 năm đối với 3090.
PHẦN 5
CẤP ĐỘ 4: GMKtec EVO-X2, $1,700, MÔ HÌNH TIÊN TIẾN CỤC BỘ
Tại CES 2026, CEO của AMD, Lisa Su, đã đứng trên sân khấu với một chiếc hộp đen nhỏ phía sau. Vài tháng sau, tại Ngày hội Nhà phát triển AI của AMD ở Thượng Hải, bà đã bước đến cùng thiết bị đó và đích thân ký tặng nó. Thiết bị đó là GMKtec EVO-X2.
Đây là chip x86 đầu tiên từng được chế tạo có thể chạy mô hình 200 tỷ tham số trên một vi mạch duy nhất. Lên đến 110GB VRAM có thể sử dụng trên Linux, đủ để chạy Qwen3-235B đầy đủ và mượt mà, cùng với DeepSeek-V3 và Llama 3.3 70B mà không cần bất kỳ thủ thuật lượng tử hóa nào.
1Mô hình VRAM cần thiết Kết quả trên EVO-X22Qwen3-235B ~110GB Chạy đầy đủ, mượt mà3DeepSeek-V3 ~100GB Chạy thoải mái4Llama 3.3 70B ~42GB Nhanh, nhiều dư địa5Qwen 3.6 27B ~16GB Rất nhanh, trình điều khiển hàng ngày
Tuyên bố của AMD tại CES: chip này vượt trội hơn NVIDIA RTX 5080 hơn 3 lần về suy luận DeepSeek R1. Một PC mini có kích thước bằng hộp cơm trưa đánh bại card đồ họa rời $1,000+ trên các khối lượng công việc AI thực tế.
Đây là thiết bị dành cho người mà việc sử dụng AI thực sự cần các mô hình 70B đến 235B chạy cục bộ, nghĩa là những người trả $200/tháng cho ChatGPT Pro và Claude Code Max kết hợp và đốt cháy giới hạn tốc độ vào thứ Tư. Hòa vốn đạt khoảng 9 đến 10 tháng. Trong ba năm, thiết bị này tiết kiệm khoảng $13,000 so với việc tiếp tục đăng ký.
PHẦN 6
CẤP ĐỘ 5: XOAY CHUYỂN PHẦN CỨNG, KIẾM TIỀN THAY VÌ TIẾT KIỆM
Cùng một phần cứng chạy AI cục bộ có thể cho người khác thuê để chạy AI. Những người khai thác tiền điện tử đã phát hiện ra điều này đầu tiên. Sau khi sáp nhập Ethereum giết chết khai thác Bitcoin GPU, họ đã hướng giàn khai thác của mình vào các nền tảng cho thuê suy luận AI và bắt đầu kiếm được gấp 1.5 đến 4 lần mỗi giờ so với khi khai thác tiền điện tử.
1GPU Khai thác ($/tháng) Cho thuê AI ($/tháng) Chênh lệch2RTX 3090 $40 đến 90 $200 đến 400 4-5 lần3RTX 4090 $80 đến 150 $500 đến 1,000 5-7 lần4RTX 5090 $120 đến 200 $700 đến 1,400 5-7 lần5A100 80GB n/a $1,200 đến 2,500 n/a6H100 n/a $2,500 đến 5,000 n/a
Các nền tảng thực hiện điều này: Vast.ai, Clore.ai, io.net, RunPod, Akash, Salad. Họ lấy 15 đến 25% và trả phần còn lại bằng đô la hoặc stablecoin. Một RTX 4090 đặt trên bàn tạo ra $500 đến $1,000 mỗi tháng bằng cách cho thuê. Một trang trại nhỏ 8 card kiếm được $4,000 đến $8,000 mỗi tháng với dòng tiền ổn định mà tiền điện tử chưa bao giờ mang lại.
Các trang trại khai thác từng tràn ngập TikTok không còn khai thác Bitcoin nữa, họ đang nuôi dưỡng các token AI cho ChatGPT, Claude và Gemini thông qua các nền tảng cho thuê. OpenAI và Anthropic âm thầm mua sức mạnh tính toán đó giá rẻ từ các trang trại và bán lại cho bạn với giá $200/tháng.
Nếu bạn đã sở hữu 4090 hoặc có ngân sách để thiết lập một cái, điều này sẽ thay đổi hoàn toàn phép tính. Thay vì tiết kiệm $200/tháng, bạn kiếm được $400 đến $800/tháng cho mỗi card.

PHẦN 7
MỘT NGĂN XẾP PHẦN MỀM DUY NHẤT CHẠY TRÊN MỌI THIẾT BỊ Ở TRÊN
Bất kể bạn chọn thiết bị nào, ngăn xếp phần mềm đều giống hệt nhau. Đây là một trong những tín hiệu mạnh mẽ nhất cho thấy AI cục bộ đã trưởng thành. Không phải năm công cụ cạnh tranh mà là một ngăn xếp sạch sẽ hoạt động ở mọi nơi.
1Runtime: Ollama (miễn phí, mã nguồn mở)2Giao diện: Open WebUI (ChatGPT riêng tư trong trình duyệt của bạn)3Tác nhân mã hóa: Claude Code trỏ đến Ollama cục bộ4Mô hình: Qwen 3.6 27B, DeepSeek R1, Llama 3.3 70B,5 Mistral 7B, Gemma 2 9B
Thiết lập giống hệt nhau trên mọi thiết bị. Cài đặt Ollama bằng một lệnh, kéo mô hình lớn nhất mà RAM của bạn cho phép, trỏ Claude Code đến localhost. Ba dòng bash tương tự hoạt động trên Jetson $249 và EVO-X2 $1,700:
1curl -fsSL https://ollama.com/install.sh | sh2ollama pull qwen3.6:27b3ANTHROPIC_BASE_URL=http://localhost:11434/v1 claude
Chỉ vậy thôi. Claude Code bây giờ nói chuyện với mô hình cục bộ của bạn thay vì máy chủ của Anthropic, sử dụng các lệnh tương tự, quy trình làm việc tương tự, chi phí API bằng không, không giới hạn tốc độ, không có dữ liệu rời khỏi mạng của bạn.
PHẦN 8
AI NÊN MUA GÌ: CÂY QUYẾT ĐỊNH
Thiết bị sai là thiết bị bạn mua mà không biết tại sao. Ghép thiết bị với cách bạn thực sự sử dụng AI:
1Nếu bạn trả $20/tháng cho ChatGPT Plus → Jetson Orin Nano $2492Nếu bạn trả $200/tháng cho API AI → Mac Mini M4 $5993Nếu bạn là người dùng nặng Claude Code → Mac Mini M4 Pro $1,3994 hoặc RTX 3090 $7005Nếu bạn cần mô hình 200B+ (công việc tiên tiến) → GMKtec EVO-X2 $1,7006Nếu bạn đã có PC chơi game với 4090 → Bỏ qua Mac, thêm card7Nếu bạn muốn KIẾM tiền thay vì tiết kiệm → Thiết lập trang trại cho thuê GPU8Nếu bạn muốn giá trị tối đa trên mỗi đô la → RTX 3090 đã qua sử dụng trong PC hiện có9Nếu bạn muốn không cần thiết lập, chỉ hoạt động → Mac Mini M410Nếu bạn làm công việc pháp lý/y tế (quyền riêng tư) → Bất kỳ thiết bị nào cũng được, tất cả đều cục bộ
Con đường kết hợp là những gì hầu hết mọi người thực sự kết thúc. Phần cứng cục bộ xử lý 80% các tác vụ hàng ngày miễn phí. Một gói đăng ký ChatGPT Plus hoặc Claude Pro $20/tháng duy nhất vẫn ở lại cho 20% còn lại, các lý do suy luận cấp tiên tiến thực sự khó khăn, nơi mọi điểm chuẩn đều quan trọng. Tổng chi phí hàng tháng: $23 thay vì $459.
PHẦN 9
KẾT QUẢ TỪ 6 THÁNG ĐẦU TIÊN CỦA TOMÁS
1Tháng 1: -$459 tháng cuối cùng của ngăn xếp đăng ký đầy đủ2Tháng 2: -$680 mua RTX 3090 đã qua sử dụng trên OLX3Tháng 3: +$41 chỉ giữ lại ChatGPT Plus $20, tiết kiệm $4394Tháng 4: +$620 niêm yết GPU trên Vast.ai, $580 cho thuê đầu tiên5Tháng 5: +$687 thu nhập Vast ổn định6Tháng 6: +$720 cùng thiết lập, không cần can thiệp
Hiệu ứng cộng dồn: vào tháng thứ 6, GPU đã hoàn toàn tự trả tiền cho chính nó, thay thế $459/tháng tiền đăng ký và tạo thêm $500 đến $700/tháng tiền cho thuê. Tổng chênh lệch từ tháng 1 đến tháng 6 là $1,179/tháng có lợi cho anh ấy với cùng một phần cứng làm tất cả công việc.
Trong 12 tháng, sự khác biệt là $14,148 dòng tiền so với việc ở lại ngăn xếp đăng ký. Trong 3 năm, nó là $42,000. Từ một card đã qua sử dụng €680.

PHẦN 10
CỬA SỔ CƠ HỘI
Sáu tháng trước, bài viết này đã không thể thực hiện được. Các mô hình chưa đủ nhỏ. Phần cứng chưa đủ rẻ. Các gói đăng ký chưa đủ đắt. Mã nguồn mở chưa đủ đáng tin cậy. Cả bốn điều đã thay đổi cùng một lúc từ cuối năm 2025 đến giữa năm 2026.
Các công ty đã xây dựng AI trong ba năm qua cho rằng nó sẽ luôn cần trung tâm dữ liệu của họ. Giả định đó đã phá sản. Một hộp $249 chạy mô hình 7B. Một Mac Mini $599 chạy mô hình 14B. Một GPU đã qua sử dụng $700 chạy các mô hình đánh bại Claude trên các điểm chuẩn thị giác. Một PC mini $1,700 chạy 235 tỷ tham số cục bộ. Trung tâm dữ liệu đã chuyển vào phòng khách.
Bạn không cần phải chọn tùy chọn đắt nhất. Bạn không cần phải là nhà phát triển để sử dụng bất kỳ thiết bị nào trong số chúng. Việc thiết lập chỉ là ba lệnh. Phần mềm miễn phí. Tiền điện có giá thấp hơn một tách cà phê mỗi tháng.
Các gói đăng ký có ý nghĩa khi phần cứng cục bộ không thể theo kịp. Phần cứng đã theo kịp. Chọn cấp độ của bạn và ngừng trả tiền cho sức mạnh tính toán của người khác.
Đây là phần 6 của một loạt bài đang diễn ra về các nguồn thu nhập AI và cắt giảm chi phí mà không ai nói đúng cách. Phần 7 sẽ ra mắt vào tuần tới và phân tích thiết lập trang trại cho thuê GPU: 8 card, một căn hộ, $4,000-8,000 mỗi tháng từ cho thuê sức mạnh tính toán AI thụ động.
/Theo dõi @antisadh để nó xuất hiện trên bảng tin của bạn vào ngày nó được đăng/





