Claude API 費用 2026 完整解析：2 層折扣最高省 95%

Q: 提示快取怎麼啟用？是不是自動的？

要明確啟用。最簡單的方法是在 API 請求最上層加 `cache_control` 欄位，系統自動管理快取斷點。需要細控制時，可在個別內容區塊上加 `cache_control`。預設效期是 5 分鐘，可選 1 小時版（寫入成本 2 倍但回本門檻只要命中 2 次）。

Claude API 的計費分三層：基礎 token 單價、提示快取（prompt caching）、批次 API（Batch API）。Anthropic 的官方定價表只給第一層，真正決定帳單金額的是後兩層。多數企業上線一個月才發現實際花費比估算高 2 到 3 倍，差距就出在這裡。

這篇拆解 Claude API 完整計費結構、三層折扣怎麼疊加、台灣公司編列月預算的算式，以及多數內容沒講清楚的「舊版不一定比較便宜」。

5 秒看結論
Claude API 採輸入／輸出（input / output）token 雙價結構，每百萬 token（MTok）計費。現役模型分四層：Fable 5（$10 / $50）、Opus 4.8（$5 / $25）、Sonnet 5（$3 / $15）、Haiku 4.5（$1 / $5），單位為美元，1 USD 約 NT$ 31
提示快取的讀取（cache read）只要基礎輸入價的 10%，5 分鐘快取命中一次就回本
批次 API 全項 5 折，疊加快取後有效成本最低可降到 base 的 5%
別用「越舊越便宜」直覺挑模型：Opus 4.5 比 Opus 4.1 便宜 67%、Sonnet 各代同價、舊版 Haiku 已全面退役，沒有「留舊版省錢」這回事
現行世代 tokenizer（Opus 4.7 起，含 Opus 4.8 / Sonnet 5 / Fable 5）同樣文字可能多吃 30% token，預算估算要乘 1.3

Claude API 三層計費結構：token、cache、batch 概念示意

Claude API 怎麼計費：token 單價與現役模型定價

Token 是大型語言模型處理文字的最小單位。1 token 約等於 4 個英文字符或 0.75 個英文單字；中文平均 1 字佔 1 到 2 個 token。換算下來，1 MTok（百萬 token）大約是 75 萬個英文單字或 50 萬個中文字。

輸入與輸出分開計價，是因為輸出對 GPU 算力的消耗遠高於輸入。輸入只要做一次前向傳播，每個輸出 token 都要重新跑一次完整推理，所以 Anthropic 把輸出定價拉到輸入的 5 倍。

「這個結構決定了你的成本走向：知識庫 RAG、長文件摘要這類『輸入重、輸出輕』的任務，單位成本會比『短問短答』的聊天應用便宜許多。」

現役模型定價

下表為目前現役的四個模型，全文價格單位皆為美元 / 每百萬 token（USD / MTok），匯率以 1 USD ≈ NT$ 31 換算（2026 年 7 月）。

模型	定位	輸入（USD / MTok）	輸出（USD / MTok）
Claude Fable 5	極高階：最複雜推理、長時 agentic	$10（約 NT$ 310）	$50（約 NT$ 1,550）
Claude Opus 4.8	旗艦：複雜推理、長文	$5（約 NT$ 155）	$25（約 NT$ 775）
Claude Sonnet 5	主力：生產工作負載	$3（約 NT$ 93）	$15（約 NT$ 465）
Claude Haiku 4.5	輕量：高頻、批次任務	$1（約 NT$ 31）	$5（約 NT$ 155）

Sonnet 5 目前有限時優惠 $2 / $10（至 2026 年 8 月底），比常態 $3 / $15 更低。Fable 5 是最高階、也最貴的層級，適合最複雜的推理與長時 agentic 任務；Opus 跑複雜推理與長文，Sonnet 是生產主力，Haiku 跑高頻、簡單分類、批次標註。能力差距大，成本差距更大：Fable 5 的輸出單價是 Haiku 4.5 的 10 倍。

舊版（Opus 4.1 / 4、Sonnet 4、Haiku 3.5）的定價結構與選型邏輯另段討論，並非「越舊越便宜」。模型選擇細節參考 Claude Opus / Sonnet / Haiku 完整比較。

兩層折扣：提示快取 + 批次 API 怎麼疊加

基礎 token 單價只是起點，真正把帳單壓下來的是兩層折扣：提示快取省掉重複輸入、批次 API 讓非即時任務直接對折。兩者可以相乘不衝突，這節先拆各自怎麼算，再看疊加後最低能降到 base 的 5%。

提示快取：寫一次、讀多次省 90%

提示快取（prompt caching）讓你把系統提示、知識庫、對話歷史等重複輸入標記為可快取，後續呼叫直接讀取，不重新推理。定價結構用三個倍率：寫入成本看效期（TTL），讀取成本只要基礎輸入價的 10%。

模型	5 分鐘寫入	1 小時寫入	讀取（命中）
Claude Fable 5	$12.50	$20	$1.00
Claude Opus 4.8	$6.25	$10	$0.50
Claude Sonnet 5	$3.75	$6	$0.30
Claude Haiku 4.5	$1.25	$2	$0.10

單位 USD / MTok（每百萬 token）。

回本門檻：5 分鐘快取命中 1 次就回本（寫入 1.25 倍 vs 第二次起每次 0.1 倍），1 小時快取命中 2 次回本。

最適合開快取的場景：

客服機器人：每次對話前都灌固定知識庫
程式碼審查：把整個 repo 結構當系統提示
文件問答 RAG：同一份長文件被多人多次查詢
多輪對話：把先前對話歷史快取給下一輪用

「舉例：客服機器人系統提示 10 萬 token，每天命中 5,000 次。沒開快取，當天輸入成本 $1,500（約 NT$ 46,500）；開了 1 小時快取，從第二次起每次只算 $150（約 NT$ 4,650），當天就回本一倍以上。」這是多數企業上線後才發現的最大省錢點。

批次 API：非即時任務直接 5 折

批次 API（Batch API）適用於可以等的非同步任務。提交批次後，Anthropic 在 24 小時內處理完回傳，全項輸入與輸出都打 5 折。

模型	批次輸入	批次輸出
Claude Fable 5	$5	$25
Claude Opus 4.8	$2.50	$12.50
Claude Sonnet 5	$1.50	$7.50
Claude Haiku 4.5	$0.50	$2.50

單位 USD / MTok（每百萬 token）。

適用： 日報週報摘要、客戶分群與情緒分析、海量文件翻譯與結構化抽取、資料標註。

不適用： 即時聊天、串流回應、需要立即回應的應用。

能用批次處理的任務直接打對折，沒理由不分流。

雙重疊加：最高省 95%

提示快取與批次 API 的折扣可以直接相乘，不衝突。實務上適用任務走完兩層折扣後，有效成本最低可降到 base 的 5%。

以 Sonnet 5 跑每月 100 MTok 輸入 + 50 MTok 輸出為例（用常態價 $3 / $15；限時優惠期間會再低）：

計算方式	輸入成本（USD）	輸出成本（USD）	月小計（USD / 約 TWD）
Base（無折扣）	$300	$750	$1,050 / NT$ 32,550
加 1 小時快取（90% 命中）	$90	$750	$840 / NT$ 26,040
加批次（無快取）	$150	$375	$525 / NT$ 16,275
批次 + 快取（90% 命中）	$45	$375	$420 / NT$ 13,020

光是把適合批次的工作負載分流，月成本就從 $1,050 降到 $525，省一半。再加上系統提示快取，再省 20%。多數企業導入 Claude API 第一年的成本優化，這兩招就夠涵蓋。

95% 上限怎麼達到？看工作負載的 input / output 比

上面範例只省 60%，是因為這個情境的輸出占成本 71%（輸出無法快取，只能批次打 5 折）。要逼近 95% 上限，需要 input 比重極高的工作負載：

工作負載類型	input / output（MTok）	兩層全開月成本	省比例
客服 RAG（前述範例）	100 / 50	$420	60%
文件批次摘要	200 / 5	~$68	~90%
大量分類 / 索引	200 / 1	~$38	~94%

「95% 的理論上限對應極致 input-heavy 工作負載（知識庫索引、大量結構化抽取），需要 input／output token 比約 100:1 以上。Anthropic 官方標的「up to 95%」對應的就是這類任務。一般客服、對話、Agent 應用通常落在省 50-70% 區間。」

別用「越舊越便宜」直覺挑模型

很多企業看到 Anthropic 推新版就直覺「先用舊版省一點」，這在 Claude API 完全是錯的。Anthropic 走的是「新版降價搶市佔、旗艦能力跳階定價」的策略，三條模型線各自邏輯不同。

Opus 系列：新版直接砍 67%

模型	輸入（USD / MTok）	輸出（USD / MTok）
Opus 4.5 / 4.6 / 4.7 / 4.8	$5	$25
Opus 4.1（舊）	$15	$75

還在用 Opus 4.1 跑生產任務，等於每月多繳「沒升級稅」。

Sonnet 系列：各代同價，新版還更便宜

Sonnet 4、4.5、4.6、5 常態都是 $3 / $15，升新版不會貴一毛；Sonnet 5 目前甚至有限時優惠 $2 / $10（至 2026 年 8 月底），反而比舊版便宜。完全沒有「省錢留舊版」的理由。

Haiku 系列：舊版已退役，只剩 4.5

Haiku 3.5 曾經在部分 partner 平台比 4.5 略便宜，但它已於 2026 年初從 Anthropic 第一方 API 退役，主流雲端平台（AWS Bedrock、Google Vertex AI）現行的 Claude Haiku 也已是 4.5（$1 / $5）。現在 Haiku 沒有「跑舊版省錢」的空間。極致成本敏感的批次任務（標籤分類、結構化抽取），直接用 Haiku 4.5 疊加批次 5 折 + 提示快取壓到最低即可。

「選模型用『能力 ÷ 單價』算 CP 值，別套買手機式的『新貴舊便宜』直覺。」

延伸閱讀：Claude 方案完整比較：個人、團隊、企業、API 怎麼選

3 個容易被忽略的隱性成本

定價表單價不是全部。下面三個項目沒算進預算的話，第一個月帳單就會比估算高 30% 到 50%。

隱性項	影響	何時要算進預算
現行世代 tokenizer 多吃 30% token	同樣文字成本增加約 30%（變為原本的 1.3 倍）	用現行世代模型（Opus 4.7 起，含 Opus 4.8 / Sonnet 5 / Fable 5）跑生產任務預算乘 1.3
工具使用每次 +346 tokens	啟用函式呼叫每次請求多算系統提示	高頻 tool use 的 agent 應用
網路搜尋 $10 / 1,000 次（約 NT$ 310 / 1,000 次）	額外計費，獨立於 token	Agent 開放網路搜尋功能時

「現行世代的新 tokenizer 是這波最大隱性成本來源。」Anthropic 從 Opus 4.7 起換了新 tokenizer（Opus 4.8、Sonnet 5、Fable 5 沿用），副作用是同樣文字被切成更多 token，輸入與輸出都受影響。多數對手定價文章還沒更新這個事實，照舊估算的企業上線就會踩雷。此事實由 Anthropic 官方 API pricing 文件在定價表下方以 Note 形式標註：

Anthropic 官方 docs 標註：Opus 4.7 起（含 Opus 4.8 / Fable 5 / Sonnet 5）採新 tokenizer，同樣文字約多用 30% token

台灣公司怎麼估算月成本

實務流程：「列工作負載 → 估單次 token → 乘月頻次 → 套折扣 → 加 buffer」。給一個範例：

情境： 內部知識庫客服機器人，月 50,000 對話，每對話平均輸入 3,000 token（系統提示 2,500 + 用戶問題 500）、輸出 700 token，跑 Sonnet 5 + 1 小時提示快取（系統提示部分 80% 命中）。

計算項	計算式	美元	約合台幣
快取寫入	50 MTok × $6	$300	NT$ 9,300
快取讀取	100 MTok × $0.30	$30	NT$ 930
非快取輸入	25 MTok × $3	$75	NT$ 2,325
輸出	35 MTok × $15	$525	NT$ 16,275
月成本合計		$930	約 NT$ 28,830

實際付款還要加：信用卡跨境手續費 1.5%（約 NT$ 430）；企業要報帳或開立發票時涉及 20% 境外稅，走在地代理可避免。

跨境付款與發票議題的完整解法，見台灣公司怎麼買 Claude API。

預算編列建議再保留 20% 到 30% buffer，因為實際消耗會受用戶問題長度、context 累積、工具使用啟用等因素影響。

何時該升級到 Enterprise 或走雲端 partner

走 Anthropic 第一方 API 的 Tier 1 到 Tier 4 自動累積升等，能滿足多數中小型導入。下列情況要考慮升級 Enterprise 或改走 AWS Bedrock、Google Vertex AI：

流量配額不夠：Tier 4 撐不住高峰流量，需要 Enterprise custom RPM / TPM
資料駐留合規：金融、醫療要求資料不出境，需要 partner 平台的 regional endpoint（各加 10%）
在地發票：需要台幣計費 + 三聯式發票
整合既有雲端架構：已用 AWS 雲端代理或 GCP，希望整合身分管理與帳務監控

Bedrock 與 Vertex AI 端的 token 基礎單價對齊第一方定價，使用區域端點（regional endpoint）需另加 10%。深度選型比較另文展開。

常見問題

Claude API 的輸入跟輸出 token 為什麼價差到 5 倍？

輸出對 GPU 算力的消耗遠高於輸入。輸入只要一次前向傳播，生成每個輸出 token 都要重新跑一次完整推理。Anthropic 把這個算力差直接反映到定價，輸出是輸入的 5 倍。所以知識庫 RAG、長文件摘要這類輸入重、輸出輕的任務，單位成本會比短問短答的聊天應用便宜。

提示快取怎麼啟用？是不是自動的？

要明確啟用。最簡單的方法是在 API 請求最上層加 cache_control 欄位，系統自動管理快取斷點。需要細控制時，可在個別內容區塊上加 cache_control。預設效期是 5 分鐘，可選 1 小時版（寫入成本 2 倍但回本門檻只要命中 2 次）。

批次 API 跟一般 API 在回應速度上差多少？

一般 API 是即時串流，毫秒到秒級回應。批次 API 是非同步處理，Anthropic 承諾 24 小時內完成，實務上多數任務 1 到 6 小時就跑完。所以批次適合可以等的任務，不適合需要立即回應的對話應用。

用現行世代模型寫繁中內容，token 數會比英文多嗎？

會。中文字符密度高於英文，平均 1 個中文字佔 1 到 2 個 token，比英文密集。再加上 Anthropic 從 Opus 4.7 起換了新 tokenizer（Opus 4.8、Sonnet 5、Fable 5 沿用），同樣文字可能比 Opus 4.1 多用約 30% token。繁中任務跑現行世代模型估算預算時，建議乘 1.3 buffer。

結論

Claude API 的價格不是「定價表 × 用量」這麼簡單。基礎 token、提示快取、批次 API 三層機制決定最終帳單：忽略快取與批次的企業，月成本通常比優化過的高出 50% 到 90%。導入第一個月做兩件事就能拿到大部分省錢效益：高頻系統提示加上快取、非即時任務分流到批次。

模型選擇也別套「越舊越便宜」的買手機直覺，Opus 新版砍 67%、Sonnet 三代同價、Haiku 新版略貴 20%，每條線邏輯不同。

勤英科技作為台灣在地的 AWS、Google Cloud、Microsoft Azure 雲端代理商，提供 Claude API 與 Claude Enterprise 在地導入諮詢，涵蓋成本評估、合規架構、Bedrock 與 Vertex AI 整合、台幣發票與企業採購流程。

預約 Claude API 採購諮詢

資料來源

Kevin Chou 行銷經理

專注於雲端成本優化、FinOps 策略及跨雲端平台（AWS、Google Cloud、Azure）的多雲架構規劃，具備企業雲端解決方案的數位行銷、數據分析與內容策略實戰經驗。持續深入追蹤 AI 基礎架構與生成式 AI 應用的最新發展，專注於研究各大雲端平台如何整合 AI 能力，協助企業發掘具體的商業應用價值。

See Full Bio