Claude API 的計費分三層:基礎 token 單價、提示快取(prompt caching)、批次 API(Batch API)。Anthropic 的官方定價表只給第一層,真正決定帳單金額的是後兩層。多數企業上線一個月才發現實際花費比估算高 2 到 3 倍,差距就出在這裡。
這篇拆解 Claude API 完整計費結構、三層折扣怎麼疊加、台灣公司編列月預算的算式,以及多數內容沒講清楚的「舊版不一定比較便宜」。
5 秒看結論
- Claude API 採輸入/輸出(input / output)token 雙價結構,每百萬 token(MTok)計費。現役主力為 Opus 4.7($5 / $25)、Sonnet 4.6($3 / $15)、Haiku 4.5($1 / $5),單位為美元,1 USD 約 NT$ 31
- 提示快取的讀取(cache read)只要基礎輸入價的 10%,5 分鐘快取命中一次就回本
- 批次 API 全項 5 折,疊加快取後有效成本最低可降到 base 的 5%
- 別用「越舊越便宜」直覺挑模型:Opus 4.5 比 Opus 4.1 便宜 67%,但 Haiku 3.5 在第三方平台仍比 Haiku 4.5 便宜 20%
- Opus 4.7 新 tokenizer 同樣文字可能多吃 35% token,預算估算要乘 1.35

計費單位:token 是什麼,輸入跟輸出為什麼價差 5 倍
Token 是大型語言模型處理文字的最小單位。1 token 約等於 4 個英文字符或 0.75 個英文單字;中文平均 1 字佔 1 到 2 個 token。換算下來,1 MTok(百萬 token)大約是 75 萬個英文單字或 50 萬個中文字。
輸入與輸出分開計價,是因為輸出對 GPU 算力的消耗遠高於輸入。輸入只要做一次前向傳播,每個輸出 token 都要重新跑一次完整推理,所以 Anthropic 把輸出定價拉到輸入的 5 倍。
「這個結構決定了你的成本走向:知識庫 RAG、長文件摘要這類『輸入重、輸出輕』的任務,單位成本會比『短問短答』的聊天應用便宜許多。」
現役主力模型定價
下表為目前主力的三個模型,全文價格單位皆為美元 / 每百萬 token(USD / MTok),匯率以 1 USD ≈ NT$ 31 換算(2026 年 5 月)。
| 模型 | 定位 | 輸入(USD / MTok) | 輸出(USD / MTok) |
|---|---|---|---|
| Claude Opus 4.7 | 旗艦:複雜推理、長文 | $5(約 NT$ 155) | $25(約 NT$ 775) |
| Claude Sonnet 4.6 | 主力:生產工作負載 | $3(約 NT$ 93) | $15(約 NT$ 465) |
| Claude Haiku 4.5 | 輕量:高頻、批次任務 | $1(約 NT$ 31) | $5(約 NT$ 155) |
Opus 跑複雜推理與長文,Sonnet 是生產主力,Haiku 跑高頻、簡單分類、批次標註。三者能力差距大,成本差距更大:Opus 4.7 的輸出單價是 Haiku 4.5 的 5 倍。
舊版(Opus 4.1 / 4、Sonnet 4、Haiku 3.5)的定價結構與選型邏輯另段討論,並非「越舊越便宜」。模型選擇細節參考 Claude Opus / Sonnet / Haiku 完整比較。
提示快取:寫一次、讀多次省 90%
提示快取(prompt caching)讓你把系統提示、知識庫、對話歷史等重複輸入標記為可快取,後續呼叫直接讀取,不重新推理。定價結構用三個倍率:寫入成本看效期(TTL),讀取成本只要基礎輸入價的 10%。
| 模型 | 5 分鐘寫入 | 1 小時寫入 | 讀取(命中) |
|---|---|---|---|
| Claude Opus 4.7 | $6.25 | $10 | $0.50 |
| Claude Sonnet 4.6 | $3.75 | $6 | $0.30 |
| Claude Haiku 4.5 | $1.25 | $2 | $0.10 |
單位 USD / MTok(每百萬 token)。
回本門檻:5 分鐘快取命中 1 次就回本(寫入 1.25 倍 vs 第二次起每次 0.1 倍),1 小時快取命中 2 次回本。
最適合開快取的場景:
- 客服機器人:每次對話前都灌固定知識庫
- 程式碼審查:把整個 repo 結構當系統提示
- 文件問答 RAG:同一份長文件被多人多次查詢
- 多輪對話:把先前對話歷史快取給下一輪用
「舉例:客服機器人系統提示 10 萬 token,每天命中 5,000 次。沒開快取,當天輸入成本 $1,500(約 NT$ 46,500);開了 1 小時快取,從第二次起每次只算 $150(約 NT$ 4,650),當天就回本一倍以上。」這是多數企業上線後才發現的最大省錢點。
批次 API:非即時任務直接 5 折
批次 API(Batch API)適用於可以等的非同步任務。提交批次後,Anthropic 在 24 小時內處理完回傳,全項輸入與輸出都打 5 折。
| 模型 | 批次輸入 | 批次輸出 |
|---|---|---|
| Claude Opus 4.7 | $2.50 | $12.50 |
| Claude Sonnet 4.6 | $1.50 | $7.50 |
| Claude Haiku 4.5 | $0.50 | $2.50 |
單位 USD / MTok(每百萬 token)。
適用: 日報週報摘要、客戶分群與情緒分析、海量文件翻譯與結構化抽取、資料標註。
不適用: 即時聊天、串流回應、需要立即回應的應用。
能用批次處理的任務直接打對折,沒理由不分流。
雙重折扣疊加:最高省 95%
提示快取與批次 API 的折扣可以直接相乘,不衝突。實務上適用任務走完兩層折扣後,有效成本最低可降到 base 的 5%。

以 Sonnet 4.6 跑每月 100 MTok 輸入 + 50 MTok 輸出為例:
| 計算方式 | 輸入成本(USD) | 輸出成本(USD) | 月小計(USD / 約 TWD) |
|---|---|---|---|
| Base(無折扣) | $300 | $750 | $1,050 / NT$ 32,550 |
| 加 1 小時快取(90% 命中) | $90 | $750 | $840 / NT$ 26,040 |
| 加批次(無快取) | $150 | $375 | $525 / NT$ 16,275 |
| 批次 + 快取(90% 命中) | $45 | $375 | $420 / NT$ 13,020 |
光是把適合批次的工作負載分流,月成本就從 $1,050 降到 $525,省一半。再加上系統提示快取,再省 20%。多數企業導入 Claude API 第一年的成本優化,這兩招就夠涵蓋。
95% 上限怎麼達到?看工作負載的 input / output 比
上面範例只省 60%,是因為這個情境的輸出占成本 71%(輸出無法快取,只能批次打 5 折)。要逼近 95% 上限,需要 input 比重極高的工作負載:
| 工作負載類型 | input / output(MTok) | 兩層全開月成本 | 省比例 |
|---|---|---|---|
| 客服 RAG(前述範例) | 100 / 50 | $420 | 60% |
| 文件批次摘要 | 200 / 5 | ~$68 | ~90% |
| 大量分類 / 索引 | 200 / 1 | ~$38 | ~94% |
「95% 的理論上限對應極致 input-heavy 工作負載(知識庫索引、大量結構化抽取),需要 input/output token 比約 100:1 以上。Anthropic 官方標的「up to 95%」對應的就是這類任務。一般客服、對話、Agent 應用通常落在省 50-70% 區間。」
別用「越舊越便宜」直覺挑模型
很多企業看到 Anthropic 推新版就直覺「先用舊版省一點」,這在 Claude API 完全是錯的。Anthropic 走的是「新版降價搶市佔、旗艦能力跳階定價」的策略,三條模型線各自邏輯不同。
Opus 系列:新版直接砍 67%
| 模型 | 輸入(USD / MTok) | 輸出(USD / MTok) |
|---|---|---|
| Opus 4.5 / 4.6 / 4.7 | $5 | $25 |
| Opus 4.1(舊) | $15 | $75 |
還在用 Opus 4.1 跑生產任務,等於每月多繳「沒升級稅」。
Sonnet 系列:三代同價
Sonnet 4、4.5、4.6 都是 $3 / $15,升新版不會貴一毛。完全沒有「省錢留舊版」的理由。
Haiku 系列:舊版反而便宜,但要走第三方平台
| 模型 | 輸入(USD / MTok) | 輸出(USD / MTok) | 取得管道 |
|---|---|---|---|
| Haiku 4.5 | $1 | $5 | Anthropic 第一方 API |
| Haiku 3.5 | $0.80 | $4 | AWS Bedrock / Google Vertex AI |
Haiku 3.5 在第一方 API 已 retired,但 partner 平台仍可呼叫,單價便宜 20%。極致成本敏感的批次任務(標籤分類、結構化抽取)走第三方跑舊 Haiku 仍合理。
「選模型用『能力 ÷ 單價』算 CP 值,別套買手機式的『新貴舊便宜』直覺。」
3 個容易被忽略的隱性成本
定價表單價不是全部。下面三個項目沒算進預算的話,第一個月帳單就會比估算高 30% 到 50%。
| 隱性項 | 影響 | 何時要算進預算 |
|---|---|---|
| Opus 4.7 新 tokenizer 多吃 35% token | 同樣文字成本增加 35%(變為原本的 1.35 倍) | 用 Opus 4.7 跑生產任務預算乘 1.35 |
| 工具使用每次 +346 tokens | 啟用函式呼叫每次請求多算系統提示 | 高頻 tool use 的 agent 應用 |
| 網路搜尋 $10 / 1,000 次(約 NT$ 310 / 1,000 次) | 額外計費,獨立於 token | Agent 開放網路搜尋功能時 |
「Opus 4.7 的新 tokenizer 是這波最大隱性成本來源。」Anthropic 為了提升模型效能換了 tokenizer,副作用是同樣文字被切成更多 token,輸入與輸出都受影響。多數對手定價文章還沒更新這個事實,照舊估算的企業上線就會踩雷。此事實由 Anthropic 官方 API pricing 文件 在定價表下方以 Note 形式標註:


台灣公司怎麼估算月成本
實務流程:「列工作負載 → 估單次 token → 乘月頻次 → 套折扣 → 加 buffer」。給一個範例:
情境: 內部知識庫客服機器人,月 50,000 對話,每對話平均輸入 3,000 token(系統提示 2,500 + 用戶問題 500)、輸出 700 token,跑 Sonnet 4.6 + 1 小時提示快取(系統提示部分 80% 命中)。
| 計算項 | 計算式 | 美元 | 約合台幣 |
|---|---|---|---|
| 快取寫入 | 50 MTok × $6 | $300 | NT$ 9,300 |
| 快取讀取 | 100 MTok × $0.30 | $30 | NT$ 930 |
| 非快取輸入 | 25 MTok × $3 | $75 | NT$ 2,325 |
| 輸出 | 35 MTok × $15 | $525 | NT$ 16,275 |
| 月成本合計 | $930 | 約 NT$ 28,830 |
實際付款還要加:信用卡跨境手續費 1.5%(約 NT$ 430);企業要報帳或開立發票時涉及 20% 境外稅,走在地代理可避免。
跨境付款與發票議題的完整解法,見 台灣公司怎麼買 Claude API。
預算編列建議再保留 20% 到 30% buffer,因為實際消耗會受用戶問題長度、context 累積、工具使用啟用等因素影響。
何時該升級到 Enterprise 或走雲端 partner
走 Anthropic 第一方 API 的 Tier 1 到 Tier 4 自動累積升等,能滿足多數中小型導入。下列情況要考慮升級 Enterprise 或改走 AWS Bedrock、Google Vertex AI:
- 流量配額不夠:Tier 4 撐不住高峰流量,需要 Enterprise custom RPM / TPM
- 資料駐留合規:金融、醫療要求資料不出境,需要 partner 平台的 regional endpoint(各加 10%)
- 在地發票:需要台幣計費 + 三聯式發票
- 整合既有雲端架構:已用 AWS 雲端代理 或 GCP,希望整合身分管理與帳務監控
Bedrock 與 Vertex AI 端的 token 基礎單價對齊第一方定價,使用區域端點(regional endpoint)需另加 10%。深度選型比較另文展開。
常見問題
Claude API 的輸入跟輸出 token 為什麼價差到 5 倍?
輸出對 GPU 算力的消耗遠高於輸入。輸入只要一次前向傳播,生成每個輸出 token 都要重新跑一次完整推理。Anthropic 把這個算力差直接反映到定價,輸出是輸入的 5 倍。所以知識庫 RAG、長文件摘要這類輸入重、輸出輕的任務,單位成本會比短問短答的聊天應用便宜。
提示快取怎麼啟用?是不是自動的?
要明確啟用。最簡單的方法是在 API 請求最上層加 cache_control 欄位,系統自動管理快取斷點。需要細控制時,可在個別內容區塊上加 cache_control。預設效期是 5 分鐘,可選 1 小時版(寫入成本 2 倍但回本門檻只要命中 2 次)。
批次 API 跟一般 API 在回應速度上差多少?
一般 API 是即時串流,毫秒到秒級回應。批次 API 是非同步處理,Anthropic 承諾 24 小時內完成,實務上多數任務 1 到 6 小時就跑完。所以批次適合可以等的任務,不適合需要立即回應的對話應用。
用 Opus 4.7 寫繁中內容,token 數會比英文多嗎?
會。中文字符密度高於英文,平均 1 個中文字佔 1 到 2 個 token,比英文密集。再加上 Opus 4.7 換了新 tokenizer,同樣文字可能比 Opus 4.1 多用約 35% token。繁中任務跑 Opus 4.7 估算預算時,建議乘 1.35 buffer。
結論
Claude API 的價格不是「定價表 × 用量」這麼簡單。基礎 token、提示快取、批次 API 三層機制決定最終帳單:忽略快取與批次的企業,月成本通常比優化過的高出 50% 到 90%。導入第一個月做兩件事就能拿到大部分省錢效益:高頻系統提示加上快取、非即時任務分流到批次。
模型選擇也別套「越舊越便宜」的買手機直覺,Opus 新版砍 67%、Sonnet 三代同價、Haiku 新版略貴 20%,每條線邏輯不同。
勤英科技作為台灣在地的 AWS、Google Cloud、Microsoft Azure 雲端代理商,提供 Claude API 與 Claude Enterprise 在地導入諮詢,涵蓋成本評估、合規架構、Bedrock 與 Vertex AI 整合、台幣發票與企業採購流程。



