Claude API 費用 2026 完整解析:2 層折扣最高省 95%
Claude API 費用 2026 完整解析:2 層折扣最高省 95%

Claude API 的價格不只看定價表。完整拆解 token 計費、提示快取與批次 API 兩層折扣怎麼疊加省 95%,附台幣月成本估算範本。

Claude API 的計費分三層:基礎 token 單價、提示快取(prompt caching)、批次 API(Batch API)。Anthropic 的官方定價表只給第一層,真正決定帳單金額的是後兩層。多數企業上線一個月才發現實際花費比估算高 2 到 3 倍,差距就出在這裡。

這篇拆解 Claude API 完整計費結構、三層折扣怎麼疊加、台灣公司編列月預算的算式,以及多數內容沒講清楚的「舊版不一定比較便宜」。

5 秒看結論

  • Claude API 採輸入/輸出(input / output)token 雙價結構,每百萬 token(MTok)計費。現役主力為 Opus 4.7($5 / $25)、Sonnet 4.6($3 / $15)、Haiku 4.5($1 / $5),單位為美元,1 USD 約 NT$ 31
  • 提示快取的讀取(cache read)只要基礎輸入價的 10%,5 分鐘快取命中一次就回本
  • 批次 API 全項 5 折,疊加快取後有效成本最低可降到 base 的 5%
  • 別用「越舊越便宜」直覺挑模型:Opus 4.5 比 Opus 4.1 便宜 67%,但 Haiku 3.5 在第三方平台仍比 Haiku 4.5 便宜 20%
  • Opus 4.7 新 tokenizer 同樣文字可能多吃 35% token,預算估算要乘 1.35
Claude API 三層計費結構:token、cache、batch 概念示意

計費單位:token 是什麼,輸入跟輸出為什麼價差 5 倍

Token 是大型語言模型處理文字的最小單位。1 token 約等於 4 個英文字符或 0.75 個英文單字;中文平均 1 字佔 1 到 2 個 token。換算下來,1 MTok(百萬 token)大約是 75 萬個英文單字或 50 萬個中文字。

輸入與輸出分開計價,是因為輸出對 GPU 算力的消耗遠高於輸入。輸入只要做一次前向傳播,每個輸出 token 都要重新跑一次完整推理,所以 Anthropic 把輸出定價拉到輸入的 5 倍。

這個結構決定了你的成本走向:知識庫 RAG、長文件摘要這類『輸入重、輸出輕』的任務,單位成本會比『短問短答』的聊天應用便宜許多。

現役主力模型定價

下表為目前主力的三個模型,全文價格單位皆為美元 / 每百萬 token(USD / MTok),匯率以 1 USD ≈ NT$ 31 換算(2026 年 5 月)。

模型定位輸入(USD / MTok)輸出(USD / MTok)
Claude Opus 4.7旗艦:複雜推理、長文$5(約 NT$ 155)$25(約 NT$ 775)
Claude Sonnet 4.6主力:生產工作負載$3(約 NT$ 93)$15(約 NT$ 465)
Claude Haiku 4.5輕量:高頻、批次任務$1(約 NT$ 31)$5(約 NT$ 155)

Opus 跑複雜推理與長文,Sonnet 是生產主力,Haiku 跑高頻、簡單分類、批次標註。三者能力差距大,成本差距更大:Opus 4.7 的輸出單價是 Haiku 4.5 的 5 倍。

舊版(Opus 4.1 / 4、Sonnet 4、Haiku 3.5)的定價結構與選型邏輯另段討論,並非「越舊越便宜」。模型選擇細節參考 Claude Opus / Sonnet / Haiku 完整比較

提示快取:寫一次、讀多次省 90%

提示快取(prompt caching)讓你把系統提示、知識庫、對話歷史等重複輸入標記為可快取,後續呼叫直接讀取,不重新推理。定價結構用三個倍率:寫入成本看效期(TTL),讀取成本只要基礎輸入價的 10%。

模型5 分鐘寫入1 小時寫入讀取(命中)
Claude Opus 4.7$6.25$10$0.50
Claude Sonnet 4.6$3.75$6$0.30
Claude Haiku 4.5$1.25$2$0.10

單位 USD / MTok(每百萬 token)。

回本門檻:5 分鐘快取命中 1 次就回本(寫入 1.25 倍 vs 第二次起每次 0.1 倍),1 小時快取命中 2 次回本。

最適合開快取的場景:

  • 客服機器人:每次對話前都灌固定知識庫
  • 程式碼審查:把整個 repo 結構當系統提示
  • 文件問答 RAG:同一份長文件被多人多次查詢
  • 多輪對話:把先前對話歷史快取給下一輪用

舉例:客服機器人系統提示 10 萬 token,每天命中 5,000 次。沒開快取,當天輸入成本 $1,500(約 NT$ 46,500);開了 1 小時快取,從第二次起每次只算 $150(約 NT$ 4,650),當天就回本一倍以上。」這是多數企業上線後才發現的最大省錢點。

批次 API:非即時任務直接 5 折

批次 API(Batch API)適用於可以等的非同步任務。提交批次後,Anthropic 在 24 小時內處理完回傳,全項輸入與輸出都打 5 折。

模型批次輸入批次輸出
Claude Opus 4.7$2.50$12.50
Claude Sonnet 4.6$1.50$7.50
Claude Haiku 4.5$0.50$2.50

單位 USD / MTok(每百萬 token)。

適用: 日報週報摘要、客戶分群與情緒分析、海量文件翻譯與結構化抽取、資料標註。

不適用: 即時聊天、串流回應、需要立即回應的應用。

能用批次處理的任務直接打對折,沒理由不分流。

雙重折扣疊加:最高省 95%

提示快取與批次 API 的折扣可以直接相乘,不衝突。實務上適用任務走完兩層折扣後,有效成本最低可降到 base 的 5%。

四階段成本下降示意:base、加 cache、加 batch、疊加後

以 Sonnet 4.6 跑每月 100 MTok 輸入 + 50 MTok 輸出為例:

計算方式輸入成本(USD)輸出成本(USD)月小計(USD / 約 TWD)
Base(無折扣)$300$750$1,050 / NT$ 32,550
加 1 小時快取(90% 命中)$90$750$840 / NT$ 26,040
加批次(無快取)$150$375$525 / NT$ 16,275
批次 + 快取(90% 命中)$45$375$420 / NT$ 13,020

光是把適合批次的工作負載分流,月成本就從 $1,050 降到 $525,省一半。再加上系統提示快取,再省 20%。多數企業導入 Claude API 第一年的成本優化,這兩招就夠涵蓋。

95% 上限怎麼達到?看工作負載的 input / output 比

上面範例只省 60%,是因為這個情境的輸出占成本 71%(輸出無法快取,只能批次打 5 折)。要逼近 95% 上限,需要 input 比重極高的工作負載:

工作負載類型input / output(MTok)兩層全開月成本省比例
客服 RAG(前述範例)100 / 50$42060%
文件批次摘要200 / 5~$68~90%
大量分類 / 索引200 / 1~$38~94%

「95% 的理論上限對應極致 input-heavy 工作負載(知識庫索引、大量結構化抽取),需要 input/output token 比約 100:1 以上。Anthropic 官方標的「up to 95%」對應的就是這類任務。一般客服、對話、Agent 應用通常落在省 50-70% 區間。」

別用「越舊越便宜」直覺挑模型

很多企業看到 Anthropic 推新版就直覺「先用舊版省一點」,這在 Claude API 完全是錯的。Anthropic 走的是「新版降價搶市佔、旗艦能力跳階定價」的策略,三條模型線各自邏輯不同。

Opus 系列:新版直接砍 67%

模型輸入(USD / MTok)輸出(USD / MTok)
Opus 4.5 / 4.6 / 4.7$5$25
Opus 4.1(舊)$15$75

還在用 Opus 4.1 跑生產任務,等於每月多繳「沒升級稅」。

Sonnet 系列:三代同價

Sonnet 4、4.5、4.6 都是 $3 / $15,升新版不會貴一毛。完全沒有「省錢留舊版」的理由。

Haiku 系列:舊版反而便宜,但要走第三方平台

模型輸入(USD / MTok)輸出(USD / MTok)取得管道
Haiku 4.5$1$5Anthropic 第一方 API
Haiku 3.5$0.80$4AWS Bedrock / Google Vertex AI

Haiku 3.5 在第一方 API 已 retired,但 partner 平台仍可呼叫,單價便宜 20%。極致成本敏感的批次任務(標籤分類、結構化抽取)走第三方跑舊 Haiku 仍合理。

選模型用『能力 ÷ 單價』算 CP 值,別套買手機式的『新貴舊便宜』直覺。

延伸閱讀:Claude 方案完整比較:個人、團隊、企業、API 怎麼選

3 個容易被忽略的隱性成本

定價表單價不是全部。下面三個項目沒算進預算的話,第一個月帳單就會比估算高 30% 到 50%。

隱性項影響何時要算進預算
Opus 4.7 新 tokenizer 多吃 35% token同樣文字成本增加 35%(變為原本的 1.35 倍)用 Opus 4.7 跑生產任務預算乘 1.35
工具使用每次 +346 tokens啟用函式呼叫每次請求多算系統提示高頻 tool use 的 agent 應用
網路搜尋 $10 / 1,000 次(約 NT$ 310 / 1,000 次)額外計費,獨立於 tokenAgent 開放網路搜尋功能時

Opus 4.7 的新 tokenizer 是這波最大隱性成本來源。」Anthropic 為了提升模型效能換了 tokenizer,副作用是同樣文字被切成更多 token,輸入與輸出都受影響。多數對手定價文章還沒更新這個事實,照舊估算的企業上線就會踩雷。此事實由 Anthropic 官方 API pricing 文件 在定價表下方以 Note 形式標註:

Anthropic 官方 docs 標註:Opus 4.7 新 tokenizer 同樣文字可能多用 35% token
新舊 tokenizer 切分同樣文字的差異對比示意

台灣公司怎麼估算月成本

實務流程:「列工作負載 → 估單次 token → 乘月頻次 → 套折扣 → 加 buffer」。給一個範例:

情境: 內部知識庫客服機器人,月 50,000 對話,每對話平均輸入 3,000 token(系統提示 2,500 + 用戶問題 500)、輸出 700 token,跑 Sonnet 4.6 + 1 小時提示快取(系統提示部分 80% 命中)。

計算項計算式美元約合台幣
快取寫入50 MTok × $6$300NT$ 9,300
快取讀取100 MTok × $0.30$30NT$ 930
非快取輸入25 MTok × $3$75NT$ 2,325
輸出35 MTok × $15$525NT$ 16,275
月成本合計$930約 NT$ 28,830

實際付款還要加:信用卡跨境手續費 1.5%(約 NT$ 430);企業要報帳或開立發票時涉及 20% 境外稅,走在地代理可避免。

跨境付款與發票議題的完整解法,見 台灣公司怎麼買 Claude API

預算編列建議再保留 20% 到 30% buffer,因為實際消耗會受用戶問題長度、context 累積、工具使用啟用等因素影響。

何時該升級到 Enterprise 或走雲端 partner

走 Anthropic 第一方 API 的 Tier 1 到 Tier 4 自動累積升等,能滿足多數中小型導入。下列情況要考慮升級 Enterprise 或改走 AWS Bedrock、Google Vertex AI:

  • 流量配額不夠:Tier 4 撐不住高峰流量,需要 Enterprise custom RPM / TPM
  • 資料駐留合規:金融、醫療要求資料不出境,需要 partner 平台的 regional endpoint(各加 10%)
  • 在地發票:需要台幣計費 + 三聯式發票
  • 整合既有雲端架構:已用 AWS 雲端代理 或 GCP,希望整合身分管理與帳務監控

Bedrock 與 Vertex AI 端的 token 基礎單價對齊第一方定價,使用區域端點(regional endpoint)需另加 10%。深度選型比較另文展開。

常見問題

Claude API 的輸入跟輸出 token 為什麼價差到 5 倍?

輸出對 GPU 算力的消耗遠高於輸入。輸入只要一次前向傳播,生成每個輸出 token 都要重新跑一次完整推理。Anthropic 把這個算力差直接反映到定價,輸出是輸入的 5 倍。所以知識庫 RAG、長文件摘要這類輸入重、輸出輕的任務,單位成本會比短問短答的聊天應用便宜。

提示快取怎麼啟用?是不是自動的?

要明確啟用。最簡單的方法是在 API 請求最上層加 cache_control 欄位,系統自動管理快取斷點。需要細控制時,可在個別內容區塊上加 cache_control。預設效期是 5 分鐘,可選 1 小時版(寫入成本 2 倍但回本門檻只要命中 2 次)。

批次 API 跟一般 API 在回應速度上差多少?

一般 API 是即時串流,毫秒到秒級回應。批次 API 是非同步處理,Anthropic 承諾 24 小時內完成,實務上多數任務 1 到 6 小時就跑完。所以批次適合可以等的任務,不適合需要立即回應的對話應用。

用 Opus 4.7 寫繁中內容,token 數會比英文多嗎?

會。中文字符密度高於英文,平均 1 個中文字佔 1 到 2 個 token,比英文密集。再加上 Opus 4.7 換了新 tokenizer,同樣文字可能比 Opus 4.1 多用約 35% token。繁中任務跑 Opus 4.7 估算預算時,建議乘 1.35 buffer。

結論

Claude API 的價格不是「定價表 × 用量」這麼簡單。基礎 token、提示快取、批次 API 三層機制決定最終帳單:忽略快取與批次的企業,月成本通常比優化過的高出 50% 到 90%。導入第一個月做兩件事就能拿到大部分省錢效益:高頻系統提示加上快取、非即時任務分流到批次。

模型選擇也別套「越舊越便宜」的買手機直覺,Opus 新版砍 67%、Sonnet 三代同價、Haiku 新版略貴 20%,每條線邏輯不同。

勤英科技作為台灣在地的 AWS、Google Cloud、Microsoft Azure 雲端代理商,提供 Claude API 與 Claude Enterprise 在地導入諮詢,涵蓋成本評估、合規架構、Bedrock 與 Vertex AI 整合、台幣發票與企業採購流程。

資料來源

author avatar
Kevin Chou 行銷經理
專注於雲端成本優化、FinOps 策略及跨雲端平台(AWS、Google Cloud、Azure)的多雲架構規劃,具備企業雲端解決方案的數位行銷、數據分析與內容策略實戰經驗。持續深入追蹤 AI 基礎架構與生成式 AI 應用的最新發展,專注於研究各大雲端平台如何整合 AI 能力,協助企業發掘具體的商業應用價值。
Claude Claude API Claude 費用