Claude 3, 是由 Anthropic 開發的自然語言處理 AI 之一,據說其性能已超越了當今標準的 ChatGPT 4.0。我們之前已經發表了一篇文章,介紹了 Claude 3 的基準測試結果和模型細節。
但這些結果僅是理論上的。接下來,我們將實際測試 Claude 3(Opus、Sonnet)模型,並與 ChatGPT 4.0 進行比較,看看它是否如聲稱的那麼出色。
這些測試將分為三個部分:一般問題測試、程式碼測試和圖像分析。讓我們開始吧。
如果你還沒看過我們之前關於 Claude 3 的文章,請務必查看。這篇文章提供了高階的介紹,涵蓋其基準測試表現及其他你會感興趣的重要資訊。
一般測試
在這部分,我們將進行幾個測試,以觀察模型的回應風格和整體知識。我們會先問一些一般問題。
指令 (Prompt):2020 年誰獲得了諾貝爾物理學獎? (Who won the Nobel Prize in Physics in 2020?)
在這裡,GPT 4 和 Claude 3 – Sonnet 都能給出正確的答案。
接下來,我們讓 GPT 4 和 Sonnet 將答案翻譯成中文。結果顯示,兩個 AI 都能在保持原意的情況下,準確地進行中英文翻譯。
我們還嘗試了一些簡單的謎語測試,兩個 AI (GPT 4 和 Sonnet) 給出的答案大致相同。
在邏輯推理、基本數學、現實生活建議等多方面的測試中,GPT 4 和 Claude 3 – Sonnet 的回應大多相似。不過,Claude 3 的 Opus 模型輸出看起來更具人性化。儘管差異微小,但我們發現 Claude 3 的表現確實稍優於 GPT 4。
程式碼測試
在這部分,我們會要求 ChatGPT 和 Claude 撰寫自動化任務腳本,將程式從一種語言轉換為另一種,並分析程式碼,檢查錯誤,並提供解釋。這些測試不會非常複雜,但涵蓋了開發者日常所需的基本任務。
測試 1:建立自動化腳本
首先,我們請求 ChatGPT 4.0 撰寫一個 Python 腳本,從一個文本檔案中讀取 URL,並將這些 URL 的網頁從上到下截圖,保存為 PNG 檔。
指令 (Prompt):撰寫一個 Python 腳本,自動瀏覽來自 txt 檔的 URL,並對整個網頁截圖保存為 png 檔。(“Make me a python script that will automatically browse the URLs from a txt file and take full screenshots of the webpage also top to bottom and save it in a png file.”)
當我們直接執行腳本時,出現了一些錯誤。
將這些錯誤傳送給 ChatGPT,它建議安裝 Chrome 瀏覽器或使用 Firefox。在接下來的指令中,我請求它使用 Firefox,因為我已經安裝了 Google Chrome。
這次它給出了安裝 geckodriver 的步驟,因此我在安裝後執行新的腳本。
這次腳本成功,並獲得了我需要,如截圖所示,儲存在當前目錄中。
Claude 3 – Opus
當我們對 Claude 3 – Opus 下達同樣的指令時,它給出了程式碼和執行前的準備步驟。相比 GPT 4,Claude 3 Opus 的程式碼更易於理解。
在未修改任何內容的情況下執行程式碼,一次成功。它使用的是 Chrome,而非 Firefox,且截圖儲存在新的目錄中。
儘管截圖的螢幕大小比 ChatGPT 小,但稍後它也修正了這個問題。
測試 2:程式語言轉換
在這個測試中,我們將一個 Java 程式轉換為 Go 程式,該程式會將字串轉換為 MD5 雜湊值。我們首先用 ChatGPT 進行測試,並要求「將程式轉換為 Go」。 (can you convert the code behavior in go language “`code“`)
它生成了將字串轉換為 MD5 的程式碼,並且一次就成功執行。
Claude 3 – Opus
同樣的指令在 Claude 3 – Opus 上給出了比 GPT 4 更詳細的解釋。
Claude 3 還提供了生成的 MD5 雜湊值,且與提供的字串一致。
測試 3:檢查程式錯誤
這次我們給出一段存在緩衝區溢出錯誤的 C 程式碼,這是一個常見錯誤,可能導致遠程代碼執行 (RCE) 以及系統完全崩潰。
指令:檢查我的程式碼是否有錯誤
Prompt: “is there any bug in my code “`#include <stdio.h>
int main() {
int secret = 0xdeadbeef;
char name[100] = {0};
read(0, name, 0x100);
if (secret == 0x1337) {
puts(“Wow! “);
} else {
puts(“Hello”);
}
}“`”
ChatGPT 成功檢測到錯誤並指出錯誤所在。
Claude 3 – Opus
與 ChatGPT 一樣,Claude 3 也能檢測到這個漏洞,並且讀取了整段程式碼及其行為。此外,它還提供了一個無錯誤的程式碼版本。
測試 4:程式碼分析
我們提供了一個 PHP 反向 shell,並要求 ChatGPT 解釋其運作原理。
Prompt: “can you tell me whats going on here in details “`code“`”.
ChatGPT 分析了每個步驟,並成功檢測到反向 shell 的存在。
Claude 3 – Opus
Claude 3 – Opus 給出了比 ChatGPT 更詳細的解釋。它使用了分點解說的方式,並且同樣能檢測到反向 shell。
圖像分析
在圖像分析部分,我們將測試臉部識別、多物體識別以及地理位置識別的能力。
測試 1:臉部識別
我們提供了蒙娜麗莎的圖像,並詢問「你認識他嗎?」(Do you know him?)(刻意使用了「他」(him))。GPT 4 和 Claude 3 – Sonnet 都能識別出這是蒙娜麗莎的畫像。
接著,我們提供了奧巴馬的照片,這次沒有提問,GPT 4 未能立即識別出來,但在詢問後成功識別。
相反,Claude 3 Sonnet 一眼就識別出了奧巴馬。
測試 2:多物體識別
我們提供了一張包含 7 種動物的圖片,並要求兩個 AI 識別動物種類和總數。
這次 GPT 4 誤報了一個名稱,而 Claude 3 – Sonnet 更準確地識別了所有動物。
接著,我們測試了一張包含多種形狀的圖片。
這次 ChatGPT 4 錯過了一個形狀,而 Claude 3 – Sonnet 成功識別了所有 9 個形狀。
測試 3:地理位置識別
我們提供了一張印尼地圖,並要求兩個 AI 識別該國家。GPT 4 未能識別這張地圖,但 Claude 3 – Sonnet 正確識別出了印尼。
在這些測試中,Claude 3 – Sonnet 的表現多數情況下優於 GPT 4。Claude 3 更能理解問題的真正意圖,並給出適當的回答。
這些測試是在 Amazon Bedrock 平台上進行的,不過該模型與官方網站上的版本相同。Amazon Bedrock 讓您可以在一個平台上使用多個 AI 模型。
我們還進行了其他的圖像測試,大多數情況下 Claude 3 Sonnet 的表現優於 GPT 4。Claude 3 能夠更好地理解問題的含義,相比 ChatGPT 4,提供的回答也更加精準。
結論
經過多項測試,包括一般任務、程式碼撰寫、邏輯推理、分析和推理等,我們可以明顯看出 Claude 3 的表現優於 ChatGPT 4。Claude 3 能夠保持更自然、與人對話般的語氣,並且更能準確理解問題背後的真正意圖,給出適當的回應。
然而,ChatGPT 仍然提供了比 Claude 3 更多的功能。您可以使用 GPT 4 瀏覽網路、生成圖片,並在 ChatGPT 平台上自定義 BOT。如果 Claude 3 也整合了這些功能,我看不出繼續使用 ChatGPT 的理由,因為這兩者的訂閱費用是相同的。
總結來說,這兩個 AI 的表現都非常出色。建議您兩者都嘗試,選擇最適合您的需求。我自從 ChatGPT 4 發佈以來每天都在使用它,但如果 OpenAI 不推出能夠超越 Claude 3 的更新,我很可能會轉向使用 Claude 3。感謝您的閱讀。
Commenti