top of page
作家相片Elite Cloud

ChatGPT 4 vs Claude 3!值得切換嗎?

Claude 3, 是由 Anthropic 開發的自然語言處理 AI 之一,據說其性能已超越了當今標準的 ChatGPT 4.0。我們之前已經發表了一篇文章,介紹了 Claude 3 的基準測試結果和模型細節


但這些結果僅是理論上的。接下來,我們將實際測試 Claude 3(Opus、Sonnet)模型,並與 ChatGPT 4.0 進行比較,看看它是否如聲稱的那麼出色。


這些測試將分為三個部分:一般問題測試、程式碼測試和圖像分析。讓我們開始吧。


如果你還沒看過我們之前關於 Claude 3 的文章,請務必查看。這篇文章提供了高階的介紹,涵蓋其基準測試表現及其他你會感興趣的重要資訊。


一般測試


在這部分,我們將進行幾個測試,以觀察模型的回應風格和整體知識。我們會先問一些一般問題。


指令 (Prompt):2020 年誰獲得了諾貝爾物理學獎? (Who won the Nobel Prize in Physics in 2020?)


在這裡,GPT 4 和 Claude 3 – Sonnet 都能給出正確的答案。


testing chatgpt 4 for general questions

testing claude 3 for general questions

接下來,我們讓 GPT 4 和 Sonnet 將答案翻譯成中文。結果顯示,兩個 AI 都能在保持原意的情況下,準確地進行中英文翻譯。


testing chatgpt 4 for language translation

testing chatgpt 4 for language translation

我們還嘗試了一些簡單的謎語測試,兩個 AI (GPT 4 和 Sonnet) 給出的答案大致相同。


testing chatgpt 4 for riddle

testing chatgpt 4 for riddle

在邏輯推理、基本數學、現實生活建議等多方面的測試中,GPT 4 和 Claude 3 – Sonnet 的回應大多相似。不過,Claude 3 的 Opus 模型輸出看起來更具人性化。儘管差異微小,但我們發現 Claude 3 的表現確實稍優於 GPT 4。


程式碼測試


在這部分,我們會要求 ChatGPT 和 Claude 撰寫自動化任務腳本,將程式從一種語言轉換為另一種,並分析程式碼,檢查錯誤,並提供解釋。這些測試不會非常複雜,但涵蓋了開發者日常所需的基本任務。


測試 1:建立自動化腳本


首先,我們請求 ChatGPT 4.0 撰寫一個 Python 腳本,從一個文本檔案中讀取 URL,並將這些 URL 的網頁從上到下截圖,保存為 PNG 檔。


指令 (Prompt):撰寫一個 Python 腳本,自動瀏覽來自 txt 檔的 URL,並對整個網頁截圖保存為 png 檔。(“Make me a python script that will automatically browse the URLs from a txt file and take full screenshots of the webpage also top to bottom and save it in a png file.”)


testing chatgpt 4 with coding challenge

當我們直接執行腳本時,出現了一些錯誤。


testing chatgpt 4 with coding challenge

將這些錯誤傳送給 ChatGPT,它建議安裝 Chrome 瀏覽器或使用 Firefox。在接下來的指令中,我請求它使用 Firefox,因為我已經安裝了 Google Chrome。


testing chatgpt 4 with coding challenge

這次它給出了安裝 geckodriver 的步驟,因此我在安裝後執行新的腳本。


testing chatgpt 4 with coding challenge

這次腳本成功,並獲得了我需要,如截圖所示,儲存在當前目錄中。


testing chatgpt 4 with coding challenge

Claude 3 – Opus


當我們對 Claude 3 – Opus 下達同樣的指令時,它給出了程式碼和執行前的準備步驟。相比 GPT 4,Claude 3 Opus 的程式碼更易於理解。


testing claude 3 opus with coding challenge

在未修改任何內容的情況下執行程式碼,一次成功。它使用的是 Chrome,而非 Firefox,且截圖儲存在新的目錄中。


testing claude 3 opus with coding challenge

儘管截圖的螢幕大小比 ChatGPT 小,但稍後它也修正了這個問題。


testing claude 3 opus with coding challenge

測試 2:程式語言轉換


在這個測試中,我們將一個 Java 程式轉換為 Go 程式,該程式會將字串轉換為 MD5 雜湊值。我們首先用 ChatGPT 進行測試,並要求「將程式轉換為 Go」。 (can you convert the code behavior in go language “`code“`)


testing chatgpt 4 with programming language conversion

它生成了將字串轉換為 MD5 的程式碼,並且一次就成功執行。


testing chatgpt 4 with programming language conversion
testing chatgpt 4 with programming language conversion

Claude 3 – Opus


同樣的指令在 Claude 3 – Opus 上給出了比 GPT 4 更詳細的解釋。


testing claude 3 opus with programming language conversion

Claude 3 還提供了生成的 MD5 雜湊值,且與提供的字串一致。


testing claude 3 opus with programming language conversion


測試 3:檢查程式錯誤


這次我們給出一段存在緩衝區溢出錯誤的 C 程式碼,這是一個常見錯誤,可能導致遠程代碼執行 (RCE) 以及系統完全崩潰。


指令:檢查我的程式碼是否有錯誤

Prompt: “is there any bug in my code “`#include <stdio.h>

int main() {

    int secret = 0xdeadbeef;

    char name[100] = {0};

    read(0, name, 0x100);

    if (secret == 0x1337) {

        puts(“Wow! “);

    } else {

        puts(“Hello”);

    }

}“`”


testing chatgpt 4 with vulnerability identification in codes

ChatGPT 成功檢測到錯誤並指出錯誤所在。


Claude 3 – Opus


與 ChatGPT 一樣,Claude 3 也能檢測到這個漏洞,並且讀取了整段程式碼及其行為。此外,它還提供了一個無錯誤的程式碼版本。


testing cluade 3 opus with vulnerability identification in codes

測試 4:程式碼分析


我們提供了一個 PHP 反向 shell,並要求 ChatGPT 解釋其運作原理。

Prompt: “can you tell me whats going on here in details “`code“`”.


testing chat gpt 4 to analyse code

ChatGPT 分析了每個步驟,並成功檢測到反向 shell 的存在。


Claude 3 – Opus


Claude 3 – Opus 給出了比 ChatGPT 更詳細的解釋。它使用了分點解說的方式,並且同樣能檢測到反向 shell。


testing claude 3 opus to analyze code

圖像分析

在圖像分析部分,我們將測試臉部識別、多物體識別以及地理位置識別的能力。


測試 1:臉部識別


我們提供了蒙娜麗莎的圖像,並詢問「你認識他嗎?」(Do you know him?)(刻意使用了「他」(him))。GPT 4 和 Claude 3 – Sonnet 都能識別出這是蒙娜麗莎的畫像。


testing chatgpt for facial recognition

testing claude 3 sonnet for facial recognition

接著,我們提供了奧巴馬的照片,這次沒有提問,GPT 4 未能立即識別出來,但在詢問後成功識別。


testing chatgpt for facial recognition

testing chatgpt for facial recognition

相反,Claude 3 Sonnet 一眼就識別出了奧巴馬。


testing claude 3 sonnet for facial recognition

測試 2:多物體識別


我們提供了一張包含 7 種動物的圖片,並要求兩個 AI 識別動物種類和總數。


testing chatgpt 4 for subject identification in image

testing claude 3 for subject identification in image

這次 GPT 4 誤報了一個名稱,而 Claude 3 – Sonnet 更準確地識別了所有動物。


接著,我們測試了一張包含多種形狀的圖片。


testing chatgpt 4 for object identification in image

這次 ChatGPT 4 錯過了一個形狀,而 Claude 3 – Sonnet 成功識別了所有 9 個形狀。


testing claude 3 for object identification in image

測試 3:地理位置識別


我們提供了一張印尼地圖,並要求兩個 AI 識別該國家。GPT 4 未能識別這張地圖,但 Claude 3 – Sonnet 正確識別出了印尼。


testing chatgpt to identify global map

在這些測試中,Claude 3 – Sonnet 的表現多數情況下優於 GPT 4。Claude 3 更能理解問題的真正意圖,並給出適當的回答。


testing claude 3 sonnet to identify global map

這些測試是在 Amazon Bedrock 平台上進行的,不過該模型與官方網站上的版本相同。Amazon Bedrock 讓您可以在一個平台上使用多個 AI 模型。


我們還進行了其他的圖像測試,大多數情況下 Claude 3 Sonnet 的表現優於 GPT 4。Claude 3 能夠更好地理解問題的含義,相比 ChatGPT 4,提供的回答也更加精準。


結論


經過多項測試,包括一般任務、程式碼撰寫、邏輯推理、分析和推理等,我們可以明顯看出 Claude 3 的表現優於 ChatGPT 4。Claude 3 能夠保持更自然、與人對話般的語氣,並且更能準確理解問題背後的真正意圖,給出適當的回應。


然而,ChatGPT 仍然提供了比 Claude 3 更多的功能。您可以使用 GPT 4 瀏覽網路、生成圖片,並在 ChatGPT 平台上自定義 BOT。如果 Claude 3 也整合了這些功能,我看不出繼續使用 ChatGPT 的理由,因為這兩者的訂閱費用是相同的。


總結來說,這兩個 AI 的表現都非常出色。建議您兩者都嘗試,選擇最適合您的需求。我自從 ChatGPT 4 發佈以來每天都在使用它,但如果 OpenAI 不推出能夠超越 Claude 3 的更新,我很可能會轉向使用 Claude 3。感謝您的閱讀。

0 次查看0 則留言

最新文章

查看全部

Commenti


bottom of page