ChatGPT 於 18 個月前上線後不久,便有大量的聊天機器人如雨後春筍般湧入市場。但並非所有的 AI 模型都有幫助。Claude 在這場競爭中處於領先地位,並與 Gemini 和 ChatGPT 並駕齊驅。
Claude 3 模型系列是 Anthropic 近期推出的一套全新 AI 模型。Opus、Sonnet 和 Haiku 是開發商提供的 3 種典型模型。在價格、配速和智慧方面,每種型號皆為獨一無二。
如今,生成式 AI 專家都忍不住會將 Claude 3 和所有頂尖的 AI 系統進行比較。就連 OpenAI 和 Google 最知名的模型都被 Claude 的 Opus 一舉超越。
為了幫助您選擇正確的工具,我們分別對 3 個聊天機器人進行了詳細比較。
主要重點:
- 與 Gemini 和 ChatGPT 相比,Claude 3 在理解、邏輯和技術編碼方面的表現更加出色。Opus 模型因其智慧和適應性脫穎而出。
- 各種測試情況則揭曉每種 AI 模型的優缺點。Claude 3 努力解答特定的數學問題。但它在其他方面表現出色,包括遵循指示和編寫敘述。
- 在以各種形式產出文字時,Gemini 和 GPT-4 展現出驚人的速度。它們整體上表現良好,尤其是在基本的文字生成活動中。
- 至於需要思考或情境感知的困難問題,則超出了所有模型的能力。它們提供了缺失的資訊,或在某些情況下準確的答案。
- 在影片編輯工作中尋求 AI 協助的使用者,可能會發現 Filmora 的聊天機器人 AI Copilot 不失為一個可行的選項。
在本文中
全面比較 Claude3、GPT4 和 Gemini
我們讓 ChatGPT、Gemini 和 Claude 互相較勁。我們的問題測試了它們為企業執行實際任務的能力。包括從文件中擷取資訊和傳送電子郵件。
在 7 項測試中,我們發現 Claude 提供了 3 個正確答案,而 ChatGPT 和 Gemini 則在部分答案中勝出。因此,在上一回合以平局結束的情況下,Claude 在這場對戰中勝出。
以下是我們詢問 3 個聊天機器人的所有問題。
1) 撰寫產品說明
如果您擁有一間網路商店或在線上銷售大量商品,那麼為眾多商品撰寫原創敘述可能會是一件苦差事。我們想要敘述的產品是一般的兒童玩具。對此,我們向 ChatGPT、Gemini 和 Claude 請求協助。讓我們告訴您 Claude 的表現如何:
我們必須要求 Claude 做出一些冗長的解釋。那是因為我們還沒見過它能如同 ChatGPT 那樣撰寫多個產品敘述。最後,它成功了;撰寫風格引人入勝,句子結構非常出色。
與 ChatGPT 和 Gemini 相比,Claude 提供了出色的產品敘述。這聽起來更有魅力,像極了其道德論證。您將需要更改 Claude 生成的產品敘述,如果您使用這 2 個程式批次建立它們,那麼需要更改的部分會少很多。
- 測試提示:為我建立獨一無二的 50 字產品敘述。我在網路上販售兒童玩具。我收集了大量不同品質和價格的玩具。
- Claude 3 的回應
- Gemini 的回應
- ChatGPT 的回應
- 贏家:Claude
2) 計算準確的持續時間
在此測試中,我們的目標是欺騙 AI 演算法來檢測任何智慧跡象。很遺憾地,Claude 3 Opus 如同 Gemini 並未通過測試。這個問題很困難,所以要明智地綜觀思考;我們也將其納入系統提示中。即便如此,Opus 模型的數學計算還是出錯了。
同樣地,GPT-4 也在此測試中出錯了。此外,它還產生不一致的結果。即使在更正提示後,當我們今天早上再次執行相同的查詢時,GPT-4 仍繼續提供不正確的結果。
- 測試提示:烘乾 25 件襯衫需要 1 小時。那麼,在陽光下風乾 5 件襯衫需要多久?
- Claude 3 的回應
- Gemini 的回應
- ChatGPT 的回應
- 贏家:無
3) 解決數學問題
我們的下一次查詢是從 Claude 3 Opus 模型中尋求數學解決方案,但不涉及計算整數。仍未成功。每次執行提示時,我們都會遇到不同程度的不正確結果。Claude 3 Opus 在數學基準測試中名列前茅,擊敗 GPT-4 和 Gemini 在內一眾競爭對手。
將此類提示運用在 Claude 3 Opus 模型似乎可以提供更好的結果。目前,GPT-4 和 Gemini 在被問及此類的提示時,都提供了正確的回應。
- 測試提示:132 乘以 321 有一個十位數(A)和一個個位數(B);求出 A+B 的值。可否提供最簡單的解決方案?
- Claude 3 的回應
- Gemini 的回應
- ChatGPT 的回應
- 贏家:Gemini 和 GPT-4
4) 橘子計數測試
讓我們嘗試一下著名的橘子評估,其旨在測試大型語言模型(LLM)的思維能力。Claude 3 Opus 模型恰好解答了這個問題;您現在有 5 顆橘子。但我們必須補充的是,您是一位得力助手,具有對系統提示進行進階思考,進而獲得正確答案的能力。在沒有系統提示的情況下,Opus 提供了不準確的結果。如同我們先前的測試,Gemini 和 GPT-4 皆提供了準確的結果。
測試提示:我昨天吃了 1 個橘子,現在我有 5 個橘子。那麼,現在我有幾個橘子?
- Claude 3 的回應
- Gemini 的回應
- ChatGPT 的回應
- 贏家:GPT-4、Gemini 和 Claude 3 Opus。
5) 重量計算
我們接下來要做的是,讓 3 個 AI 模型分別告訴我們 1 磅馬鈴薯是否比 1 公斤番茄重。嗯,Claude 3 Opus 的答案是錯的。GPT-4 和 Gemini AI 模型皆提供了準確的回應。
由於 1 公斤的重量約為 1 磅的 2.2 倍,因此每公斤的番茄比每磅的馬鈴薯還要重。
- 測試提示:1 磅馬鈴薯比 1 公斤番茄還要重。
- Claude 3 的回應
- Gemini 的回應
- ChatGPT 的回應
- 贏家:ChatGPT 和 Gemini
6) 遵循提供的指示
Claude 3 Opus 模型能夠出色地遵循使用者的指令。它基本上已取代了所有現有的 AI 模型。我們發出了指令,要求想出 5 個以「巧克力」一詞為結尾的句子。它產生了 3 個完全合理的短語來達成這項指令。
相比之下,GPT-4 能夠說出一些短語。Gemini 則位居末位,甚至連續 3 個短語都以失敗告終。
因此,如果您的工作要求嚴格遵循使用者的指示,那麼 Claude 3 Opus 便是一個可靠的 AI 模型。
- 測試提示:建立 5 個以「巧克力」一詞為結尾的短語。
- Claude 3 的回應
- Gemini 的回應
- ChatGPT 的回應
- 贏家:Claude 3 Opus
7) 提供個人建議
我們打算測試 ChatGPT、Gemini 和 Claude 對獨特場景的反應。我們要求它們為患有心理健康問題的個人提供建議。隨著這些技術在我們的生活中日漸普及,它們便應該對我們的需求做出適當的反應。
所有聊天機器人提供的回應都非常好。它們的建議是先讓使用者安心,並向使用者保證其情感是真實的。因此,它們堪稱無可挑剔。
每個聊天機器人建議的方法也相同。遇到提示中列出的問題時,它們如同任何善良的人,會向遇到問題的人們提出建議。
- 測試提示:最近,我一直在處理許多心理健康問題且感到孤獨。對於處於這種困境中的人,您想對他說些什麼?
- Claude 3 的回應
- Gemini 的回應
- ChatGPT 的回應
- 贏家:平手
並列評估 ChatGPT-4、Gemini 和 Claude 3
指標 | Claude 3 | Gemini | ChatGPT |
公司 | Anthropic AI | Google AI | OpenAI |
推出時間 | 2024 年 3 月 4 日 | 2024年(首次推出) | 2020 年 |
平台 | 基於雲端 | 基於雲端 | 基於雲端 |
價格 | 訂閱制 | 提供免費和付費版本 | 提供免費和付費版本 |
視覺輸入 | 支援圖像輸入 | 支援圖像輸入 | 否 |
優點 | - 最大上下文長度 - 出色的基準表現 |
- 搶先發佈 - 出色的視覺理解能力 |
- 持續改進 - 推理和理解能力 |
缺點 | - 需要訂閱 - 免費版本可能比其他版本來得慢 |
- 限制最大內容長度 - 限制公開資訊 |
- 不支援視覺輸入 - 存取受限(受控) |
Claude、ChatGPT 或 Gemini,究竟誰會在測試後勝出?
在人工智慧方面,它們都是走在最前線的大型語言模型(LLM)。三者之間的比較如下:
Claude 3 在基於推理的活動,以及圖形和圖表等視覺判讀任務中表現出色。其中一個缺點是,其速度可能比 Gemini 和 GPT-4 等替代選項來得慢,尤其是其免費版本。
OpenAI GPT-4 是一款快速文字生成器。由於某些限制,有關其功能的可用資訊較少。
在處理程式碼或事實語言時,Gemini 便是一個絕佳選擇。最新版本 Gemini Ultra 在某些基準上可能表現不佳。
1) 編碼效能:
Claude 3 的主要功能是簡化一般寫作任務。它為編碼作業提供了一些幫助。它可以幫助完成程式碼、錯誤偵測並提供語法建議。
Gemini 的問世旨在成為程式碼創作工具,如今其範圍已大幅拓展。它提供可及的編碼速度,而 Claude 3 則提供更多的深度和專業化。
雖然 ChatGPT 並非專門用於編碼工作,但其可以幫助解決有關編碼的問題。即使它不如 Claude 3 或 Gemini 來得有效,但它可以提供一般的編碼協助。
2) 專業程度:
如果您在完成程式碼、疑難排解或建議方面需要協助,Claude 3 便是您的絕佳首選。
Gemini 可以處理各種文字生成工作。
ChatGPT 可以生成文字、進行對話、回答問題等。它並不像 Claude 3 那樣專注於編碼工作,但也不到 Gemini 的程度。
3) 對提示的回應:
由於其在編碼相關查詢方面的專業知識,Claude 3 可能會根據編碼工作的難度提供高效且快速的答案。
手頭工作的難度決定了 Gemini 的預期回應時間。它在此領域的效率更為廣泛。
回應所需的時間取決於查詢的複雜性和系統目前的負載。因為其演算法的緣故,它並不像 Claude 3 那樣適合編碼工作。
4) 可用性與價格
Claude 提供一個設限的免費版本。人們可能無法負擔存取費用,因為需要擁有會員資格才能使用進階版功能。
根據個人的預算和要求,Gemini 也有提供免費和付費的方案。
ChatGPT 適合預算不同的客戶,提供免費和付費選項。但是,需要擁有會員資格才能獲得進階服務。
5) 限制與道德方面:
這 3 種模式都存在對資料隱私、結果不準確和可能濫用技術的隱憂。這 3 種模式都依賴於對私人資料的正確管理以及公平結果的保證。
雖然 Claude 3、Gemini 和 ChatGPT 擅長基於文字的活動,且能夠掌握輸入,但它們無法再處理影片輸入。影片畫面或片段等視覺資訊超出了這些模型自身的能力,因為它們主要處理的是文字資料。因此,它們對正在嘗試編輯影片的使用者並沒有太大的幫助。
別擔心!您可以選擇使用 Filmora 的 AI Copilot 聊天機器人,這是專為協助使用者建立影片內容而量身打造的功能。透過此功能,使用者可以存取旨在簡化影片編輯流程的各種功能。此外,AI Copilot 可以檢查影片片段、了解編輯需求並提供相關建議。
簡而言之,它是影片專用且為影片製作人提供獨特的解決方案。來看看以下介紹 AI Copilot 的影片。
AI Copilot 編輯 - Filmora 13 的全新智慧功能
最後的一些想法
透過比較 Claude 3、Gemini 和 ChatGPT,我們可以看見每個模型的擅長和不足之處。與 Gemini 在各種基於文字的應用程式中的適應性相比,Claude 3 的特定功能使其成為編碼相關工作的理想選擇。反之,Claude 3 因其專長脫穎而出,而 ChatGPT 則因其廣泛的功能取勝。
然而,這 3 個模型的共同點是無法處理影片作為輸入,這一點也讓它們對影片編輯任務毫無用處。
對於製作影片時需要 AI 協助的使用者而言,Filmora 的 AI Copilot 聊天機器人是一個絕佳的解決方案。此工具透過建議和執行各種動作提供個人化的支援,進而加快編輯過程。所以,馬上下載 Filmora 試試 AI Copilot 吧!