Filmora
Filmora - 人工智慧影片剪輯軟體
更快、更智慧、更容易剪輯!
立即打開
Filmora 影片編輯軟體
最好的編輯器可幫助您輕鬆編輯影片。
  • 使用 300 多種令人驚嘆的效果增強影片
  • 個性化裁剪區域
  • 易於使用

全面評估 Claude 3、ChatGPT 和 Gemini

Gianni
Gianni 最初發佈時間 Apr 02, 24, 更新時間 Sep 14, 24

ChatGPT 於 18 個月前上線後不久,便有大量的聊天機器人如雨後春筍般湧入市場。但並非所有的 AI 模型都有幫助。Claude 在這場競爭中處於領先地位,並與 Gemini 和 ChatGPT 並駕齊驅。

Claude 3 模型系列是 Anthropic 近期推出的一套全新 AI 模型。Opus、Sonnet 和 Haiku 是開發商提供的 3 種典型模型。在價格、配速和智慧方面,每種型號皆為獨一無二。

如今,生成式 AI 專家都忍不住會將 Claude 3 和所有頂尖的 AI 系統進行比較。就連 OpenAI 和 Google 最知名的模型都被 Claude 的 Opus 一舉超越。

為了幫助您選擇正確的工具,我們分別對 3 個聊天機器人進行了詳細比較。

主要重點:

  • 與 Gemini 和 ChatGPT 相比,Claude 3 在理解、邏輯和技術編碼方面的表現更加出色。Opus 模型因其智慧和適應性脫穎而出。
  • 各種測試情況則揭曉每種 AI 模型的優缺點。Claude 3 努力解答特定的數學問題。但它在其他方面表現出色,包括遵循指示和編寫敘述。
  • 在以各種形式產出文字時,Gemini 和 GPT-4 展現出驚人的速度。它們整體上表現良好,尤其是在基本的文字生成活動中。
  • 至於需要思考或情境感知的困難問題,則超出了所有模型的能力。它們提供了缺失的資訊,或在某些情況下準確的答案。
  • 在影片編輯工作中尋求 AI 協助的使用者,可能會發現 Filmora 的聊天機器人 AI Copilot 不失為一個可行的選項。
在本文中
  1. 第 2 部分:並列評估 ChatGPT-4、Gemini 和 Claude 3
  2. 第 3 部分:Claude、ChatGPT 或 Gemini,究竟誰會在測試後勝出?
  3. 結論

全面比較 Claude3、GPT4 和 Gemini

我們讓 ChatGPT、Gemini 和 Claude 互相較勁。我們的問題測試了它們為企業執行實際任務的能力。包括從文件中擷取資訊和傳送電子郵件。

在 7 項測試中,我們發現 Claude 提供了 3 個正確答案,而 ChatGPT 和 Gemini 則在部分答案中勝出。因此,在上一回合以平局結束的情況下,Claude 在這場對戰中勝出。

以下是我們詢問 3 個聊天機器人的所有問題。

1) 撰寫產品說明

如果您擁有一間網路商店或在線上銷售大量商品,那麼為眾多商品撰寫原創敘述可能會是一件苦差事。我們想要敘述的產品是一般的兒童玩具。對此,我們向 ChatGPT、Gemini 和 Claude 請求協助。讓我們告訴您 Claude 的表現如何:

我們必須要求 Claude 做出一些冗長的解釋。那是因為我們還沒見過它能如同 ChatGPT 那樣撰寫多個產品敘述。最後,它成功了;撰寫風格引人入勝,句子結構非常出色。

與 ChatGPT 和 Gemini 相比,Claude 提供了出色的產品敘述。這聽起來更有魅力,像極了其道德論證。您將需要更改 Claude 生成的產品敘述,如果您使用這 2 個程式批次建立它們,那麼需要更改的部分會少很多。

  • 測試提示:為我建立獨一無二的 50 字產品敘述。我在網路上販售兒童玩具。我收集了大量不同品質和價格的玩具。
  • Claude 3 的回應
產品敘述編寫測試 claude
  • Gemini 的回應
產品敘述編寫測試 gemini
  • ChatGPT 的回應
產品敘述編寫測試 chatgpt
  • 贏家Claude

2) 計算準確的持續時間

在此測試中,我們的目標是欺騙 AI 演算法來檢測任何智慧跡象。很遺憾地,Claude 3 Opus 如同 Gemini 並未通過測試。這個問題很困難,所以要明智地綜觀思考;我們也將其納入系統提示中。即便如此,Opus 模型的數學計算還是出錯了。

同樣地,GPT-4 也在此測試中出錯了。此外,它還產生不一致的結果。即使在更正提示後,當我們今天早上再次執行相同的查詢時,GPT-4 仍繼續提供不正確的結果。

  • 測試提示:烘乾 25 件襯衫需要 1 小時。那麼,在陽光下風乾 5 件襯衫需要多久?
  • Claude 3 的回應
持續時間計算測試 claude
  • Gemini 的回應
持續時間計算測試 gemini
  • ChatGPT 的回應
持續時間計算測試 chatgpt
  • 贏家:無

3) 解決數學問題

我們的下一次查詢是從 Claude 3 Opus 模型中尋求數學解決方案,但不涉及計算整數。仍未成功。每次執行提示時,我們都會遇到不同程度的不正確結果。Claude 3 Opus 在數學基準測試中名列前茅,擊敗 GPT-4 和 Gemini 在內一眾競爭對手。

將此類提示運用在 Claude 3 Opus 模型似乎可以提供更好的結果。目前,GPT-4 和 Gemini 在被問及此類的提示時,都提供了正確的回應。

  • 測試提示:132 乘以 321 有一個十位數(A)和一個個位數(B);求出 A+B 的值。可否提供最簡單的解決方案?
  • Claude 3 的回應
數學問題測驗 claude
  • Gemini 的回應
數學問題測試 gemini
  • ChatGPT 的回應
數學問題測驗 chatgpt
  • 贏家:Gemini 和 GPT-4

4) 橘子計數測試

讓我們嘗試一下著名的橘子評估,其旨在測試大型語言模型(LLM)的思維能力。Claude 3 Opus 模型恰好解答了這個問題;您現在有 5 顆橘子。但我們必須補充的是,您是一位得力助手,具有對系統提示進行進階思考,進而獲得正確答案的能力。在沒有系統提示的情況下,Opus 提供了不準確的結果。如同我們先前的測試,Gemini 和 GPT-4 皆提供了準確的結果。

測試提示:我昨天吃了 1 個橘子,現在我有 5 個橘子。那麼,現在我有幾個橘子?

  • Claude 3 的回應
橘子計數測試 claude
  • Gemini 的回應
橘子計數測試 gemini
  • ChatGPT 的回應
橘子計數測試 chatgpt
  • 贏家:GPT-4、Gemini 和 Claude 3 Opus

5) 重量計算

我們接下來要做的是,讓 3 個 AI 模型分別告訴我們 1 磅馬鈴薯是否比 1 公斤番茄重。嗯,Claude 3 Opus 的答案是錯的。GPT-4 和 Gemini AI 模型皆提供了準確的回應。

由於 1 公斤的重量約為 1 磅的 2.2 倍,因此每公斤的番茄比每磅的馬鈴薯還要重。

  • 測試提示:1 磅馬鈴薯比 1 公斤番茄還要重。
  • Claude 3 的回應
重量計算測試 claude
  • Gemini 的回應
重量計算測試 gemini
  • ChatGPT 的回應
重量計算測試 chatgpt
  • 贏家:ChatGPT 和 Gemini

6) 遵循提供的指示

Claude 3 Opus 模型能夠出色地遵循使用者的指令。它基本上已取代了所有現有的 AI 模型。我們發出了指令,要求想出 5 個以「巧克力」一詞為結尾的句子。它產生了 3 個完全合理的短語來達成這項指令。

相比之下,GPT-4 能夠說出一些短語。Gemini 則位居末位,甚至連續 3 個短語都以失敗告終。

因此,如果您的工作要求嚴格遵循使用者的指示,那麼 Claude 3 Opus 便是一個可靠的 AI 模型。

  • 測試提示:建立 5 個以「巧克力」一詞為結尾的短語。
  • Claude 3 的回應
遵循使用者指示測試 claude
  • Gemini 的回應
遵循使用者指示測試 gemini
  • ChatGPT 的回應
遵循使用者指示測試 chatgpt
  • 贏家Claude 3 Opus

7) 提供個人建議

我們打算測試 ChatGPT、Gemini 和 Claude 對獨特場景的反應。我們要求它們為患有心理健康問題的個人提供建議。隨著這些技術在我們的生活中日漸普及,它們便應該對我們的需求做出適當的反應。

所有聊天機器人提供的回應都非常好。它們的建議是先讓使用者安心,並向使用者保證其情感是真實的。因此,它們堪稱無可挑剔。

每個聊天機器人建議的方法也相同。遇到提示中列出的問題時,它們如同任何善良的人,會向遇到問題的人們提出建議。

  • 測試提示:最近,我一直在處理許多心理健康問題且感到孤獨。對於處於這種困境中的人,您想對他說些什麼?
  • Claude 3 的回應
個人建議測試 claude
  • Gemini 的回應
個人建議測試 gemini
  • ChatGPT 的回應
個人建議測試 chatgpt
  • 贏家:平手

並列評估 ChatGPT-4、Gemini 和 Claude 3

指標 Claude 3 Gemini ChatGPT
公司 Anthropic AI Google AI OpenAI
推出時間 2024 年 3 月 4 日 2024年(首次推出) 2020 年
平台 基於雲端 基於雲端 基於雲端
價格 訂閱制 提供免費和付費版本 提供免費和付費版本
視覺輸入 支援圖像輸入 支援圖像輸入
優點 - 最大上下文長度
- 出色的基準表現
- 搶先發佈
- 出色的視覺理解能力
- 持續改進
- 推理和理解能力
缺點 - 需要訂閱
- 免費版本可能比其他版本來得慢
- 限制最大內容長度
- 限制公開資訊
- 不支援視覺輸入
- 存取受限(受控)

Claude、ChatGPT 或 Gemini,究竟誰會在測試後勝出?

在人工智慧方面,它們都是走在最前線的大型語言模型(LLM)。三者之間的比較如下:

Claude 3 在基於推理的活動,以及圖形和圖表等視覺判讀任務中表現出色。其中一個缺點是,其速度可能比 Gemini 和 GPT-4 等替代選項來得慢,尤其是其免費版本。

OpenAI GPT-4 是一款快速文字生成器。由於某些限制,有關其功能的可用資訊較少。

在處理程式碼或事實語言時,Gemini 便是一個絕佳選擇。最新版本 Gemini Ultra 在某些基準上可能表現不佳。

1) 編碼效能:

Claude 3 的主要功能是簡化一般寫作任務。它為編碼作業提供了一些幫助。它可以幫助完成程式碼、錯誤偵測並提供語法建議。

Gemini 的問世旨在成為程式碼創作工具,如今其範圍已大幅拓展。它提供可及的編碼速度,而 Claude 3 則提供更多的深度和專業化。

雖然 ChatGPT 並非專門用於編碼工作,但其可以幫助解決有關編碼的問題。即使它不如 Claude 3 或 Gemini 來得有效,但它可以提供一般的編碼協助。

2) 專業程度:

如果您在完成程式碼、疑難排解或建議方面需要協助,Claude 3 便是您的絕佳首選。

Gemini 可以處理各種文字生成工作。

ChatGPT 可以生成文字、進行對話、回答問題等。它並不像 Claude 3 那樣專注於編碼工作,但也不到 Gemini 的程度。

3) 對提示的回應:

由於其在編碼相關查詢方面的專業知識,Claude 3 可能會根據編碼工作的難度提供高效且快速的答案。

手頭工作的難度決定了 Gemini 的預期回應時間。它在此領域的效率更為廣泛。

回應所需的時間取決於查詢的複雜性和系統目前的負載。因為其演算法的緣故,它並不像 Claude 3 那樣適合編碼工作。

4) 可用性與價格

Claude 提供一個設限的免費版本。人們可能無法負擔存取費用,因為需要擁有會員資格才能使用進階版功能。

根據個人的預算和要求,Gemini 也有提供免費和付費的方案。

ChatGPT 適合預算不同的客戶,提供免費和付費選項。但是,需要擁有會員資格才能獲得進階服務。

5) 限制與道德方面:

這 3 種模式都存在對資料隱私、結果不準確和可能濫用技術的隱憂。這 3 種模式都依賴於對私人資料的正確管理以及公平結果的保證。

雖然 Claude 3、Gemini 和 ChatGPT 擅長基於文字的活動,且能夠掌握輸入,但它們無法再處理影片輸入。影片畫面或片段等視覺資訊超出了這些模型自身的能力,因為它們主要處理的是文字資料。因此,它們對正在嘗試編輯影片的使用者並沒有太大的幫助。

別擔心!您可以選擇使用 Filmora 的 AI Copilot 聊天機器人,這是專為協助使用者建立影片內容而量身打造的功能。透過此功能,使用者可以存取旨在簡化影片編輯流程的各種功能。此外,AI Copilot 可以檢查影片片段、了解編輯需求並提供相關建議。

簡而言之,它是影片專用且為影片製作人提供獨特的解決方案。來看看以下介紹 AI Copilot 的影片。

AI Copilot 編輯 - Filmora 13 的全新智慧功能

免費下載
免費下載

最後的一些想法

透過比較 Claude 3、Gemini 和 ChatGPT,我們可以看見每個模型的擅長和不足之處。與 Gemini 在各種基於文字的應用程式中的適應性相比,Claude 3 的特定功能使其成為編碼相關工作的理想選擇。反之,Claude 3 因其專長脫穎而出,而 ChatGPT 則因其廣泛的功能取勝。

然而,這 3 個模型的共同點是無法處理影片作為輸入,這一點也讓它們對影片編輯任務毫無用處。

對於製作影片時需要 AI 協助的使用者而言,Filmora 的 AI Copilot 聊天機器人是一個絕佳的解決方案。此工具透過建議和執行各種動作提供個人化的支援,進而加快編輯過程。所以,馬上下載 Filmora 試試 AI Copilot 吧!

Gianni
Gianni Sep 14, 24
分享文章: