• ExplainAI 電子報
  • Posts
  • ♊️ #15 ChatGPT 與 Bard 評測,GPT 與 Gemini 誰的成果更好?

♊️ #15 ChatGPT 與 Bard 評測,GPT 與 Gemini 誰的成果更好?

四種情境評測:翻譯、摘要分析、評論、程式

哈囉!ExplainAI 電子報讀者們,大家好!👋

歡迎閱讀每個月一次的 ExplainAI 電子報,最近 AI 界的大新聞,莫過於 Google 的 Gemini 模型正式推出。Google 在推出 Gemini 時,同時秀出了跑分,在 32 項跑分中,Gemini Ultra 有 30 項超越目前業界最強的 GPT-4,這引起了社群的廣泛討論。畢竟過去一年 ChatGPT 一直被認為是回覆品質最好的 AI 聊天機器人,現在 Gemini 的跑分超過 GPT-4,在社群中也出現是否 Bard 將取代 ChatGPT 的討論。

但是現實狀況跟實驗中的跑分往往會是兩回事,畢竟實驗可能可以透過一些調整去獲得比較好看的跑分數字,因此推薦大家在直接相信跑分前,自己去嘗試會是很重要的。基於這點,在本期 ExplainAI 電子報,我們將針對不同面向實際評測,來看看 GPT 與 Gemini 到底孰優孰劣? 或是誰比較擅長某些領域的任務?

最後,在進到本期正式內容前,想跟大家分享 ExplainThis 開始經營 IG 帳號,比起電子報,IG 會是更圖文導向的方式分享內容,歡迎大家追蹤 [IG 連結]。

📍 AI 深度聊 — ChatGPT 與 Bard 評測,GPT 與 Gemini 誰的成果更好

如電子報開頭提到,這一期我們將針對幾個多數上班族會遇到的以下四種情境來評測:

  • 翻譯類工作

  • 摘要與分析類工作

  • 評論類工作

  • 程式類工作

特別注意,因為目前 Bard 使用的是 Gemini Pro,而不是最強的 Gemini Ultra,在實際跑分上,GPT-4 在多項指標仍是好過 Gemini Pro,所以我們實際的測試,會是比較 GPT-4、GPT-3.5,以及 Gemini Pro。另外,在 Gemini 發布的跑分數據中,有些是 0-shot 有些是 5-shot,有些是 10-shot,所以在不同狀況下,可能不同模型表現不同,這邊我們統一用 0-shot 來測試。

評測總結

相信很多人可能會想直接看評測的結果。這邊先放我們的結論,有興趣了解細節的讀者可以往下看。在看結論前想提醒大家,AI 生成的結果好壞判斷,是相對主觀的。同樣的內容可能有人覺得 A 比較好,但也可能有其他人偏好 B。因此推薦大家也可以自己測測看,然後選擇自己偏好的。

以總體來看,我們認為 GPT-4 是好過 Gemini Pro 的表現,而 Gemini Pro 好過 GPT-3.5。因此,假如同樣是不花錢只用免費版的,目前我們的首選會是 Bard 而不是 ChatGPT;而如果想再獲得更好一點的回覆成果,且願意每個月花 $20 美元,那麼 ChatGPT 仍是我們的首選。

這時你可能會問,應該花錢升級到 GPT-4 嗎? 假如你原本用免費版 ChatGPT 覺得已經很足夠,現在仍推薦可以持續用免費版就好,甚至推薦可以改成用 Bard。然而如果你過去是 GPT-4 重度使用者,且會用插件與 DALL·E 等額外功能,那麼目前的 Bard 可能仍然沒辦法滿足你的需求。

翻譯類任務

用 AI 協助翻譯的品質會比傳統用 Google 翻譯來的好,以下我們測試翻譯先前介紹《Odd One Out》AI 遊戲的介紹 [中文原文點此]。我們使用簡短的提示詞,只標著用紐約客的風格來輸出 (Act as a professional blogger, turn the following content into English and write in New Yorker's style) 

翻譯速度上來說,Gemini Pro 跟 GPT-3.5 速度差不多。而跟 GPT-4 對比,Gemini Pro 速度快很多,幾乎是穩定兩到三倍快,同樣的段落,Gemini Pro 完成翻譯後,GPT-4 幾乎每次都翻不到一半。

當然,對於翻譯的偏好這件事很主觀,以下附上「生成式圖像讓眼見為憑的不再是可靠的,例如我們前幾天分享的 AI 換臉工具 misgif (以及版友留言推薦的 MemeMe),或是前陣子討論度比較高的 HeyGen,以假亂真到難以辨別。因此非常推薦大家玩這個小遊戲。」這段落的翻譯結果,大家可以有自己的評分與判斷。

為了讓大家更能獨立判斷,以下三個結果先不放是哪個模型翻譯的,推薦大家先有自己的判斷,在看下方揭曉的結果,以及我們的看法。

In an era where seeing is no longer believing, generative images have shaken our trust in visual evidence. Take, for example, the AI face-swapping tool misgif we shared recently, or the widely discussed HeyGen. Their capacity to blend fiction with reality is astonishing. Therefore, I highly recommend giving this game a try.

In the age of deepfakes and other forms of synthetic media, it is more important than ever to be able to think critically about the information we consume. Odd One Out can help us develop this skill by teaching us to question our assumptions and to look for evidence to support our beliefs.

I highly recommend this game to anyone who wants to improve their critical thinking skills. It is a fun and engaging way to learn to think for yourself.

Generative imagery has turned the age-old adage "seeing is believing" on its head. Take, for instance, the AI face-swapping tool we shared a few days ago, known as "misgif" (as well as the memes recommended by fellow users), or the recent buzz around "HeyGen." These technologies blur the line between reality and fiction to the point where it's often challenging to tell them apart. That's precisely why I wholeheartedly recommend everyone give this little game a spin.

大家有自己心目中的排序了嗎? 這邊揭曉以上分別是 GPT-4、Gemini Pro 以及 GPT-3.5 的翻譯成果。

我們的看法是:同樣的提示詞下,Gemini Pro 會把一些原文內容做重新詮釋,而不是直接翻譯;GPT-4 與 GPT-3.5 則會保留更奪中文的原字句。至於翻譯的品質,原文的意思都沒有偏掉,寫作風格上 GPT-4 更能揣摩紐約客的風格,但 Gemini Pro 的寫作品質也很好。

總的來說,如果希望更保留原本字句,GPT-4 效果比較好;但假如翻譯需求不是非要逐句翻,Gemini Pro 讓人讀起來覺得比較順

摘要與分析類任務

在求學或工作中,摘要與分析也是經常需要做的事,AI 在這塊也能幫上大忙。這邊選用《TypeScript 紀錄片心得 — 開創微軟的開源之路》一文 [原文點此],分別測試了 Gemini Pro、GPT-4 與 GPT-3.5,來看看分別的成效。

這邊使用的提示詞是「扮演一名產業分析專家,摘要以下內容,列出三點主要收穫與洞見,並提出科技公司可以基於這些洞見有什麼具體行動」,一樣先讓大家看看三個回覆的成果 (因為回覆很長,這邊只截取其中一點洞見與具體行動)

開源是 TypeScript 成功的關鍵:TypeScript 的成功,與它從最開始就開源的策略密不可分。開源讓 TypeScript 能夠獲得廣泛的開發者社群支持,並快速地發展出豐富的工具與資源。

科技公司可以基於這些洞見採取的具體行動:擁抱開源。開源可以幫助科技公司獲得廣泛的開發者社群支持,並快速地發展出豐富的工具與資源。

開源策略的影響:微軟最初開發 TypeScript 是為了內部需求,但最終決定將其開源。這一策略不僅幫助 TypeScript 獲得了廣泛的社群支持,也是微軟轉向開源社群的重要一步。

行動建議:科技公司應該考慮開源策略作為提高產品影響力和獲取社群支持的手段。開源不僅可以加速技術創新,還能建立品牌的積極形象。

開源對於成功的關鍵性作用:TypeScript 的開源使它能夠受到廣泛的開發者社群支持,進而成為主流的程式語言選擇。微軟的商業模式轉變,由賣專有軟體轉向提供雲端服務,使得開源成為可能。開源不僅擴大了使用者群,還增加了合作機會,促進了微軟在開源社群的參與。

科技公司可以基於這些洞見採取以下具體行動:如果科技公司希望推廣其產品或技術,考慮將其開源,以擴大開發者社群並增加合作機會。開源可以提高產品的可見性和受歡迎度,同時也能更好地聆聽使用者的反饋,以不斷改進產品。

對於以上三個總結與推薦的行動,大家有偏好的排序了嗎? 這邊揭曉以上分別是 Gemini Pro、GPT-4 以及 GPT-3.5 的成果。

我們的觀點是,如果要選一個版本來用,也是最偏好 GPT-4。Gemini Pro 在而這邊可以看到在行動方案部分與總結的文字,有高度的重疊;而 GPT-3.5 有比較顯而易見的問題,就是混淆了不同段落。原文提到開源與傾聽使用者聲音,這是兩個獨立的點,其實不沒有因果關係,即使不開源也是可以很好地聆聽使用者的聲音。因此在這項任務上,會認為 GPT-4 > Gemini Pro > GPT-3.5。GPT-3.5 最差是因為有相對嚴重的因果混淆問題。

評論類工作

評論、點評、批判等任務,也是工作很常需要用到的。先前我們寫過《用 ChatGPT 來練習獨立思考,以黃仁勳的演講為例》一文,說明在 AI 時代,獨立思考的重要性,以及如何用 AI 工具幫助自己做好這點。

這邊使用以下提示詞「扮演一名具有獨立思考的評論員,請針對以下內容,提出你的看法,包含提出反面觀點,並點出有哪些沒考量到的面向、有哪些面向可以講得更深入?」來評論《選擇無聊的技術》[原文連結] 這篇內容。

由於 Gemini Pro、GPT-4 與 GPT-3.5 的回覆都有一定長度,這邊節錄其中的段落,一樣先讓大家判斷覺得哪個評論的比較好

在這篇文章中,作者提出了一個有趣的觀點,即選擇技術框架時應該考慮到實際價值和成本效益,而不是盲目地追求最新的技術。這種謹慎選擇技術的方法值得探討,但也存在一些反面觀點和未考慮到的方面。

首先,值得注意的是,選擇技術框架應該根據具體的項目需求而定。在某些情況下,使用新的技術可能確實能夠提供更好的性能和更好的開發體驗,這可以對長期成功的網站運營有重要影響。因此,不應該一味追求無聊的技術,而應該在技術選擇上找到平衡,根據具體需求來做出選擇。

另一個反面觀點是,技術的演進往往帶來更好的安全性、可維護性和擴展性。使用過時的技術可能會導致未來的問題,需要更多的時間和資源來修復。因此,在選擇技術時,也應該考慮到長期的可持續性,而不僅僅是目前的價值。

ExplainThis 團隊在評估時沒有考慮到以下因素:

- 未來的發展需求

- 團隊的技術能力

- 網站的複雜性

如果 ExplainThis 團隊考慮了這些因素,他們可能會做出不同的決定。例如,如果他們計劃在未來添加更多互動功能,那麼升級 Next 13 或遷移到 Astro 可能會是一個更好的選擇。以下是一些可以深入討論的面向:

- 如何衡量技術成本和收益

- 如何評估技術對用戶體驗的影響

- 如何考慮未來的發展需求

- 如何評估團隊的技術能力

- 如何評估網站的複雜性

這些面向可以幫助我們更好地理解技術選擇的影響

反面觀點

- 技術進步的忽略:這種保守的策略可能會導致錯過新技術帶來的機遇,特別是在快速變化的前端技術領域。

- 對未來的不可預測性:即使目前的技術框架表現良好,但未來可能會出現更優秀的解決方案,因此需要保持靈活性。

- 技術債務的積累:長期依賴過時的技術可能會導致技術債務,未來升級或轉移成本可能會更高。

深入討論的面向
- 技術趨勢與業務需求的平衡:如何在追求最新技術趨勢和滿足實際業務需求之間取得平衡。

- 成本效益分析:深入探討升級技術和維持現狀之間的成本效益,包括長期和短期的影響。

- 技術創新與風險管理:探討如何在採用新技術的同時有效管理風險,特別是在高度競爭的市場中。

大家覺得哪個評論比較精闢呢? 上面的評論分別來自 GPT-3.5、Gemini Pro,以及 GPT-4。我們認為上面三個回覆版本,是 GPT-4 > Gemini Pro > GPT-3.5

GPT-3.5 的輸出僅提到兩個主要的不同觀點,但是 GPT-4 與 Gemini Pro 都有更完整的列舉不同觀點。由於 GPT-4 對某個提出的點,有在進一步做解釋,因此對於寫原文的我們來說,這個回覆會比較有幫助一點。

程式類工作

作為工程師,在寫程式、寫測試時,用 AI 幫忙,幾乎已經成為過去一年的開發日常行為。之前一直是用 ChatGPT 以及基於 GPT-4 模型的 Cursor,這次 Gemini 特別發表了《Gemini: Excelling at competitive programming》介紹,來展示 Gemini 寫程式的強大能力。

這邊簡單測了幾種情境,一個是軟體工程師面試基本都會被問的資料結構與演算法。我們用業界最有名的 Blind 75 問題測試,拿了五題 Hard 的問題,基本上 Gemini Pro、GPT-4 與 GPT-3.5,用 Python 都能全部解出來

因為很可能這些經典題目都早已在訓練資料中,所以解出來不意外。於是我們拿了 LeetCode 週賽題目來測試,結果也是 Gemini Pro、GPT-4 與 GPT-3.5 都能順解出。但是在速度上,GPT-4 大概要花 Gemini Pro 與 GPT-3.5 兩倍的時間。LeetCode 週賽的 Hard 難度題目,是超過半數工程師解不出來的,但對這幾個模型來說是輕而易舉。

不過在 Gemini 的發表中,確實有提到,目前表現比較好的程式語言為 Python、Java、C++ 以及 Go。實際測起來,確實其他語言表現沒這麼好。舉例來說,直接把 Advent of TypeScript 的前七題丟給 Gemini Pro,在一次提示詞的情況下,只答對其中五題,但是 GPT-4 是七題全對。

假如以日常的開發任務來看,如果單以用 Python 與 Go 寫出能完成 CRUD 的服務來說,三個模型也都能順利完成。不過對工程師來說,能把 AI 整合到開發環境中,會更方便。目前 GPT-4 已經被 Cursor 與 GitHub Copilot 等工具使用上,直接整合在開發環境 IDE 當中,Gemini Pro 則還沒有。因此在寫程式上,還是會偏好有整合的 GPT-4

📚 本期推薦 AI 學習資源

  • OpenAI 的 Andrej Karpathy 很擅長用簡單的方式講解複雜概念,他前陣子推出的一小時《Intro to Large Language Models》非常推薦想入門 LLM 的人一看 [連結]

  • 如果想用中文快速理解 LLM,非常推薦台大的 Hung-yi Lee 教授的《80分鐘快速了解大型語言模型》講座,一樣深入淺出,非常精彩 [連結]

  • 《A guide to LLM inference and performance》談論了 LLM 模型的推論效能優化,這是現在與未來很重要的主題,以 ChatGPT 先前暫停開放 Plus 訂閱戶,正是因為供給出現瓶頸,假如能有效優化效能,將能解決這個問題 [連結]

  • 微軟推出的 12 週課程:Artificial Intelligence for Beginners - A Curriculum [連結]

如果你覺得我們的內容有幫助,也請幫我們分享電子報給身邊的人,讓更多人能在快速變動的 AI 時代,持續走在最前沿!