ExplainAI 電子報
Posts
🥮 #12 網民怎麼玩 ChatGPT 多模態 GPT-4V (15 個你想不到的驚人應用)

🥮 #12 網民怎麼玩 ChatGPT 多模態 GPT-4V (15 個你想不到的驚人應用)

吳恩達教授教你如何用 LLM 協助寫程式、Spotify 打造 AI 人聲翻譯工具給 Podcast 創作者

ExplainThis
October 01, 2023

哈囉！ExplainAI 雙週報讀者們，大家好！👋

在本期開始之前，想跟大家分享 ExplainThis 的一個新的里程碑。我們開發的生成式 AI 產品 — ChatBun AI 聊天機器人，在今天正式上線了 🎉 🎉 🎉

過去一年我們開發過超過百萬人瀏覽的 ChatGPT 指令大全；也在 GitHub 開源生成式 AI 專案，並累積超過三千顆星星的。一直以來我們都想做一個更完整的產品，而在經過一個月的發想與原型驗證、兩個月的開發，以及一個月的 Beta 測試與迭代，ChatBun 總算能跟大家見面了！

ChatBun 網址 👉 https://chatbun.ai

https://chatbun.ai

ChatBun 讓你用最簡單的方式，建立客製化 AI 聊天機器人。除了自己建機器人，你也可以在社群中瀏覽別人建立的 AI 聊天機器人。目前已經有一些好玩的，例如李白 AI 可以用你輸入的任何內容來寫詩；也有實用工具類，例如 IG 的限時動態產生器；此外還有學習類的，像是帥氣又充滿熱情的英文家教 Jason。

帥氣的 AI 英文家教 Jason 教你如何在星巴克點飲料

在未來 ExplainThis 會持續在有價值的內容產出上耕耘，用白話帶大家讀懂軟體、AI，以及科技業職涯。而 ChatBun 則是我們在內容產出外的第一個軟體與 AI 產品。我們也會持續透過 ExplainAI 電子報，跟大家分享在開發 ChatBun 過程中踩過的坑，讓想開發 AI 應用的人，可以繞過一些不必要的彎路。

🍎 生成式 AI 的多模態應用

這兩週在生成式 AI 應用的一大突破，是 ChatGPT 開始支援多模態 (multi-modal)，換句話說 ChatGPT 現在可以看、可以聽，也可以說了。在社群上，大家會用 GPT-4V 來稱呼可以讀圖片的 GPT (V 代表 Vision，也就是視覺的意思)。

舉例來說，下面的截圖是美國有個網友，分享他上傳一個超複雜的停車告示牌照片，加上要停車的時間，ChatGPT 就直接幫忙判斷現在能不能免費停車、可以免費停多久。

該網友評論「我從此不會再拿到違規停車罰單了」，只能說多模態真的開啟非常多應用的可能性呀！

ChatGPT 幫忙分析提車規則

這邊幫大家彙整網路上已經有的 GPT-4V 應用，只能說非常驚人：

實用

ChatGPT 幫你看懂複雜的路邊標示 [推文 / @petergyang]
ChatGPT 解析圖片中以二進制（binary）方式編碼的的秘密訊息 [推文/@3blue1brown]
用 ChatGPT 分析生態規劃圖 [推文/@horromary]
連人都看不懂的 recaptha 驗證，來看看 ChatGPT 表現怎麼樣 [推文一 / @dory111111][推文二 @chx] (目前看起來還沒有辨識的很好)
ChatGPT 透過圖片分析道路安全 [推文 / @AiXsatoshi]

工作與學習

ChatGPT 能看懂白板的內容，幫你完成帶有邏輯的程式碼 [推文/@mckaywrigley]
完成 iPhone 計算機 UI 介面與邏輯程式碼[推文 / @FABYMETAL4]
ChatGPT 根據照片與提供更好的教學建議 [推文 / @abran]
上傳算式圖，ChatGPT 幫忙算出答案 [Twitter / @petergyang]（小時候用計算機就覺得很厲害了…現在小學生直接用 ChatGPT 😂）

有趣

威利躲哪裡去了？來讓 ChatGPT 幫你找找看[推文 / @skirano]
迷因圖太難懂了？別擔心 ChatGPT 耐心的解釋給你聽 [推文 / @skirano]
ChatGPT 辨識出有毒的蘑菇，還可以演繹吃下蘑菇後產生幻覺 [推文 / @skirano] 追加請它生成他看到幻覺圖片的指令 [推文 / @skirano]
草寫字難以理解？ChatGPT 幫你讀懂！[推文 / @qamarunshadow]
辨識漫畫角色？就算背對著也沒問題！[推文 / @dory111111]
讀出照片上 T 恤上的字，分辨鬍子和短髮 🤯 [推文 / @obie]

📍值得你一看 AI 大小事

Amazon：亞馬遜旗下的 AWS 投資了生成式 AI 模型開發商 Anthropic 四十億美元，並成為 Anthropic 的主要雲端供應商。這項投資也更確立了生成式 AI 浪潮背後的雲端大戰 [連結]
OpenAI：ChatGPT 不僅開始支援多模態，OpenAI 在過去兩週也釋出微調 (fine-tuning) 的 UI 介面，以及最新一代的圖像生成模型 DALL·E 3。此外，先前被暫時關閉的 ChatGPT 連網模式也被重新開啟 [連結]
Microsoft：身為 OpenAI 的主要投資人，在 OpenAI 釋出最新的生成模型 DALL·E 3 後，微軟也立刻將其加入 Bing Chat 當中。假如你想試試最新的 DALL·E 3，現在可以在 Bing Chat 直接下 /imagine 指令即可 [連結]
Meta：WhatsApp、IG 和 Messenger 推出 28 個 AI 個性聊天機器人，例如：SnoopDogg、Mr. Beast，你可以在使用通訊軟體時，跟這些 AI 角色互動 [詳情]
Spotify：打造 AI 人聲翻譯工具給 Podcast 創作者，讓創作者可以把 podcast 內容翻譯成不同語言，同時保持創作者的聲音特色 [連結]

AI 學習資源

Vercel 的《Vector Databases Explained》白話地介紹什麼是向量資料庫，以及列出目前業界比較熱門的向量資料庫。
OpenAI 的 Cookbook 升級了，目前內容擴充到超過百篇 AI 相關教學 [詳情] (我們把 OpenAI Cookbook 與其他推薦的打造 AI 應用資源，都放在這個連結中了)
a16z 舉辦的 AI Revolution 活動，講者群質量堪稱業界最高 (包含 Microsoft 技術長、OpenAI 技術長、Roblox 執行長、Figma 執行長、Anthropic 執行長、Databricks 執行長、insitro 執行長，以及 Character AI 執行長)。a16z 很佛心地把影片與逐字稿釋出了，大家千萬別錯過 [連結] (更多 AI 相關推薦講座，詳見此連結)
吳恩達教授旗下的 DeepLearning.AI 與 Google 合作開了《Pair Programming with a Large Language Model》課程，教你如何用 LLM 協助寫程式

AI 工具

最近在社群中瘋傳可以透過 AI 把自己的臉融入到背景照片中，要做到其實很簡單，Quick QR Art 這款工具，可以讓你上傳完照片後，就獲得由 AI 生成融入你照片的圖像 [詳情]
在 GPT-4 發表時，有一個案例分析是非營利組織 Be My Eyes 跟 OpenAI 合作，透過 GPT-4 多模態的能力，讓視障朋友們能獲得 AI 的協助。現在這個功能將上線到 Be My Eyes 的 App 當中 [詳情]
主打健康與健身類的 App — WHOOP，透過 AI 來即時分析你的數據，並提供飲食與健康相關的建議 [詳情]
過去許多人會抱怨 ChatGPT 的中文回應品質仍不佳，軟體大廠百度前陣子推出的中文寫作幫手，在測試中獲得更好的中文生成表現。如果你是用 AI 協助優化中文內容，可以考慮使用 [連結]

ExplainThis 致力讓 ExplainAI 電子報保持永久免費閱讀。為了能更永續經營這份電子報，我們開放電子報的版面贊助。目前電子報有超過千位讀者，平均開信率 > 45%，受眾主要是 AI 趨勢與動態感興趣的讀者。如果你有認識合適的廠商，還請推薦給我們 🤝

另外，如果你覺得我們的內容有幫助，也請幫我們分享電子報給身邊的人，讓更多人能在快速變動的 AI 時代，持續走在最前沿 💪