
之前我們跟大家介紹最近很熱門的 DeepSeek 這款來自中國 AI 新創公司的產品,DeepSeek 繼推出具有突破性邏輯推理能力的 R1 模型後,今天凌晨又發表了多模態人工智慧模型 Janus-Pro 系列,加入了全新文字生成圖像的功能,等於是又拉近了與目前眾多可以文字生成圖像 AI 工具(Midjourney、Bing、ChatGPT…等)的距離。
你可能有興趣》DeepSeek 崛起!解析對台灣房市與經濟的 4 大影響
Janus-Pro 是什麼?
Janus-Pro 是 DeepSeek 研發的一款多模態人工智慧模型,簡單來說,它能夠同時理解圖像與文字,並進行圖像生成。與傳統模型相比,Janus-Pro 的設計特別之處在於,它將「理解」與「生成」的視覺操作流程分開處理,這種架構不僅解決了功能衝突問題,還能產生更精準的結果。
值得注意的是,Janus-Pro 分為 1B(10 億參數)和 7B(70 億參數)兩個版本,讓使用者可以依需求選擇性能適合的模型。
- Janus-Pro-1B:適合需要輕量級運算的應用場景。
- Janus-Pro-7B:專為高需求的視覺生成任務設計,在多種基準測試中表現卓越。
圖像生成性能超越 ChatGPT、Stable Diffusion
圖像與內容的準確度更高
根據 DeepSeek 所提供的測試報告結果,Janus-Pro 生成的圖像更能緊扣輸入的描述內容;在專門評估文字生成圖像模型在物件準確性、數量感知、顏色、位置和屬性捕捉等方面的整體表現的 GenEval 基準測試中,Janus-Pro-7B 的整體表現達到 80 分,遠超過 DALL-E 3 的 67 分。
▼ Janus-Pro 和 DALL-E 3、Stable Diffusion 比較
資料來源:DeepSeek Gitgub 頁面

圖像理解能力提升
在 DeepSeek 的 PDF 文件中提到 Janus-Pro 在圖像理解任務中的表現,包含從圖像中辨識出文字內容、場景描述以及特定物件。例如:
- 辨識看板上清晰書寫的文字內容。
- 對蛋糕的主題和裝飾細節進行準確描述(如「Tom 和 Jerry」的卡通元素)。
- 提供圖像中地標的詳細資訊(如描述杭州西湖的三潭印月)。
▼ Janus-Pro 描述、辨識圖像內容
資料來源:DeepSeek Gitgub 頁面
視覺美學提升
Janus-Pro 改進了生成圖像的穩定性,即使是針對相當剪短的描述,也能提供細緻的圖像與細膩的質感,細節更加豐富。
複雜場景的語境捕捉能力
例如,當使用者輸入「金黃色麥田中戴著草帽的少女」或「象徵新年的紅色絲綢上的橘子」,Janus-Pro 能生成既自然又富有層次感的圖像,完美呈現輸入的細節。
▼ DeepSeek 展示新舊 Janus-Pro 圖像生成能力差別
資料來源:DeepSeek Gitgub 頁面

Janus-Pro 為什麼值得關注?
Janus-Pro 的強大之處不僅在於技術創新以及圖像生成結果表現的優異,更在於它的低成本策略。
延續之前提過的,DeepSeek 的開發僅花費了不到 600 萬美元,並且可能破解了美國禁運高階晶片到中國為了打擊中國 AI 產業生發展的策略。此外,DeepSeek 承諾以 OpenAI 收費的十分之一提供服務,這對一般使用者和中小型企業來說都是一大福音。
同時,Janus-Pro 也延續了開放性的設計,讓更多開發者能夠使用 Janus-Pro 的開源程式碼 ,創造更豐富的應用場景以及更彈性多元的使用方式。
總結:Janus-Pro 來勢洶洶
透過 Janus-Pro 的文字生成圖像功能,使用者只需簡單描述,就能輕鬆生成精美的圖像,而且應用範圍非常廣泛。
- 社群媒體創作:輕鬆生成符合主題的高品質圖像,提升互動率。
- 教育工具:透過圖像直觀呈現抽象概念,提升教學效果。
- 創意產業:為設計師與內容創作者提供靈感來源。
如果想要知道更多關於 DeepSeek 怎麼使用的教學,可以參考上次我們針對 DeepSeek 做介紹的那篇文章。
延伸閱讀》
Deepseek r1 是什麼?為何成為熱議焦點?使用與下載教學一次看
ChatGPT Search 全面開放!免費帳號也能直接連網搜尋最新資料
ChatGPT 開放視訊通話、螢幕共享,還有「聖誕老人模式」
OpenAI 影片生成模型「Sora」正式上線!首波開放 ChatGPT 訂閱戶搶先體驗
如果想知道更多關於 Apple 的消息、教學、小技巧或是科技新知,一定要點擊以下任一 LOGO,追蹤我們的 Facebook 粉絲團、訂閱 IG、YouTube 以及 Telegram。








