最近在玩 OpenClaw 或是 Hermes 這類 AI Agent 框架時，大家都在找 CP 值爆表的雲端大腦。MiniMax 2.7 確實便宜好用，但它有一個常被拿出來抱怨的「致命傷」：官方明文規定不支援圖片輸入，直接丟圖就是無情撞牆報錯。

如何讓 MiniMax 2.7 可以分析圖片：全面解讀MiniMax的圖片辨識迷思

Tool Calling 真的能解封 MiniMax 底層的視覺神經嗎？

內容目錄

最近在玩 OpenClaw、Hermes 這類 AI Agent 框架時，我一直在找那種「便宜、好用、又能扛事」的雲端大腦。MiniMax 2.7 就是很多人會想到的選項之一，畢竟它在文字推理、對話、長上下文這些地方，表現真的不差。

但它有個很明確的限制：不支援圖片輸入。

只要你直接把圖片丟進去，通常就是報錯，沒有什麼模糊空間。
也因為這樣，網路上就開始出現一種很玄的說法：

只要透過 Tool Calling，把圖片轉成 Base64 塞進去，就能解封 MiniMax 底層的視覺神經。

這句話聽起來很猛，像是找到什麼隱藏捷徑一樣。
但實際測下去，結論很簡單：沒有這種事。

先講結果：不是破解，是誤會

我自己去試了一輪，結果其實滿明顯的。

如果是正常把圖片用 image_url 丟給 MiniMax 2.7，API 直接擋掉，回 400 錯誤。這很好理解，因為它本來就不是多模態模型。

但如果換個方式，把圖片轉成 Base64，然後丟到 Tool Calling 的流程裡，表面上看起來好像成功了，因為 API 沒報錯。

問題是，沒報錯不代表有看懂。

模型根本沒有真的描述出圖片內容，反而在我追問它的時候，開始胡亂猜，甚至把一張白底黑字的測試圖說成「日本收銀機收據」。

這種時候就很清楚了：
它不是看見了圖，只是看見了一串字串，然後開始發揮它最擅長的事情，亂補上下文。

Base64 不是圖片理解

很多人會卡在這一步。

Base64 的確可以把圖片變成一段文字，看起來好像已經「送進模型」了。
但問題是，文字模型看到的還是文字，不是圖片。

你可以把它想成這樣：

圖片原本是一張照片
Base64 只是把照片編碼成字串
純文字模型拿到後，只會把它當成一串亂碼在讀

所以它不會突然學會辨識車標、人物、字體、場景。
它只是在讀一段它看不懂、但又想猜的資料。

這也是為什麼有些回答會看起來「好像有點像」，但細看又完全不對。
那不是視覺能力，那是幻覺。

那 Hermes Agent 為什麼真的能看圖？

這才是重點。

很多人看到 Hermes Agent 可以準確認出照片裡的車標、貼紙，甚至連角色圖像都能講得很細，就會以為 MiniMax 2.7 暗中開了視覺功能。
其實不是。

關鍵在它的工作流不是「直接把圖片丟給文字模型」，而是先走了一個真正的工具鏈。
在執行紀錄裡，通常會看到像這樣的東西：

mcp_minimax_understand_image: "請詳細描述這張圖片的內容，包含車子細節、貼紙內容等"

這行很重要。因為它代表的不是「模型自己看圖」，而是：

Agent 偵測到圖片
呼叫外部的視覺工具
由真正有看圖能力的模型去分析
把分析結果轉成文字
再交給 MiniMax 2.7 做文字整理和回應

也就是說，MiniMax 2.7 在這裡扮演的不是「視覺大腦」，而是「文字大腦」。

它擅長的是把外部工具回傳的資訊，整理成自然、連貫、符合人設的回答。
真正看圖的那一步，根本不是它做的。

Tool Calling 的正確用途，不是偷開視覺功能

Tool Calling 其實很強，只是很多人把它用錯方向了。

它的價值不是讓文字模型變成多模態模型，而是讓模型可以協調外部工具。
換句話說，Tool Calling 比較像是「指揮系統」，不是「感官系統」。

如果拿來比喻：

MiniMax 2.7 是會講話、會推理的腦袋
視覺模型是負責看圖的人
Tool Calling / MCP 是中間負責接線和協調的流程

這樣分工才合理。
你不能期待一個純文字模型，只因為能呼叫工具，就自己長出眼睛。

為什麼這種說法特別容易讓人誤會？

因為流程看起來真的很像成功了。

圖片被轉成 Base64
Base64 被塞進工具流程
API 沒報錯
模型也有回應
最後整個結果看起來像是「有讀到圖」

但這裡有個很大的陷阱：
有回應，不代表有理解。

模型如果只是看到一串亂碼，然後根據上下文去猜，它照樣可以講得頭頭是道。
只是這些話有時候碰巧接近真相，有時候就完全跑掉。

這種狀況在 AI 裡很常見，也就是大家常講的 hallucination。
不是模型真的知道，而是它很會把不知道的部分補起來。

真正想做圖片理解，應該怎麼做？

如果你是要做 AI Agent，想讓它真的能處理圖片，做法其實不複雜：

1. 讓文字模型做協調

像 MiniMax 2.7 這種模型，很適合拿來做：

對話
任務拆解
結果整理
文本生成
角色扮演

2. 把圖片交給真正會看圖的工具

例如：

MCP 視覺服務 (官方: https://github.com/minimax-ai/minimax-mcp)
Vision API
OCR 工具
多模態模型

如果你跟我一樣使用Hermes遇到了Minimax無法使用MCP的問題，可以把這則PR丟給AI，讓他去閱讀: https://github.com/NousResearch/hermes-agent/pull/16012

3. 把視覺結果轉成文字再丟回來

讓視覺工具先描述：

圖片裡有什麼
字是什麼
物件有哪些
場景大概怎麼樣

然後再由文字模型把這些資訊整理成最終回答。

這樣才是穩的。
不是硬把圖片塞給純文字模型，而是讓每個工具做自己最擅長的事。

最後講白一點

這次測下來，其實可以很直接地說：

Tool Calling 並不能解封 MiniMax 2.7 的視覺能力。

它不是什麼隱藏功能，也不是什麼繞過限制的秘技。
如果模型本來就沒有視覺輸入能力，那你把圖片轉成 Base64，也不會 magically 變出眼睛來。

真正能讓 Hermes Agent 看懂圖片的，不是 MiniMax 2.7 突然進化了，
而是它背後真的接了視覺工具，先把圖看懂，再交給文字模型處理。

所以如果你下次又看到那種「破解底層封印視覺」的說法，大概可以先冷靜一下。
想要圖像理解，就老老實實接真正的多模態工具。
靠玄學，最後通常只會得到一堆看起來很像、其實不太對的回答。

探索更多來自大衛的觀察日記的內容

訂閱即可透過電子郵件收到最新文章。

如何讓 MiniMax 2.7 可以分析圖片：全面解讀MiniMax的圖片辨識迷思

Tool Calling 真的能解封 MiniMax 底層的視覺神經嗎？

先講結果：不是破解，是誤會

Base64 不是圖片理解

那 Hermes Agent 為什麼真的能看圖？

Tool Calling 的正確用途，不是偷開視覺功能

為什麼這種說法特別容易讓人誤會？

真正想做圖片理解，應該怎麼做？

1. 讓文字模型做協調

2. 把圖片交給真正會看圖的工具

3. 把視覺結果轉成文字再丟回來

最後講白一點

請按讚：

相關

探索更多來自大衛的觀察日記的內容

發表迴響取消回覆

Tool Calling 真的能解封 MiniMax 底層的視覺神經嗎？

先講結果：不是破解，是誤會

Base64 不是圖片理解

那 Hermes Agent 為什麼真的能看圖？

Tool Calling 的正確用途，不是偷開視覺功能

為什麼這種說法特別容易讓人誤會？

真正想做圖片理解，應該怎麼做？

1. 讓文字模型做協調

2. 把圖片交給真正會看圖的工具

3. 把視覺結果轉成文字再丟回來

最後講白一點

請按讚：

相關

探索更多來自 大衛的觀察日記 的內容

發表迴響取消回覆

探索更多來自大衛的觀察日記的內容