
Tool Calling 真的能解封 MiniMax 底層的視覺神經嗎?
最近在玩 OpenClaw、Hermes 這類 AI Agent 框架時,我一直在找那種「便宜、好用、又能扛事」的雲端大腦。MiniMax 2.7 就是很多人會想到的選項之一,畢竟它在文字推理、對話、長上下文這些地方,表現真的不差。
但它有個很明確的限制:不支援圖片輸入。
只要你直接把圖片丟進去,通常就是報錯,沒有什麼模糊空間。
也因為這樣,網路上就開始出現一種很玄的說法:
只要透過 Tool Calling,把圖片轉成 Base64 塞進去,就能解封 MiniMax 底層的視覺神經。
這句話聽起來很猛,像是找到什麼隱藏捷徑一樣。
但實際測下去,結論很簡單:沒有這種事。
先講結果:不是破解,是誤會
我自己去試了一輪,結果其實滿明顯的。
如果是正常把圖片用 image_url 丟給 MiniMax 2.7,API 直接擋掉,回 400 錯誤。這很好理解,因為它本來就不是多模態模型。
但如果換個方式,把圖片轉成 Base64,然後丟到 Tool Calling 的流程裡,表面上看起來好像成功了,因為 API 沒報錯。
問題是,沒報錯不代表有看懂。
模型根本沒有真的描述出圖片內容,反而在我追問它的時候,開始胡亂猜,甚至把一張白底黑字的測試圖說成「日本收銀機收據」。
這種時候就很清楚了:
它不是看見了圖,只是看見了一串字串,然後開始發揮它最擅長的事情,亂補上下文。
Base64 不是圖片理解
很多人會卡在這一步。
Base64 的確可以把圖片變成一段文字,看起來好像已經「送進模型」了。
但問題是,文字模型看到的還是文字,不是圖片。
你可以把它想成這樣:
- 圖片原本是一張照片
- Base64 只是把照片編碼成字串
- 純文字模型拿到後,只會把它當成一串亂碼在讀
所以它不會突然學會辨識車標、人物、字體、場景。
它只是在讀一段它看不懂、但又想猜的資料。
這也是為什麼有些回答會看起來「好像有點像」,但細看又完全不對。
那不是視覺能力,那是幻覺。
那 Hermes Agent 為什麼真的能看圖?
這才是重點。
很多人看到 Hermes Agent 可以準確認出照片裡的車標、貼紙,甚至連角色圖像都能講得很細,就會以為 MiniMax 2.7 暗中開了視覺功能。
其實不是。
關鍵在它的工作流不是「直接把圖片丟給文字模型」,而是先走了一個真正的工具鏈。
在執行紀錄裡,通常會看到像這樣的東西:
mcp_minimax_understand_image: "請詳細描述這張圖片的內容,包含車子細節、貼紙內容等"
這行很重要。因為它代表的不是「模型自己看圖」,而是:
- Agent 偵測到圖片
- 呼叫外部的視覺工具
- 由真正有看圖能力的模型去分析
- 把分析結果轉成文字
- 再交給 MiniMax 2.7 做文字整理和回應
也就是說,MiniMax 2.7 在這裡扮演的不是「視覺大腦」,而是「文字大腦」。
它擅長的是把外部工具回傳的資訊,整理成自然、連貫、符合人設的回答。
真正看圖的那一步,根本不是它做的。
Tool Calling 的正確用途,不是偷開視覺功能
Tool Calling 其實很強,只是很多人把它用錯方向了。
它的價值不是讓文字模型變成多模態模型,而是讓模型可以協調外部工具。
換句話說,Tool Calling 比較像是「指揮系統」,不是「感官系統」。
如果拿來比喻:
- MiniMax 2.7 是會講話、會推理的腦袋
- 視覺模型是負責看圖的人
- Tool Calling / MCP 是中間負責接線和協調的流程
這樣分工才合理。
你不能期待一個純文字模型,只因為能呼叫工具,就自己長出眼睛。
為什麼這種說法特別容易讓人誤會?
因為流程看起來真的很像成功了。
圖片被轉成 Base64
Base64 被塞進工具流程
API 沒報錯
模型也有回應
最後整個結果看起來像是「有讀到圖」
但這裡有個很大的陷阱:
有回應,不代表有理解。
模型如果只是看到一串亂碼,然後根據上下文去猜,它照樣可以講得頭頭是道。
只是這些話有時候碰巧接近真相,有時候就完全跑掉。
這種狀況在 AI 裡很常見,也就是大家常講的 hallucination。
不是模型真的知道,而是它很會把不知道的部分補起來。
真正想做圖片理解,應該怎麼做?
如果你是要做 AI Agent,想讓它真的能處理圖片,做法其實不複雜:
1. 讓文字模型做協調
像 MiniMax 2.7 這種模型,很適合拿來做:
- 對話
- 任務拆解
- 結果整理
- 文本生成
- 角色扮演
2. 把圖片交給真正會看圖的工具
例如:
- MCP 視覺服務 (官方: https://github.com/minimax-ai/minimax-mcp)
- Vision API
- OCR 工具
- 多模態模型
如果你跟我一樣使用Hermes遇到了Minimax無法使用MCP的問題,可以把這則PR丟給AI,讓他去閱讀: https://github.com/NousResearch/hermes-agent/pull/16012
3. 把視覺結果轉成文字再丟回來
讓視覺工具先描述:
- 圖片裡有什麼
- 字是什麼
- 物件有哪些
- 場景大概怎麼樣
然後再由文字模型把這些資訊整理成最終回答。
這樣才是穩的。
不是硬把圖片塞給純文字模型,而是讓每個工具做自己最擅長的事。
最後講白一點
這次測下來,其實可以很直接地說:
Tool Calling 並不能解封 MiniMax 2.7 的視覺能力。
它不是什麼隱藏功能,也不是什麼繞過限制的秘技。
如果模型本來就沒有視覺輸入能力,那你把圖片轉成 Base64,也不會 magically 變出眼睛來。
真正能讓 Hermes Agent 看懂圖片的,不是 MiniMax 2.7 突然進化了,
而是它背後真的接了視覺工具,先把圖看懂,再交給文字模型處理。
所以如果你下次又看到那種「破解底層封印視覺」的說法,大概可以先冷靜一下。
想要圖像理解,就老老實實接真正的多模態工具。
靠玄學,最後通常只會得到一堆看起來很像、其實不太對的回答。
探索更多來自 大衛的觀察日記 的內容
訂閱即可透過電子郵件收到最新文章。
