Tool Calling真的能解封 MiniMax 底層的視覺神經??
最近在玩 OpenClaw 或是 Hermes 這類 AI Agent 框架時,大家都在找 CP 值爆表的雲端大腦。MiniMax 2.7 確實便宜好用,但它有一個常被拿出來抱怨的「致命傷」:官方明文規定不支援圖片輸入,直接丟圖就是無情撞牆報錯。
網路上開始流傳一種「玄學破解法」,宣稱只要透過 Tool Calling(工具呼叫),把圖片轉成 Base64 代碼塞進去,就能「解封 MiniMax 底層的視覺神經」。
聽起來很猛對吧?但身為一個對技術偽科學零容忍的人,我實際去扒了底層邏輯,得出的結論只有一個:別被騙了,這根本是最高級的技術瞎掰。

戳破幻想:大門確實沒開,房子裡也根本沒有眼睛
為了解開這個謎團,我直接對 MiniMax 2.7 的 API 進行了殘酷的壓力測試。測試圖片是一張白底黑字,明確寫著「TEST IMAGE / MiniMax Vision Test / 看到這行=視覺通了!」的圖檔。
實測結果如下:
- 一般 API 直傳 (
image_url): 回報400錯誤,官方 API 層級直接擋死,告訴你「這不是多模態模型」。 - 繞道 Tool Calling (塞 Base64 字串): 成功繞過 API 阻擋,沒有報錯。但是,模型完全沒有描述出圖片內容。
- 幻覺爆發: 當我逼問圖片內容時,它竟然憑空捏造出這是一張「日本收銀機收據」。
發生了什麼事?
其實這不是什麼「隱藏功能」,而是一個系統漏洞。API 對於 tool_result 的內容檢查比對話主體寬鬆,所以它吞下了那一大串 Base64 代碼。但 MiniMax 2.7 本質上就是一個純文字模型,它沒有加裝視覺編碼器(Vision Encoder)。
它看到那串代碼時,不是在「解碼圖像」,而是在進行字串模式識別。它靠著強大的上下文聯想能力,對著一堆亂碼發動了最高級的「幻覺」。這傢伙根本沒看懂圖,它只是一個博學的盲人,在跟你裝瞎子算命。
既然沒長眼睛,那 Agent 是怎麼看懂圖的?
如果 MiniMax 2.7 是瞎子,那為什麼我的 Hermes Agent (日和) 卻能精準認出照片裡的 LUXGEN 車標,甚至連貼紙上《公主連結 Re:Dive》的日和角色、Cygames 版權標示都看得一清二楚?
這就是真正的技術含量所在,也是很多人搞混的地方。
仔細看 Agent 後台的執行日誌,關鍵在這一行:
⚙️
mcp_minimax_understand_image: "請詳細描述這張圖片的內容,包含車子細節、貼紙內容等"
這個 Agent 並沒有傻傻地把 Base64 塞給 MiniMax 2.7。它運用了真正的 MCP (Model Context Protocol) 工作流。
真實的工作底層邏輯:
- 觸發工具: Agent 框架偵測到圖片,並呼叫了名為
mcp_minimax_understand_image的外部視覺工具。 - 外包視覺: 這個工具背後串接的是一個真正具有多模態能力的視覺模型(可能是 MiniMax 自家高階的視覺版,或是其他大廠的 Vision API),由它來完成精準的圖像解析。
- 文字回傳: 真正的視覺模型將看到的內容轉換成「純文字描述」,透過
tool_result丟還給主系統。 - 大腦接手: MiniMax 2.7(文字大腦)接收到這份精準的「文字報告」。憑藉其優秀的長文本處理與角色扮演能力,它將這些資訊轉化為符合「日和」貓娘人設的生動對話。
結論:擁抱工具,拒絕玄學
我們要用 AI Agent 改善效率,靠的是扎實的架構設計,而不是期待純文字大腦突然長出眼睛。
這套 Hermes Agent 的運作堪稱教科書級別的完美示範:讓「盲人(文字大腦)」配上「精準助視器(外部視覺工具)」通力合作。
下次再看到那種宣稱「破解底層封印視覺」的假嗨文案,你可以直接笑笑滑過。想要視覺能力?乖乖在你的 Agent 工作流裡串接真正的多模態工具,別指望玄學能幫你產出具體的成果。
探索更多來自 大衛的觀察日記 的內容
訂閱即可透過電子郵件收到最新文章。

