如何讓 MiniMax 2.7 可以分析圖片:全面解讀MiniMax的圖片辨識迷思

如何讓 MiniMax 2.7 可以分析圖片:全面解讀MiniMax的圖片辨識迷思

Tool Calling 真的能解封 MiniMax 底層的視覺神經嗎?

最近在玩 OpenClaw、Hermes 這類 AI Agent 框架時,我一直在找那種「便宜、好用、又能扛事」的雲端大腦。MiniMax 2.7 就是很多人會想到的選項之一,畢竟它在文字推理、對話、長上下文這些地方,表現真的不差。

但它有個很明確的限制:不支援圖片輸入

只要你直接把圖片丟進去,通常就是報錯,沒有什麼模糊空間。
也因為這樣,網路上就開始出現一種很玄的說法:

只要透過 Tool Calling,把圖片轉成 Base64 塞進去,就能解封 MiniMax 底層的視覺神經。

這句話聽起來很猛,像是找到什麼隱藏捷徑一樣。
但實際測下去,結論很簡單:沒有這種事。


先講結果:不是破解,是誤會

我自己去試了一輪,結果其實滿明顯的。

如果是正常把圖片用 image_url 丟給 MiniMax 2.7,API 直接擋掉,回 400 錯誤。這很好理解,因為它本來就不是多模態模型。

但如果換個方式,把圖片轉成 Base64,然後丟到 Tool Calling 的流程裡,表面上看起來好像成功了,因為 API 沒報錯。

問題是,沒報錯不代表有看懂。

模型根本沒有真的描述出圖片內容,反而在我追問它的時候,開始胡亂猜,甚至把一張白底黑字的測試圖說成「日本收銀機收據」。

這種時候就很清楚了:
它不是看見了圖,只是看見了一串字串,然後開始發揮它最擅長的事情,亂補上下文


Base64 不是圖片理解

很多人會卡在這一步。

Base64 的確可以把圖片變成一段文字,看起來好像已經「送進模型」了。
但問題是,文字模型看到的還是文字,不是圖片。

你可以把它想成這樣:

  • 圖片原本是一張照片
  • Base64 只是把照片編碼成字串
  • 純文字模型拿到後,只會把它當成一串亂碼在讀

所以它不會突然學會辨識車標、人物、字體、場景。
它只是在讀一段它看不懂、但又想猜的資料。

這也是為什麼有些回答會看起來「好像有點像」,但細看又完全不對。
那不是視覺能力,那是幻覺。


那 Hermes Agent 為什麼真的能看圖?

這才是重點。

很多人看到 Hermes Agent 可以準確認出照片裡的車標、貼紙,甚至連角色圖像都能講得很細,就會以為 MiniMax 2.7 暗中開了視覺功能。
其實不是。

關鍵在它的工作流不是「直接把圖片丟給文字模型」,而是先走了一個真正的工具鏈。
在執行紀錄裡,通常會看到像這樣的東西:

mcp_minimax_understand_image: "請詳細描述這張圖片的內容,包含車子細節、貼紙內容等"

這行很重要。因為它代表的不是「模型自己看圖」,而是:

  1. Agent 偵測到圖片
  2. 呼叫外部的視覺工具
  3. 由真正有看圖能力的模型去分析
  4. 把分析結果轉成文字
  5. 再交給 MiniMax 2.7 做文字整理和回應

也就是說,MiniMax 2.7 在這裡扮演的不是「視覺大腦」,而是「文字大腦」。

它擅長的是把外部工具回傳的資訊,整理成自然、連貫、符合人設的回答。
真正看圖的那一步,根本不是它做的。


Tool Calling 的正確用途,不是偷開視覺功能

Tool Calling 其實很強,只是很多人把它用錯方向了。

它的價值不是讓文字模型變成多模態模型,而是讓模型可以協調外部工具。
換句話說,Tool Calling 比較像是「指揮系統」,不是「感官系統」。

如果拿來比喻:

  • MiniMax 2.7 是會講話、會推理的腦袋
  • 視覺模型是負責看圖的人
  • Tool Calling / MCP 是中間負責接線和協調的流程

這樣分工才合理。
你不能期待一個純文字模型,只因為能呼叫工具,就自己長出眼睛。


為什麼這種說法特別容易讓人誤會?

因為流程看起來真的很像成功了。

圖片被轉成 Base64
Base64 被塞進工具流程
API 沒報錯
模型也有回應
最後整個結果看起來像是「有讀到圖」

但這裡有個很大的陷阱:
有回應,不代表有理解。

模型如果只是看到一串亂碼,然後根據上下文去猜,它照樣可以講得頭頭是道。
只是這些話有時候碰巧接近真相,有時候就完全跑掉。

這種狀況在 AI 裡很常見,也就是大家常講的 hallucination。
不是模型真的知道,而是它很會把不知道的部分補起來。


真正想做圖片理解,應該怎麼做?

如果你是要做 AI Agent,想讓它真的能處理圖片,做法其實不複雜:

1. 讓文字模型做協調

像 MiniMax 2.7 這種模型,很適合拿來做:

  • 對話
  • 任務拆解
  • 結果整理
  • 文本生成
  • 角色扮演

2. 把圖片交給真正會看圖的工具

例如:

  • MCP 視覺服務 (官方: https://github.com/minimax-ai/minimax-mcp)
  • Vision API
  • OCR 工具
  • 多模態模型

如果你跟我一樣使用Hermes遇到了Minimax無法使用MCP的問題,可以把這則PR丟給AI,讓他去閱讀: https://github.com/NousResearch/hermes-agent/pull/16012

3. 把視覺結果轉成文字再丟回來

讓視覺工具先描述:

  • 圖片裡有什麼
  • 字是什麼
  • 物件有哪些
  • 場景大概怎麼樣

然後再由文字模型把這些資訊整理成最終回答。

這樣才是穩的。
不是硬把圖片塞給純文字模型,而是讓每個工具做自己最擅長的事。


最後講白一點

這次測下來,其實可以很直接地說:

Tool Calling 並不能解封 MiniMax 2.7 的視覺能力。

它不是什麼隱藏功能,也不是什麼繞過限制的秘技。
如果模型本來就沒有視覺輸入能力,那你把圖片轉成 Base64,也不會 magically 變出眼睛來。

真正能讓 Hermes Agent 看懂圖片的,不是 MiniMax 2.7 突然進化了,
而是它背後真的接了視覺工具,先把圖看懂,再交給文字模型處理。

所以如果你下次又看到那種「破解底層封印視覺」的說法,大概可以先冷靜一下。
想要圖像理解,就老老實實接真正的多模態工具。
靠玄學,最後通常只會得到一堆看起來很像、其實不太對的回答。


探索更多來自 大衛的觀察日記 的內容

訂閱即可透過電子郵件收到最新文章。

發表迴響