
我現在看到新的 AI 新聞,第一反應已經不是「這模型多強」。
這句話放在兩年前,我自己大概也不相信。那時候每次模型升級,大家都在比誰回答更順、誰寫程式更快、誰的 benchmark 又往上爬了幾分。那當然重要,但看久了會有一種疲勞感:demo 都很漂亮,真的接進工作裡,常常又回到一個老問題。
它到底能不能交付?
不是回答一段,不是幫你整理一張表,也不是在會議上看起來很聰明。我的意思是,你晚上把一件麻煩事交給它,隔天早上回來,它能不能把做了什麼、改了什麼、哪裡失敗、哪裡需要你拍板,整整齊齊放在桌上。這個門檻比「會聊天」高太多了。
這幾天剛好有三個訊號撞在一起。Anthropic 推 Claude Fable 5,Stripe 測了 5,000 萬行 Ruby codebase 的遷移案例;Anthropic 也在強化 Services Track 和 Partner Hub,把 AI 服務商往「真的部署過」這條線上拉;另一邊,Search Engine Land 開始更認真談 GEO,因為 AI 搜尋正在改變內容被看見的方式。
表面上是三條新聞。我看到的是同一條線:AI 正在離開「單次回答」的階段,開始逼我們面對工作流本身。
長任務的重點,不是模型終於變勤勞了
Stripe 那個 5,000 萬行代碼遷移案例很容易讓人興奮。一天完成原本可能要整個團隊兩個多月手工處理的事,這種對比太好傳播了,也太容易被拿去做簡報。
但我不太想把焦點放在「一天 vs 兩個月」。那是結果,不是本質。
真正有趣的是,這類模型如果開始能承受長上下文、長時間執行、跨檔案推理,它就不再只是回答問題的工具。它開始像一個可以被委派一段責任的人。這裡的差別很大。以前你問 AI 一段,它答一段;你叫它改一個檔案,它幫你改;你給它一個稍微複雜的任務,它可能前面看起來都懂,後面突然忘記約束,順手把不該動的地方也動了。
那種感覺很熟悉。像把任務交給一個很熱情、很會講話、但沒有交付紀律的實習生。你以為自己省了時間,結果更多時間都花在檢查、補洞、回滾。
長任務模型真正改變的地方,是我們終於可以開始問比較嚴肅的問題:它能不能維持任務邊界?遇到錯誤會不會停下來?交付物能不能讓下一個人接手?它有沒有留下足夠的驗證紀錄?
這些問題聽起來一點都不性感,卻比 benchmark 更接近真實工作。
長任務的價值,不是 AI 終於可以多做一點,而是它開始能承擔一段完整責任。
麻煩也在這裡。當 AI 真的開始能跑長任務,你就不能再用一句模糊指令把責任丟出去。你要先講清楚什麼叫完成,什麼叫不能碰,什麼情況要停,什麼結果算失敗。你如果自己都沒有這套標準,AI 只會把你的混亂放大,然後用更漂亮的語氣包起來。
這也是為什麼我現在越來越不迷信「神 prompt」。
prompt 可以讓你得到一個好回答,但工作流才會讓你得到一個可交付的結果。
AI 顧問市場會被重新切開
第二個訊號是 Anthropic 的 Services Track 和 Partner Hub。
這件事我覺得很合理,甚至有點晚了。過去一年,市場上太多人把「會用 AI」包裝成「會導入 AI」。這兩件事差太遠了。
會用 AI,是知道怎麼問、怎麼調 prompt、怎麼接 API。這本身沒問題,也確實有價值。
可是會導入 AI,是另一個層級。你要知道資料從哪裡來,權限怎麼切,流程卡住時誰接手,輸出錯了怎麼發現,出事怎麼回滾,半年後模型換了又怎麼維護。
中間隔著一整條工程和營運的溝。
很多包裝型顧問最怕的不是客戶問「你們模型多強」,而是問幾個很無聊的問題:上線案例在哪?失敗怎麼處理?交付後誰維護?如果原本負責的人離職,這套系統還能不能跑?
通常問到這裡,簡報就開始變安靜。
這不是刻薄。這是 AI 走進長任務之後,市場自然會發生的分層。以前大家買的是新鮮感,覺得有一個聊天機器人接在公司資料庫上就很厲害。接下來大家會買的是上線能力。誰能把資料、權限、流程、驗證、維運接起來,誰才是真的服務商。
包裝會越來越便宜,能把流程接起來的人會越來越貴。
這件事對個人也一樣。你不一定要把自己包裝成 AI 專家。比較值得做的,是把你已經熟的工作拆成可交付流程。你知道輸入是什麼,輸出長什麼樣,怎麼驗證,出了錯先看哪裡。這種能力不花俏,但它會變得越來越值錢。
因為模型變強之後,真正稀缺的反而不是「誰比較會問 AI」,而是誰能把一件混亂的工作,整理成 AI 接得住的形狀。
GEO 其實是在提醒我們:內容也要能被交付
第三個訊號是 GEO。Generative Engine Optimization,生成式引擎優化。
老實說,這名字聽起來很像行銷圈又發明了一個新縮寫。以前我看到這種詞,通常會先皺眉。SEO 已經夠多人講得很玄了,現在又多一個 GEO,很容易讓人以為只是換個包裝繼續賣課。
但這次我不太敢直接忽略。
因為搜尋行為真的變了。以前你寫文章,是希望使用者在 Google 搜尋結果看到你,點進來,慢慢讀。現在越來越多情境是,使用者在 Perplexity、ChatGPT 或 Google AI Overviews 看完摘要就走了。你辛苦寫的內容,可能不再以「被點擊」的形式出現在讀者面前,而是被 AI 摘成幾句話,再塞進答案裡。
這裡的問題很刺耳:你的內容有沒有資格被引用?
排名和引用不是同一件事。排名是在搜尋結果裡搶位置,引用是在答案裡搶信任。SEO 很在意標題、關鍵字、內鏈、頁面權重;GEO 更在意你的內容能不能被機器理解、抽取、重組,而且不要被講歪。
所以我現在看一篇技術文章或產品頁,會多一層檢查。標題下面有沒有直接回答問題?重要數字是不是藏在一大段情緒文字裡?規格、限制、適用情境有沒有講清楚?如果 AI 只抓其中三句,會不會抓到最容易誤解的部分?
這對寫作者不舒服。因為它代表文章不只要讓人讀起來順,還要讓機器讀得懂。人類可以靠上下文補意思,機器常常只會抓最明顯、最結構化、最像答案的那幾句。
但換個角度看,這也是機會。
大多數人還在用舊 SEO 的方式堆字,拼命拉長篇幅、塞關鍵字、做一堆看起來很完整但其實很難抽取的段落。願意把答案前置、限制講清楚、資料放在可引用位置的人,反而更容易在 AI 摘要層被當成可靠來源。
未來的內容,不只寫給讀者看,也寫給會替讀者做摘要的機器看。
這句話聽起來有點冷,但讀者本來就不欠你點擊。你真正要爭取的,是在他需要答案的那一刻,你的內容會不會被拿出來當作可信來源。
三件事合在一起,其實是在講同一個標準
把 Fable 5、Services Track、GEO 放在一起看,主線就很明顯了。
AI 不再只獎勵會展示的人。它開始獎勵會交付的人。
模型端是這樣。你不能只看它回答得多漂亮,要看它能不能跑完長任務。服務端是這樣。你不能只看顧問講得多新潮,要看他有沒有上線與維運能力。內容端也是這樣。你不能只看文章讀起來多完整,要看它能不能被機器正確引用,能不能在摘要時代繼續替你建立信任。
所以我現在判斷一個 AI 趨勢,會先問一個很土的問題:它有沒有讓某件事更容易被交付?
如果沒有,那多半只是熱鬧。熱鬧不是不能看,但不要把它放進你的核心工作流。你的時間沒那麼便宜。
如果有,那才值得花力氣。因為它可能改變的不只是效率,而是責任怎麼被分配、工作怎麼被驗證、內容怎麼被重用。
這也是為什麼實用主義者反而會在這波裡佔便宜。不是因為我們比較懂模型,而是因為我們不把模型當魔法。我們比較習慣問那個無聊但關鍵的問題:接上去之後,明天早上真的會少一個坑嗎?
我會先改的不是工具,而是任務本身
如果你現在也在看這波 AI 變化,我不建議你立刻去追每一個新工具。那會很忙,也很容易產生一種虛假的進步感。今天試一個模型,明天換一個 Agent,後天又研究一套 workflow builder。忙了一圈,真正麻煩的工作還是原樣躺在那裡。
我會先挑一件自己真的很煩、而且每次都要花時間收拾的長任務。不是「幫我寫一篇文章」這種乾淨任務,而是有資料、有例外、有驗證、有重工成本的工作。像整理舊內容、清理資料表、把一批文件轉成統一格式,或檢查網站上哪些頁面不適合被 AI 摘要引用。
然後把它寫成四件事:輸入是什麼,輸出長什麼樣,怎麼驗證,失敗時怎麼停。
這一步很笨,但很有效。你寫完就會發現,有些工作其實可以交給 Agent,有些工作只是你自己還沒想清楚。後者不能急著自動化,因為自動化只會讓混亂跑得更快。
至於 AI 服務商,我會少聽願景,多問交付。上線案例在哪?錯了怎麼回滾?誰維護?這幾個問題問完,大概就能篩掉一大半只會包裝的人。
內容也是一樣。別急著把全站文章都改成 GEO 模板。先挑最能代表你專業的五篇文章,重新看一遍:讀者一進來能不能馬上拿到答案?AI 摘要抓三句會不會抓歪?限制條件有沒有講?如果這篇文章被機器拿去回答別人的問題,你會不會放心?
這些事都不炫。但會留下資產。
冷靜講,這波 AI 洗牌不會先淘汰不懂 AI 的人。它會先淘汰把 AI 當魔法的人。
因為長任務、服務商認證、GEO 這三件事,都在把我們推回同一個現實:工具本身不會替你建立系統。你要先把工作整理成可重複、可驗證、可交付的形狀,工具才真的有地方發揮。
今天可以做一個很小的版本。
找一件你下週本來就要做、而且有點討厭的重複任務。不要急著問 AI 能不能改變世界。先問它能不能接其中一段,留下結果,講清楚風險,幫你少踩一個明天早上會爆的坑。
如果可以,這才叫進步。
探索更多來自 大衛的觀察日記 的內容
訂閱即可透過電子郵件收到最新文章。
