用AI寫爬蟲下載無廣告小說

用 AI 寫 Python 爬蟲下載小說並轉存 epub 電子書

看網路小說最討厭的就是滿版廣告、每頁都要手動翻。一個 AI prompt 搞定,讓 Python 自動幫你把整本小說爬下來、去掉廣告、打包成 epub 電子書。

這個方法能幫你做什麼?

只要貼一段 prompt 給 ChatGPT 或任何 AI 工具,它就會自動幫你:

  • 從小說網站抓取所有章節連結
  • 逐章下載正文,自動清理廣告和多餘標籤
  • 下載圖片並嵌入 epub
  • 輸出帶目錄的 epub 電子書

全程不用寫一行程式碼,5 分鐘搞定。如果你也對 AI 自動化有興趣,推薦看這篇:為什麼你一定要學如何使用 OpenClaw?,裡面有更多 AI 實戰應用。

需要準備什麼?

  • 一個 AI 工具(ChatGPT、Claude、Gemini 都可以)
  • 你想下載的小說網址

就這樣。不需要安裝 Python,不需要裝套件,AI 會幫你把程式碼都寫好。

完整 Prompt 範例

把以下 prompt 貼給 AI,把 [url] 換成你要爬的小說首頁:

幫我用 Python (requests + BeautifulSoup + ebooklib) 寫一個爬蟲:

  1. 目標:[url]
  2. <ul class="nav chapter-list" id="chapter-list"> 抓所有 <a href="…">
  3. 依序進入每個 href,取 <div class="name"> 當章節標題,<div class="content"> 當正文
  4. 正文清理:去掉 <br>、頁尾的 “TOP” 連結、廣告 div
  5. 每次請求間隔 1-2 秒,帶 User-Agent
  6. 遇到 404 跳過並 print 記錄
  7. 圖片下載並嵌入 epub
  8. 最後輸出 epub,封面用第一張圖或留白,目錄自動生成

實際執行心得

試了幾個小說網站,AI 產出的程式碼大概 8 成可以直接跑。常見需要微調的地方:

  • 網站結構不同:每個小說站的 HTML 結構不一樣,chapter-list 這個 class name 要換成目標網站實際用的
  • 反爬機制:有些站會擋固定 IP,加上 User-Agent 和間隔請求通常能解決
  • 編碼問題:少數網站用 GBK 編碼,需要在 requests 裡指定 response.encoding = 'gbk'

常見問題

AI 產出的程式碼跑不動怎麼辦?

把錯誤訊息直接貼回給 AI,它會幫你改。這比自己 debug 快很多。

可以用在付費章節嗎?

不行。這個方法只能抓網站上公開免費的內容。需要登入或付費的章節無法存取。

epub 檔案太大怎麼辦?

如果小說圖片很多,epub 可能很大。可以在 prompt 裡加一句「不要下載圖片」,這樣出來的 epub 會小很多。


探索更多來自 大衛的觀察日記 的內容

訂閱即可透過電子郵件收到最新文章。

發表迴響