上次挖站否分享了利用Huginn抓取任意網站RSS和微信公眾號更新,不少的朋友留言說Huginn配置太難,並且還沒有現成的scenarios庫,很多的抓取規則都需要自己摸索和自定義,難度比較大。最重要的是搭建Huginn還需要自己支付一筆主機費用。

今天就分享的Feed43就是相當於Huginn的RSS抓取訂閱功能了。 Huginn功能強大,如果你只是想用Huginn的RSS訂閱,不妨換成Feed43這個免費的訂閱任意網站更新的線上服務。無論是使用網站,只是可以用瀏覽器存取的網頁就可以被Feed43訂閱到。

Feed43有免費套餐,6小時抓取一次,所以Feed43不適合更新特別頻繁網站訂閱。 Feed43可以將任何網站產生RSS訂閱源,然後你可以將這個訂閱源放在自己的RSS閱讀器,或者你也可以配合iFTTT、fivefilters、freefullrss實現RSS全文閱讀、郵箱通知和手機APP提醒。

產生和訂閱任意網站RSS工具-實現RSS全文閱讀,郵箱通知和手機APP提醒

更多的實用工具,你還可以看看:

  1. 三個命令工具Rsync,SCP,Tar-快速解決VPS遠端網站搬家與資料同步
  2. 利用Huginn抓取任何網站RSS和微信公眾號更新-打造一站式資訊閱讀平台
  3. 三大免費工具幫助你偵測VPS伺服器真偽-VPS主機效能與速度測試方法

PS:2018年1月31日更新,除了使用第三方的RSS訂閱服務,有自己的伺服器或主機的朋友也可以深度自建RSS閱讀器,參考:兩款優秀的開源RSS閱讀器工具:Miniflux和Tiny Tiny RSS-自建線上RSS閱讀器。

一、用Feed43訂閱任一網站RSS方法

官網:

  1. HTTP://feed43.com/

進入網站先註冊一個帳號,Feed43支援隨時管理和編輯自己的訂閱源。

接著,你就可以加入自己想要訂閱的網站了。 如果有亂碼的話,在後面的Encoding填入:utf-8或gbk。

然後,Feed43會輸出網頁Html原始碼了。在 Item (repeatable) Search Pattern*: 處填寫你要抓取的規則。有兩個參數:{%}{*}{%}代表變量,{*}表示省略。仔細觀察一下,如果我們要抓取標題,複製標題的Html標籤,替換變量,不要的就省略。

參考我抓取的wzfou.com首頁的最新文章的規則,如下圖:

點擊Extract後如果顯示沒有內容,你可以先從最簡單的標籤開始,例如先只抓取H標籤的,然後再添加其它內容標籤。確定之後,就是確定RSS模板了,主要就是標題、內容、連結了。根據上面抓取的{%}內容分別填入。

最後點選預覽一下你就可以看到RSS訂閱源已經成功了。

用瀏覽器開啟這個.xml位址,我們就能看到RSS更新的內容了。你可以用RSS閱讀器訂閱此RSS位址了。

當然,你也可以隨時修改或刪除此RSS訂閱源。

二、免費與自製實現RSS Feed全文閱讀

2.1  RSS全文訂閱線上網站

只要填寫RSS訂閱位址,就可以使用以下幾個網站將實現RSS全文訂閱了:

  1. HTTP://fetch RSS.com
  2. HTTP://five filters.org
  3. HTTP://full content RSS.com/
  4. HTTPS://嗚嗚嗚.free full RSS.com/

其中,freefullrss是完全免費的,輸入你的RSS訂閱地址。

然後,freefullrss就會產生RSS全文了。

這個位址你又可以拿給RSS閱讀器訂閱了,在RSS閱讀器看到的就是我們訂閱的全文了。 (點擊放大)

2.2  自製RSS全文訂閱服務

項目地址:

  1. bitbucket:https://bitbucket.org/fivefilters/full-text-rss
  2. Github:https://github.com/Dither/full-text-rss

Full-Text RSS的bitbucket的專案看起來有更新,可以直接使用git clone https://bitbucket.org/fivefilters/full-text-rss.git下載最新的。 Full-Text RSS就一個PHP程序,也不需要資料庫。所以你下載Full-Text RSS後,解壓縮直接上傳到伺服器發送即可。

接著,開啟網址,你就可以進入到Full-Text RSS介面了,輸入你想要取得全文的RSS位址。

解析後,就會在瀏覽器看到RSS全文內容了。

Full-Text RSS也提供了抓取任一網站RSS的功能。不過,你需要先制定好抓取規則,Full-Text RSS官網也提供了網友自己做好的上千個網站規則,有些是中文的,我們可以直接拿來用。方法是:

    1. 進入目錄:site_config/standard/
    2. 刪除目錄內所有的內容
    3. 執行指令: git clone https://github.com/fivefilters/ftr-site-config.git .
    4. Git 會開始下載最新的 site config 文件
    5. 想要更新重複上面的操作即可, 也可以使用 git pull .

當然,我們也可以使用Full-Text RSS提供的線上產生RSS訂閱源:http://createfeed.fivefilters.org/,輸入你想要訂閱的網站位址。

然後選擇網頁更新內容,這時fivefilters就會產生網站抓取規則了,你直接點選下載即可。

將下載下來的設定檔上傳到site_config/standard/ 即可。

三、IFTTT:實現RSS郵件通知與APP提醒

RSS訂閱與IFTTT結合就會變得十分強大了,IFTTT可以將RSS訂閱的內容推送到你的郵箱、手機、電腦等任意終端設備中。

在IFTTT中新增了RSS訂閱位址後,然後就可以在手機APP中接收提醒了。

另外,Blogtrottr支援關鍵字篩選並推送RSS,這樣你只會收到自己有興趣的RSS訂閱內容了:https://blogtrottr.com/。

四、總結

Feed43是一個非常強大的抓取工具,它可以訂閱到任何網站並轉換成RSS位址,只可惜免費用戶只能每6小時更新一次。免費的RSS Feed全文閱讀服務限制都比較多,在些服務還不是很穩定,還不如自建一個。

到目前來看,唯一的問題就是希望Feed43不要關閉了。畢竟是免費的第三方服務,況且現在RSS也不景氣​​。一勞永逸的辦法挖站否建議還是利用Huginn抓取任意網站RSS和微信公眾號更新-打造一站式資訊閱讀平台。

發表評論