上次挖站否分享了利用Huginn抓取任意網站RSS和微信公眾號更新,不少的朋友留言說Huginn配置太難,並且還沒有現成的scenarios庫,很多的抓取規則都需要自己摸索和自定義,難度比較大。最重要的是搭建Huginn還需要自己支付一筆主機費用。
今天就分享的Feed43就是相當於Huginn的RSS抓取訂閱功能了。 Huginn功能強大,如果你只是想用Huginn的RSS訂閱,不妨換成Feed43這個免費的訂閱任意網站更新的線上服務。無論是使用網站,只是可以用瀏覽器存取的網頁就可以被Feed43訂閱到。
Feed43有免費套餐,6小時抓取一次,所以Feed43不適合更新特別頻繁網站訂閱。 Feed43可以將任何網站產生RSS訂閱源,然後你可以將這個訂閱源放在自己的RSS閱讀器,或者你也可以配合iFTTT、fivefilters、freefullrss實現RSS全文閱讀、郵箱通知和手機APP提醒。
更多的實用工具,你還可以看看:
- 三個命令工具Rsync,SCP,Tar-快速解決VPS遠端網站搬家與資料同步
- 利用Huginn抓取任何網站RSS和微信公眾號更新-打造一站式資訊閱讀平台
- 三大免費工具幫助你偵測VPS伺服器真偽-VPS主機效能與速度測試方法
PS:2018年1月31日更新,除了使用第三方的RSS訂閱服務,有自己的伺服器或主機的朋友也可以深度自建RSS閱讀器,參考:兩款優秀的開源RSS閱讀器工具:Miniflux和Tiny Tiny RSS-自建線上RSS閱讀器。
一、用Feed43訂閱任一網站RSS方法
官網:
- HTTP://feed43.com/
進入網站先註冊一個帳號,Feed43支援隨時管理和編輯自己的訂閱源。
接著,你就可以加入自己想要訂閱的網站了。 如果有亂碼的話,在後面的Encoding填入:utf-8或gbk。
然後,Feed43會輸出網頁Html原始碼了。在 Item (repeatable) Search Pattern*: 處填寫你要抓取的規則。有兩個參數:{%}
和{*}
。 {%}
代表變量,{*}
表示省略。仔細觀察一下,如果我們要抓取標題,複製標題的Html標籤,替換變量,不要的就省略。
參考我抓取的wzfou.com首頁的最新文章的規則,如下圖:
點擊Extract後如果顯示沒有內容,你可以先從最簡單的標籤開始,例如先只抓取H標籤的,然後再添加其它內容標籤。確定之後,就是確定RSS模板了,主要就是標題、內容、連結了。根據上面抓取的{%}
內容分別填入。
最後點選預覽一下你就可以看到RSS訂閱源已經成功了。
用瀏覽器開啟這個.xml位址,我們就能看到RSS更新的內容了。你可以用RSS閱讀器訂閱此RSS位址了。
當然,你也可以隨時修改或刪除此RSS訂閱源。
二、免費與自製實現RSS Feed全文閱讀
2.1 RSS全文訂閱線上網站
只要填寫RSS訂閱位址,就可以使用以下幾個網站將實現RSS全文訂閱了:
- HTTP://fetch RSS.com
- HTTP://five filters.org
- HTTP://full content RSS.com/
- HTTPS://嗚嗚嗚.free full RSS.com/
其中,freefullrss是完全免費的,輸入你的RSS訂閱地址。
然後,freefullrss就會產生RSS全文了。
這個位址你又可以拿給RSS閱讀器訂閱了,在RSS閱讀器看到的就是我們訂閱的全文了。 (點擊放大)
2.2 自製RSS全文訂閱服務
項目地址:
- bitbucket:https://bitbucket.org/fivefilters/full-text-rss
- Github:https://github.com/Dither/full-text-rss
Full-Text RSS的bitbucket的專案看起來有更新,可以直接使用git clone https://bitbucket.org/fivefilters/full-text-rss.git下載最新的。 Full-Text RSS就一個PHP程序,也不需要資料庫。所以你下載Full-Text RSS後,解壓縮直接上傳到伺服器發送即可。
接著,開啟網址,你就可以進入到Full-Text RSS介面了,輸入你想要取得全文的RSS位址。
解析後,就會在瀏覽器看到RSS全文內容了。
Full-Text RSS也提供了抓取任一網站RSS的功能。不過,你需要先制定好抓取規則,Full-Text RSS官網也提供了網友自己做好的上千個網站規則,有些是中文的,我們可以直接拿來用。方法是:
- 進入目錄:site_config/standard/
- 刪除目錄內所有的內容
- 執行指令:
git clone https://github.com/fivefilters/ftr-site-config.git .
- Git 會開始下載最新的 site config 文件
- 想要更新重複上面的操作即可, 也可以使用
git pull
.
當然,我們也可以使用Full-Text RSS提供的線上產生RSS訂閱源:http://createfeed.fivefilters.org/,輸入你想要訂閱的網站位址。
然後選擇網頁更新內容,這時fivefilters就會產生網站抓取規則了,你直接點選下載即可。
將下載下來的設定檔上傳到site_config/standard/ 即可。
三、IFTTT:實現RSS郵件通知與APP提醒
RSS訂閱與IFTTT結合就會變得十分強大了,IFTTT可以將RSS訂閱的內容推送到你的郵箱、手機、電腦等任意終端設備中。
在IFTTT中新增了RSS訂閱位址後,然後就可以在手機APP中接收提醒了。
另外,Blogtrottr支援關鍵字篩選並推送RSS,這樣你只會收到自己有興趣的RSS訂閱內容了:https://blogtrottr.com/。
四、總結
Feed43是一個非常強大的抓取工具,它可以訂閱到任何網站並轉換成RSS位址,只可惜免費用戶只能每6小時更新一次。免費的RSS Feed全文閱讀服務限制都比較多,在些服務還不是很穩定,還不如自建一個。
到目前來看,唯一的問題就是希望Feed43不要關閉了。畢竟是免費的第三方服務,況且現在RSS也不景氣。一勞永逸的辦法挖站否建議還是利用Huginn抓取任意網站RSS和微信公眾號更新-打造一站式資訊閱讀平台。