2015年11月12日 星期四

Ruby on Rails 筆記 — Pismo:輸入網址(URL)抓取網頁標題(Title)

I. 寫在開始之前

關於抓取網頁標題其實有一些套件可使用,例如mechanize[1]以及pismo[2]等,一開始還試過用open-uri[3] 進行網頁的讀取再抓資料,但後來一直有編碼和其他問題只好作罷。本篇使用的是pismo套件(gem),能夠抓取網頁中的title, feed URL, lede, author, keyword, datetime等等,功能算是蠻齊全的,如果想進一步了解可以至pismogithub[2]看。

II. 提醒事項

§ 在本文中寫給讀者看的註解會使用 % 符號
§ 本文作業系統為Ubuntu14.04,Rails 4.2.4,Ruby2.2.3
§ [ ] 為reference,可直接點選連結,最後面也會放上網址
§ 下面看到$的記號代表的是終端機的符號,直接輸入$後面那一串即可

III. 安裝及使用方法

1. 在Gemfile安裝pismo

gem 'pismo'

(2) 在終端機中(移至你的專案資料夾下)輸入
$ bundle install
% 這兩步完成後這個專案就有pismo gem可以使用了!

2. 使用pismo,在需要的controller中使用require呼叫出pismo即可
require 'pismo'

# Load a Web page (you could pass an IO object or a string with existing HTML data along, as you prefer)

doc = Pismo::Document.new('http://www.rubyinside.com/cramp-asychronous-event-driven-ruby-web-app-framework-2928.html')

doc.title # => "Cramp: Asychronous Event-Driven Ruby Web App Framework"
doc.author # => "Peter Cooper"
doc.keywords # => [["cramp", 7], ["controllers", 3], ["app", 3], ["basic", 2], ..., ... ]

% 上面是github的範例,在呼叫出pismo之後開啟某個網頁(new括號裡的那一串)並把網頁的內容存在doc裡面,接著你就可以把方法用在doc上(如doc.title)取出你要的特定項目,可以使用的方法也詳見pismo[2]。

3. 在實作過程中我使用了doc.title來抓取每篇食記的標題,但會發現有些(如pixnet等)抓的並不是標題,開啟網頁原始碼來看之後判斷應該是含有 title的地方他都會抓取,因此改用doc.titles(這樣他會將所有資料抓起來存成array)來看結果,如下圖:


% 在抓取title時把所有都抓進來存成array,但在存檔時只存doc.titles.last,這樣就可以確保得到的是正確的食記名稱!成果如下:


