古いサイトや、あえてRSSを配信していないサイトのFeed(フィード)、RSSを取得したいことはないでしょうか?
フィードとは、ウェブサイト、特にブログやニュースサイトなどのコンテンツの概要もしくはコンテンツ全体を配信用に加工した文書のこと。
ウィキペディア
またRSSとは、ニュースやブログなど各種のウェブサイトの更新情報を配信するための文書フォーマットの総称である。
情報の取得方法はあるのですが、PolitePolという自分で詳細にRSS情報をカスタマイズして取得するサービスがありましたので、その使い方の備忘録を残しておきます。
RSSを配信しているサイトから、さらに情報を絞ってRSS化することもできます。
PolitePol│RSSのないサイトの情報をRSS化して取得する方法
RSS情報がないサイトのRSSを取得するサービス。
この手のサービスで有名なのはFeed43でしたが、
あらたに有志で作成されたPolitePolが代替になりうるので、その使い方を紹介します。
使い方はサービスの停止してしまったFeed43よりはるかに簡単です。
ただし画像を取得する物は有料プランになってしまいます。
PolitePolにアクセスしてRSS情報を取得したいサイトのURLしましょう。
今回は古いカナダのサイトの求人情報を取得してみます。http://bbs.jpcanada.com/listing.php?bbs=4&order=0
目当てのサイトが表示されたら、Titleボタンを押してから、取得したい情報部分にカーソルを合わせます。
同様にDescriptionも必要な情報を登録してあげましょう。
画像も取得できますが、こちらは有料プランのみになるので、今回は登録しません。
登録が終わったら最後にCreateボタンを押します。
ボタンを押した後にするにRSSのURLが作成できます。
※ただしアカウント登録しないと消えてしまうそうなので、右上のSign Upからアカウント登録しましょう。
あとはFeedlyなりInoreaderなりにこのURLを登録してあげれば完了です!
Feed43│RSSのないサイトの情報をRSS化して取得する方法
まずはFeed43にアクセスしましょう。
このサイトはSSL化されてないhttpのままのサイトなので、
詳細設定>feed43.comにアクセスする(安全ではありません)をクリックします。
その後サイトが表示されますので、Create your first feedボタンを押しましょう。
今回はカナダの古い掲示板(BBS)を使った求人サイトのRSSを取得してみます。
Step 1. Specify source page address (URL)
Addressという場所にURLを入力してReloadボタンを押しましょう。
するとソースコードが表示されます。
Step 2. Define extraction rules
表示されたソースコードを見て情報を整形しましょう。
繰り返している情報場所をコピペします。
<div class="divTableCell col1 dis-phone-none"><nobr>No.100342</nobr></div>
<div class="divTableCell col2"><img src="http://bbs.jpcanada.com/icon/bbs998.gif" width="32" height="32" /></div>
<div class="divTableCell col3 dis-phone-none">
0
</div>
<div class="divTableCell col4">
<a href="http://bbs.jpcanada.com/topics.php?bbs=4&msgid=100342&order=0&cat=&&dummy=0">オフィスワーク求人 PGWP保持者・永住権保持者歓迎</a><span class="dis-pc-none">
まず使うオプションを定義します。下記の記号をGlobal Search Pattern (optional)にコピペします。
{%}{*}
{%}
は変する情報の部分
{*}
はソースコードの改行部分に入れます。
このオプションを使って先ほどのコピペを整形すると、下記のような編集になります。
<div class="divTableCell col1 dis-phone-none"><nobr>{%}</nobr></div>{*}
<div class="divTableCell col2"><img src="{%}" width="32" height="32" /></div>{*}
<div class="divTableCell col3 dis-phone-none">{*}
{%}{*}
</div>{*}
<div class="divTableCell col4">{*}
<a href="{%}">{%}</a><span class="dis-pc-none">
これをItem (repeatable) Search PatternにコピペしてExtractボタンを押しましょう。
OKという緑の文字が出れば、成功です。
取得したい情報の候補がピックアップされました。
情報の候補がでたら、最後にRSSのフォーマットを作成しましょう。
Step 3. Define output format
まずはサイト全体の情報を入力します。
続いて取得したいカードの情報を入力します。
Item Title Templateにはタイトルに当たる情報を
Item Link Templateにはリンク先
Item Content Templateには詳細情報を入力します。
先ほどの情報から
{%5}が案県名、{%4}リンク情報なのでそちらを入力します。
もし画像も取得したかったら、<img src="{%2}">
というように記載します。
※今回は不要なので詳細情報は無しにしました。
最後にPreviewボタンを押すと、RSS情報のビジュアルが表示されます。
Feed URLが実際のRSSで使うURL
Edit URLは編集したい時にアクセスするURLになります。
控えておきましょう。
最後に取得したURLをRSSリーダーに登録しましょう。
以上でRSSが配信されてないサイトでRSSが取得できました。
まとめ
海外にいると日本語の求人や住宅情報を得る時に、20年以上前のサイトからということがよくあります。
RSSすらなく、BBSで情報が展開されることもあるので、
今回のFeed43というRSS化できるサービスを利用してみました。
ちょっとテクニカルですが、うまく使うと好きな情報だけを取り出せるので便利なサービスです。