メニュー
\ ポイント最大11倍! / 詳細を見る

Feed43の代替!│RSSのないサイトの情報をRSS化して取得する方法

Feed43の代替サービスPolitePolを追記しました!

古いサイトや、あえてRSSを配信していないサイトのFeed(フィード)、RSSを取得したいことはないでしょうか?

フィードとは、ウェブサイト、特にブログやニュースサイトなどのコンテンツの概要もしくはコンテンツ全体を配信用に加工した文書のこと。
またRSSとは、ニュースやブログなど各種のウェブサイトの更新情報を配信するための文書フォーマットの総称である。

ウィキペディア

情報の取得方法はあるのですが、PolitePolという自分で詳細にRSS情報をカスタマイズして取得するサービスがありましたので、その使い方の備忘録を残しておきます。

すいみん

RSSを配信しているサイトから、さらに情報を絞ってRSS化することもできます。

PolitePol│RSSのないサイトの情報をRSS化して取得する方法

RSS情報がないサイトのRSSを取得するサービス。

この手のサービスで有名なのはFeed43でしたが、

あらたに有志で作成されたPolitePolが代替になりうるので、その使い方を紹介します。

使い方はサービスの停止してしまったFeed43よりはるかに簡単です。

ただし画像を取得する物は有料プランになってしまいます。

STEP
URL情報を入力

PolitePolにアクセスしてRSS情報を取得したいサイトのURLしましょう。

今回は古いカナダのサイトの求人情報を取得してみます。
http://bbs.jpcanada.com/listing.php?bbs=4&order=0

STEP
タイトルと説明、画像の取得

目当てのサイトが表示されたら、Titleボタンを押してから、取得したい情報部分にカーソルを合わせます。

同様にDescriptionも必要な情報を登録してあげましょう。

画像も取得できますが、こちらは有料プランのみになるので、今回は登録しません。

登録が終わったら最後にCreateボタンを押します。

歯車アイコンを押すと実際のコードが確認できます。

STEP
RSSの取得

ボタンを押した後にするにRSSのURLが作成できます。

※ただしアカウント登録しないと消えてしまうそうなので、右上のSign Upからアカウント登録しましょう。

あとはFeedlyなりInoreaderなりにこのURLを登録してあげれば完了です!

Feed43│RSSのないサイトの情報をRSS化して取得する方法

Feed43は残念ながらサービスが停止してしまいました。
前項のPolitePolのサービスを利用することをおすすめします!

STEP
Feed43にアクセス

まずはFeed43にアクセスしましょう。

このサイトはSSL化されてないhttpのままのサイトなので、

詳細設定>feed43.comにアクセスする(安全ではありません)をクリックします。

その後サイトが表示されますので、Create your first feedボタンを押しましょう。

STEP
ソースコードの取得

今回はカナダの古い掲示板(BBS)を使った求人サイトのRSSを取得してみます。

Step 1. Specify source page address (URL)

Addressという場所にURLを入力してReloadボタンを押しましょう。

するとソースコードが表示されます。

STEP
コードから取得したい場所に印をつける

Step 2. Define extraction rules

表示されたソースコードを見て情報を整形しましょう。

繰り返している情報場所をコピペします。

<div class="divTableCell col1 dis-phone-none"><nobr>No.100342</nobr></div>
<div class="divTableCell col2"><img src="http://bbs.jpcanada.com/icon/bbs998.gif" width="32" height="32" /></div>
<div class="divTableCell col3 dis-phone-none">
0
</div>
<div class="divTableCell col4">
<a href="http://bbs.jpcanada.com/topics.php?bbs=4&msgid=100342&order=0&cat=&&dummy=0">オフィスワーク求人 PGWP保持者・永住権保持者歓迎</a><span class="dis-pc-none">

まず使うオプションを定義します。下記の記号をGlobal Search Pattern (optional)にコピペします。

{%}{*}

{%}は変する情報の部分

{*}はソースコードの改行部分に入れます。

このオプションを使って先ほどのコピペを整形すると、下記のような編集になります。

<div class="divTableCell col1 dis-phone-none"><nobr>{%}</nobr></div>{*}
<div class="divTableCell col2"><img src="{%}" width="32" height="32" /></div>{*}
<div class="divTableCell col3 dis-phone-none">{*}
{%}{*}
</div>{*}
<div class="divTableCell col4">{*}
<a href="{%}">{%}</a><span class="dis-pc-none">

これをItem (repeatable) Search PatternにコピペしてExtractボタンを押しましょう。

OKという緑の文字が出れば、成功です。

取得したい情報の候補がピックアップされました。

STEP
RSSのフォーマットを記入する

情報の候補がでたら、最後にRSSのフォーマットを作成しましょう。

Step 3. Define output format

まずはサイト全体の情報を入力します。

続いて取得したいカードの情報を入力します。

Item Title Templateにはタイトルに当たる情報を

Item Link Templateにはリンク先

Item Content Templateには詳細情報を入力します。

先ほどの情報から

{%5}が案県名、{%4}リンク情報なのでそちらを入力します。

もし画像も取得したかったら、<img src="{%2}">というように記載します。

※今回は不要なので詳細情報は無しにしました。

最後にPreviewボタンを押すと、RSS情報のビジュアルが表示されます。

STEP
RSSのURLを取得する

Feed URLが実際のRSSで使うURL

Edit URLは編集したい時にアクセスするURLになります。

控えておきましょう。

最後に取得したURLをRSSリーダーに登録しましょう。

以上でRSSが配信されてないサイトでRSSが取得できました。

まとめ

海外にいると日本語の求人や住宅情報を得る時に、20年以上前のサイトからということがよくあります。

RSSすらなく、BBSで情報が展開されることもあるので、

今回のFeed43というRSS化できるサービスを利用してみました。

ちょっとテクニカルですが、うまく使うと好きな情報だけを取り出せるので便利なサービスです。

全記事一覧

  • URLをコピーしました!
目次