Plaggerで全文取得 (5)・ファミ通.comのTVゲーム関連記事とランキングを取得するPlaggerで全文取得 (5)・ファミ通.comのTVゲーム関連記事とランキングを取得する

PlaggerEntryFullTextプラグイン用に自分で作って使ってるyamlファイルをちょぼちょぼと公開します。いわゆる野良EFTってやつです。


ファミ通.com TVゲームニュース

昨日の電撃に続いてテレビゲーム関連のニュース・出版最大手である『ファミ通』のウェブサイトからニュース記事とランキングデータを取得します。
ファミ通のサイトで標準提供されているRSSにはサイト内で提供している携帯電話向けゲームやPCゲーム、アニメ情報、ファミ通ブログなどの更新データが全てごっちゃに含まれていてテレビゲームの記事だけ読むには邪魔です。
そこでTVゲームニュースのトップページをcustom_feedを使用して購読しよけいな記事は除外します。
電撃とは違ってタイトルやURLから機種の特定が出来ないので特定機種の情報のみ欲しい場合は本文を機種名でフィルタリングする必要があります。

PATH: assets/plugins/Filter-EntryFullText/famitsu_tvgame.yaml

# famitsu.com TV game news
# http://www.famitsu.com/game/

author: Kazuya@glassleaf
custom_feed_handle: http://www.famitsu.com/game/
custom_feed_follow_link: /game/(rank|news|coming).*?/\d{4}/\d{2}/\d{2}/.*?html
handle: http://www.famitsu.com/game/(rank|news|coming).*?/\d{4}/\d{2}/\d{2}/.*?html
extract: <div class="topic_path">.*?<h1>(.*?)<.*?<div class="article_date">(.*?)<.*?<!--story start-->(.*?)<!--story end-->
extract_capture: title date body

ランキング情報は昨日の電撃よりもファミ通の方が読みやすいですね。
記事URLが特徴的なのでランキング、ニュース、新作紹介のページだけを簡単に抽出できます。
切り出したページをそのまま同じデザインで読めるので特別な事をする必要もありません。
しかし、各記事のページに<h1>タグが無数にあるのはHTML構造的にどうかと思います。

ブックマークに追加する

Comments and Trackbacks

このブログ記事について

このページは、Kazuyaが2007年6月15日 21:01に書いたブログ記事です。

ひとつ前のブログ記事は「Plaggerで全文取得 (4)・電撃オンラインのニュースとランキング情報を取得する」です。

次のブログ記事は「宮崎あおいが高岡蒼甫と入籍」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。