PlaggerのEntryFullTextプラグイン用に自分で作って使ってるyamlファイルをちょぼちょぼと公開します。いわゆる野良EFTってやつです。
昨日の電撃に続いてテレビゲーム関連のニュース・出版最大手である『ファミ通』のウェブサイトからニュース記事とランキングデータを取得します。
ファミ通のサイトで標準提供されているRSSにはサイト内で提供している携帯電話向けゲームやPCゲーム、アニメ情報、ファミ通ブログなどの更新データが全てごっちゃに含まれていてテレビゲームの記事だけ読むには邪魔です。
そこでTVゲームニュースのトップページをcustom_feedを使用して購読しよけいな記事は除外します。
電撃とは違ってタイトルやURLから機種の特定が出来ないので特定機種の情報のみ欲しい場合は本文を機種名でフィルタリングする必要があります。
PATH: assets/plugins/Filter-EntryFullText/famitsu_tvgame.yaml
# famitsu.com TV game news
# http://www.famitsu.com/game/
author: Kazuya@glassleaf
custom_feed_handle: http://www.famitsu.com/game/
custom_feed_follow_link: /game/(rank|news|coming).*?/\d{4}/\d{2}/\d{2}/.*?html
handle: http://www.famitsu.com/game/(rank|news|coming).*?/\d{4}/\d{2}/\d{2}/.*?html
extract: <div class="topic_path">.*?<h1>(.*?)<.*?<div class="article_date">(.*?)<.*?<!--story start-->(.*?)<!--story end-->
extract_capture: title date body
ランキング情報は昨日の電撃よりもファミ通の方が読みやすいですね。
記事URLが特徴的なのでランキング、ニュース、新作紹介のページだけを簡単に抽出できます。
切り出したページをそのまま同じデザインで読めるので特別な事をする必要もありません。
しかし、各記事のページに<h1>タグが無数にあるのはHTML構造的にどうかと思います。
この記事についているタグ
この記事に関係ありそうな記事
« Plaggerで全文取得 (4)・電撃オンラインのニュースとランキング情報を取得する
宮崎あおいが高岡蒼甫と入籍 »










