ブログの記事本文からはてなダイアリーキーワードを抽出する

zuzara - ブログの記事本文を抽出するAPI:TSUBUAN と，はてなダイアリーキーワード自動リンクAPIをマッシュアップしてみた．

超イカなコード．記事はコレをつっこんでみた．

require 'xmlrpc/client'
require 'net/http'
require 'kconv'

Net::HTTP.version_1_2

text = ""

# ブログ記事本文を TSUBUAN API で抽出
host = 'zuzara.dyndns.org'
url  = 'http://d.hatena.ne.jp/ooolong/20070420/1177083969'
path = '/api/tsubuan?url=' + url

Net::HTTP.start(host, 80) { |http|
  @res = http.get(path).body
}
text = @res


#はてなダイアリーキーワード抽出
params = {'body' => text,
          'mode' => 'lite',
	  'score' => 20}

@URI = "http://d.hatena.ne.jp/xmlrpc"

client = XMLRPC::Client.new2(@URI)
res = client.proxy("hatena").setKeywordLink(params)

items = []
res['wordlist'].each { |item|
  items.push({
    :cname => item['cname'],
    :score => item['score'],
    :refcount => item['refcount'],
    :word => item['word'].tosjis})
}

items.each { |item|
  puts "#{item[:score]} : #{item[:refcount]} : " + item[:cname] + " : " + item[:word] 
}

結果はこんな感じ．

100 : 3 : book : 「へんな会社」のつくり方
64 : 317 : hatena : はてなダイアリー
60 : 215 : web : トラックバック
88 : 4 : hatena : 株式会社はてな
100 : 0 :  : スレッショルド
42 : 360 : elec : プログラミング
60 : 215 :  : トラックバック
78 : 97 : web : アフィリエイト
70 : 21 : movie : トラフィック
70 : 21 : web : トラフィック
70 : 21 : music : トラフィック
57 : 48 : web : Webサービス
100 : 20 : web : RSSリーダ
70 : 11 : web : Permalink
50 : 25 : hatena : 近藤さん
28 : 116 :  : トレンド
50 : 25 :  : 近藤さん
30 : 172 : web : ブロガー
44 : 29 :  : 疑心暗鬼
21 : 249 :  : セミナー
75 : 1 : hatena : 伊藤直也
27 : 4700 : web : ブログ
71 : 117 : web : Web2.0
72 : 116 : hatena : はてブ
50 : 871 : hatena : はてな
56 : 52 : idol : NANA
30 : 76 : book : 投影
56 : 52 : comic : NANA
56 : 52 : music : NANA
34 : 347 :  : 哲学
62 : 12 :  : MBA
42 : 3 :  : CTO
26 : 14 :  : RR
26 : 47 : elec : TB
26 : 14 : music : RR
45 : 19 :  : IQ
26 : 47 : web : TB
26 : 14 : game : RR

特定のブログエントリ(URL)から，はてなキーワードを抽出できた．