ブログの記事本文からはてなダイアリーキーワードを抽出する
zuzara - ブログの記事本文を抽出するAPI:TSUBUAN と,はてなダイアリーキーワード自動リンクAPIをマッシュアップしてみた.
require 'xmlrpc/client' require 'net/http' require 'kconv' Net::HTTP.version_1_2 text = "" # ブログ記事本文を TSUBUAN API で抽出 host = 'zuzara.dyndns.org' url = 'http://d.hatena.ne.jp/ooolong/20070420/1177083969' path = '/api/tsubuan?url=' + url Net::HTTP.start(host, 80) { |http| @res = http.get(path).body } text = @res #はてなダイアリーキーワード抽出 params = {'body' => text, 'mode' => 'lite', 'score' => 20} @URI = "http://d.hatena.ne.jp/xmlrpc" client = XMLRPC::Client.new2(@URI) res = client.proxy("hatena").setKeywordLink(params) items = [] res['wordlist'].each { |item| items.push({ :cname => item['cname'], :score => item['score'], :refcount => item['refcount'], :word => item['word'].tosjis}) } items.each { |item| puts "#{item[:score]} : #{item[:refcount]} : " + item[:cname] + " : " + item[:word] }
結果はこんな感じ.
100 : 3 : book : 「へんな会社」のつくり方 64 : 317 : hatena : はてなダイアリー 60 : 215 : web : トラックバック 88 : 4 : hatena : 株式会社はてな 100 : 0 : : スレッショルド 42 : 360 : elec : プログラミング 60 : 215 : : トラックバック 78 : 97 : web : アフィリエイト 70 : 21 : movie : トラフィック 70 : 21 : web : トラフィック 70 : 21 : music : トラフィック 57 : 48 : web : Webサービス 100 : 20 : web : RSSリーダ 70 : 11 : web : Permalink 50 : 25 : hatena : 近藤さん 28 : 116 : : トレンド 50 : 25 : : 近藤さん 30 : 172 : web : ブロガー 44 : 29 : : 疑心暗鬼 21 : 249 : : セミナー 75 : 1 : hatena : 伊藤直也 27 : 4700 : web : ブログ 71 : 117 : web : Web2.0 72 : 116 : hatena : はてブ 50 : 871 : hatena : はてな 56 : 52 : idol : NANA 30 : 76 : book : 投影 56 : 52 : comic : NANA 56 : 52 : music : NANA 34 : 347 : : 哲学 62 : 12 : : MBA 42 : 3 : : CTO 26 : 14 : : RR 26 : 47 : elec : TB 26 : 14 : music : RR 45 : 19 : : IQ 26 : 47 : web : TB 26 : 14 : game : RR
特定のブログエントリ(URL)から,はてなキーワードを抽出できた.