« [Plagger] とりあえず、DBに保存するところは出来た | トップ | [Plagger]クローラー部一応完成 »

2006年11月26日

ブログサーチのクローラーのためのテストエントリ~  このエントリをはてなブックマークに登録 

ようやくクローラーの精度が上がってきた。
結構いい加減なxmlとかが存在するので、いろいろと工夫が必要でひとすじ縄では行かないですね。

波ダッシュ(~)のマッピングがWindowsのUTF-8でおかしいので、

  - module: Filter::Regexp
    config:
      regexp: s/\xE3\x80\x9C/\xEF\xBD\x9E/g
      text_only: 1

を追記してみたけど、ちゃんと働くのだろうか。

うーん、うまく行かんね。
何か見落とししてるのかな。

投稿者 田中@グリニッジ : 2006年11月26日 22:20

トラックバック

このエントリーのトラックバックURL:
http://blog.tanaka-cs.com/mt/mt-tb.cgi/115

コメント

コメントしてください




保存しますか?


楽天トラベル 夏の旅行