2006年11月26日
ブログサーチのクローラーのためのテストエントリ~

ようやくクローラーの精度が上がってきた。
結構いい加減なxmlとかが存在するので、いろいろと工夫が必要でひとすじ縄では行かないですね。
波ダッシュ(~)のマッピングがWindowsのUTF-8でおかしいので、
- module: Filter::Regexp
config:
regexp: s/\xE3\x80\x9C/\xEF\xBD\x9E/g
text_only: 1
を追記してみたけど、ちゃんと働くのだろうか。
うーん、うまく行かんね。
何か見落とししてるのかな。
投稿者 田中@グリニッジ : 2006年11月26日 22:20
トラックバック
このエントリーのトラックバックURL:
http://blog.tanaka-cs.com/mt/mt-tb.cgi/115
