heritrix设种子时种子地址url中包含汉字应该如何解决?

来源:百度知道 编辑:UC知道 时间:2024/09/28 09:05:10
种子的url中包含"kind=*"(*是汉字),直接作为种子,heritrix中seeds的url中文的位
置会显示成乱码,抓取也不成功,请问这个问题怎么解决?谢谢了!
楼下的能否说得详细些?因为我刚刚用Heritrix,也不是很熟悉,我现在都是运行了Heritrix的WebUI,在创建Job时将种子填进去,填的时候是中文,但是解析种子时中文的位置就变成乱码了,你说的UrlEncoder是要通过编程的方式设置吗?是需要去改Heritrix内部解析种子实现的部分吗?还请详细指教,非常感谢!

用URLEncoder转码了吗?
如果转码后无法解决,那就是heritrix的bug了

向heritrix传递连接之前encode试试,需要改程序
URLEncoder是一个可以完成这个任务的类,具体可以看
http://hi.baidu.com/gaoke966/blog/item/5a4fc203960b4e703812bb0a.html