求各位大神帮们
回帖就送分! |
|
2分 |
.timeout(3000)去掉
|
不行啊 |
|
4分 |
不是什么网站你都能连接的 有些网站的反爬虫做得好 不让你用代码这么连
|
4分 |
估计应该是你多线程没写好!
先跑单线程试试! |
如果在超时的时候 在catch里边让线程暂停几秒钟 之后再联接的话,超时的次数就能少点,但是当所有的线程运行的时间长点的情况,还是会一直报异常。 |
|
那怎么能看出来哪个网站让爬 哪个网站不让爬呢? |
|
2分 |
302是重定向 |
2分 |
你需要从重定向的header里去获取location的新地址 |
我调查了 这个在基类里已经处理过,如果出现302的问题 会获取location的新地址,但是还是会报302的问题。 |
|
2分 |
11.避免URL重定向。URL redirects are made using HTTP status codes 301 and 302. They tell the browser to go to another location.
|
2分 |
setTimeOut时间长一点
|
2分 |
还是用httpclient 然后在用jsoup解析吧
|
有段时间没做那个项目了,记得当时最后是把settimeout设置大了些之后,能好一点点,不过在多次解析的时候,还是时不时会出现问题。 |
|
Document doc=null;
org.jsoup.Connection conn = Jsoup.connect(url); conn.timeout(5000); doc = conn.get(); 设置一下 |