第一节:Java Executor框架特性
Java Executor框架是Jdk1.5之后推出的,是为了更加方便的开发多线程应用而封装的框架;
相比传统的Thread类,Java Executor使用方便,性能更好,更易于管理,而且支持线程池,所以我们在开发爬虫的时候,为了提高爬虫的爬取效率,我们要使用多线程,推荐使用Java的Executor框架来实现,因为Executor框架 既简单又高效;
第二节:Java Executor框架在爬虫应用中的使用
常用接口:
创建固定数目线程的线程池。
public static ExecutorService newFixedThreadPool(int nThreads)
执行一个线程
void java.util.concurrent.Executor.execute(Runnable command)
查看活动线程个数
int java.util.concurrent.ThreadPoolExecutor.getActiveCount()
结束所有线程
void java.util.concurrent.ExecutorService.shutdown()
说明:Executor在管理多个线程的时候,会进行有效的安排处理,比如创建的时候,线程池是10个,假如实际线程超过10个,Executor会进行有效的队列阻塞和调度。对我们开发者这是透明的,完全不用关心它内部的具体执行;
下面给个比较实用的测试代码:
package com.open1111; import java.util.concurrent.ExecutorService; import java.util.concurrent.Executors; import java.util.concurrent.ThreadPoolExecutor; public class ExecutorTest { private static Integer pages=1; // 网页数 private static boolean exeFlag=true; // 执行标识 public static void main(String[] args) { ExecutorService executorService=Executors.newFixedThreadPool(10); // 创建ExecutorService 连接池创建固定的10个初始线程 while(exeFlag){ if(pages<=100){ executorService.execute(new Runnable(){ @Override public void run() { // TODO Auto-generated method stub System.out.println("爬取了第"+pages+"网页..."); pages++; } }); }else{ if(((ThreadPoolExecutor)executorService).getActiveCount()==0){ // 活动线程是0 executorService.shutdown(); // 结束所有线程 exeFlag=false; System.out.println("爬虫任务已经完成"); } } try { Thread.sleep(100); // 线程休息0.1秒 } catch (InterruptedException e) { e.printStackTrace(); } } } }
运行结果:
爬取了第1网页...
爬取了第2网页...
爬取了第3网页...
爬取了第4网页...
爬取了第5网页...
爬取了第6网页...
爬取了第7网页...
爬取了第8网页...
爬取了第9网页...
爬取了第10网页...
爬取了第11网页...
爬取了第12网页...
爬取了第13网页...
爬取了第14网页...
爬取了第15网页...
爬取了第16网页...
爬取了第17网页...
爬取了第18网页...
爬取了第19网页...
爬取了第20网页...
爬取了第21网页...
爬取了第22网页...
爬取了第23网页...
爬取了第24网页...
爬取了第25网页...
爬取了第26网页...
爬取了第27网页...
爬取了第28网页...
爬取了第29网页...
爬取了第30网页...
爬取了第31网页...
爬取了第32网页...
爬取了第33网页...
爬取了第34网页...
爬取了第35网页...
爬取了第36网页...
爬取了第37网页...
爬取了第38网页...
爬取了第39网页...
爬取了第40网页...
爬取了第41网页...
爬取了第42网页...
爬取了第43网页...
爬取了第44网页...
爬取了第45网页...
爬取了第46网页...
爬取了第47网页...
爬取了第48网页...
爬取了第49网页...
爬取了第50网页...
爬取了第51网页...
爬取了第52网页...
爬取了第53网页...
爬取了第54网页...
爬取了第55网页...
爬取了第56网页...
爬取了第57网页...
爬取了第58网页...
爬取了第59网页...
爬取了第60网页...
爬取了第61网页...
爬取了第62网页...
爬取了第63网页...
爬取了第64网页...
爬取了第65网页...
爬取了第66网页...
爬取了第67网页...
爬取了第68网页...
爬取了第69网页...
爬取了第70网页...
爬取了第71网页...
爬取了第72网页...
爬取了第73网页...
爬取了第74网页...
爬取了第75网页...
爬取了第76网页...
爬取了第77网页...
爬取了第78网页...
爬取了第79网页...
爬取了第80网页...
爬取了第81网页...
爬取了第82网页...
爬取了第83网页...
爬取了第84网页...
爬取了第85网页...
爬取了第86网页...
爬取了第87网页...
爬取了第88网页...
爬取了第89网页...
爬取了第90网页...
爬取了第91网页...
爬取了第92网页...
爬取了第93网页...
爬取了第94网页...
爬取了第95网页...
爬取了第96网页...
爬取了第97网页...
爬取了第98网页...
爬取了第99网页...
爬取了第100网页...
爬虫任务已经完成
上一篇:Jsoup获取DOM元素属性值
下一篇:又一在校生学习VIP课程成功就业