Java开源博客系统-Powered by java1234

最新博客

2017年03月07日 Java Executor框架使用摘要: 第一节：Java Executor框架特性Java Executor框架是Jdk1.5之后推出的，是为了更加方便的开发多线程应用而封装的框架；相比传统的Thread类，Java Executor使用方便，性能更好，更易于管理，而且支持线程池，所以我们在开发爬虫的时候，为了提高爬虫的爬取效率，我们要使用多线程，... 发表于 2017-03-07 10:48 阅读(6476) 评论(0)

2016年11月12日 httpclient-执行请求摘要: HttpClient最重要的功能是执行HTTP方法。一个HTTP方法的执行包含一个或多个HTTP请求/HTTP响应交换，通常由HttpClient的内部来处理。而期望用户提供一个要执行的请求对象，而HttpClient期望传输请求到目标服务器来返回对应的响应对象，或者当执行不成功时抛出异常。很自然地，Ht... 发表于 2016-11-12 21:18 阅读(6698) 评论(0)

2016年11月12日 HttpClient简介摘要: 超文本传输协议(HTTP)也许是当今互联网上使用的最重要的协议了。Web服务，有网络功能的设备和网络计算的发展，都持续扩展了HTTP协议的角色，超越了用户使用的Web浏览器范畴，同时，也增加了需要HTTP协议支持的应用程序的数量。尽管java.net包提供了基本通过HTTP访问资源的功能，但它没有提供全... 发表于 2016-11-12 21:16 阅读(5583) 评论(0)

2016年06月09日 crawler4j详细配置摘要: 控制器类必须传一个类型为CrawlConfig的参数，用于配置crawler4j。下面描述了一些关于配置的细节。抓取深度默认情况下没有抓取深度的限制。可以通过配置来限制深度，比如，你有个种子页面A连接到B，B又连接到C，C又连接到D。结构如下：A --> B --> C --> DA是种子页面深度为0，B为1... 发表于 2016-06-09 15:23 阅读(5494) 评论(3)

2016年06月07日 crawler4j停止爬虫线程摘要: 该实例演示如何通过调用接口实现停止爬虫线程；首先建一个BasicCrawler类：package com.java1234.shutdownCrawler;import java.util.Set;import java.util.regex.Pattern;import org.slf4j.Logger;i... 发表于 2016-06-07 11:57 阅读(6700) 评论(3)

2016年06月07日 crawler4j多线程爬虫实例摘要: 这个例子演示了如何同时运行两个不同的爬虫。首先写一个BasicCrawler类：package com.java1234.multipleCrawlers;import java.util.Set;import java.util.regex.Pattern;import edu.uci.ics.crawle... 发表于 2016-06-07 09:51 阅读(10114) 评论(1)

2016年06月06日 crawler4j多线程爬虫统计分析数据摘要: 该事例演示了如何在多线程中统计和分析数据；首先建一个状态实体类CrawlStat：package com.java1234.collectingData;/** * 爬虫状态实体类统计爬虫信息 * @author * */public class CrawlStat { private int total... 发表于 2016-06-06 13:20 阅读(6965) 评论(5)

2016年06月06日 crawler4j处理单个页面摘要: 这个类演示了crawler4j如何爬取一个网页的数据以及抽取出标题和文本信息代码有详细注释：package com.java1234.collectingData;import org.apache.http.HttpStatus;import edu.uci.ics.crawler4j.crawler.C... 发表于 2016-06-06 11:30 阅读(6824) 评论(0)

2016年06月06日 crawler4j图片爬虫摘要: 该实例主要演示下如何爬取指定网站的图片；代码中有详细注释：首先写一个ImageCrawler类：package com.java1234.imageCrawler4j;import java.io.File;import java.io.IOException;import java.util.UUID;im... 发表于 2016-06-06 11:04 阅读(9191) 评论(0)

2016年06月06日 crawler4j基本实例摘要: 该实例拥有更多细节，代码中都有详细配置；首先是BasicCrawler类：package com.java1234.basicCrawler;import java.util.Set;import java.util.regex.Pattern;import org.apache.http.Header;im... 发表于 2016-06-06 09:21 阅读(6959) 评论(0)

关注Java1234微信公众号

博主信息

Java1234_小锋

(知识改变命运，技术改变世界)

按日志类别

按日志日期

友情链接

Powered by Java1234 V3.0 Copyright © 2012-2016 Java知识分享网版权所有