java1234开源博客系统
最新博客
  • 2017年03月07日 Java Executor框架使用 摘要: 第一节:Java Executor框架特性Java Executor框架是Jdk1.5之后推出的,是为了更加方便的开发多线程应用而封装的框架;相比传统的Thread类,Java Executor使用方便,性能更好,更易于管理,而且支持线程池,所以我们在开发爬虫的时候,为了提高爬虫的爬取效率,我们要使用多线程,... 发表于 2017-03-07 10:48 阅读(1941)

  • 2016年11月12日 httpclient-执行请求 摘要: HttpClient最重要的功能是执行HTTP方法。一个HTTP方法的执行包含一个或多个HTTP请求/HTTP响应交换,通常由HttpClient的内部来处理。而期望用户提供一个要执行的请求对象,而HttpClient期望传输请求到目标服务器来返回对应的响应对象,或者当执行不成功时抛出异常。 很自然地,Ht... 1478956312093080507.jpg    发表于 2016-11-12 21:18 阅读(1769)

  • 2016年11月12日 HttpClient简介 摘要: 超文本传输协议(HTTP)也许是当今互联网上使用的最重要的协议了。Web服务,有网络功能的设备和网络计算的发展,都持续扩展了HTTP协议的角色,超越了用户使用的Web浏览器范畴,同时,也增加了需要HTTP协议支持的应用程序的数量。 尽管java.net包提供了基本通过HTTP访问资源的功能,但它没有提供全... 1478942892875085545.jpg    发表于 2016-11-12 21:16 阅读(1445)

  • 2016年06月09日 crawler4j详细配置 摘要: 控制器类必须传一个类型为CrawlConfig的参数,用于配置crawler4j。下面描述了一些关于配置的细节。抓取深度默认情况下没有抓取深度的限制。可以通过配置来限制深度,比如,你有个种子页面A连接到B,B又连接到C,C又连接到D。结构如下:A --> B --> C --> DA是种子页面深度为0,B为1... 发表于 2016-06-09 15:23 阅读(1924)

  • 2016年06月07日 crawler4j停止爬虫线程 摘要: 该实例演示如何通过调用接口实现停止爬虫线程;首先建一个BasicCrawler类:package com.java1234.shutdownCrawler;import java.util.Set;import java.util.regex.Pattern;import org.slf4j.Logger;i... 发表于 2016-06-07 11:57 阅读(1783)

  • 2016年06月07日 crawler4j多线程爬虫实例 摘要: 这个例子演示了如何同时运行两个不同的爬虫。首先写一个BasicCrawler类:package com.java1234.multipleCrawlers;import java.util.Set;import java.util.regex.Pattern;import edu.uci.ics.crawle... 发表于 2016-06-07 09:51 阅读(3819)

  • 2016年06月06日 crawler4j多线程爬虫统计分析数据 摘要: 该事例演示了如何在多线程中统计和分析数据;首先建一个状态实体类CrawlStat:package com.java1234.collectingData;/** * 爬虫状态实体类 统计爬虫信息 * @author * */public class CrawlStat { private int total... 发表于 2016-06-06 13:20 阅读(2414)

  • 2016年06月06日 crawler4j处理单个页面 摘要: 这个类演示了crawler4j如何爬取一个网页的数据 以及抽取出标题和文本信息代码有详细注释:package com.java1234.collectingData;import org.apache.http.HttpStatus;import edu.uci.ics.crawler4j.crawler.C... 发表于 2016-06-06 11:30 阅读(2151)

  • 2016年06月06日 crawler4j图片爬虫 摘要: 该实例主要演示下如何爬取指定网站的图片;代码中有详细注释:首先写一个ImageCrawler类:package com.java1234.imageCrawler4j;import java.io.File;import java.io.IOException;import java.util.UUID;im... c.jpg    d.jpg    发表于 2016-06-06 11:04 阅读(3755)

  • 2016年06月06日 crawler4j基本实例 摘要: 该实例拥有更多细节,代码中都有详细配置;首先是BasicCrawler类:package com.java1234.basicCrawler;import java.util.Set;import java.util.regex.Pattern;import org.apache.http.Header;im... a.jpg    b.jpg    发表于 2016-06-06 09:21 阅读(2357)

Powered by Java1234 V3.0 Copyright © 2012-2016 Java知识分享网 版权所有