介绍这个不是因为这款爬虫有多好,而是因为它足够简单,如果初学如果编写爬虫,可做入门参考。如果只是做要求不高的应用,也可试试。如果想找一款功能强大,就别在WebLech上浪费时间了

WebLech–http://weblech.sourceforge.net/

特点:

1)、开源,免费

2)、代码是用纯Java写的,可以在任何支持Java的平台上也行

3)、支持多线程下载网页

4)、可维持网页间的链接信息

5)、可配置性强:

深度优先或宽度优先爬行网页

可定制URL过滤器,这样就可以按需要爬行单个web服务器,单个目录或爬行整  WWW网络

可设置URL的优先级,这样就可以优先爬行我们感兴趣或重要的网页

可记录断点时程序的状态,一边重新启动时可接着上次继续爬行。

使用方法:

1)、按需求修改配置文件Spider.properties

saveRootDirectory = sites 设置文件的存放路径,默认为当前文件夹

mailtoLogFile = mailto.txt 设置邮件链接的存放文件

refreshHTMLs = true refreshImages = false  refreshOthers = false //设置如果本地硬盘已经存在待爬取的文件,是否重新载入文件

htmlExtensions = htm,html,shtm,shtml,asp,jsp,php 设置spider要下载资源的扩张名,spider也会学习新的下载类型

imageExtensions =  同上

startLocation = http://ir.dlut.edu.cn/  设置spider爬行的起始页面

depthFirst = false 设置进行广度优先爬行或深度优先爬行

maxDepth = 5 爬行的最大深度(第一个页面深度为0,其链接的深度为1

urlMatch 基本的URL过滤。下载的网页的网址中中必须包括urlMatch

interestingURLs=pollBooth.pl,faq   设置感兴趣的url

boringURLs=article.pl            设置不感学期的url

basicAuthUser = myUser basicAuthPassword = 1234 设置需要验证的网站的用户名和密码

spiderThreads = 15 爬行的线程数

checkpointInterval = 30000 设置写断点的时间间隔(单位毫秒)

2)、运行run.bat开始爬行

3)、如果程序中断,运行rusume.bat继续爬行

  3 Responses to “WebLech爬虫介绍(java 源码,开源)”

  1. 博主是DLUT的么
    难道是黄老是的学生~

  2. dlut,不过非黄老,林老的学生。
    认识否

  3. 不是,没研究过机器人

 Leave a Reply

(required)

(required)


*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

使用腾讯微博登陆

Protected by WP Anti Spam
   
© 2011 Information Retrieval Blog Suffusion theme by Sayontan Sinha