介绍这个不是因为这款爬虫有多好,而是因为它足够简单,如果初学如果编写爬虫,可做入门参考。如果只是做要求不高的应用,也可试试。如果想找一款功能强大,就别在WebLech上浪费时间了
WebLech–http://weblech.sourceforge.net/
特点:
1)、开源,免费
2)、代码是用纯Java写的,可以在任何支持Java的平台上也行
3)、支持多线程下载网页
4)、可维持网页间的链接信息
5)、可配置性强:
深度优先或宽度优先爬行网页
可定制URL过滤器,这样就可以按需要爬行单个web服务器,单个目录或爬行整 个WWW网络
可设置URL的优先级,这样就可以优先爬行我们感兴趣或重要的网页
可记录断点时程序的状态,一边重新启动时可接着上次继续爬行。
使用方法:
1)、按需求修改配置文件Spider.properties
saveRootDirectory = sites 设置文件的存放路径,默认为当前文件夹
mailtoLogFile = mailto.txt 设置邮件链接的存放文件
refreshHTMLs = true refreshImages = false refreshOthers = false //设置如果本地硬盘已经存在待爬取的文件,是否重新载入文件
htmlExtensions = htm,html,shtm,shtml,asp,jsp,php 设置spider要下载资源的扩张名,spider也会学习新的下载类型
imageExtensions = 同上
startLocation = http://ir.dlut.edu.cn/ 设置spider爬行的起始页面
depthFirst = false 设置进行广度优先爬行或深度优先爬行
maxDepth = 5 爬行的最大深度(第一个页面深度为0,其链接的深度为1)
urlMatch = 基本的URL过滤。下载的网页的网址中中必须包括urlMatch串
interestingURLs=pollBooth.pl,faq 设置感兴趣的url
boringURLs=article.pl 设置不感学期的url
basicAuthUser = myUser basicAuthPassword = 1234 设置需要验证的网站的用户名和密码
spiderThreads = 15 爬行的线程数
checkpointInterval = 30000 设置写断点的时间间隔(单位毫秒)
2)、运行run.bat开始爬行
3)、如果程序中断,运行rusume.bat继续爬行
博主是DLUT的么
难道是黄老是的学生~
dlut,不过非黄老,林老的学生。
认识否
不是,没研究过机器人