網(wǎng)友評(píng)分:
9.4分
Apache Nutch是一個(gè)開(kāi)放源代碼的Java搜索引擎框架,它提供了運(yùn)行自己的搜索引擎所需要的全部工具,包括全文搜索和Web爬蟲(chóng),使用Nutch不僅可以建立自己內(nèi)部網(wǎng)的搜索引擎,同時(shí)也可以針對(duì)整個(gè)網(wǎng)絡(luò)建立搜索引擎。
1、Nutch致力于讓每個(gè)人能很容易,同時(shí)花費(fèi)很少就可以配置世界一流的Web搜索引擎
2、每個(gè)月取幾十億網(wǎng)頁(yè)
3、為這些網(wǎng)頁(yè)維護(hù)一個(gè)索引
4、對(duì)索引文件進(jìn)行每秒上千次的搜索
5、提供高質(zhì)量的搜索結(jié)果
1、支持將起始URL集合注入到Nutch系統(tǒng)之中
2、支持生成片段文件,其中包含了將要抓取的URL地址
3、根據(jù)URL地址在互聯(lián)網(wǎng)上抓取相應(yīng)的內(nèi)容
4、解析所抓取到的網(wǎng)頁(yè),并分析其中的文本和數(shù)據(jù)
5、根據(jù)新抓取的網(wǎng)頁(yè)中的URL集合來(lái)更新起始URL集合,并再次進(jìn)行抓取
6、同時(shí),對(duì)抓取到的網(wǎng)頁(yè)內(nèi)容建立索引,生成索引文件存放在系統(tǒng)之中
1、首先先運(yùn)行軟件,選擇File -> Import Project ->選擇apache-nutch-1.9文件夾,確定后選擇Import project from external model(Eclipse)
2、一直點(diǎn)擊next到結(jié)束,成功將項(xiàng)目導(dǎo)入project中去
3、源碼導(dǎo)入工程后,并不能執(zhí)行完整的爬取。Nutch將爬取的流程切分成很多階段,每個(gè)階段分別封裝在一個(gè)類的main函數(shù)中。在外面通過(guò)Linux Shell調(diào)用這些main函數(shù),來(lái)完整爬取的流程。下面我們來(lái)運(yùn)行Nutch中最簡(jiǎn)單的流程:Inject。我們知道爬蟲(chóng)在初始階段,是需要人工給出一個(gè)或多個(gè)url,作為起始點(diǎn)(廣度遍歷樹(shù)的樹(shù)根)。Inject的作用,就是把用戶寫在文件里的種子(一行一個(gè)url,是TextInputFormat),插入到爬蟲(chóng)的URL管理文件(crawldb,是SequenceFile)中。
4、接下來(lái)我們按照Nutch默認(rèn)的配置,需要修改Nutch的配置文件,為插件文件夾指定一個(gè)絕對(duì)路徑,修改conf/nutch-default.xml文件內(nèi)容,并且保存到工程中
5、接下來(lái)我們就可以開(kāi)始對(duì)指定的網(wǎng)站的信息進(jìn)行完整的爬取了
V1.9更新:
1、增加了可爬取的數(shù)據(jù)類型
2、增加對(duì)Web爬蟲(chóng)的管理功能
3、解決了一些格式上的已知問(wèn)題
4、修復(fù)了一些bug,優(yōu)化了軟件界面
5、優(yōu)化了軟件性能
關(guān)于本站|下載幫助|下載聲明|軟件發(fā)布|聯(lián)系我們
Copyright ? 2005-2025 daaijiaoyu.cn.All rights reserved.
浙ICP備2024132706號(hào)-1 浙公網(wǎng)安備33038102330474號(hào)