单机游戏下载单机游戏下载基地
最新游戏|热门游戏|游戏大全|游戏专题
压缩解压光盘工具文字输入杀毒软件文件处理转换翻译股票证券办公学习编程软件虚拟光驱
当前位置:首页应用软件编程软件 → Java搜索引擎框架Apache Nutch v2.3 官方版

Java搜索引擎框架Apache Nutch v2.3 官方版

  • Java搜索引擎框架Apache Nutch截图0
< >
Java搜索引擎框架Apache Nutch下载
好玩 好玩 0
坑爹 坑爹 0
  • 应用语言:中文
  • 应用大小:7.2M
  • 更新时间:2018-05-04 15:5
  • 发行时间:
  • 应用类型:普通
  • 应用标签: Java
ApacheNutchJava搜索引擎框架是一个开源的、基于Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。nbsp;ApacheNu[更多]
应用介绍

Apache Nutch(Java搜索引擎框架)是一个开源的、基于Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 

Apache Nutch软件特色

1、Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎

2、每个月取几十亿网页

3、为这些网页维护一个索引

4、对索引文件进行每秒上千次的搜索

5、提供高质量的搜索结果

Apache Nutch Java搜索引擎框架功能

1、支持将起始URL集合注入到Nutch系统之中

2、支持生成片段文件,其中包含了将要抓取的URL地址

3、根据URL地址在互联网上抓取相应的内容

4、解析所抓取到的网页,并分析其中的文本和数据

5、根据新抓取的网页中的URL集合来更新起始URL集合,并再次进行抓取

6、同时,对抓取到的网页内容建立索引,生成索引文件存放在系统之中

Apache Nutch使用教程

1、首先先运行软件,选择File -> Import Project ->选择apache-nutch-1.9文件夹,确定后选择Import project from external model(Eclipse)

2、一直点击next到结束,成功将项目导入project中去

3、源码导入工程后,并不能执行完整的爬取。Nutch将爬取的流程切分成很多阶段,每个阶段分别封装在一个类的main函数中。在外面通过Linux Shell调用这些main函数,来完整爬取的流程。下面我们来运行Nutch中最简单的流程:Inject。我们知道爬虫在初始阶段,是需要人工给出一个或多个url,作为起始点(广度遍历树的树根)。Inject的作用,就是把用户写在文件里的种子(一行一个url,是TextInputFormat),插入到爬虫的URL管理文件(crawldb,是SequenceFile)中。

4、接下来我们按照Nutch默认的配置,需要修改Nutch的配置文件,为插件文件夹指定一个绝对路径,修改conf/nutch-default.xml文件内容,并且保存到工程中

5、接下来我们就可以开始对指定的网站的信息进行完整的爬取了

更新日志

Apache Nutch v1.9更新:

1、增加了可爬取的数据类型

2、增加对Web爬虫的管理功能

3、解决了一些格式上的已知问题

4、修复了一些bug,优化了软件界面

5、优化了软件性能

相关应用
下载地址

Java搜索引擎框架Apache Nutch v2.3 官方版

    热门评论

    最新评论

    发表评论 查看所有评论(0)

    昵称:
    表情: 高兴 可 汗 我不要 害羞 好 下下下 送花 屎 亲亲
    (您的评论需要经过审核才能显示)

    配置需求

    推荐专题

    up对战平台up对战平台

    关于飞翔 | 联系我们 | 大事记 | 下载帮助(?) | 广告联系 | 版权声明 | 网站地图 | 友情链接

    Copyright 2010-2013 单机游戏下载 (R) 版权所有 飞翔下载所有游戏及软件下载资源来源互联网,并由网友上传分享。如有侵权,请来电来函告之。
    飞翔忠告:抵制不良色情、反动、暴力游戏 合理安排游戏时间 享受健康生活【鄂ICP备13011873号-1】