`
android_mylove
  • 浏览: 380576 次
社区版块
存档分类
最新评论

Apache Solr:基于Lucene的可扩展集群搜索服务器

 
阅读更多

Solr

Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果;

Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。

文档通过Http利用XML 加到一个搜索集合中。查询该集合也是通过http收到一个XML/JSON响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提供一套强大Data Schema来定义字段,类型和设置文本分析,提供基于Web的管理界面等。

==================================================================================

Apache Solr:基于Lucene的可扩展集群搜索

关于Solr的未来计划,Seeley提到了更多的可扩展性、对大集群更方便的配置和管理、基于区域和实时的搜索、重构以使用Spring配置插件。

Apache Solr项目,是一款基于Apache Lucene的开源企业搜索服务器,最近发布了1.3版。InfoQ采访了Solr的创建者Yonik Seeley,了解了新版本的更多信息和Solr提供给最终用户的功能。

Seeley首先描述了目标用户:“需要搜索框、分面浏览(导航)或者两者结合的任何人”,Solr的关键特性包括:
基于标准的开放接口——Solr搜索服务器支持通过XML、JSON和HTTP查询和获取结果。
易管理——Solr可以通过HTML页面管理,服务器统计数据以JMX输出,Solr配置通过XML完成。
分面浏览——搜索结果自动分类。
突出显示命中词——匹配的字符自动在搜索结果中高亮显示。
可伸缩性——快速增量更新和快照分发/复制到其他服务器。
灵活的插件体系——新功能能够以插件的形式方便的添加到Solr服务器上。

Seeley同时谈到了该版本中的主要新功能:
分布式搜索——索引现在可以透明的分割成多个部分,单个Solr服务器基于各个配置和模式支持多索引,无须停止Solr服务器就可以改动主要的配置。
扩展了查询功能——包含了一个新的Java客户端(SolrJ)和若干新功能,例如直接配置对于特定查询哪些文档首先命中、近似命中、搜索过期、记录分面时间和拼写检查
增强了数据导入工具——数据库和其他结构化数据源现在都可以导入、映射和转化。
更多可定制扩展点——存在一个新的更新处理器链,允许在查询时修改和重定向文档;一个搜索组件链修改和添加查询结果、用户查询分析器和插件式功能。
性能增强——显著提高了索引速度,二进制响应格式和快速查询删除功能。

详细的更新日志可以这里获得。

Seeley谈到了更多Solr在伸缩性、功能和实用性方面的细节:
Solr已经部署过数以百万计容量的文档,如果借助分布式搜索,Solr应该能够处理数十亿的文档集合。

Solr基于Lucene,具有优秀的全文相关性,可以很方便的提供词组接近性增强、近期文档增强、编辑增强和基于数字值的专有函数的定制评分机制。

AOL正在使用Solr增强它的频道功能:音乐、橄榄球运动、食谱、参考中心、房地产和汽车都使用这项技术。Solr的搜索功能也应用于Netflix、 Zappos、Gamespot、和Internet Archive。还有很多大客户我目前还不能透漏。

关于Solr的未来计划,Seeley提到了更多的可扩展性、对大集群更方便的配置和管理、基于区域和实时的搜索、重构以使用Spring配置插件。Seeley同时提供了一个邮件列表,在那里他详细讨论了Solr未来、特别是2.0版的计划。

查看英文原文:Apache Solr: Extensible, Clustered Search Server Built on Lucene

转载声明: 本文转自 http://www.infoq.com/cn/news/2008/11/apache-solr

分享到:
评论

相关推荐

    Solr全攻略

    官网:Solr是基于ApacheLucene:trade_mark:构建的流行,快速,开源的企业搜索平台。Solr是一个JavaWeb应用,可以运行在任何主流JavaServlet引擎中。下面来看一个Solr服务器的主要软件构成:Solr基于已有的XML、JSON...

    luceneserver:在Apache Lucene之上的高性能“瘦包装” HTTP REST服务器

    设计该设计与流行的基于Lucene的搜索服务器和不同之处在于,它更多地是围绕Lucene功能的最小且精简的包装。 目标是仅公开Apache Lucene项目已经提供的功能。 例如,没有“集群”支持,没有聚合(但是有构面)。 单个...

    IKAnalyzer2012FF_u1.jar

    使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IKAnalyzer2012_u6.jar solr-4.10.3下载地址:...

    全文搜索引擎 ElasticSearch 还是 Solr?

    最近项目组安排了一个任务,项目中用到了全文搜索,基于全文搜索 Solr,但是该 Solr 搜索云项目不稳定,经常查询不出来数据,需要手动全量同步,而且是其他团队在维护,依赖性太强,导致 Solr 服务一出问题,我们的...

    nutch

    Nutch来自Apache Lucene,是一个成熟的,可立即投入生产的批处理搜寻器,它依赖于Apache Hadoop数据结构,非常适合批处理。 Nutch具有模块化体系结构,并提供可插拔和可扩展的接口,例如用于自定义实现的Parse,...

    PigExtend:Apache Pig+MapReduce给LuceneSolrElasticSearch构建索引

    Apache Pig+MapReduce给Lucene/Solr/ElasticSearch构建索引 ####项目简介 主要是利用了Pig框架简化了自己写Hadoop MapReduce程序来构建大规模并行索引的问题,里面封装了主流的全文检索框架,如Lucene,Solr和...

    Solr 与 Elasticsearch 的对比与选型

    一、Elasticsearch特性 1.1 安装管理方便 Elasticsearch没有其他依赖,下载后安装非常方便;...加入节点自动均衡,可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据。 Elasticsearch致力于隐藏

    taoshop:开源电子商务项目,SpringBoot+Dubbo技术栈实现微服务,实现一款分布式集群的电商系统. 项目releases链接:https

    (开发中...)开源协议taoshop使用Apache2.0开源协议功能[门户网站] 商品搜索(Lucene) 最新上架 购物车功能 品目商品搜索 优惠券秒杀(高并发处理) 商品详情 商品品类多级联动[运营平台] 会员中心 订单系统 店铺管理 ...

    单点登录源码

    Solr & Elasticsearch | 分布式全文搜索引擎 | [http://lucene.apache.org/solr/](http://lucene.apache.org/solr/) [https://www.elastic.co/](https://www.elastic.co/) Quartz | 作业调度框架 | ...

    Eclipse开发分布式商城系统+完整视频代码及文档

    │ 14_搜索服务切换到集群版.wmv │ 15.课后作业-索引库商品同步.avi │ 15_商品同步作业.wmv │ 打开必读.txt │ 淘淘商城第八天笔记.docx │ ├─09.第九天 │ 01.第八天内容回顾.avi │ 02.课程计划.avi │ 03....

    java开源包1

    AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...

    java开源包11

    AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...

    java开源包2

    AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...

Global site tag (gtag.js) - Google Analytics