Lucene高亮Highlighter-demo源码
Lucene高亮Highlighter-demo源码
  1. import org.apache.lucene.analysis.Analyzer;   
  2. import org.apache.lucene.analysis.TokenStream;   
  3. import org.apache.lucene.document.Document;   
  4. import org.apache.lucene.document.Field;   
  5. import org.apache.lucene.index.IndexWriter;   
  6. import org.apache.lucene.queryParser.QueryParser;   
  7. import org.apache.lucene.search.Hits;   
  8. import org.apache.lucene.search.IndexSearcher;   
  9. import org.apache.lucene.search.Query;   
  10. import org.apache.lucene.search.highlight.Highlighter;   
  11. import org.apache.lucene.search.highlight.QueryScorer;   
  12. import org.apache.lucene.search.highlight.SimpleFragmenter;   
  13. import org.apache.lucene.search.highlight.SimpleHTMLFormatter;   
  14. import org.apache.lucene.store.Directory;   
  15. import org.apache.lucene.store.RAMDirectory;   

转自:http://ttitfly.javaeye.com/blog/107408


Tags: Lucene  demo  搜索引擎  分词  高亮  
开始研究lucene,这是工作(草稿)
经理给我两新任务,第一个就是Lucene来开发一个站内搜索。这个东西我以前有过兴趣,研究过一点点,但是,没有上手,后来就放弃了,没想到,现在还有机会重新捡起来。心里甚是开心。找了两天的资料,现在,基本上对Lucene有了一定的了解,也对这个任务有了点想法。要做这样一个站内搜索,其实就是对网站进行索引,以及搜索,这两个功能正好是Lucene的功能,但是,经理要求,要像GG和百度一样,对网页进行索引,而不是对数据库进行索引,所以,我不得不考虑再做一个WEB爬虫来对站内的网页进行索引。整个任务,分析下来,就有三块了,第一,爬虫模块,第二,索引和搜索模块(Lucene),第三,索引搜索中用到的中文分词模块。这三大块,没有一块是我现在熟悉的,看来,一切得从0开始。----------------------------索引和搜索模块(Lucene),简单介绍一下:
Tags: Lucene  爬虫  中文分词  
搜索引擎学习资源收集[转帖]
一、搜索引擎技术/动态资源 <一>、综合类 1、卢亮的搜索引擎研究 [/URL]http://www.wespoke.com/ 卢亮属于搜索引擎开发上的专家,以前开发过一个搜索引擎"博索"([URL=http://booso.com/]http://booso.com/),好像现在已经停止开发了,目前他服务于博客网。在他的这个blog上可以了解许多搜索引擎开发的技术和经验,值得持续关注。 2、laolu\'blog 有不少来自国外的关于搜索引擎方面的资料,偏重于资料和数字 3、哈斯日志 [/URL]http://www.loverty.org/ 在这里可以看到国内外几大搜索引擎的最新动态,值得关注搜索发展形势的人多看看 4、北京奕天锐新科技有限公司 [URL=http://www.21cnbj.com/]http://www.21cnbj.com/ 搜索引擎、SEO、SEM等行业新闻动态
Tags: 搜索引擎  全文检索  Google  雅虎  Nutch  Lucene  中文分词  
分页:[«] 1[»]
Feed订阅集
勤劳致富^.^
Powered By Z-Blog   STYLE by busfly . FatMouse
Copyright © 2007 巴士飞扬技术博客. . 沪ICP备07027972号. 会员群1(VS为主):3769186.