经理给我两新任务,第一个就是Lucene来开发一个站内搜索。这个东西我以前有过兴趣,研究过一点点,但是,没有上手,后来就放弃了,没想到,现在还有机会重新捡起来。心里甚是开心。找了两天的资料,现在,基本上对Lucene有了一定的了解,也对这个任务有了点想法。要做这样一个站内搜索,其实就是对网站进行索引,以及搜索,这两个功能正好是Lucene的功能,但是,经理要求,要像GG和百度一样,对网页进行索引,而不是对数据库进行索引,所以,我不得不考虑再做一个WEB爬虫来对站内的网页进行索引。整个任务,分析下来,就有三块了,第一,爬虫模块,第二,索引和搜索模块(Lucene),第三,索引搜索中用到的中文分词模块。这三大块,没有一块是我现在熟悉的,看来,一切得从0开始。----------------------------索引和搜索模块(Lucene),简单介绍一下:
Tags:
Lucene 爬虫 中文分词