我的18天挑战杯--搜梅州

waiting · 发表于 2009-3-31 13:57

三月份，一下子受到通知，说要把学术基金的项目（我参加了，呵呵）拿去参加挑战杯，18号就要交上去，听到是晕死了，因为还没动手，18天是什么概念，拿个18天做出来的东西去参加挑战杯，觉得好好笑，当然也觉得好郁闷，郁闷两天，最后觉得还是去尽力去做好了，毕竟老师叫了，自己什么都拿不出，觉得很不好意思，就豁出去做得怎样就怎样了。18天，不，是16天，两天给郁闷掉了，我除了上课就是在宿舍写代码，写了16天，最后还搞得要到外面去通宵做，哎，差点疯了，现在还可以，作品交上去了，这几天也把它弄到网上了，注了个域名，买了个空间，不过速度不怎样，希望大家帮忙测试一下，也给一些建议、意见，呵呵，小弟感激不尽，建议与意见可以通过网站首页的留言功能发给我，也可以在这里回贴，还也要直接Q我，QQ：418080853，注明梅水-搜梅州，这个不是广告贴，希望管理员不要以广告贴封了，谢谢支持

网站测试网址是：www.soumz.com 大家可以搜一搜，但搜不到多少啦，因为资料量还很小，搜我们嘉应学院就还搜得到好几个，因为针对学院的网站收录了一下，但后来没时间，就没有进行收录了，大家有空也可以发一下词条，分享一下知识，呵呵

搜梅州简介：
搜梅州是一个地区性搜索引擎系统，采用垂直搜索技术收录梅州本地网站信息，快速建立梅州网络信息库，供梅州网民快速查找到有价值，自己要找的信息。面对浩瀚的网络资源，毫不夸张的说，搜索引擎为所有网上冲浪的用户提供了一个入口，所有的用户都可以从搜索出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。搜梅州作为一个地区性的搜索引擎，收录的只是梅州本地网站，采用的是垂直搜索技术，每一个网站收录都要经过人工审核，因些可以大大减少垃圾信息与非梅州本地信息，与百度、Google等综合性、覆盖大地区的大型搜索引擎相比，搜梅州可以提供给梅州本地网民更加精确的本地信息搜索结果。本系统已经具备远程自动抓取，收集指定网站的网页信息，识别系统未收录的新网址并存入数据库供管理员审核收录，系还配以简单的百科系统和会员系统，供梅州网民主动向搜梅州提交网址或发布梅州的旅游、文化、生活等本地特色词条，在建立梅州第一个网络搜索引擎的同时，打造一本梅州的“百科全书”。

深海阳光 · 发表于 2009-3-31 16:49

你这样十分像广告！
还不如公布代码或者公布思路。
让更多人参与。
现在做梅州为题的网站不少。
你的网站上和在百度上搜索梅州有什么很大区别？没有吧？

waiting · 发表于 2009-3-31 17:14

本帖最后由 waiting 于 2009-3-31 17:15 编辑

呵呵，十分像那就是不是啦，其实我也没有做广告的必要，这个你也清楚，因为这个不是个营利性的项目，只是对搜索引擎技术的一点小研究。
回答最后一个问题先：跟百度当然是有区别的，相对百度、雅虎、google等几大综合搜索引擎，由于其面向的是全球用户，当用户在查找一些具体信息时，它返回的结果是全国或全球性的，这个结果可能跟搜索人所想要的结果的相关性就可能小很多了。搜梅州采用的是类垂直搜索技术，为用户提供的并不是上百甚至上千万相关网页，而是范围极为缩小、极具针对性的梅州当地具体信息。这样的信息对梅州网民生活，工作往往更有价值，也更有深度。比如我在百度搜“电脑”，那结果中有多少是跟梅州有关系的，几乎没有，但如果我用搜梅州去抓取梅州本地网站的信息，那你看好“电脑”，返回的结果可能是少得可怜，但结果对用户来说却是更有用，因为这个信息对他可能有用呀，其实这也是为什么各个搜索引荐在各个国家或地区要进行本地化的原因了。

倒数第二个：以梅州为题的网站是很多，就是因为它多，所以我才想到这个东西，呵呵，如果不多，那就没有必要做一个去汇集信息提供搜索的平台了，梅州的网站不只多，而已杂，真的很杂，一般都是社区类的，大家都是弄个新闻系统或者论坛，买个空间，买个域名放上去就是一个站了，以前我也做过，但后来觉得想法很愚蠢，就没做了，开始学点实用的东西，也方便以后找工作。

倒数第三个问题：我当然非常希望更多人的参与，特别是百科，我希望有更多人的去写写词条，写一个梅州的网络百科，不过现在的百科系统是不完善的，我更希望各位在使用中提出建议与意见，让我知道要做哪些改善。
至于思路，最重要的应该是网络机器人的工作原理吧，搜索引荐的工作原理如下：
1、抓取网页
每个独立的搜索引擎都有自己的网页抓取程序-网络机器人，也称为“网络蜘蛛”（spider）。Spider是一个功能很强的WEB扫描程序，它可以在扫描WEB页面的同时检索其内的超链接并加入扫描队列等待以后扫描。因为WEB中广泛使用超链接，所以一个Spider可以顺着网页中的超链接，连续地抓取网页，理论上，从一定范围的网页出发，就能搜集到绝大多数的网页。
2、处理网页
搜索引擎抓到网页后，还要做大量的预处理工作，才能提供检索服务。其中，最重要的就是提取关键词，建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度等。
3、提供检索服务
用户输入关键词进行检索，搜索引擎从索引数据库中找到匹配该关键词的网页信息后按照一定的策略进行分级排列并且返回给用户。为了用户便于判断，除了网页标题和URL外，还会提供一段来自网页的摘要以及其他信息。

具体代码就不公布了，因为可能涉及安全问题，有兴趣的同学可以按这个思路试一下

waiting · 发表于 2009-3-31 17:22

其实学院图书馆那里的知网数据库入口很好，进去可以下载到很多非常好的论文，大家也可以搜一下以下图片的论文，因为不能上传附件，就截图上来了

自成一派 · 发表于 2009-4-1 13:07

很厉害!支持!

waiting · 发表于 2009-4-1 22:37

哇，师兄什么时候成版主啦，天呀，不敢想像

自成一派 · 发表于 2009-4-1 22:49

6# waiting

一不小心升了，呵呵

账号		自动登录	找回密码
密码			申请帐号