`
poson
  • 浏览: 349094 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

垂直搜索数据源问题

阅读更多

 

垂直搜索与web搜索有很大的不同,一个非常大的区别在于对数据的获取。
google、百度的数据来自互联网。通过spider工具爬取得来。获取的网页通过去重,去除垃圾网站,最后通过适当的排序排序算法呈现在用户面前。
而垂直搜索的数据多数需要大量手工或者半自动化的处理,搜索的准确性、质量得到很多的提高。但是分析那些数据已经更新,如何得到新的数据,面临很多的困难。
可以简单的认为,web搜索引擎的数据来自一个开发的互联网系统,数据由web用户提供、更新。而垂直搜索引擎的数据是一个相对封闭的系统,需要相关公司不断的整理和更新。数据越多、维护起来也就越麻烦。
各个同类的垂直搜索不仅仅要比拼搜索的算法,还要比拼谁的数据丰富,谁的数据更新快,谁的数据更准确。

分享到:
评论

相关推荐

    垂直搜索引擎源代码

    垂直搜索引擎,自带爬虫,sql2008数据库,并发高,处理速度快,有web页面查询。dell 1950 可以每秒处理10g的查询,支持上亿的数据。

    小旋风垂直搜索平台,快速拱建垂直搜索引擎

    小旋风垂直搜索平台 源代码共享计划 小旋风是什么? 小旋风是一款集多任务、多线程智能网络爬虫、基于xml / xpath的路径规则的数据抽取系统、无缝集成lucene.net2.3全文索引系统,高性能中文分词组件、多数据库支持...

    HiGo垂直搜索引擎系统源代码

    HiGo垂直搜索引擎开源版系统需要独立服务器支持,也可以用你本地电脑做服务器来调试,基于lucence+mysql+asp.net,支持数据索引,中文分词,模糊查询,爬虫采集,精确采集规则模式和模糊采集规则模式相混合(模糊采集...

    从零开始搭建医药领域知识图谱实现智能问答与分析服务(含码源):含Neo4j基于垂直网站数据的医药知识图谱构建、医药知识图谱的自动

    1、本项目完成了从无到有,以垂直网站为数据来源,构建起以疾病为中心的医疗知识图谱,实体规模4.4万,实体关系规模30万。并基于此,搭建起了一个可以回答18类问题的自动问答小系统,总共耗时3天。其中,数据采集与...

    面向美食网站的搜索及点评与图片去重模块的设计与实现

    垂直搜索问题即针对美食类的信息进 行专项搜索,该问题通过建立源数据的倒排索引树,检索索引并对结果进行排 序的方式来实现。结果排序可分为热度排序和按字段排序,热度排序采用散热 算法模拟热度的增加和减少,...

    自己刚开发完成完美运行Lucene.net+SQL server(附数据源)童叟无欺

    1.基于.NetFramework4.7.2开发(可以直接项目右键自己降到4.5.2,编译无任何问题) 2.数据库使用SQlServer(脚本是2008R2的) 3.使用了较新的Lucene.net,目前是3.0版本 4.使用了最后一版盘古分词(2016年版本) 5....

    2_路径规划_地址编码_公交换乘_本地搜索_热点地图

    SSE4J(Spatial Search Engine for Java)是针对地理信息数据源构建的垂直搜索引擎应用接口,是基于Lucene+JTS Topology Suite开源库设计的框架。 规划的SSE4J包含: 1)SSE4J应用开发包 2)SSE4J Webservice应用...

    1_路径规划_地址编码_公交换乘_本地搜索_热点地图

    SSE4J(Spatial Search Engine for Java)是针对地理信息数据源构建的垂直搜索引擎应用接口,是基于Lucene+JTS Topology Suite开源库设计的框架。 规划的SSE4J包含: 1)SSE4J应用开发包 2)SSE4J Webservice应用...

    3_路径规划_地址编码_公交换乘_本地搜索_热点地图

    SSE4J(Spatial Search Engine for Java)是针对地理信息数据源构建的垂直搜索引擎应用接口,是基于Lucene+JTS Topology Suite开源库设计的框架。 规划的SSE4J包含: 1)SSE4J应用开发包 2)SSE4J Webservice应用...

    K风网页搜索 K-PageSearch v2.2 SP5.rar

    支持网页定向采集,垂直搜索引擎提高数据质量和相关度的关键技术,用户可以自定义采集规则针对特定网页进行采集。支持多种动态和静态网页类型采集,多语言网页编码自动识别。采用哈希表网页去重技术,具有高性能、低...

    coreseek4.1 支持拼音索引 win32

    Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等...

    coreseek4.1 支持多音字拼音索引第三版

    Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等...

    coreseek-4.1-win64支持多拼音全文搜索索引

    Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等...

    coreseek4.1 支持多音字拼音索引 win64

    Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等...

    mesan-react-native-news-app:使用 React Native 和 Redux 具有搜索和加载更多功能的新闻应用

    Mesan数字新闻应用程序一个 React Native News 应用程序,使用 API 作为数据源,为 iOS 和 Android 设备搜索和加载更多功能。 该应用程序由仪表板和搜索屏幕组成。 仪表板上的文章在面板中按类别分组,并提供查看该...

    咖啡智能报表控件 2.0.zip

    文本文件数据绑定,数据源没有个数限制,可以添加多个数据源进行数据显示,咖啡智能报表不是简单的进行数据填充显示, 具有强大的数据处理能力,例如:数据格式自动处理,根据数据自动分组统计,复杂交叉报表处理...

    统计学实验报告.doc

    Excel支持文本文件、Office数据库文件、网页文件、Dba se文件、Paradox文件、Xml文件等多种外部数据源的导入。导入的方法有二,一是使用 "文件-打开"菜单,二是使用"数据-导入外部数据- 导入数据"菜单,两者都是打开...

    Hbase 二级索引方案

    它的主要特性包括:高效、灵活的缓存功能,垂直搜索功 能,Solr 是一个高性能,采用 Java5 开发,基于 Lucene 的全文搜索服务器。同时对其进行 了扩展,提供了比 Lucene 更为丰富的查询语言,同时实现了可配置、可...

    K风网页搜索(.NET) V2.2 SP5

    支持网页定向采集,垂直搜索引擎提高数据质量和相关度的关键技术,用户可以自定义采集规则针对特定网页进行采集。支持多种动态和静态网页类型采集,多语言网页编码自动识别。采用哈希表网页去重技术,具有高性能、低...

    《JavaScript实例精通》[源代码]

    6_3.htm 利用搜索引擎引用来高亮页面关键字。 6_4.htm 使用匿名函数为定时器传递参数。 6_5.htm Web页面中的tooltip提示。 6_6.htm 在Web页面中控制其元素的选择状态。 第7章(\7) 示例描述:JavaScript的...

Global site tag (gtag.js) - Google Analytics