`
poson
  • 浏览: 347908 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

深入搜索引擎--机器学习方法

阅读更多
机器学习方法在搜索引擎、计算广告中简直是无处不在。

spider模块,我们需要分析一个URL需要多长时间抓取一次?
   URL的域名的重要性;URL的目录深度;URL中字符串;

这个URL是否需要重复抓取?重复抓取的时间是多少?
   抓取过几次;网页内部有多少新的链接数量?

一个网站多长时间抓取页面合适?

一个网站的重要性是多少?

一个网页的权重是多少?PageRank

分析网页,需要知道那些部分是重要部分,那些部分是框架部分?
  分类问题


对网页的文本提取,TF-IDF算法,首先需要分词。
   分词需要训练模型,一般使用HMM 或者CRF模型。

新闻网页分类
   如果是新闻网页,我们需要知道这个网页是什么主题,需要分类。Topic Model 是非常常见的。

网页是否重复,需要聚类。
   提取重要的bag word,然后聚类。

这个网站是否是垃圾站?
   分析网页的原创性;索引后被点击的数量;需要分类模型。


Query 分类问题

   Query分类,决定是否给出一些垂直的应用。

   百度对常见的产品搜索结果都做了改进。直接给出网站的导航页面。

网站的导航
   某些网站是否要给出导航信息。

Query的纠错问题

Query和网页的相关性
   需要相关性模型。

网页的排序
   也需要回归模型。

广告是否被点击,需要回归模型。
   搜索广告、推荐广告、行为广告的场景不同,使用完全不同的模型。
分享到:
评论

相关推荐

    解密搜索引擎技术实战-Lucene&java;精华版

    自然语言处理部分从统计机器学习的原理出发,包括了中文分词与词性标注的理论与实现及在搜索引擎中的应用等细节,同时对文档排重、文本分类、自动聚类、句法分析树、拼写检查等自然语言处理领域的经典问题进行了深入...

    解密搜索引擎技术实战Java精华版

    自然语言处理部分从统计机器学习的原理出发,包括了中文分词与词性标注的理论与实现以及在搜索引擎中的实用等细节,同时对文档排重、文本分类、自动聚类、句法分析树、拼写检查等自然语言处理领域的经典问题进行了...

    信息检索与机器学习的华尔兹.pdf

    中国科学院计算技术研究所副研究员兰艳艳在CCAI 2017中国人工智能大会上做了主题为《信息检索与机器器学习的华尔兹》的分享,就现代搜索引擎,深度学习的交融,信息检索的未来做了深入的分析。

    1.解密搜索引擎技术实战:Lucene&Java;精华版(第3版)

    自然语言处理部分从统计机器学习的原理出发,包括了中文分词与词性标注的理论与实现及在搜索引擎中的应用等细节,同时对文档排重、文本分类、自动聚类、句法分析树、拼写检查等自然语言处理领域的经典问题进行了深入...

    文本上的算法深入浅出自然语言处理-2018.pdf

    第二部分是应用篇,包含第4章到第8章,分别针对计算性能、文本处理的术语、相似度计算、搜索引擎、推荐系统、自然语言处理和对话系统等主题展开介绍和讨论。本书适合从事自然语言处理相关研究和工作的读者参考,尤其...

    一个基于分布式爬虫的信安文章搜索引擎

    爬虫的应用领域非常广泛,目前利用爬虫技术市面上已经存在了比较成熟的搜索引擎产品,如百度、谷歌,以及其他垂直领域搜索引擎,这些都是非直接目的;还有一些推荐引擎,如今日头条,可以定向给用户推荐相关新闻;...

    人工智能项目资料-基于es搜索引擎的的百度地图找房项目zip

    人工智能项目资料-基于es搜索引擎的的百度地图找房项目,search-as-you-type(建议词查找),LBS麻点功能. 【探索人工智能的宝藏之地】 无论您是计算机相关专业的在校学生、老师,还是企业界的探索者,这个项目都是...

    人工智能项目资料-基于多搜索引擎和深度学习技术的自动问答.zip

    更有深度学习、机器学习、自然语言处理和计算机视觉的实战项目源码,助您从理论走向实践,如果您已有一定基础,您可以基于这些源码进行修改和扩展,实现更多功能。 【期待与您同行】 我们真诚地邀请您下载并使用...

    机器如何“思考”:理解机器学习算法中的不透明度-研究论文

    本文将不透明度问题视为分类和排名的社会后果机制的问题,例如垃圾邮件过滤器、信用卡欺诈检测、搜索引擎、新闻趋势、市场细分和广告、保险或贷款资格以及信用评分。 这些分类机制都经常依赖于计算算法,并且在许多...

    爬虫应用实战--基于校园网的搜索引擎.zip

    更有深度学习、机器学习、自然语言处理和计算机视觉的实战项目源码,助您从理论走向实践,如果您已有一定基础,您可以基于这些源码进行修改和扩展,实现更多功能。 【期待与您同行】 我们真诚地邀请您下载并使用...

    《强化学习实战-强化学习在阿里的技术演进和业务创新》_笪庆等

    覆盖了搜索事业部、阿里妈妈事业部、计算平台事业部以及智能服务事业部等多条业务线,工业界首次系统地披露了强化学习在互联网级别的应用上使用的技术细节,其中更包含了阿里巴巴的算法工程师对强化学习的深入理解、...

    人工智能项目资料-基于boost文档搜索的搜索引擎.zip

    更有深度学习、机器学习、自然语言处理和计算机视觉的实战项目源码,助您从理论走向实践,如果您已有一定基础,您可以基于这些源码进行修改和扩展,实现更多功能。 【期待与您同行】 我们真诚地邀请您下载并使用...

    计算机毕业设计:基于Python+OpenCV的图像搜索引擎(含源码+图片库),保证可靠运行,附赠计算机答辩PPT

    该项目致力于开发一个高效、准确的图像搜索引擎,通过内容基于图像检索(CBIR)和机器视觉技术,实现了对图片库中相似图像的快速检索。 该图像搜索引擎以Python作为开发语言,利用OpenCV强大的图像处理和分析能力,...

    人工智能项目资料-基于爬虫系统的搜索引擎.zip

    更有深度学习、机器学习、自然语言处理和计算机视觉的实战项目源码,助您从理论走向实践,如果您已有一定基础,您可以基于这些源码进行修改和扩展,实现更多功能。 【期待与您同行】 我们真诚地邀请您下载并使用...

    人工智能项目资料-基于ELK框架的搜索引擎实现.zip

    更有深度学习、机器学习、自然语言处理和计算机视觉的实战项目源码,助您从理论走向实践,如果您已有一定基础,您可以基于这些源码进行修改和扩展,实现更多功能。 【期待与您同行】 我们真诚地邀请您下载并使用...

    人工智能项目资料-Linux下基于C++实现类似百度搜索的搜索引擎.zip

    更有深度学习、机器学习、自然语言处理和计算机视觉的实战项目源码,助您从理论走向实践,如果您已有一定基础,您可以基于这些源码进行修改和扩展,实现更多功能。 【期待与您同行】 我们真诚地邀请您下载并使用...

    人工智能项目资料-基于vue.js音乐搜索引擎.zip

    更有深度学习、机器学习、自然语言处理和计算机视觉的实战项目源码,助您从理论走向实践,如果您已有一定基础,您可以基于这些源码进行修改和扩展,实现更多功能。 【期待与您同行】 我们真诚地邀请您下载并使用...

    人工智能项目资料-基于boost文档的小型搜索引擎.zip

    更有深度学习、机器学习、自然语言处理和计算机视觉的实战项目源码,助您从理论走向实践,如果您已有一定基础,您可以基于这些源码进行修改和扩展,实现更多功能。 【期待与您同行】 我们真诚地邀请您下载并使用...

    人工智能项目资料-基于boost库的站内搜索引擎.zip

    更有深度学习、机器学习、自然语言处理和计算机视觉的实战项目源码,助您从理论走向实践,如果您已有一定基础,您可以基于这些源码进行修改和扩展,实现更多功能。 【期待与您同行】 我们真诚地邀请您下载并使用...

    人工智能项目资料-基于lucene的java实现的搜索引擎demo.zip

    更有深度学习、机器学习、自然语言处理和计算机视觉的实战项目源码,助您从理论走向实践,如果您已有一定基础,您可以基于这些源码进行修改和扩展,实现更多功能。 【期待与您同行】 我们真诚地邀请您下载并使用...

Global site tag (gtag.js) - Google Analytics