A 404 404错误 当用户试图访问一个已被删除的网页时,服务器会产生一个404错误代码。参阅:LinkRot(出错链接页面) A-BSplit A-B型分离采样 一种随机采样方法。将一个姓名列表按姓名顺序依次分割成两个相等组。其中一个组…… [阅读全文]搜索引擎的难点包括如下几点:{p} 1)是否支持并发的爬取数据,如果要并发,要保证所有采集器能合作采集,不会出现重复采集的情况.{p} 2)采集的数据还要有一个排重的过程.只需要采集一个网站更新的数据{p} &…… [阅读全文]本文先引用几句话:{p}1.“确解用户之意,切返用户之需。”{p}2.“门户网站都想着是怎样省钱,而不是怎样花钱来买技术。”{p}3.“搜索引擎不是人人都能做的领域,进入的门槛比较高。”{p}4.“只是优秀还不够,最好的方式是将一件事情做到极致。”(google十大真理){p}5.“做搜索引擎需要专…… [阅读全文]对SEO(搜索引擎优化)而言,让网站内的页面能够及时、全面地被搜索引擎索引、收录应该说是首要的任务,这是实施其他SEO策略的最基本保证。——不过,这也是往往易被高估的一个环节,比如说我们时常可以看到某些人宣称自己的网站被Google收录了多少页面如几K甚至几十K等以证明SEO工作的成功。但客观地说,…… [阅读全文]搜索引擎研究 Zoolin Dingxiang Deyeb Admin5 Creativeconfusion Threadwatch Seobook Seroundtable Battellemedia Searchengineblog Zawodny Googleblog Searchengine…… [阅读全文]一、网络蜘蛛基本原理{p} 网络蜘蛛即WebSpider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)…… [阅读全文]最好的搜索引擎优化诊断工具正是搜索引擎本身!用搜索引擎检验网站的搜索引擎优化状况是最直接、最有效的方式,因为搜索检索结果可以带给我们大量有价值的信息!通过搜索引擎检索结果的分析,是研究网站搜索引擎优化状况的有效方法之一。{p}搜索引擎优化是搜索引擎营销的组成部分,搜索引擎优化现在受到很大关注,因…… [阅读全文]下载带有Google工具栏的Firefox1)网络爬虫高度可配置性。 2)网络爬虫可以解析抓到的网页里的链接 3)网络爬虫有简单的存储配置 4)网络爬虫拥有智能的根据网页更新分析功能 5)网络爬虫的效率相当的高{p}那么依据特征,其实也就是要求了,如何设计爬虫呢?要注意哪些步骤呢?{p}1}url的…… [阅读全文]首先要声明的是,下面要介绍的音乐搜索引擎并不是指传统的音乐搜索。传统的音乐搜索是通过匹配歌曲、歌手名或歌词内容而返回相关结果,本质上,它们依然只是一种文本搜索,比如Google的音乐搜索功能或百度MP3搜索等。下面要介绍的是真正意义上的音乐搜索引擎,即"用音乐搜索音乐"。很明显,我们经常都会有这样的…… [阅读全文]本文先引用几句话: 1.“确解用户之意,切返用户之需。” 2.“门户网站都想着是怎样省钱,而不是怎样花钱来买技术。” 3.“搜索引擎不是人人都能做的领域,进入的门槛比较高。” 4.“只是优秀还不够,最好的方式是将一件事情做到极致。”(google十大真理) 5.“做搜索引擎需要专注”“对于一项排到第…… [阅读全文]本文记录了全世界比较出名的Robots.txt列表需要设置的搜索蜘蛛。如何设置那个目录不想被搜索引擎收录的可参照下去设置。{p}当然也必须从Robots.txt去设置{p} {p}下列为比较出名的搜索引擎蜘蛛名称:{p}Google的蜘蛛:Googlebot 百度的蜘蛛:baiduspid…… [阅读全文]ISAS和IncisiveMedia同时在厦门和纽约宣布,2007年,全球搜索引擎战略大会将在厦门举办,日期是5月25日至26日。{p}这将是厦门时义浩维公司与英国精锐传媒系列合作的第二站, 也是全球搜索引擎战略大会(也称做SES大会)第二次在中国举办。 {p} {p…… [阅读全文]手机坏了,开始上网搜修理信息,深深体会到很多搜索远远没“百度一下”这么简单。一个大障碍就是搜索引擎在语义理解上的毫无作为:{p} 例如我手机的症状是开不了机,型号为810c,很自然,首先想到的关键词组合是“810c 开不了机”可这样的结果不多…… [阅读全文]有没有想过人们对搜索引擎优化(SEO)最大的错误认识有哪些?我找出了十个最流行,却一次次改头换面出现的错误观点来介绍给你。这是那些正寻求雇用SEO公司或准备自己做SEO的人的必读文章。{p}误区1:所有的元标签都是同等重要的。{p}某些元标签(metatags)确实很有用,但有些就不是。我已经说过很…… [阅读全文]摘要:国内搜索引擎的竞争已到了惨烈的状况,除了百度之外,Google、搜狗、雅虎都还没有形成稳定的地位{p}过去的2006年,搜索引擎行业有时以来最混乱的一年。雅虎疲于应付流氓软件带来的困扰和人事的震荡;百度因为营收压力暂时忽略了其他;Google在中国努力发展中国特色的渠道以加强自身本土化;搜狗继…… [阅读全文]为了符合贝叶斯统计模型的规范,要给2M+N个未知参数(,,)指定先验分布,这些分布应该是一般化的,不提供信息的,不依赖于被观察数据的,对结果只能产生很小影响的。AllanBorodin等在中指定满足正太分布N(μ,),均值μ=0,标准方差δ=10,指定和满足Exp(1)分布,即x>=0,P(>=x)…… [阅读全文]2.3SALSA算法{p} PageRank算法是基于用户随机的向前浏览网页的直觉知识,HITS算法考虑的是Authoritive网页和Hub网页之间的加强关系。实际应用中,用户大多数情况下是向前浏览网页,但是很多时候也会回退浏览网页。基于上述直觉知识,R.Lempel和S.M…… [阅读全文]2.2.3HITS的变种{p} HITS算法遇到的问题,大多是因为HITS是纯粹的基于链接分析的算法,没有考虑文本内容,继J.Kleinberg提出HITS算法以后,很多研究者对HITS进行了改进,提出了许多HITS的变种算法,主要有:{p}2.2.3.1MonikaR.Hen…… [阅读全文]2.1.2算法的一些问题{p} Google是结合文本的方法来实现PageRank算法的[2],所以只返回包含查询项的网页,然后根据网页的rank值对搜索到的结果进行排序,把rank值最高的网页放置到最前面,但是如果最重要的网页不在结果网页集中,PageRank算法就无能为力了…… [阅读全文]1.引言{p} 万维网WWW(WorldWideWeb)是一个巨大的,分布全球的信息服务中心,正在以飞快的速度扩展。1998年WWW上拥有约3.5亿个文档[14],每天增加约1百万的文档[6],不到9个月的时间文档总数就会翻一番[14]。WEB上的文档和传统的文档比较,有很多新…… [阅读全文] |