一个老板的三句话

一个男人在外工作20年,终于要回家了,老板问他:你是要20年的工资还是要3句忠告?男人说我明天上路,明早给您答案好吗?老板说可以。当晚男人未眠…早晨,他对老板说:我要3个忠告。于是老板给他3句话。一、不要试图寻找不可能的捷径,世上没有便宜的事,只有脚踏实地才是最好的方法…无论做何事。二、不要对明知不是好事的事过分好奇,有可能你会因此而丧命。三、不要在冲动时做任何决定,否则这个决定就有可能成为你一辈子的遗憾。说完老板给男人一些钱和三个面包,并叮嘱:最大的面包在到家后才能吃。男人上路了…他走了好几天…把第一个面包吃了一半了,没过多久遇到一个路口,他打听:请问到**走哪条路近?路人甲:走小路吧,近。路人乙:走大路吧,安全。他迫不急待要与妻子见面,于是走了小路。走了没多久就听到有路人说附近闹山贼,于是他想起了老板的第一个忠告:不要试图寻找捷径。于是他回头去走那条大路。又走了几天,第二个面包也吃了一部分了…他找到一家极便宜的客栈投宿。半夜听见有女子哭声,他睡不下。于是决定出门看看。这时他想到了第二个忠告:不要对明知不是好事的事过分好奇。于是他又睡下了。第二日起程时,店家惊道:你还活着?!他不解,遂问原由。店家说他有个疯女儿,发病时用哭声引人出来再将其杀害,昨晚投宿的客人只有你一个活着。男人长叹:啊…又走了几天,当第二个面包吃完时他已离家不远了。他更加激动了。天刚黑下来没多久,他就走到了自己的村子。到家时他刚准备敲门,却听到屋里有男人的声音。他气极了,拿起一把砍柴刀就准备冲进屋子将那男的杀掉。但这时他想到了第三个忠告:不要在冲动时做任何决定,可能这个决定会让你后悔一辈子。于是他冷静下来,在屋外坐了一夜。第二天早上他很早就敲开了门,妻子见他回来十分高兴。但他却很冷漠:那个男人是谁?他妻子笑曰:那是我们的儿啊…你走后没多久我就…这时他发现这个年轻小伙竟和自己长得相似极了。父子初次见面,相拥而泣…一阵关切过后男人拿出第三个面包准备和妻、子一齐分享…切开之后却发现20年的工资全在里面。所以我们做任何事都要考虑清楚否则到最后后悔的是自己!
  成大事必备9种能力、9种手段、9种心态
  一:沉稳
  (1)不要随便显露你的情绪。
  (2)不要逢人就诉说你的困难和遭遇。
  (3)在征询别人的意见之前,自己先思考,但不要先讲。
  (4)不要一有机会就唠叨你的不满。
  (5)重要的决定尽量有别人商量,最好隔一天再发布。
  (6)讲话不要有任何的慌张,走路也是。
  二:细心
  (1)对身边发生的事情,常思考它们的因果关系。
  (2)对做不到位的执行问题,要发掘它们的根本症结。
  (3)对习以为常的做事方法,要有改进或优化的建议。
  (4)做什么事情都要养成有条不紊和井然有序的习惯。
  (5)经常去找几个别人看不出来的毛病或弊端。
  (6)自己要随时随地对有所不足的地方补位。
  三:胆识
  (1)不要常用缺乏自信的词句
  (2)不要常常反悔,轻易推翻已经决定的事。
  (3)在众人争执不休时,不要没有主见。
  (4)整体氛围低落时,你要乐观、阳光。
  (5)做任何事情都要用心,因为有人在看着你。
  (6)事情不顺的时候,歇口气,重新寻找突破口,就结束也要干净利落。
  四:大度
  (1)不要刻意把有可能是伙伴的人变成对手。
  (2)对别人的小过失、小错误不要斤斤计较。
  (3)在金钱上要大方,学习三施(财施、法施、无畏施)
  (4)不要有权力的傲慢和知识的偏见。
  (5)任何成果和成就都应和别人分享。
  (6)必须有人牺牲或奉献的时候,自己走在前面。
  五:诚信
  (1)做不到的事情不要说,说了就努力做到。
  (2)虚的口号或标语不要常挂嘴上。
  (3)针对客户提出的“不诚信"问题,拿出改善的方法。
  (4)停止一切“不道德"的手段。
  (5)耍弄小聪明,要不得!
  (6)计算一下产品或服务的诚信代价,那就是品牌成本。
  六:担当
  (1)检讨任何过失的时候,先从自身或自己人开始反省。
  (2)事项结束后,先审查过错,再列述功劳。
  (3)认错从上级开始,表功从下级启动
  (4)着手一个计划,先将权责界定清楚,而且分配得当。
  (5)对“怕事"的人或组织要挑明了说。
  (6)因为勇于承担责任所造成的损失,公司应该承担
  成大事的九种手段:
  1、敢于决断--克服犹豫不定的习性
  很多人之所以一事无成,最大的毛病就是缺乏敢于决断的手段,总是左顾右盼、思前想后,从而错失成功的最佳时机。成大事者在看到事情的成功可能性到来时,敢于做出重大决断,因此取得先机。
  2、挑战弱点--彻底改变自己的缺陷
  人人都有弱点,不能成大事者总是固守自己的弱点,一生都不会发生重大转变;能成大事者总是善于从自己的弱点上开刀,去把自己变成一个能力超强的人。一个连自己的缺陷都不能纠正的人,只能是失败者!
  3、突破困境--从失败中撮成功的资本
  人生总要面临各种困境的挑战,甚至可以说困境就是“鬼门关”。一般人会在困境面前浑身发抖,而成大事者则能把困境变为成功的有力跳板。
  4、抓住机遇--善于选择、善于创造
  机遇就是人生最大的财富。有些人浪费机遇轻而易举,所以一个个有巨大潜力的机遇都悄然溜跑,成大事都是绝对不允许溜走,并且能纵身扑向机遇。
  5、发挥强项--做自己最擅长的事情
  一个能力极弱的人肯定难以打开人生局面,他必定是人生舞台上重量级选手的牺牲品;成大事者关于在自己要做的事情上,充分施展才智,一步一步地拓宽成功之路。
  6、调整心态--切忌让情绪伤害自己
  心态消极的人,无论如何都挑不起生活和重担,因为他们无法直面一个个人生挫折,成大事者则关于高速心态,即使在毫无希望时,也能看到一线成功的亮光。
  7、立即行动--只说不做,徒劳无益
  一次行动胜过百遍心想。有些人是“语言的巨人,行动的矮子”,所以看不到更为实际现实的事情在他身上发生;成大事者是每天都靠行动来落实自己的人生计划的。
  8、善于交往--巧妙利用人力资源
  一个人不懂得交往,必然会推动人际关系的力量。成大事者的特点之一是:善于靠借力、借热去营造成功的局势,从而能把一件件难以办成的事办成,实现自己人生的规划。
  9、重新规划--站到更高的起点上
  人生是一个过程,成功也是一个过程。你如果满足于小成功,就会推动大成功。成大事者懂得从小到大的艰辛过程,所以在实现了一个个小成功之后,能继续拆开下一个人生的“密封袋”。

  可以讲任何一种手段,都可以导致一种结果,但这个结果是不是最佳的结果,恐怕就很难说了。成大事者总是选择最佳的手段,达到最完善的结果,这就是非一般人所能做到的。因此在成功之路上,你要想成大事,首先要解决的问题就是:你的手段对你推动成功的计划是否立竿见影!


  成大事必备九种能力

  挑战生存的能力:善于在现实中寻找答案
  1、摆正心态,敢于面对现实
  对于那些不停地抱怨现实恶劣的人来说,不能称心如意的现实,就如同生活的牢笼,既束缚手脚,又束缚身心,因此常屈从于现实的压力,成为懦弱者;而那些真正成大事的人,则敢于挑战现实,在现实中磨炼自己的生存能力,这就叫强者!
  在此,我们可以得出一条成大事的经验:适应现实的变化而迅速改变自己的观念,最重要的是需要我们有一副聪慧的头脑和灵活的眼睛,做生活的有心人。
  在现实的压力之下,如果你能改变观念,适时而进,可收到事半功倍的效果。
  我们的自下而上须臾离不开现实,随着现实的变化,我们必须随之调整自己的观念、思想、行动及目标。这是生存的必须。
  如果我们有办法来改变现实,使之适合我们能力和欲望的发展需要,则是最难能可贵的。
  2、让你拥有过硬的自制能力
  自制,就是要克服欲望,不要因为有点压力就心里浮躁,遇到一点不称心的事就大发脾气。
  一个人除非先控制了自己,否则将无法控制别人。
  一个人只要有成大事的目标,知道自己想要的,然后采取行动,告诉自己绝对不要放弃,成功只是时间早晚而已。
  假使你在途中遇上了麻烦或阻碍,你就去面对它、解决它、然后再继续前进,这样问题才不会愈积愈多。
  你在一步步向上爬时,千万别对自己说“不”,因为“不”也许导致你决心的动摇,放弃你的目标,从而前功尽弃。
  人最难战胜的是自己,这话的含义是说,一个人成功的最大障碍不是来自于外界是,而是自身。只有控制住自己,才能控制住压力,让压力在你面前屈服。
  3、把情感装入理性之盒
  一种抵触情绪的产生往往是潜移默化的,但它对人一生的影响却是巨大的,这种影响从诸多小事上体现出来。我们应尽量消除自己的不良情绪、因为它不仅会给我们造成身心上的伤害,而且在我们通往成功的路途上,不良情绪有时会成为绊脚石。
  为了你的成功,你必须把情感装入理性之盒,你必须去适应别人,适应形势,不然的话,你注定成不了大事,注定会被淘汰。
  4、独处可以激发思考的力量
  如果你知道怎么独处的话,成大事者都是善于独处的人--在独处的过程中激发思考的力量。
  自卑可以像一座大山把人压倒并让你永远沉默,也可以像推进器产生强大的动力。
  比别人先走一步,能创造一种成功的心境。
  在独处时,你应当有所思考,不要总人浮于事。
  5、压力是最好的推动力
  欲成大事者,因目标高远,压力可能会更大。但若欲成大事,就必须能承受这种压力,把压力当成推进人生的动力。
  人们最出色的工作往往是在外于逆境的情况下做出的。人要有所为就要有所不为。应做的一定要做好,不该做的坚决不做。
  得到的并不一定就值得庆幸,失去的也并不完全是坏事情。
  6、以变应变,才有出路
  顺应时势,善于变化,及时调整自己的行动方案,这是成大事者适应现实的一种方法。
  一个人如果没有和人打交道的高超技巧,没有把各种情况都考虑周全的头脑,灵活应变的手段,就根本无法驾驭大的局面,将很难成大事。
  一个人能看清自己的现状,心态就会平衡许多,就能以一种客观的眼光去看待,认识这个世界,并且相应地调整自己的行为。
  7、自信心是人生的坚强支柱
  自信心充足者的适应能力就高,反之则适应能力较低。
  一般信心不足较严重的人常有一些身心症状,比如孤僻,害怕与人交往,说话过于偏激,悲观失望。
  如果做事成功的经验越多,那么自信心就越强。
  自我成功锻炼的机会越少,自信心就越弱,以致产生严重的自卑情绪。
  十九世纪的思想家爱默生说:“相信自己‘能’,便会攻无不克。”拿破仑说:“在我的字典里没有不可能。”
  8、把精力投入到自己的强项上
  大多数人的生活层次只停留在:为吃饭而吃、为搭公车而搭、为工作而工作、为了回家而回家。
  成大事者与不成大事者只差别在一些小小的动作:每天花5分钟阅读、多打一个电话、多努力一点、在适当时机的一个表示、表演上多费一点心思、多做一些研究,或在实验室中多试验一次。
  在行动之前你自己就知道你是否足以胜任这一个任务。
  没有任何借口可以解释你为会么长时间仍然无法胜任一项工作。
  不论你想追求的是什么,你必须强迫自己增强能力以实现目标。
  勤加练习、勤加练习、最后还是勤加练习!决不放弃学习,而且一定要将学到的知识运用于日常生活中。
  9、要专心地做好一件事
  如果大多数人集中精力专注于一项工作,他们都能把这项工作做得很好。
  最成大事者的商人是能够迅速而果断作出决定的人,他们总是首先确定一个明确的目标,并集中精力,专心致志地朝这个目标努力。
  一次只专心地做一件事,全身心地投入并积极地希望它成功,这样你的心里就不会感到筋疲力尽。
  把你需要做的事想象成是一大排抽屉中的一个小抽屉。不要总想着所有的抽屉,而要将精力集中于你已经打开的那个抽屉。每个人做人办事的手段都是不一样的,可以讲,一个人就有一种手段,一个人就有一种靠自己手段获得成功的途径。无数事实表明,有些人就是太过于自信,想念自己确认的手段能够解决任何问题,但不知道这种往往是起不到任何作用。因此,他们总觉得离成功的目标不是越来越近,而实际上越来越远。


  成大事必备的9种心态
  心态之一:积极向上
  1.时刻想着出人头地
  2.做“小人物”时要向“大人物”看齐
  3.惟有进取心,才能成大事
  4.摒弃逆境的干扰,寻找向上的根源
  5.放弃也是一种成功的开始
  6.在平凡中做不平凡的事
  7.保持年轻的心态很重要
  8.永远积极、主动、热忱
  心态之二:勤勉谦恭
  1.壮志凌云地想,脚踏实地地干
  2.勤敬产业,谦恭做人
  3.勤勉高于天赋
  4.勤奋造就成功,懒惰摧毁天才
  5.养成勤奋的习惯会终生受益
  6.有一份耕耘,就有一份收获
  7.恒心与支持能“点石成金”
  8.莫道君行早,更有早行人
  心态之三:诚实守信
  1.诚实是一种源自自身的本质
  2.诚实守信才是大赢家
  3.以诚信奠定成功基业
  4.真诚的友谊会使你的事业更发达
  5.做人要有正直的品行
  6.诚实守信是成大事的“信用卡”
  7.要成大事,择友不可草率
  8.以真诚待人,用热忱做事
  心态之四:敢于挑战
  1.敢于挑战自我,克服贬低心理
  2.挑战无极限
  3.坚持到底造靠勇气,半途而废是懦夫
  4.用于挑战激起成大事的信心
  5.勇气是战胜困难的良方
  6.胜人者力,自胜者强
  7.毅力与恒心是成大事的基本功
  8.坚持不懈成大事,浅尝辄止无出路
  心态之五:善于合作
  心态之六:知足平衡
  心态之七:乐观豁达
  心态之八:宽厚容人
  心态之九:永远自信

【会议记录】百度SEO俱乐部第一期交流活动

10月26日,由百度站长平台和MADcon联合举办的百度站长平台高端SEO俱乐部第一期沙龙活动圆满落幕。参与本次沙龙交流的业内资深SEOER和百度网页搜索多位高级负责人在轻松的氛围中围绕站长平台、网页搜索和网站安全三个主题展开自由交流。现场的网站负责人们提了很多宝贵的反馈和建议,百度网页搜索团队也就站长们普遍反映的问题一一进行了解。

百度站长平台SEO沙龙.jpg

以下是本次沙龙交流内容,分享之!

本次沙龙交流问题分类:

1.   页面收录问题

2.   排名和权重问题

3.   站长平台工具-死链工具使用问题

4.   站长平台工具-安全检测工具问题

5.   原创内容的排名问题

6.   网站作弊被k问题

7.   百度网页搜索对外链的看法

8.   百度网页搜索对站长提交的申诉问题的处理

一.页面收录问题

1、404页面问题:

    Q:当我们由于变更产生404之后,百度会间隔多长时间识别出来?并且需要识别几次才会将其删除?对有些尚未做好的专题页面,可能会临时设置为404页面,之后很快将页面恢复,但这些专题页面中有一部分很快就能够恢复,还有一部分就需要很长时间才可被收录,因此有重大新闻时,会紧张重大专题被及时收录的情况。

    lee:不会有固定的时间,会根据网页的和所在频道的更新频率,去确定删除的时间,未做好或者非作为死链的页面,尽量不要用404的返回码,希望尽可能用503的返回码,这样spider能够比较好的去识别。

2、时效性问题

    Q:目前百度收录上的时效性对百度和站长来说是双赢,但对每年定期举行的重大事件(例金钟节),在固定时间能否将这种事件的权重或算法进行优化?

    lee:这方面如果目前没有做到的话,搜索团队会尽可能的去完善这方面的体验,也会去通过一些工具的形式、协议等简单的方式,提高这种体验,去实现页面的及时更新。

    Q:对一些新闻,编辑可能后期需要对新闻的标题进行修改,但百度网页收录的更新很慢,较长时间无法将页面进行更新。

    lee:像网页换title 理论上应该是要及时去更新,但目前做的还不太到位。

3、301跳转问题的解决情况

    lee:百度站长平台会尽快上线关于301跳转的工具,并会推出网站改版工具。

4、图片、flash较多,文字内容较少的的页面的收录问题:

    Q:目前很多页面可能会没有很多的文字,比较多图片和flash,对没有很多文字的页面,搜索引擎能很好的将这个页面中的资源识别出来吗?

    lee:目前在推一个工具,将spider抓取日志展示出,去看下是否符合站长的抓取意愿,且对某些js较多的网站,假设目前收录不好,可先尽量减少js的使用。

5、对一个网站数量较多的同一类型的页面收录量达到一定值之后,收录量就会增加的很缓慢

    Q:比如:人人日志,上千万的数据,用了一年多的时间目前收录了几百万,且大部分内容都是很高质量的,但收录量到一个值之后,就没有增加,这个是什么原因?

    lee:人人之前有一些页面比较封闭,这两年才开始开放,但是spider根据之前的日志分析,对人人网的改动反应偏慢,所以推出了sitemap,希望大家通过sitemap将大家想进行索引的数据进行主动推送。

    Q:姓名类的产品,通过sitemap提交之后,上千万的数据还是收录了700w+,会不会被认为这些页面是相似的页面。

    lee:互联网资源很多,相似的产品很多,由于资源有限,会尽可能优先选取有价值的页面去抓取。一次提交的页面量很大,搜索引擎需要一定的时间去收录,搜索引擎可能会每天设置一定的压力上线去抓取,避免对站长产生太大的压力,可以尝试使用百度站长平台的抓取压力调节工具调试自己网站的抓取压力,增加压力,我们这边可以适当提高自己的压力加快抓取。

二、排名和权重问题

    Q:nofllow  是否会浪费权重

    lee:不会

    Q:404页面不去处理的时候,会对网站权重产生影响吗?

    lee:搜索中出现的无结果页面,是对用户最大的伤害,这种可能就会被认为该网站内容管理不好。

三、站长平台工具-死链工具使用问题

    Q:404页面是不是必须要提交,才可以很好的被删除。目录下很多垃圾的标签,做了404设置,但是不清楚被收录的有多少,能不能把垃圾标签页面都导出来。

    lee:检测死链-spider一条条去访问,确定是否是死链。建议大家主动去提交死链,站长了解自身网站的情况,可以比较好的进行提交,这个工具是为了弥补系统的问题。目前我们也在探讨能不能推出比较简单的工具,帮助站长解决这种问题。

四、安全检测工具问题

    lee:网站被黑被挂马的情况比较多,会在搜索引擎中展现出一些比较难看的东西,对站点本身是一个损失,也会影响搜索引擎对这个站点的判断,对用户也是一种伤害,而且目前这种问题也越来越多。因此推出了安全提醒。但这些标记会对网站影响很大,但我们的目的是希望站长能够很快的将问题进行解决。目前与scanv联合推出了两个安全方面的工具:网站安全监测、漏洞监测工具,希望网站能够重视这个问题。

1、检测提示

    Q:安全检测提醒我有挂马,但不告诉哪个页面的问题,我不太可能去一个个的检测或者全部屏蔽。

    lee:目前有些检测提示描述的不够详细,我们现在会一块根据站长的需求去改进工具的使用和体验。

    Q:网站有上千个网站,是怎么抓取网页检测,全检测,还是选代表性的网页?

    scanv:会选取一些首页,还有百度推送的页面。

    lee:安全检测抓取的网页量不大,每天几百次差不多就能检测完,我们的搜索结果也会送至检测,但是会根据网站的表现计算频率。

2、漏洞检测

    Q:漏洞检测会不会有评级机制,能够分出优先级。之前检测出的漏洞,但运维人员不知道怎么去解决,但seo需要了解漏洞对网站收录和流量的影响。

    lee:漏洞检测的有些结果写的确实不容易理解,需要将语言改进的可以理解。        

    scanv:现在对于极小的问题不去报,但其他安全工具可能还是会去报。

五、原创内容的排名问题

    Q:原创的页面,理论应该能够排名很好,但是被其他网站超过,请解释一下?

    lee:原创内容被其他转发网站超过,目前这种问题存在很多,希望能通过这个目前在做的生态项目进行解决。

    生态项目简介:目前互联网的垃圾比较多,且很多站长做内容是为了搜索引擎而不是用户。提出互联网生态的课题,去解决这个问题,将互联网的流量分给真正做内容的网站,对资源多的网站给予很好的待遇,对某个关键词,去将互联网中最好最佳的资源匹配出来。

六、网站作弊被k问题

1、以下这样的网站会不会被k?

    Q:有些网站没有控制用户的行为,可能会产生spam 的情况,数据量太大,垃圾标签+分页的量在700w+的水平,整体提交担心权重被k。

    lee:很多网站喜欢去做tag,但非用户行为,而是直接抓的网页搜索结果,虽然tag写的好,但是内容不相关,也属于一种作弊。

2、作弊页面的处理:

    Q:网站流量下滑,自查后发现是站点的内容的原因,这些页面要怎么处理,建议404 还是自己屏蔽,还是都能够被认可是对这些内容的改善?

    lee:这两种都可以。假设一个目录下的一些资源存在作弊情况,可能会引起一些规模的资源被屏蔽,搜索引擎认为一个网站有作弊行为,通常是哪有问题,会屏蔽哪,但如果作弊内容多,可能会将整个网站k掉。

3、网站被k之前的提醒

    Q:百度算法升级后,假设有一个站被k,站长才会想去改善这个产品,对这种情况有没有作弊的预警,可以让站长提前去改善。

    lee:目前算法升级等有较大功能更新,会发布公告告知,但还没有做到预警,11月份会与反作弊小组一块在百度站长平台推出一个预警工具。

4、百度对站群的看法

    lee:站群只是一个现象,主要看是否进行了作弊,例如搜狐,网站也很多,但没有被k过。只要站群能够用正当的手段去做,真正的给用户做内容,是不会被k掉的。

七、百度网页搜索对外链的看法

    Q:百度认为seo的外链怎样做比较合适?

    lee:任何搜索引擎,对超链计算有基本的准则,链接是否真心实意 的推广网站,若存在利益的交换,搜索引擎都会进行识别,目前的买卖链接、黑链 是无效,希望大家能够真正赢得其他站长的推荐。

    Q:外链是否能够带给网站的评分方面的问题?

    倪英伟:很多这种需求的出发点是为了与搜索引擎博弈,去做搜索引擎,会走偏路,透过这种工具去映射搜索环境不太可能,工具只是作为参考,不会直接等同于他的算法。希望大家善用工具,积极的去沟通。不要用工具去想映射,工具的缺陷可以直接提出来进行改善。

八、百度网页搜索对站长提交的申诉问题的处理

    Q:目前百度对申诉问题是的处理情况是什么样的?

    lee:每天有上千的投诉,只有10%是有效投诉,无效信息太多,导致处理较慢,希望大家能够尽可能去提交有效的信息,减少无效的工作量。

 

痞子瑞:在站长平台投诉的经验,与大家分享

有幸受邀谈一下自己对站长平台投诉渠道使用观点,希望下面的内容对站长朋友有一定的帮助。个人感觉当站长遇到搜索问题时,首先不应该盲目投诉。首先应该考虑是否真的需要投诉,如果确定需要投诉,那么再仔细考虑如何描述自己的投诉主体和内容。不罗嗦了,直接上内容:

    1. 是否真的需要投诉
    对于站长想百度搜索的投诉,首先应该了解的是,大部分投诉都是不必要的,大部分问题都只是寻求一个解释。站长们多了解一些SEO基础知识以及百度搜索的动态,很多疑问都自然而解。遇到问题后,如果是自己不了解原因的问题,第一时间应该在网络上进行搜索,查找其他站长朋友是否有类似的问题、是否已经有合理的解释和解决办法。自己通过搜索了解相关内容远比投诉到百度,然后等待官方的回复效率要高的多。
    推荐站长多浏览百度站长俱乐部百度站长论坛中的内容,两个社区都沉淀了很多百度官方做出的回应和声明,有一大部分问题都可以其实是在这两个地方自己能找到答案的。

    2. 确定需要投诉
    如果网站从未有过任何作弊,近期也没有进行过大的改动,网站的百度搜索流量和百度索引却出现了大幅度的下滑,或者百度搜索快照出现了异常,或者其他搜索异常表现,都可以通过站长平台发起投诉以获得帮助。比如百度在近几次的算法升级中,有个别的网站确实被误伤,并通过投诉恢复了原有的搜索表现。
    不论发起什么样的投诉,为了方便百度工作人员定位问题和查找原因,从而快速的得到自己想要的答复,都应该认真仔细的撰写投诉内容。投诉内容可以分成两部分:投诉主体和投诉描述。
    首先,站长应该把投诉主体定位到最小单位。比如网站的百度搜索流量下降、大量已被索引的网页快照被删、新内容迟迟不收录等问题,都应该尽力精确到是哪个子域名、哪个目录有问题,并直接给出URL。这样百度工作人员才能比较方便的查找问题原因。不同问题的主体定位工具和方法都不同,简单举例:
    网站百度搜索流量异常:如果你的网站使用了百度统计Google analytics,那么可以使用百度统计新推出的“受访域名”功能,也可以使用Google analytics的高级筛选功能来定位具体百度搜索流量异常的最小单位。在Google analytics的“内容》网站内容》内容深入分析”中,“次级纬度”选择“来源”,然后在高级条件中设置来源完全匹配“baidu”,把数据和昨天或上周的数据进行对比,就很容易找到百度搜索流量异常的主要子域名或目录了,一级一级分析,很容易找到网站中真正的“病体”。
    网站索引量异常:可以使用百度站长平台的索引量查询工具,一级一级的遍历一下自己网站的主要子域名或目录,以确定到底是哪个子域名或目录的索引量出现了异常。如果发现在百度搜索中大量优质内容页面的快照被删除,那么就对网站的主要频道进行抽样分析。每个频道选取一些页面,在百度网页搜索中直接搜索这样页面的URL,以定位被删除快照网页的最小范围。
    其他问题也类似,站长应先找出网站中真正的、最小单位的“病体”,然后在投诉内容中明确给出“病体”的URL,并附上相应的数据变动截图。如果网站架构比较大,最好不要只指明是哪个网站,不知道真正的“病体”,百度工作人员可能也无从了解问题和查找原因。
    其次,站长要详细描述问题,最好能够附上配图。站长发起投诉时,基本上都是有明确意向的,不同网站遇到不同情况的描述都不尽相同。站长自己站在百度工作人员的角度审视自己写的投诉描述,如果自己感觉一目了然,用很简短的话把问题描述清楚了就可以了。如果能附上图片,最好附上信息比较全面的图片(比如流量异常曲线截图,索引量异常变动截图,蜘蛛异常访问的日志截图等),这样可以使得百度工作人员更直观的了解问题,更方便查找出现问题的原因。
    按照百度站长平台“站长投诉”中“网页搜索投诉”给出的分类,制作了一张说明图。有兴趣的朋友可以看一下,你的问题是不是需要投诉。对于网站自身问题或者一些常识性的问题,依靠“投诉回复”可能远不如自己动手搜索和分析的效率高。
    附图如下:(点击图片可查看清晰大图)
    

<ignore_js_op>站长平台投诉

前天 14:39 上传

下载附件 (112.99 KB) 
站长平台投诉

 

 

 

 

Phpcms V9 调用全站最新文章的代码

Phpcms默认不支持调用全站最新文章,需要修改文件:\phpcms\modules\content\classes\content_tag.class.php,找到以下函数:

 1     /**
 2      * 列表页标签
 3      * @param $data
 4      */
 5     public function lists($data) {
 6         $catid = intval($data['catid']);
 7         if(!$this->set_modelid($catid)) return false;
 8         if(isset($data['where'])) {
 9             $sql = $data['where'];
10         } else {
11             $thumb = intval($data['thumb']) ? " AND thumb != ''" : '';
12             if($this->category[$catid]['child']) {
13                 $catids_str = $this->category[$catid]['arrchildid'];
14                 $pos = strpos($catids_str,',')+1;
15                 $catids_str = substr($catids_str, $pos);
16                 $sql = "status=99 AND catid IN ($catids_str)".$thumb;
17             } else {
18                 $sql = "status=99 AND catid='$catid'".$thumb;
19             }
20         }
21         $order = $data['order'];
22 
23         $return = $this->db->select($sql, '*', $data['limit'], $order, '', 'id');
24                         
25         //调用副表的数据
26         if (isset($data['moreinfo']) && intval($data['moreinfo']) == 1) {
27             $ids = array();
28             foreach ($return as $v) {
29                 if (isset($v['id']) && !empty($v['id'])) {
30                     $ids[] = $v['id'];
31                 } else {
32                     continue;
33                 }
34             }
35             if (!empty($ids)) {
36                 $this->db->table_name = $this->db->table_name.'_data';
37                 $ids = implode('\',\'', $ids);
38                 $r = $this->db->select("`id` IN ('$ids')", '*', '', '', '', 'id');
39                 if (!empty($r)) {
40                     foreach ($r as $k=>$v) {
41                         if (isset($return[$k])) $return[$k] = array_merge($v, $return[$k]);
42                     }
43                 }
44             }
45         }
46         return $return;
47     }
 1     /**
 2      * 列表页标签
 3      * @param $data
 4      */
 5     public function lists($data) {
 6         $catid = intval($data['catid']);
 7         
 8         if(isset($data['where'])) {
 9             $sql = $data['where'];
10         } else {
11             $thumb = intval($data['thumb']) ? " AND thumb != ''" : '';
12             if(!empty($catid)) {
13                 if(!$this->set_modelid($catid)) return false;
14                 if($this->category[$catid]['child']) {
15                     $catids_str = $this->category[$catid]['arrchildid'];
16                     $pos = strpos($catids_str,',')+1;
17                     $catids_str = substr($catids_str, $pos);
18                     $sql = "status=99 AND catid IN ($catids_str)".$thumb;
19                 } else {
20                     $sql = "status=99 AND catid='$catid'".$thumb;
21                 }
22             }
23             else {
24                 $sql = "status=99".$thumb;
25             }
26                 
27         }
28         $order = $data['order'];
29 
30         $return = $this->db->select($sql, '*', $data['limit'], $order, '', 'id');
31                         
32         //调用副表的数据
33         if (isset($data['moreinfo']) && intval($data['moreinfo']) == 1) {
34             $ids = array();
35             foreach ($return as $v) {
36                 if (isset($v['id']) && !empty($v['id'])) {
37                     $ids[] = $v['id'];
38                 } else {
39                     continue;
40                 }
41             }
42             if (!empty($ids)) {
43                 $this->db->table_name = $this->db->table_name.'_data';
44                 $ids = implode('\',\'', $ids);
45                 $r = $this->db->select("`id` IN ('$ids')", '*', '', '', '', 'id');
46                 if (!empty($r)) {
47                     foreach ($r as $k=>$v) {
48                         if (isset($return[$k])) $return[$k] = array_merge($v, $return[$k]);
49                     }
50                 }
51             }
52         }
53         return $return;
54     }

{pc:content  action=”lists” num=”10″ order=”id DESC” cache=”3600″}

医疗SEO之网编的伪原创写法

引言:

伪原创一直伴随着搜索引擎成长,随着搜索引擎算法的完善,例如其通过上下文相关词汇出现的概率进行辨别等,导致原始的伪原创手法,比如仅仅是复制后插入一段原创话,再比如仅仅是打乱段落顺序等,均已经被注意识破。但是伪原创手法也在逐步升级,其主要方法主要分为两类,包括考虑可读性与不考虑可读性,此文仅对考虑可读性的方法进行分析,当然除了文内列出的方法外,还有很多方法可以做出更好的伪原创,但是会比较耗精力,所以在此文中,考虑到编辑的工作量,而不予讨论。

以下是针对不同类型性质的文字,所给出的伪原创思路。

 

类型一:新闻段

 

原文:

斯堪的纳维亚半岛媒体报道了首例超声引导下取卵,用的是经皮经膀胱的方法。之后不久开始有经阴道方法的报道,并且很快被广泛应用。超声引导下经阴道穿刺取卵技术包括:

 

这类段落特点是援引自新闻媒体报道,很多编辑头疼的地方在于,这些精简简明的句子,可操作空间太少,若是进行复述性改写,则耗费时间太长,那如何在最节省精力的情况下伪原创呢?

 

方法:尾部前置。

顾名思义,就是将句子后面的部分,写在前面,并整理句子使其不影响阅读性。经改写后为:

 

经皮经膀胱的方法被采用到了首例超声引导下取卵中,并被斯堪的纳维亚半岛媒体进行了报道。而经阴道方法也在不久之后被媒体报道并广泛应用。超声引导下经阴道穿刺取卵技术包括:

 

备注:这类伪原创其实同样是复制粘贴,只不过以前复制时鼠标是划一大段,而现在需要划几个字,然后添加一点连词。并不需要有太多的创造力。

 

类型二:短句科普型

原文:

注射HCG日起进行阴道清洁,每日2次。穿刺日和围穿刺期使用抗生素预防感染;注射HCG34~36小时后取卵。

 

这类段落比较难,有严谨的逻辑说明结构,并且很短。很难运用上文所提的“尾部前置”的方法。

 

方法:针对性插入新词汇,调节短语顺序。

此类句子很短很简洁,所以即便见缝插针式的加入一些原本不存在的词,也不会影响句子阅读,同时也不会显得句子更长,同时辅以顺序重置即可。将改写后为:

 

自注射HCG日起,要坚持每日2次的阴道清洁,并在注射HCG34~36小时后进行取卵。同时为了防止感染,要在穿刺日和围穿刺期使用抗生素。

 

类型三:长段说明型

原文:

早期取卵是通过开腹手术进行的,后来又应用腹腔镜下取卵。世界上首例试管婴儿即是在腹腔镜下取卵获得的。但是两者均有较大的创伤性,具有手术和麻醉相应的风险,且重复性差和取卵率较低,如果盆腔有粘连,在卵巢不易暴露的情况下会造成取卵失败。目前,各个中心都采用阴道超声引导下取卵,其优点是安全微创,简便快捷,可不需要麻醉,无论盆腔是否有粘连均可以操作,取卵率可高达90%以上,术后即可下床活动,并且可多次、反复操作,增加患者的累积妊娠率。 

 

这是编辑在采编文章时,最常见的段落。这种一大段的说明文,首先会感觉到用自己的话复述会比较困难(这个可以理解,咱毕竟不是医生),换一种方式进行说明也很困难。

 

方法:调整段落内句子顺序,见缝插针式的加入一些原本没有的词汇。

例如“取卵率可高达90%以上”,这句话乍看之下,无可改动。绞尽脑汁,恐怕也找不到另一种复述方式了。那咱就从结构入手!将短剧前后倒置,则为“高达90%以上的取卵率”,可是倒置后,句子不完全,怎么办?用非常简单的方式补全它,全句变为“高达90%以上的取卵率明显优于先前的技术”。好,为什么说这个补全是非常简单的方式?理由很简单,这个数据其作用明显是夸这项技术,那你何必再思考补什么句子呢,直接看看段落里,它是拿来被与谁比较的,然后直接就加上优于,句子就全了。

见缝插针,是指有些句子很难颠倒补全,例如“如果盆腔有粘连,在卵巢不易暴露的情况下会造成取卵失败”,那就见缝插针的插入一些词,将这个句子与原句造成不同,此句改为“倘若有盆腔粘连的情况,则在卵巢不易暴露的情形下会很容易造成取卵失败”,倘若、如果、加入、若这些词是同义的,视情况可以任意替换。稍微再加一些原本没有的字,这句话就处理完成了。整段经改写后:

 

安全微创,简便快捷,无需麻醉,这是阴道超声引导下取卵技术的优势,而目前各个中心也均是所采用这项技术为患者进行治疗。早期的取卵技术是开腹手术取卵,而后又有了腹腔镜下取卵技术,而腹腔镜下取卵的应用更是被用于世界上首例试管婴儿,但无论是腹腔镜下取卵还是开腹手术取卵,其均有较大的创伤性,而且还具有手术和麻醉相应的风险,以及重复性差、取卵率较低等问题。最重要的是,如果盆腔有粘连,则在卵巢不易暴露的情况下会很容易造成取卵失败。而阴道超声引导下取卵技术则克服了这个缺点,无论盆腔是否有粘连均可以操作,高达90%以上的取卵率明显优于先前的技术,并且可多次、反复操作,从而增加患者的累积妊娠率。患者更是术后即可下床活动,无需卧床。 

 

类型四:大段数据、步骤型说明文

 

原文:

基于自然周期上述优点,ART学者一直进行着克服自然周期缺陷的尝试。1989年Garcia对自然周期IVF作了少许变更,即采用B超监测,当主导卵泡直径达到18mm时注射HCGl0000U,30小时后采卵,共做14例,12例获得卵子并受精,10例可行ET,有2例获妊娠。被认为是改良的自然周期(modified natural cycle,MNC)。随着GnRH-ant应用于临床,新的改良的自然周期-IVF正在被认可,这就是极低刺激IVF(minimal stimulation IVF,MS-IVF)。其方法为:当单个优势卵泡发育到14mm时,同时给予GnRH-ant制剂思则凯(cetrotide,serono)0.25mg/d,以避免出现内源性LH峰,同时给予rFSH(果纳芬,gonal-F)150U,维持优势卵泡发育。当卵泡发育到18mm或(和)E2>800~1060pmol/L时,当日继续给予思则凯0.25mg,停rFSH,给予注射HCGl0000U,34小时后取卵。Pelinck MJ(2006年)综合了多中心336例共844个改良的自然周期-IVF周期,其启动周期平均妊娠率为8.3%,3周期累积妊娠率(cumulative pregnancy rates,CPRs)达20.8%。2007年PelinckMJ报道了单个中心256例共1048周期改良的自然周期-IVF(人均4.1周期),每启动周期胚胎移植率为36.5%,妊娠率为7.9%,个人累积妊娠率随着个人改良的自然周期-IVF周期数的增加而增加,当MS—IVF周期数增加到9个时,其cPRs达到44.4%。改良的自然周期-IVF适合所有IVF指征的患者,它最大可能保留了自然周期的优点,同时也提高获卵率和降低周期终止率,克服无法决定和控制取卵时间的缺陷,正在受到重视。

 

这类文章最为头疼,操作步骤或事件的时间顺序是不可以调换顺序的,同时严谨的说明段落一时间让人无所适从。好在这类段落,大家平时未必会采编很多。那这类段落如何处理呢?其实静下心来,上述的办法完全可以处理好。因为只要是短句子,则必然可以通过加一些词来处理。只要是长句子,则句子中必然会有补语或者并列的短语,则其可通过调整顺序来处理。整段经改写后(备注:由于这是我从文中截取的一段,全文我并未看完,所以第一句明显与上文有联系,但上文我未看,故而第一句仅仅是随后弄了下,没怎么伪原创。):

 

基于自然周期上述优点,ART学者一直在为克服自然周期缺陷而努力尝试。Garcia在1989年对自然周期IVF进行了少许变更,他一共做了14例,其中获得卵子并受精共12例,有10例可行ET,获得妊娠2例。其被认为是改良的自然周期(modified natural cycle,MNC)。他的试验方法是采用B超监测,当主导卵泡直径达到18mm时注射HCGl0000U,30小时后进行采卵。新的改良的自然周期-IVF即极低刺激IVF(minimal stimulation IVF,MS-IVF),随着GnRH-ant应用于临床而被正式认可。方法为:当单个优势卵泡发育到14mm时,为了避免出现内源性LH峰,给予GnRH-ant制剂思则凯(cetrotide,serono)0.25mg/d,并同时给予rFSH(果纳芬,gonal-F)150U,用以维持优势卵泡发育。当卵泡发育到18mm或(和)E2>800~1060pmol/L时,当日停rFSH,但继续给予思则凯0.25mg并注射注射HCGl0000U,34小时后取卵。2006年多个中心336例共844个改良的自然周期-IVF周期被Pelinck MJ综合统计,发现其启动周期平均妊娠率为8.3%,3周期累积妊娠率(cumulative pregnancy rates,CPRs)达20.8%。PelinckMJ在2007年报道了单个中心256例共1048周期改良的自然周期-IVF(人均4.1周期),每个启动周期妊娠率为7.9%,胚胎移植率为36.5%。随着个人改良的自然周期-IVF周期数的增加,个人累积妊娠率也随之增加,cPRs也在当MS—IVF周期数增加到9个时达到44.4%。改良的自然周期-IVF正在受到重视,因为它不仅最大可能保留了自然周期的优点,还提高了获卵率和降低周期终止率,并且其适合所有IVF指征的患者,帮助他们克服无法决定和控制取卵时间的缺陷。

最后有些时候,有些段落可能非常短,就几个字。例如“1.常吃水果”,这样的段落,其实是最容易的,直接写成“多吃新鲜水果”之类的就好了。

http://www.seozhao.com/280.html

搜索引擎工作的基础流程与原理

搜索引擎最重要的是什么?有人会说是查询结果的准确性,有人会说是查询结果的丰富性,但其实这些都不是搜索引擎最最致命的地方。对于搜索引擎来说,最最致命的是查询时间。试想一下,如果你在百度界面上查询一个关键词,结果需要5分钟才能将你的查询结果反馈给你,那结果必然是你很快的舍弃掉百度。

搜索引擎为了满足对速度苛刻的要求(现在商业的搜索引擎的查询时间单位都是微秒数量级的),所以采用缓存支持查询需求的方式,也就是说我们在查询搜索时所得到的结果并不是及时的,而是在其服务器已经缓存好了的结果。那么搜索引擎工作的大体流程是什么样子呢?我们可以理解为三段式。

本文仅仅是对着三段工作流程进行大体上的讲解与综述,其中一些详细的技术细节将会用其它的文章进行单独的讲解。

一.网页搜集。

网页搜集,其实就是大家常说的蜘蛛抓取网页。那么对于蜘蛛(google称之为机器人)来说,他们感兴趣的页面分为三类:

1.蜘蛛从未抓去过的新页面。

2.蜘蛛抓去过,但页面内容有改动的页面。

3.蜘蛛抓取过,但现在已删除了的页面。

那么如何行之有效的发现这三类页面并进行抓取,就是spider程序设计的初衷与目的。那么这里就涉及到一个问题,蜘蛛抓取的起始点。

每一位站长只要你的网站没有被严重降权,那么通过网站后台的服务器,你都可以发现勤劳的蜘蛛光顾你的站点,但是你们有没有想过从编写程序的角度上来说,蜘蛛是怎么来的呢?针对于此,各方有各方的观点。有一种说法,说蜘蛛的抓取是从种子站(或叫高权重站),依照权重由高至低逐层出发的。另一种说法蜘蛛爬在URL集合中是没有明显先后顺序的,搜索引擎会根据你网站内容更新的规律,自动计算出何时是爬取你网站的最佳时机,然后进行抓取。

其实对于不同的搜索引擎,其抓取出发点定然会有所区别,针对于百度,Mr.Zhao较为倾向于后者。在百度官方博客发布的《索引页链接补全机制的一种办法》(地址:http://stblog.baidu-tech.com/?p=2057)一文中,其明确指出“spider会尽量探测网页的发布周期,以合理的频率来检查网页”,由此我们可以推断,在百度的索引库中,针对每个URL集合,其都计算出适合其的抓取时间以及一系列参数,然后对相应站点进行抓取。

在这里,我要说明一下,就是针对百度来说,site的数值并非是蜘蛛已抓取你页面的数值。比如site:www.seozhao.com,所得出的数值并不是大家常说的百度收录数值,想查询具体的百度收录量应该在百度提供的站长工具里查询索引数量。那么site是什么?这个我会在今后的文章中为大家讲解。

那么蜘蛛如何发现新链接呢?其依靠的就是超链接。我们可以把所有的互联网看成一个有向集合的聚集体,蜘蛛由起始的URL集合A沿着网页中超链接开始不停的发现新页面。在这个过程中,每发现新的URL都会与集合A中已存的进行比对,若是新的URL,则加入集合A中,若是已在集合A中存在,则丢弃掉。蜘蛛对一个站点的遍历抓取策略分为两种,一种是深度优先,另一种就是宽度优先。但是如果是百度这类商业搜索引擎,其遍历策略则可能是某种更加复杂的规则,例如涉及到域名本身的权重系数、涉及到百度本身服务器矩阵分布等。

二.预处理。

预处理是搜索引擎最复杂的部分,基本上大部分排名算法都是在预处理这个环节生效。那么搜索引擎在预处理这个环节,针对数据主要进行以下几步处理:

1.提取关键词。

蜘蛛抓取到的页面与我们在浏览器中查看的源码是一样的,通常代码杂乱无章,而且其中还有很多与页面主要内容是无关的。由此,搜索引擎需要做三件事情:代码去噪。去除掉网页中所有的代码,仅剩下文本文字。②去除非正文关键词。例如页面上的导航栏以及其它不同页面共享的公共区域的关键词。③去除停用词。停用词是指没有具体意义的词汇,例如“的”“在”等。

当搜索引擎得到这篇网页的关键词后,会用自身的分词系统,将此文分成一个分词列表,然后储存在数据库中,并与此文的URL进行一一对应。下面我举例说明。

假如蜘蛛爬取的页面的URL是http://www.seozhao.com/2.html,而搜索引擎在此页面经过上述操作后提取到的关键词集合为p,且p是由关键词p1,p2,……,pn组成,则在百度数据库中,其相互间的关系是一一对应,如下图。

 

2.消除重复与转载网页。

每个搜索引擎其识别重复页面的算法均不相同,但是其中Mr.Zhao认为,如果将消重算法理解为由100个元素组成,那么所有的搜索引擎恐怕其80个元素都是完全一样的。而另外20个元素,则是根据不同的搜索引擎针对seo的态度不同,而专门设立的对应策略。本文仅对搜索引擎大体流程进行初步讲解,具体数学模型不多做讲解。

3.重要信息分析。

在进行代码除噪的过程中,搜索引擎并非简单的将其去除掉而已,而是充分利用网页代码(例如H标签、strong标签)、关键词密度、内链锚文本等方式分析出此网页中最重要的词组。

4.网页重要度分析。

通过指向该网页的外链锚文本所传递的权重数值,来为此网页确定一个权重数值,同时结合上述的“重要信息分析”,从而确立此网页的关键词集合p中每一个关键词所具备的排名系数。

5.倒排文件。

正如上文所说,用户在查询时所得到的查询结果并非是及时的,而是在搜索引擎的缓存区已经大体排好的,当然搜索引擎不会未卜先知,他不会知道用户会查询哪些关键词,但是他可以建立一个关键词词库,而当其处理用户查询请求的时候,会将其请求按照词库进行分词。那么这样下来,搜索引擎就可以在用户产生查询行为之前,将词库中的每一个关键词其对应的URL排名先行计算好,这样就大大节省了处理查询的时间了。

简单来说,搜索引擎用控制器来控制蜘蛛爬取,然后将URL集与原始数据库进行保存,保存之后再用索引器控制每个关键词与URL之间的对应关系,并将其保存在索引数据库中。

下面我们来举例说明。

假若http://www.seozhao.com/2.html页面被切词成p={p1,p2,p3,……,pn},则其在索引数据库中由下图方式体现。

上图是为了方便大家便于理解而做出来的,索引数据库实际上是搜索引擎中对性能要求最高的数据库,因为里面所有因素都会受到算法影响,所以实际上的索引数据库我觉得应该是由多维数组所组成的较为复杂的索引表,但其主要体现的大体作用与上图相同。

三、查询服务。

查询服务顾名思义,就是处理用户在搜索界面的查询请求。搜索引擎构建检索器,然后分三步来处理请求。

1.根据查询方式与关键词进行切词。

首先先把用户搜索的关键词切分为一个关键词序列,我们暂时用q来表示,则用户搜索的关键词q被切分为q={q1,q2,q3,……,qn}。

然后再根据用户查询方式,例如是所有词连在一起,还是中间有空格等,以及根据q中不同关键词的词性,来确定所需查询词中每一个词在查询结果的展示上所占有的重要性。

2.搜索结果排序。

我们有了搜索词集合q,q中每个关键词所对应的URL排序——索引库,同时也根据用户的查询方式与词性计算出每个关键词在查询结果的展示上所占有的重要,那么只需要进行一点综合性的排序算法,搜索结果就出来了。

3.展示搜索结果与文档摘要。

当有了搜索结果后,搜索引擎就会将搜索结果展示在用户阅览的界面上以供用户使用。

在这里,大家可以思考两个个问题。

大家在搜索界面中经常发现百度展示的摘要是用户搜索词周围的,如果我不仅仅只看第一页,多往后翻一些页,会看到有些结果由于其目标页面本身并未完全包含搜索词,而在百度提取的摘要中标红词仅是部分搜索词,那么我们可以这样理解,百度在搜索词不被完全包含的情况下,是不是应该优先展现在分词结果中被百度认为较为重要的词呢?那么从这些搜索结果中我们是不是就可以看出百度分词算法的部分端倪呢?

②有时候页面中会多次出现搜索词,而百度搜索结果页面中在网站摘要部分仅会显示部分,通常这么部分是连续的,那我们是不是可以理解在摘要部分,百度会优先展示页面中它认为与对此搜索词最重要的部分呢?那么由此我们是不是可以揣度出百度针对页面除噪后对不同部分赋予权重的算法呢?

这两个问题仁者见仁智者见智,做SEO的朋友们自己去探索与摸索吧,Mr.Zhao不敢在此无人子弟。

四、现今百度的流程漏洞。

请原谅我用流程漏洞来形容这个模块,但我不得不说,在如今点击器横行的天下,我觉得说是漏洞无可厚非。

那就是除了上面三个大环节外,百度还构建了用户行为模块,来影响原始数据库与索引库。而影响原始数据库的,是百度的快照投诉,主要处理互联网暴利的一些行为,这点无可厚非。而影响索引库的,是用户的点击行为,这个设计本身也无可厚非,但百度算法的不成熟,导致了点击器作弊猖獗。

百度的用户行为分析模块很简单,除了自身投诉的提交入口外,就是搜集用户在搜索界面的点击行为,如果此页面结果被大部分用户阅览,但没有产生点击,用户居然大部分选择点击第二页甚至更后面的页面,则此现象就会被百度工程师们所知道,则会根据这方面来微调算法。如今百度针对不同行业,其算法早已不同了。

如果前两页内某个搜索界面被大量用户选择点击,则通常会在24小时候,这个搜索结果被大幅前提,甚至会被提升至第一名。

五、搜索引擎大体流程图(加上用户行为分析器)

 

以上就是我所对搜索引擎工作的基础流程与原理的理解。

最后我想说广大的SEO从业者们应该已经发现无论是百度还是谷歌或者其它的商业搜索引擎,他们都会要求seoer们不要去在意算法、不要去在意搜索引擎,而是去多关注用户体验。这里我们可以理解成一个比喻,搜索引擎是买西瓜的人,而SEO们是种西瓜的人,买西瓜的人要求我们这些种西瓜的人不要关心他们挑选西瓜的标准,而是多多在意怎么去种出好西瓜,而对于什么样的西瓜是他们需要的好西瓜,他们又往往用一些模糊的概念掩盖过去。诚然,这样搜索引擎得到的结果将会多样化,他们可以在挑选结果时有更多的选择,能够最大限度的维护这些商业搜索引擎自身的利益,但是请其也不要忘记,我们这些种西瓜的也要有口饭吃。

Mr.Zhao始终坚持白帽SEO,深入研究UE,做对用户有意义的站。但与此同时,我也坚信身为seoer,我们还应该对算法有及时了解,以便我们做出的站在符合用户口味的时候,更能在搜索引擎中得到良好的展现,因为毕竟seoer也是人,也希望过得好一点。

今后我将在其它的文章中逐步剖析搜索引擎的各个环节,并发表在我博客“搜索引擎原理”的栏目下,希望对大家有所帮助。

如何判断有价值的文章

有很多人问过我,说Mr.Zhao啊,百度如何判断伪原创和原创?百度喜欢什么样的文章?什么样的文章比较例如获得长尾词排名?等等诸如此类的问题。面对这些问题,我常常不知如何回答。如果我给一个比较大方向一些的答案,例如要重视用户体验、要有意义等等,那么提问者会觉得我在应付他,他们往往抱怨说这些太模糊。可是我也没法再给出具体的内容,毕竟我不是百度,具体算法我又何德何能的为你们指点江山呢?

为此,我开始写这个“如果是我”系列的文章。在这一系列文章里,我假设如果是我绞尽脑汁的来为网民提供较好的搜索服务,我会怎么做,我会怎么对待文章内容、如何对待外链、如何对待网站结构等等诸如此类的站点元素。当然,本人技术有限,我只能写一点我稍微理解的东西。而百度以及其它的商业搜索引擎,他们有大量比我优秀的人才,相信他们的算法以及处理问题的方式会比我完善很多,而我之所以写这些,无外乎抛砖引玉,希望大家看后,心里有一个大概。毕竟在SEO的道路上走过一段时间后,没有谁能够当谁的老师,一些观点仅供参考。

************重要的声明*******************************

在此,我要郑重声明,这个系列文章中所有涉及到的思想、算法与程序,均非本人所写,全部是我从一些公开的资料里搜集而得的。同时,相信大家也能理解,如果这些免费公开的东西都能做到如此程度,那么那些商业机密就更不用提了。

******************************************************

好的,现在开始。

如果是我,我会喜欢什么样子的文章呢?我会喜欢我的用户喜欢的文章,如果硬要加判定标准,那无外乎是两种:1.原创且用户喜欢。2.非原创且用户喜欢。在这里,我的态度很明显,伪原创就是非原创。那么用户喜欢什么样的文章呢?很显然,一些新观点、新知识往往是用户喜欢的,也就是说通常原创文章都是用户喜欢的,而且即便用户不喜欢,原创站点作为新鲜内容的制造者,也应该受到一定的保护。那么非原创的文章用户就一定不喜欢吗?诚然否也。一些站点,其内容往往是经过搜集整理后聚合而成的,那么这些站点对用户来说就是有价值的,其相对应的文章理应获得较好的排名。

由此可见,我需要重视两类文章即可。一是原创文章,二是有价值的信息聚合站点下的文章。

首先要明确一点,本文探讨范围仅限内容页,而非专题页、列表页和首页。

那么我在甄别这两类文章之前,我需要先进行信息的采集。本文对于spider程序部分不进行阐述。当spider程序下载下来网页信息后,在内容处理的模块中,我需要先对内容除噪。

内容除噪,并非大家经常性的误以为仅仅除去代码而已。对于我来说,我还要出去页面部分非正文内容的文字。比如导航条、比如底部文字以及各个文章列表。将它们的影响除去后,我将得到一段仅仅包含网页正文内容的文本段落。写过采集规则站长朋友应该知道,这个并不难。但搜索引擎毕竟是一款程序,不可能针对每个站写个类似于的采集规则的东西,所以我需要建立一套除噪算法。

在此之前,我们先明确我们的目的。

上图中很明显内容1是用户最为需要的,内容2是用户可能感兴趣的,其余均是无效的噪音。那么针对于此,我们可以发现如下几特征:

1.所有的调用列表全部是在一个信息块里,这个信息块绝大部分是由<a>标签组成,即便有游离于<a>标签的内容,其文字也基本是固定的,且在站内页面中存在大量重复,较为容易判断。

2.内容2一般紧邻着内容1。而且内容2中的链接锚文本,与内容1存在相关性。

3.内容1部分,是有文字文本内容和<a>标签混合而成,且在通常情况下,文本文字内容在网站网页集合中具有唯一性。

那么,针对于此,我采用广为人知的标签树方式,将内容页进行分解。

从网页的标签布局上来看,网页是通过若干的信息块来提供内容的,而这些信息块又是由特定的标签规划出来的,常见的标签有<div><ul><li><p><table><tr><td>等,我们依照这些标签,将网页费解为树状结构。

上图是我手绘的简单的标签树,通过这种方式,我可以非常轻松的识别出各个信息块。然后我设定一定阙值A为内容比重阙值。内容比重阙值为信息块中文本字数与<a>标签出现此处的比值。我设定当网页中信息块内容比重阙值大于A时,才会被我列为有效内容块(此举是为了杜绝过分的多内链,因为如果一篇文章布满内链,则不利于用户体验),然后我再比对内容块中的文本,当其具有唯一性时,此一个或多个内容块的集合,即为我所需要的“内容1”。

 

那么内容2我要如何处理呢?在讲解处理内容2之前,我先讲解一下内容2的意义。正如我先前所说,如果是一个注重用户体验的聚合性网站,那么他的作用是将现有的互联网内容经过精心的分类与关联,来方便用户更好、更有效的阅读。针对这样的站点,即便其文章不是原创而是从互联网上摘抄的,我也会给予其足够的重视与排名,因为它良好的聚合内容往往更能满足用户的需求。

那么针对聚合站点,我可以通过“内容2”来进行粗略的判断。简而言之,如果是一个良好的聚合站点,首先其内容页必须存在内容2,同时内容2必须占重要部分。

好了,识别内容2很简单,对于内容比重阙值低于某个特定值的信息块,我全部判断为链接模块。我将内容1通过某些方式(具体方式本文后半部分讲解),提取出主题B。我将链接模块中的所有<a>标签的锚文本分别进行分词,如果所有的锚文本均与主题B相符,则将此链接模块判定为内容2。设定链接阙值C,链接阙值为内容2中<a>标签出现次数除以所有链接模块所出现的<a>标签次数所得的比重,若大于C,则此网站可能为聚合网站,针对内容排名计算时会引用聚合站点特定的算法。

******************拓展阅读1开始***************************************

我相信很多SEO从业者刚接触这行时,就听说过一件事,就是内容页面导出链接要具有相关性。还有一件事,就是页面下面要有相关阅读,来吸引用户纵深点击。同时应该还听人讲过,内链要适中,不可太多等。

但很少有人会说为什么,而越来越多的人因为不明其内在道理,而渐渐忽视了这些细节。当然,以前的一些搜索引擎算法在内容上的注重程度不够,也起到了推波助澜的作用。但是,如果从阴谋论的角度上来看,我可以假设出这么一个道理。

绝大部分用户的搜索页面,第一页只有10个结果,除去我自家产品,往往仅剩下7个左右,一般用户最多只会点击到第3页,那么我需要的优质站点其实不到30个就可以最大限度的满足用户体验。那么经过3-5年的布局,逐渐筛选出一些耐得住寂寞和认真做细节的站,这时候我再将这一部分算法进行调整,进而筛选出这些优质站点,推送给用户。当然,在做的过程中还有更多的参考因素,比如域名年龄、JS数量,网站速度等。

******************拓展阅读1结束***************************************

******************拓展阅读2开始***************************************

你们说,为什么当站文章中有大量相同时,会快速引起搜索引擎惩罚呢?这里我说的不是摘抄与原创的问题,而是你站内自己和自己的文章重复。之所以搜索引擎反应这么快,同时惩罚严厉,根本原因就是在你的文章中,他提取不到内容1。

******************拓展阅读2结束***************************************

好,经过这一系列处理,我已经获得了内容1与内容2了,下面该进行原创识别的算法了。

现在基本上搜索引擎对于原创的识别,在大面上采用的是关键词匹配结合向量空间模型来进行判断。Google就是这么做的,在其官方博客有相应的文章介绍。这里,我就做个大白话版本的介绍,争取做到简单易懂。

那么,我通过分析内容1,得到内容1中权重最高的关键词k,那么按照权重大小进行排序,前N个权重最高的关键词的集合我命名为K,则K={k1,k2,……,kn},则每一个关键词都会对应一个其在页面中获取到的权重特征值,我将k1对应的权重特征值设定为t1,则前N个权重关键词对应的特征值集合则为T={t1,t2,……,tn},那么我们有了这个特征项,就能计算出其相对应的特征向量W={w1,w2,……,wn}。接着我将K拼成字符串Z,同时MD5(Z)则表示字符串Z的MD5散列值。

那么假定我判定的两个页面分别是i与j。

则我计算出两个公式。

1.当MD5(Zi)=MD5(Zj)时,页面i与页面j完全相同,判断为转载。

2.设定一个特定值α

当0≤α≤1的时候,我判定页面相似为重复。

由此,对于原创文章的判断就结束了。好了,苦逼烦闷的枯燥讲解告一段落,下面我用大白话再重新复述一遍。

首先,你的内容一模一样,一个字都不带改的,那肯定是摘抄的啊,这时候MD5散列值就能迅速的判断出来。

其次,很多SEO他们懒,进行所谓的伪原创,你说你伪原创时插入点自己的观点与资料也成,结果你们就是改个近义词什么的,于是我就用到了特征向量,通过特征向量的判断,把你们这些低劣的伪原创抓出来。关于这个,判断思想很简单,你权重最高的前N个关键词集合极为相似的时候,判断为重复。这里所谓的相似包括但不仅仅局限于权重最高的前N个关键词重合,于是构建了特征向量,当对比的两个向量夹角与长度,当夹角与长度的差异度小于某个特定值的时候,我将其定义为相似文章。

********************备注1开始*************

一直关注google反作弊小组官方博客的朋友们,应该看过google关于相似文章判断算法的那篇博文,在那篇文章中,其主要使用的是余弦定理,就是主要计算夹角。不过后来Mr.Zhao又看了好几篇文献,觉得那篇博文应该仅仅是被google抛弃后才解密的,现在大体算法的趋势,应该是计算夹角与长度,所以选择现在给大家看的这个算法。

********************备注1结束*************

好的,这里我们注意到了几个问题。

1.α被判定为重复时的取值范围是否可变?

2.内容中如何提取出关键词?

3.内容中关键词的权重值是如何赋予的?

下面我来逐一解答。

先说α判断重复时的取值范围,这个范围是绝对可变的。随着SEO行业的蓬勃发展,越来越多人想要投机取巧,而这是搜索引擎不能接受的。于是就会隔几年进行一次算法大更新,而且每一次算法大更新,都会预告会影响百分之多少的搜索结果。那这影响结果的百分数是如何计算出来的?当然不是一个一个数的,在内容方面(其它方面我会在其它文章中阐述),是通过调整α判断相似度时的取值空间变化来计算的,每一个页面在被我处理是,我所计算出的α值都会存储在数据库中,这样我在每次算法调整时,风险都可做到最大的控制。

那么如何提取关键词?这就是分词技术了,我待会再讲。页面内不同关键词的权重赋值也在待会讲。

关于文章相似性,简而言之,就是以前大家改一改文章,比如“越来越多SEO开始重视起文章的质量。”改为“高质量的文章被更多的SEO所重视”,这个在以前没有被识别出来,不是我没有识别你的技术,而是我放宽范围,我可以随时在需要的时候,通过设定参数的取值范围,来重新判断页面价值。

好,如果这里你有些糊涂,别着急,我接着慢慢的说。上述算法里,我需要知道前N个重要的关键词以及其所对应的权重特征值。那这些数值我如何获取呢?

首先,要先分词。针对于分词,我先设定一个流程,然后采用正向最大匹配、逆向最大匹配、最少切分等方式中的一种来进行分词。这个在我会在我的博文《常见的中文分词技术介绍》中讲解,在此不再赘述。通过分词,我得到了这个页面内容1的关键词集合K。

在识别内容1的时候,我就已经构建了标签树,那么我的内容1实际上已经被标签树拆解为由段落组成的树状结构了。

上图是内容1的标签树。在这里,我遇到一个问题,那就是针对标签树权重赋值的时候,应该是面向整个页面的标签树,还是仅仅面向内容1的标签树的?

很多朋友可能会认为,既然是针对内容1的关键词进行赋值判断,那只处理内容1就好了。其实不然。一款搜索引擎,其处理的数据少说也要千万级别的,所以搜索引擎对于高效率的代码与算法要求是极高的。

而正常情况下,一个网站的网页是不可能孤立存在的,在对一个页面针对某一个关键词进行排序的时候,除了要考虑站外因素外,我需要考虑站内权重的继承,那么在考虑站内权重继承的时候,我必然避不开内链的计算,同时内链本身也应该有不同的权重区分,而内链权重计算时,我肯定要考虑其所在页面与其相关性。既然如此,我就应该一次性对整个页面所有的信息块进行权重分配,这样才是高效率,同时也充分体现了内容与链接相关性的重要性。用一句大家常能在网上看见的话来说,就是相关性决定了链接投票的有效性。

好,既然确定下是整个标签树进行权重赋值,那么下面开始。

首先,我要确定重要关键词的词库。重要关键词的确定通过两种方法:

1.不同行业的重点关键词。

2.针对句子结构与词性的重点关键词。

每一款较为成熟的商业搜索引擎,针对不同行业,其算法都会有所不同。而行业的判断,就是依托于各个行业的关键词库进行的。最近百度针对一些特定关键词,在搜索结果中返回网站的备案信息和认证信息,由此可见,词库其实早已存在。

那么,句子结构又从何说起呢?中文句子不外乎主谓宾定状补几个结构组成,而词性也仅有名词、动词、介词、形容词、副词、拟声词、代词、数词。相信很多人刚做SEO的时候,肯定听说过搜索引擎除噪的时候,会去掉的地得和代词,其实这种说法大面上对,但也并非完全准确。从根本原理来说,是针对句子结构与词性而给予处理时的态度不同。我们可以肯定,主语一定是最重要的部分,往往一句话主语变了,其针对的事物和所要表述的意义也就往往不同。而针对的事物若有变化,极有可能导致这篇文章所涉及的行业有所变化。故而,主语肯定是我所需要的重点词。这里为什么我没有说在主语部分去掉代词呢?因为往往去掉主语会使得句子失真,所以我要保留主语所有属性的词,即便是看起来没有意义代词。

那么定语呢?往往定语决定了一个事物的程度或性质,所以定语也很重要。但问题就来了,对于用户来说,美丽的画与漂亮的画是同一个意思,而美丽的画与难看的画却是相反的意思。同时其它句子结构例如补语作为句子的补充,往往承载了地点、时间等信息量,那也很重要。若是如此,那我又要如确定我认为最主要的关键词呢?

这个问题确实很复杂,但其实能够解决它的办法既简单又困难。那就是时间与数据的积累。也许有人会觉得我这么说是不负责任,但事实却是如此。倘若这个世界上没有SEO、没有伪原创,那么搜索引擎可以高枕无忧,因为没有伪原创的干扰,搜索引擎可以迅速的识别出转载内容,然后非常轻松的计算排名。但有了伪原创之后,其实每一次内容判断算法的调整,更多的是对目前一些常见的伪原创做法进行识别。正因为有伪原创的存在,如果是我设计策略,我会设计出两个词库,词库A是用于区分内容所从属的行业,词库B则是针对不同行业,然后在设置若干规则与这两个子词库进行关联。

举例。比如伪原创猖獗的医疗SEO,通过一些病种词,可以迅速识别出其内容属于医疗行业。那么在选择的时候,鉴于某些原因,我将严厉对待医疗,则我认为医疗文章内容重要的仅仅是充当主语的名词,然后在充当主语的名词中,病种名词作为最优先,进而进行优先级排序,在排序中若主语名词数大于N,则按照其所处的信息块距离根节点最近最有先原则,并且同一名词仅选择一次,然后选取前N个重要关键词作为赋值的初始节点,进行权重赋值。

那么在赋值的时候,我设定赋值系数e,我可以判断在这几个被赋值的节点上,根据关键词种类来确定赋值的比重。比如与title中重复的病种名词,其对应的系数为e1,与title中不对应的病种名词系数为e2,其它名词系数为e3。然后我开始遍历标签树。

整个页面自身权重为Q,按照前N个关键词的顺序依次遍历。那么我的遍历原则如下:

1.第一次遍历时,第一个重要节点权重值为Qe1,其父节点权重值为Qe1*b,其子节点权重值为Qe1*c,然后以此原则继续遍历父节点的父节点及其父节点的子节点和子节点的子节点及其子节点的父节点。

以下举例。假定Q为1,e1为3

则一开始如下图

然后假定a为上一个数的平方根,b为上一个数的立方根。则如下图

接着开始遍历其它节点。

当整个网页标签树的所有节点全部被赋值后,第一次遍历结束。这时候开始第二次遍历,注意这时候与e2相乘的就不是Q了,而是第二个重要关键词所在节点的当前权重值。

这样经过N此遍历,每一个信息块都会有自己相对应的权重数值,然后我单独提取内容1的信息块,具体上文中有画图,在此就不再多画了。将内容1量化。量化后,我就能够得到上文中我所需要的权重特征值T={t1,t2,……,tn}。由此,这个算法层就首位相应的完善了。量化公式很多,我在此就不举例了,因为这个举例毫无意义,我又不是真写搜索引擎。

*******拓展阅读3开始************************************

链接模块的权重,将最后被超链接传到至其所指向的页面中。这也说明了不同位置的链接,其传导的权重各不相同。内链的位置决定了内链的权重继承。而大家经常听到的,内链上下文要出现关键字,其实就是这个算法所衍生出的现象。

*******拓展阅读3结束************************************

至此,这个算法层基本结束了。

******声明1开始*****************************************

1.我再次强调,文中算法不是我写的,是我借鉴别人的,借鉴谁的?我忘了……,好多好多。

2.所有有经验的商业搜索引擎,其算法肯定是分层的,绝对不会仅仅是一个算法层,所以这个单一的算法层,对排名来说可以说影响很大,但绝对不是完全按照这一个算法层来进行排名的。

3.本文首发Mr.Zhao的SEO博客,转载请保留原文出处:http://www.seozhao.com/379.html

******声明1结束*****************************************

那么大致了解了这一个层的算法之后,对我们的实际操作有什么具体的帮助吗?

1.我们可以有效知道,如何合理的设置内容页的栏目布局,使得我们在转载文章时,让百度知道我们在转载文章的同时,为了更好的用户体验而聚合了各方观点的文章。

2.我们可以更好的知道,哪些文章会被判定为相似文章。

3.这个是最重要的一点,就是我们能够更好的对内容页面进行布局。真正的白帽SEO,在对站内进行梳理时,其站内栏目在页面上的布局尤为重要,有经验的SEO能够有效的利用页面的权重继承,进而增加长尾排名,这对于门户网站或是B2C等拥有大量内容页的网站来说,非常重要。当然,在长尾排名方面,对页面权重传输的了解与布局仅仅是基础,今后我会在后续文章中,在对栏目层级设置与权重传递方面,针对我的观点进行阐述。

4.明白内链权重继承的大致原理。

http://www.seozhao.com/379.html