SEOVIP学习社区

 找回密码
 注册
搜索
查看: 3598|回复: 11

超级揭秘:百度谷歌识别伪原创算法

[复制链接]

该用户从未签到

hyworkseo 发表于 2011-4-19 11:45:34 | 显示全部楼层 |阅读模式
本帖最后由 lishaojie2008 于 2011-4-24 15:34 编辑

首先我写的这篇文章完全源自本人长期观察总结,如果有何不妥请指正。毕竟我研究SEO也有一段时间,虽然说SEO的最高境界是忘记SEO,但是SEO技术也还是非常有趣的,我研究SEO技术纯粹是个人兴趣,写这篇文章也是给各位站长做一个很好的参考。
  第一,搜索引擎会过滤“的,了,呢,啊”之类的重复率非常之高的对排名无帮助的无用词语。

  第二,这里要谈为什么有时候转换近义词无效。从这里开始就算是我个人的经验总结了。既然市场上有一堆伪原创工具能够将词语伪原创比如将“电脑”伪原创为“计算机”,那么有什么理由不相信强大的搜索引擎不会伪原创?所以肯定的,搜索引擎一定会近义词伪原创,当搜索引擎遇到“电脑”和“计算机”时,会将他们自动转换这里姑且假设为A,所以很多情况下的近义词伪原创不收录的原因。

  第三,这里要谈为什么有时候不仅近义词转换了并且打乱句子与段落依然无效。当搜索引擎过滤掉无用词,并将各类近义词转化为A,B,C,D后开始提取出这个页面最关键的几个词语A,C,E(这里举个例子,实际可能提取的关键字不是ACE三个而是1个到几十个都是说不定的)。并且将这些词进行指纹记录。这样也就是说,近义词转换过的并且段落打乱过的文章和原文对于搜索引擎来说是会认为一模一样的。

  第四,这段更深层次解释为什么几篇文章段落重组的文章依然可能会被搜索引擎识别出。首先既然百度能够生成指纹自然也能解码指纹,段落重组的文章不过是重要关键字的增加或者减少,这样比如有两篇文章第一篇重要关键字是ABC,而第二篇是AB,那么搜索引擎就可能利用自己一个内部相似识别的算法,如果相差的百分数在某个值以下就放出文章并且给予权重,如果相差的百分数高于某个值那么就会判断为重复文章从而不放出快照,也不给予权重。这也就是为什么几篇文章段落重组的文章依然可能会被搜索引擎识别出的原因。

  第五,我要解释下为什么有些伪原创文章仍然可以被收录的很好。我上面的推理只是对于百度识别伪原创算法的大致框架,实际上谷歌百度对于识别伪原创的工作要更加庞大并且复杂的多,谷歌一年就会改变两百次算法足以看出算法的复杂性。为什么某些伪原创的文章依然可以被收录的很好。只有两个原因:

  1.网站自身权重高,哪怕不为原创照搬别人的文章还是百分之百会被收录给予权重。

  2.搜索引擎绝对不可能完美到过滤所有伪原创,这是不可能的,就好像人工智能的图灵永远无法完美到拥有人类的情绪一样。

  个人建议:

  1)各位做垃圾站群的朋友们注意了,你们在可以捞一笔的时候就尽情捞一笔吧。但是也希望你们能够考虑下今后是不是有别的方向可以做?如果百度一下子更改某些算法使得判断伪原创更智能,哪怕是一些细小的变动也可能就是你们的灭顶之灾吧。另外今年谷歌也对垃圾站宣战了,呵呵你们自己看吧。

  2)各位老老实实写原创的站长们,你们绝对选对路了。但是同时也注意下自己的版权问题哦。
  • TA的每日心情
    奋斗
    2012-12-29 20:53
  • 签到天数: 122 天

    [LV.7]常住居民III

    bjmykd 发表于 2011-4-19 23:26:56 | 显示全部楼层
    真的吗,好好研究研究

    该用户从未签到

    yyi000 发表于 2011-4-20 10:01:28 | 显示全部楼层
    因为需要剖析网站中能否存在针对搜索引擎不友好的因素, 剖析用户的搜索行为从而制定搜索推行策略等等。

    该用户从未签到

    zhangfei0311 发表于 2011-4-20 22:20:19 | 显示全部楼层
    这个学习了,这个情况还真不了解

    该用户从未签到

    banfeng701 发表于 2011-4-21 11:26:21 | 显示全部楼层
    需要剖析网站中能否存在针对搜索引擎不友好的因素

    该用户从未签到

    longfeipp 发表于 2011-4-25 12:07:09 | 显示全部楼层
    用工具,加上人工修改,不信骗不过它

    该用户从未签到

    banfeng701 发表于 2011-4-25 13:57:12 | 显示全部楼层
    这个情况还真不了解

    该用户从未签到

    ludy1987 发表于 2011-4-25 16:16:32 | 显示全部楼层
    貌似现在的为原创效果不太好了

    该用户从未签到

    canhui 发表于 2011-4-26 14:39:43 | 显示全部楼层
    可有的行业确实没多少原原创可以写啊!写来写去还是那些 就天天伪原创了。

    该用户从未签到

    taiyangpuzhao 发表于 2011-4-27 00:48:54 | 显示全部楼层
    这个学习了,这个情况还真不了解
    您需要登录后才可以回帖 登录 | 注册

    本版积分规则

    小黑屋|手机版|Archiver|SEOVIP学习社区

    GMT+8, 2024-12-25 13:19 , Processed in 0.041484 second(s), 21 queries .

    Powered by Discuz! X3.4

    Copyright © 2001-2021, Tencent Cloud.

    快速回复 返回顶部 返回列表