检查伪原创使用技术——信息指纹识别

百度爬行抓取网站文章是否伪原创使用的正是“信息指纹”技术,那么什么是信息指纹呢?

信息按照其表征特性可以分为:文字信息、图形信息、图像信息、语音信息。按照其来源可以分为:文档信息(正式编写的信息,有标题、作者、摘要、关键字等辅助信息,如正式发表的文章、论文等)、自然信息(随意记录或编写的信息,只有信息的内容,没有或部分有辅助信息,如八卦新闻、聊天室的帖子、博客的文章等)、再生信息(对各种信息的统计信息,或通过对别人信息的重新编写,总结、联想出来的新信息,一般再生信息也都属于文档信息,有辅助说明信息)

统计信息表明:对一个文本信息例如http://w e i b o.j l n z y y.c o m提取指纹,当选取8个关键词及其词频作为其指纹时,准确度在98%以上,查全率在30%左右。这说明要能“概括”该信息,找出其8个使用频率最高的词汇,基本可以代表这个信息

因此文字信息提取指纹的要素一般为下面信息:

n 标题
n 作者
n 发布时期、修改日期
n 主要关键词
其中关键词的选取可以有几种方法:
★ 作者提供的关键词
★ 作者提供的摘要,或整理人员编写的摘要
★ 提取信息中出现频率高的8个关键词
★ 文章开头或结尾一段话
★ 文章中固定位置的一段话(如第5行的第一句话)

有了这些代表信息后,便可以形成指纹信息,若再对这些信息进行Hash运算、MD5等方式加密、变化,生成一段定长(如256字节)的信息,就可以作为该信息的“指纹”,经过加密主要是防止对信息内容的篡改和对指纹的替换。这种方法有些象数字签名技术,但要相对简单,并且不进行加密运算时的标题等信息可以直接作为检索的关键字使用,

这里提取信息中的高频率关键词是一个技术的难点,其原因有两个:

1、信息中的非特征信息关键词的剔除:如我、你、他等称谓,而且、但是等连接词,对信息标识是没有帮助的。比较“通俗”的词,如管理、学习等可以出现在任何类型的信息中,让用户搜索的信息五花八门;比较“流行”的词,如姚明、时尚等可能出现频率极高,造成搜索信息非常多。总之,若关键字搜索的信息多得难以阅读,并且杂乱无序,对于查询者就失去了意义。

2、词汇的提取本身就是问题:对于英文来说,词汇是空格隔离的,比较好提取,而对于中文来说,一句话中可以多种断句,得到的词汇会很多,识别结果有很大的差异。目前搜索公司大多采用巨大的词汇库方式,最长匹配也好,通俗词汇管理也好,说白了就是还没有一个模型或算法可以最好地识别词汇。这也正是Google也好,百度也好对中文的搜索结果都不尽如人意的原因。

可以不经允许随意转载,分享:广州SEO,移动互联网营销 » 检查伪原创使用技术——信息指纹识别

分享的每套dede模板,整站带数据源码,wordpress模板,整站源码下载,帝国cms模板,带数据帝国cms网站,淘宝客源码,女性网站模板等源码的下载链接地址请咨询QQ索取。
赞 (0)
分享到: 更多