论搜索引擎如何打击黄赌毒。

为了避免不必要的纠纷,本次不说明且不针对任何一家搜索引擎。

各大搜索引擎都声称打击违规内容,虽然有打击,但是这些东西依然存在,世界永远会为黑暗开一扇后门。

本文就从色情内容说起。

站在用户的角度说,如果我搜索一个关键词,得到的不是我想要的内容,那么我会换个类似的关键词搜索,或者换个搜索引擎。

 

1、关键词精准屏蔽

例如"AV",这个屏蔽不是指的屏蔽这个关键词的搜索,而是对于这个关键词,只给予本身权重较高的站一定的排名,因为高权重站点更加值得信任,搜索引擎更愿意认为其只是围绕此关键词去做一些行业说明或其他内容。

BoCai行业常用的二级目录手段,也是基于主站的高权重而得到的快速排名。

对于这种屏蔽方式,我们只需要换个长点的词去搜索,比如“久久热在线视频”。(我随便找的,至于怎么找的,那不重要)这种词没有极高权重的站点去做,词意也并没有体现出色情内容,所以搜出来可能都是大家想要的结果。

这种词并不是屏蔽不了,大数据分析一下,这些词批量屏蔽就得了。

咋分析?就上面那个词,你写个爬虫,爬一下某搜索引擎的“相关搜索”列出的关键词就能看出来了。

搜索引擎肯定知道这个事,可以打击,但没必要,不然用户体验不烂了嘛。

被曝光了也好解释,例如:“这词大家看着没问题啊,这种词这么多,算法识别不出来啊”。

能不能识别其实大家都有逼数的,哈哈。

 

2、内容鉴黄

对于文字的鉴黄,识别成本不大。

但是看这玩意的还是少数,所以不做分析,也不揣摩搜索哟引擎的目的。

对于图片以及视频,如果蜘蛛的每次爬取都需要给所爬取的资源内容去进行机器鉴黄,那搜索引擎成本将增大N倍。耗费太多算力。

即使排除成本,图片还可以抓取到,但是目前的网站搜索引擎基本都是无法识别视频内容的,因为视频直链很难被直接抓取到。

鉴黄是正规平台自查自纠的事情,交给搜索引擎的话,马云也撑不住这么大成本。

 

以下内容引用某搜索引擎的违规内容处理报告中公开的技术

 

基础技术。即利用现有成熟的主动巡查、自主清理等通用管控手段处置线上海量违法有害信息。

“杀手锏”技术。借助千亿级数据优势建立针对文字、图片、视频等各类展现形式的管控策略,确保全量信息拥有定制性、国家级的高强度网络保护。

人工智能技术。XX内容安全中心已将语言识别处理、图像甄别能力、数据增量研究等多类 AI 安全技术运用至日常工作中。

 

千亿数据优势都让人钻了空子,得了吧。

 

要是真的想打击,你就整个CMS指纹识别,针对特殊CMS特殊照顾,比那听起来牛逼的技术都有效。

不信你且看搜索的结果,十个站八个都是用的一个CMS。

 

 

 

评论0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
来了死鬼
登入/注册
卧槽~你还有脸回来
没有账号? 忘记密码?