网络扫黄是个“技术活”
2014-04-29
自4月13日“扫黄打非·净网2014”专项行动启动以来,继“91熊猫看书网”等知名网络文学网站之后,新浪网遭遇了全国“扫黄打非”办公室的精确打击。从淫秽色情网站、网络文学网站到最近个别视频播放器乃至门户网站,相继被有关部门处理。那么网络扫黄中到底有哪些门道呢?
目前我国仍没有精细化的界定。我国刑法第三百六十七条第一款规定,本法所称“淫秽物品”,是指具体描绘性行为或者露骨宣扬色情的诲淫性书刊、影片、录像带、录音带、图片及其他淫秽物品。2009年,国新办、工信部、公安部等多部门列出了網络低俗内容的十三项标准,包括“直接暴露和描写人体性部位的内容”、“全身或者隐私部位未着衣物,仅用肢体掩盖隐私部位的内容”以及“带有侵犯个人隐私性质的走光、偷拍、漏点等内容”等。
“在互联网海量信息面前,如果仅靠工作人员来判断是否黄色信息,那得需要多少人力成本啊。”在一家安全软件公司工作的李明(化名)说。
在某大型互联网公司技术部工作的张强介绍,比如黄色图片识别系统,“它可以通过识别图片中色彩的信息,或是和人体器官特征相匹配的信息,识别出黄色图片。”相关技术部门对黄色词汇的识别显得相对直接。“基本包括两种方式,一种是建立一个词库,另一种是建立某种规则。”张强说,像“色情”一词,按照第一种方式,只要工作人员在词库中设定了这个词,那这个词就会被系统自动筛选出来。
“在某个参数下,筛选出的图片或文字,都需要工作人员来判断,这个系统的标准是否合适。”张强告诉记者,“机器的判断与工作人员的主观判断越接近,就说明这个识别系统的效果越好。”
在张强看来,“视频这个东西的解码是很花时间的。”张强介绍,不像图片识别系统,可能一秒钟就能区分出几百张图片是不是黄色图片,视频文件的识别,则可能需要花费半个小时才能看出一个视频是不是黄色视频。“每天在互联网上上传和下载的视频那么多,相关部门没有足够的运算资源去做这个。”
经过鉴别后,黄色信息就要面对相关部门或企业的后续处理了。企业多选择过滤或拦截黄色信息。据张强介绍,像谷歌的图片搜索功能,在用户查看搜索结果时,如果选择一个类似“色情过滤”的选项,就可以过滤掉其中的黄色图片。另据公开资料,北京邮电大学的模式识别实验室也研究出了“不良图片过滤技术”,并已应用于中国移动WAP图片过滤系统以及浙江联通图片过滤系统。
政府部门则多聚焦于彻查。接到举报后,公安部门通过网址查询黄色网站的IP地址,然后通过IP地址的注册信息,追踪到黄色网站的真实地理位置,并对其服务器进行捣毁,同时对涉黄人员采取强制措施。追踪过程看似简单,但黄色网站“把服务器放在国外、频繁更换IP地址、用虚假信息注册的‘躲猫猫手段越来越多,暂时还没有很好的技术方法来解决。”张强说,当然,公安部门的其他侦测手段仍能起到作用。