验证码其实不简单

2022-11-12文|马迪

今日中国·中文版 2022年9期

关键词：垃圾邮件程序文字

文| 马迪

每输入一个验证码，你可能都付出了一次义务劳动，而且是能改变未来的那种。

你是否关注过我们每天都“破解”好几次的各类验证码，其实它一点都不简单。

早期的互联网是一片蛮荒丛林，黑客编写的恶意程序横行霸道。它们伪装成人类，制造了大量的马甲用户、垃圾信息甚至诈骗邮件，网站被恶意灌水，邮箱被塞满垃圾邮件，人们不胜其扰。那么，该如何把伪装成人类的程序机器人鉴定出来呢？

2000年，从杜克大学数学系毕业，来到卡内基梅隆大学读计算机科学博士的路易斯·冯·安第一次提出了验证码的程序概念。该程序是指，向请求的发起方提出问题，能正确回答的即是人类，反之则为机器，全称是“全自动区分计算机和人类的公开图灵测试”。

这个程序基于一个重要假设：提出的问题要容易被人类解答，且让机器无法解答。其具体设计是将随机生成的字符加上随机的扭曲、重叠、污染等效果—对人来说只是增加了一点点辨认难度，却足以阻挡当时最高级的黑客程序了。饱受困扰的免费邮箱巨头雅虎第一个应用了这个产品，很快解决了垃圾邮件的问题，图形类验证码开始了大发展时期，国内外各大网站纷纷在关键的业务点上增加了验证码，成为验证用户真实性的重要手段。

道高一尺魔高一丈。破解验证码的技术也随之不断地进化，两者的战争升级，让验证码的花样越来越多，从最常见的扭曲文字、堆叠文字，到要求用户识别图片的物体、把缺失部分拖到正确位置的拼图、在规定时间内按顺序完成多次点击等等，堪比一场场小型考试，因此也常常遭到用户的吐槽和抱怨。

你相信吗？每输入一个验证码，你可能都付出了一次义务劳动，而且是能改变未来的那种。

2005年，路易斯·冯·安完成了他的博士论文，创造了一个新概念“人本计算”，即把人的脑力和计算机的能力结合起来，完成两者都无法单独完成的工作。

彼时，验证码已经广泛普及，每天都会有近亿次的海量识别数据，闲置不用显然是对人力的巨大浪费；另一方面，当时的人们正在试图将纸质资料全部数字化，却遇到了程序无法识别老报纸上模糊文字的问题等等。

这不巧了吗？冯·安团队开发了reCAPTCHA技术，把老旧文献中难以识别的词作为验证码，让全世界用户一起“帮忙”辨认。验证分为两步，用户需要两次输入验证码，如果第一个词输入正确即被判别为人类，而第二次输入就完全是“义务劳动”了—如果多名用户的答案一致，这个词就算被认出来了。

2009年，谷歌收购了reCAPTCHA，不到两年就完成了超过2500万本书、《纽约时报》全部1300万篇文章的数字化。2012年起，谷歌又推出了reCAPTCHA的图像识别版本，让用户识别街景中的门牌号码和其他标志。对此，官方曾经表示这种合作“让街景地图更加精确，也让验证码更安全、更有效”。

粗略统计，今天全世界每天都有2 亿个字符通过reCAPTCHA录入，相当于一个人15万小时的工作量。这些数据也被不断地“投喂”给人工智能，帮助机器学习系统更精确地辨认文字、数字和图形，堪称世界上最大规模、最成功的众包项目。

经历过早期12306抢火车票的人可能还记得那些五花八门甚至匪夷所思的图片验证码，尤其是在十万火急的时候被要求“请点击下图中所有的喷气式飞机”，那一刻的体验简直糟糕透顶，有没有简单又安全的验证码呢？

答案当然是肯定的。无知识型验证码，顾名思义就是无需思考、判断，只需要点击或滑动即可完成验证的方法。比如，谷歌的新验证码系统reCaptcha V3，会自动记录使用者在网站中浏览的行为特征，根据这些记录来给用户打分，只有用户分数过低时才会被要求识别复杂的验证码，否则不会打扰到用户，上网体验很丝滑。

表面上虽然不用再输入验证码，本质却是AI模型时时刻刻地“观察”用户的行为，从中寻找自动化的迹象，是一种“持续身份验证”。这需要读取尽可能多的用户信息，也可能涉及侵犯隐私的问题。

到底应该让渡隐私、节省时间，还是继续一笔一划地填写答案呢？人在网络，身不由己，普通用户只能接受结果。只要还有虚假账户、垃圾邮件、骚扰信息，我们就必须将人类用户与机器人分开，某种形式的验证码技术也将始终存在。

猜你喜欢

垃圾邮件程序文字

从“scientist(科学家)”到“spam(垃圾邮件)”，英语单词的起源出人意料地有趣精读

验证码其实不简单

猜你喜欢

杂志排行

今日中国·中文版的其它文章