当前位置:首页 > 消费与科技

你以为自己在填验证码,其实你是在给Google义务劳动

网络7年前 (2018-12-13)消费与科技1526

最近发现遇见的验证码“越来越有内容”了。

为了证明自己是个真人,除了要输入方框里的文字,还得做从下面图中挑出路牌、挑出门牌这种连连看似的高级任务。

在连续干了好几茬之后,硅星人突然醒悟:我这哪里是在填验证码,根本就是在帮别人标注数据,训练AI啊!

不管是给图片分类:


给路牌勾边:


还是把路牌圈出来:


感觉都是在教无人驾驶的AI认路啊……

其实,“输验证码就是在为AI打工”并不是硅星人想得太多。事实上,我们在输验证码时义务劳动的历史,从古早的文字验证码时期就开始了。

每次输入验证码,你都在义务劳动

今天,应用最广的验证码系统就是reCAPTCHA(Completely Automated PublicT uring Test To Tell Computers and Humans Apart,区分人机的全自动图灵测试系统)了。

这家如今已被Google收购的公司,承担了世界上大部分网络的人机验证工作(上文给出的三个例子均来自reCAPTCHA)。

2007年,reCAPTCHA的创始人之一,卡内基梅隆大学教授路易斯·冯·安(Luisvon Ahn)想到:“如果人类与机器各有擅长,能不能利用验证码系统,让人类和机器共同解决问题呢?”


当时,一个亟待解决的问题就是,如何把浩如烟海的人类纸质典籍数字化。

想要数字化文本,一种方法是手工录入。这种方法费时费力,还容易出现录入错误。另一种方法是先扫描文本,再结合光学文字识别技术录入文字。听起来很美,但有些年代久远或本身质量就差的文本扫描出来后实在是太糊了……


以至于电脑识别出来的文本漏洞百出,根本没法看。


为了解决文本数字化的问题,2007年,路易斯推出了新的验证码系统reCAPTCHA。

在reCAPTCHA验证码系统里,一个验证码会由两部分构成。

第一部分和之前一样,是自动生成并且经过变形处理的文字,用来检验你是不是真人。而第二部分,则是从无法识别的文本中截取出来的词。


如果用户正确输入前半部分,那么 reCAPTCHA就会假设用户输入的后半部分也是正确的,然后把录入结果返回至reCAPTCHA的项目主机。

结果返回主机后,主机还会把这个结果再派发给多个用户进行交叉验证,以确保没有不小心或故意输错单词的情况。

也就是说,真正有效的人机测试在验证码的前半段已经完成,而后半段,就是用户在义务为人类文明做贡献了。

那么,reCAPTCHA到底做了多大贡献呢?

2007年推出之初,reCAPTCHA每天都能帮助录入3000万个字符。2008年,这个数字飙升到了6000万个。粗略统计,在今天,全世界每天都有2亿个字符通过 reCAPTCHA录入,相当于人类15万小时的工作量。

也就是说,一个人要不吃不喝不睡连轴转两年半,才能完成 reCAPTCHA一天的工作量。

到今天为止, reCAPTCHA已经录入了从1851年至今的所有《纽约时报》,共计1300万篇文章。除《纽约时报》外,reCAPTCHA还数字化了超过2500万本书,而全球的图书数量约为1.3亿本。


路易斯在接受媒体TheHustle采访时这样评价 reCAPTCHA:“我创造了一个系统,以十秒为单位,数百万小时为增量,来利用世界上最宝贵的资源:人的大脑。”

验证码是在剥削我们么?

如果reCAPTCHA的故事到这里就结束了,每个人都会很开心。但事情没那么简单。

2009年,Google以大约2780万美元的价格收购了 reCAPTCHA,并开始利用 reCAPTCHA帮助标注数据。

正如前文所说,reCAPTCHA的前半段是在验证你是不是真人,后半段就是真人为验证码打工阶段了。

2012年,Google开始把Google街景中难以识别的门牌和路牌加入验证码,请用户帮忙标注。


除了标注门牌路牌,让用户帮忙给数据库分类也是常见的形式之一。比如下图这种请用户“挑出所有有猫的图片”的验证码。


如今,Google AI已经能精确辨认路牌上的文字和数字,准确度和人眼不相上下。

当有一天我们终于用上Google的自动驾驶技术,依靠AI来辨识路牌和路灯时,这背后不能不说没有上千万用户无偿标注的苦劳。


对于这一目的,Google也并不避讳。在 reCAPTCHA官网上,Google公开说明了 reCAPTCHA集众人之力标注数据、训练AI的“众包”模式。


但是仍有用户对这一点感到不满。

一位觉得验证码不道德的Reddit用户写到:“这就好像让几百万个人每人为你干5秒钟活儿,然后一分钱都不给一样,这合适么!”


验证码的前世今生

验证码提出之初,是为了解决一个特别实在的问题。

网络世界这么大,你怎么知道网线另一端是不是一条狗(或者机器人)?

在公开版面上,刷评机器人可以用大量垃圾评论和广告淹没真人用户留下的有价值的信息;在金融交易平台,脚本程序可以靠不停试验来暴力破解密码;在票务网站,我敢说你就算有十只手也抢不过自动刷票的黄牛……

如何确定网络请求是真人发送的,成了维护网络环境和保护用户安全的大问题。

2002年,正是路易斯·冯·安提出了一种切实可行的解决方案,能分清网线对面“是人是狗”。

虽然计算机的算数和分析能力比人类强得多,但是当时的计算机连“一只小猫在奔跑”这种难不倒三岁小孩儿的图都认不出来。基于这种思想,路易斯和其他同事合作开发了reCAPTCHA的祖宗 CAPTCHA,也就是我们俗称的验证码。

初代验证码一般是一些经过扭曲变形的文字或数字。人类可以识别这些文字(尽管偶尔也会出现连人类也认不出的情况),但机器难以理解字符的含义。


之后,验证码也经历了算数题、选择题,甚至植入广告等类型的迭代,但都掩盖不住一个最致命的问题:虽然 CAPTCHA已经是相对比较好的解决方案,但也并非铁板一块。

通过撞库、人工智能识别图像、甚至是把验证码图片返回给人工再批量输入等方法,黑客们总能为垃圾脚本找到可乘之机。

更别提有些验证码,连真人都搞不定!


附加题:请点击图中所有的范伟

正因为验证码浪费时间,辨识难度大,而且对于执行某些特定行为(比如爬数据或做学术研究)的人类用户而言极不友好,验证码长期在“互联网时代最烦人发明”榜上名列前茅。

于是, reCAPTCHA推出了更科学的验证系统。这种验证系统会检测用户的客户端环境,追踪用户的鼠标和键盘操作轨迹,提高了机器人的模拟成本。用户再也不需要苦哈哈地识别歪歪扭扭的文字,只需要在对话框里点击“我不是机器人”,就能通过验证。

访问无忧岛网站,请使用谷歌和苹果浏览器!部分浏览器访问本站可能会造成内容页面的缺失

分享给朋友:

相关文章

799元红米5来袭,世界芯片巨头高通,将再感谢雷军一次

799元红米5来袭,世界芯片巨头高通,将再感谢雷军一次

手机江湖风云录,战场自有评说。芯片,手机的心脏,iPhone因为苹果A系处理器独步天下,高通也将移动互联网的大潮中呼风唤雨。最近,799元红米5来袭,世界芯片巨头,将再感谢雷军一次。11月7日,酝酿已…

红米5Plus刚发布就遭遇坚果Pro降维打击 胜算恐不在红米

红米5Plus刚发布就遭遇坚果Pro降维打击 胜算恐不在红米

上个月7日,坚果手机正式发布了新机坚果Pro 2。而刚好在满一个月的昨天,作为老一代机型坚果 Pro也进入了千元机的行列,坚果Pro 4+32GB版本在京东上售价1099元。似乎手机厂商都很会选日子,…

离802.11ax全面终结802.11n只剩2年?

离802.11ax全面终结802.11n只剩2年?

在Wi-Fi技术演进的20年时间里,无线技术的发展速度已经超出了所有人的预料。而得益于智能手机等移动终端的全面普及,人们对Wi-Fi的需求也越来越高,即便是影响广泛的802.11n,似乎也正从主流电子…

换电池就能满血复活 苹果悄悄为iPhone 6/6S锁频

换电池就能满血复活 苹果悄悄为iPhone 6/6S锁频

最近,苹果可谓是喜忧参半,喜的是年度旗舰iPhone X的销量喜人,忧的是在软件方面BUG频传,从macOS系统漏洞电脑密码形同虚设,到iPhone日期BUG导致无限重启,再到iOS漏洞牵连HomeK…

超频后的i3-7350K 单线程性能比肩旗舰产品!

超频后的i3-7350K 单线程性能比肩旗舰产品!

Intel Kaby Lake 处理器已经正式发布了一段时间,此前媒体和玩家关注的消息也一一得到了解答,Intel 确实推出了一款支持超线程技术的奔腾 G4560 处理器以及一款支持超频的 i3-73…

为啥要实现中国制造?80年代从日本进口个硬盘就得上千块

为啥要实现中国制造?80年代从日本进口个硬盘就得上千块

近几年很多人都在说“中国制造”这个词,以往我们比较熟悉的德国制造,那是世界制造业发展的祖师爷。而现在中国的制造业已经打破传统制造业强国的垄断,中国制造已经开始得到全世界的认可。中国的高铁技术已经成熟到…

電池又出問題 三星Note 8電量耗盡後無法充電

據科技網站 Android Authority 12月28日報導,多位用戶在三星論壇上反映,Galaxy Note8在電池電量耗盡並關機後,無法充電和開機。另外,多位用戶反映 Galaxy S8 Pl…

凭这张小小芯片,华强北手机批发商一夜能赚上百万!

凭这张小小芯片,华强北手机批发商一夜能赚上百万!

科技星探者 2017-12-31 23:18:07华北强,是整个亚太地区最大的手机批发市场,基本上对手机有过了解的人都会知道它,华北强一直以来都手机中转站的形式存在,是很多电子产品发展的必要法门。可能…

马云揭秘:其实2018年最赚钱的是这个行业,傻子都成了千万富豪!

马云揭秘:其实2018年最赚钱的是这个行业,傻子都成了千万富豪!

很多人都想创业,但他们似乎有一个同样不创业的理由:我没有钱,我要是有钱的话,怎么怎么样......似乎只要有钱,他就一定能创业成功。可是马云的创业经历告诉我们,没钱,同样可以创业,同样可以创出一番伟大…

邊挖礦邊吃雞,GIGABYTE 推出 P104-100 4G 與 GTX 1060 WINDFORCE OC 5G

邊挖礦邊吃雞,GIGABYTE 推出 P104-100 4G 與 GTX 1060 WINDFORCE OC 5G

說到近期推升顯示卡銷售成長的動力,除了被玩家暱稱為「吃雞」的絕地求生(PLAYERUNKNOWN’S BATTLEGROUNDS)遊戲之外,另外一部分就是挖礦需求。GIGABYTE 最近發表 2 款顯…

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。