进局喝茶捷径之使用搜狗/百度/QQ等中文输入法来泄露隐私

百度已收录   阅读次数: 889
2021-01-2822:40:08 发表评论
摘要

伯衡君今日浏览到一则新闻,说是微信要开发一个输入法,防止用户隐私泄露,我当时一口水险些喷在电脑屏幕上,我不是怀疑微信开发输入法的能力,而是它的目的是防止用户泄露隐私,我就不能忍了,微信在做输入法之前我就能确认,必定会泄露用户隐私,而且不仅是这个输入法,而是中国大陆大部分输入法都是有这个问题……

进局喝茶捷径之使用搜狗/百度/QQ等中文输入法来泄露隐私

开篇寄语

伯衡君今日浏览到一则新闻,说是微信要开发一个输入法,防止用户隐私泄露,我当时一口水险些喷在电脑屏幕上,我不是怀疑微信开发输入法的能力,而是它的目的是防止用户泄露隐私,我就不能忍了,微信在做输入法之前我就能确认,必定会泄露用户隐私,而且不仅是这个输入法,而是中国大陆大部分输入法都是有这个问题。

前情提要

就微信这个受到严格审查的应用,还好意思说用户隐私?具体可以参看以下几篇文章:

内容详情

伯衡君一朋友就曾告诉过我,他的一个可怕经历,就是他在微信上输入了某某手机,或者在微博输入了某某商品,他打开淘宝,或者拼多多,就会发现在首页推荐中屡次推送相关产品,而且更为可怕的是,他使用如百度搜索,也会出现类似的广告推荐,这不就不让他背脊发凉。

我听后,表示呵呵一笑,向他推荐了苹果手机或者pixel手机,并嘱咐他不要安装如QQ拼音,QQ五笔,讯飞,搜狗,百度等中文输入法,如果一定要安装,就使用谷歌输入法(官方下载),或者手机自带的输入法。

至于他有没有听从我的意见,我就不知道了,不过,几年前我建议我的一些朋友这样做,效果还是不错的。

至于为什么?我可以说一下。

可从以下内容发现触发机理

中文计算机系统已经具有“键盘记录(keylogging)”的功能。这项技术的引入并非基于恶意(其实是很高明的技术),但它却在理论上让实时监控中国的电脑用户成为可能,譬如用户在使用Microsoft Word、NotePad、TextEdit等看似不联网的文档程序时就有可能受到监控。当前媒体技术的发展趋势强烈地预示着这种漏洞很快便会从中国传播出去,并成为一种新常态。

要探究起因为何,人们首先需要了解键盘记录器和中文的计算机系统,以及两者是如何结合在一起的。

键盘记录器是一种程序,也可以是安装在计算机上的一种实体装置,它收集用户敲击的每一个键的数据。键盘记录器经常被恶意使用,比如盗取信用卡信息、密码或个人数据,同时也长期运用于政府监控中。1999年有一件里程碑式的案子,联邦调查局探员首次使用键盘记录装置侵入了黑手党大佬小尼基(Nicodemo Salvatore Scarfo, Jr)的电脑,获取他的密码。

在键盘记录器这种间谍工具的发展早期,主要的挑战并非来自键盘记录装置的制作,而在于它的安装。在小斯卡夫一案中,联邦调查局不得不用老掉牙的特务手段,两次闯入这位老大的办公室,第一次是安装键盘记录装置,第二次是取回它。

随着恶意软件的扩散,安装键盘记录器变得更加简单,不过要利用键盘记录器实施间谍活动暂时还没有那么容易。2015年,伊利诺伊大学香槟分校的研究人员研究发现,可以利用智能手表自带的加速计和陀螺仪数据,把手表改装成一种不太完美的键盘记录器。根据相关理论,只要能确定用户的手如何划过键盘表面,就能推算出用户敲了哪几个键。

中文计算机系统上存在一种同样“聪明”,且远为优越的办法,能够精确推算出用户在键盘上输入了什么。要窃取中文计算机上的信息,你只需要获取键盘记录器的管理权限,而且这个国家每台个人电脑和电子设备本身就自带“键盘记录器”——事实上,全世界的个人电脑和电子设备也都自带这种“键盘记录器”。

中文计算机系统是如何工作的?

中国的计算机和美国完全一样,都用标准全键盘(QWERTY keyboard,又称柯蒂键盘)。无论你是在北京哪一栋新落成的写字楼观察,都会发现一批饱含创业激情的千禧一代正在键盘上辛勤地工作,满怀希望地准备与风投资本家会晤。

但是,中国的全键盘并不是看上去的那样简单。在中文计算机系统中,全键盘的用法并非“打什么字就出什么字”。键盘的输入只是在输入法(IME)软件里提供指令的手段 ,确定接下来显示在屏幕上的汉字。

思考一下人们会如何使用全键盘输入有关“诚信”、“舆论导向”以及“数据隐私”等中文词语吧。

要打出由两个汉字组成的“诚信”,四个汉字组成的“舆论导向”或“数据隐私”,业内领先的搜狗输入法会为用户提供多种输入策略。人们可以输入完整的汉语拼音(比如,“c-h-e-n-g-x-i-n”, “y-u-l-u-n-d-a-o-x-i-a-n-g”等等),也可以采用多种快捷键和缩略词(比如“c-x” and “y-l-d-x”),搜狗输入法会足够智能地提供一组选项。比如输入“c-x”,搜狗的弹出式菜单除了会提供“诚信”,同时还并列显示其他也以“c”和“x”开头的中文词语,如“抄袭”。又比如输入“y-l-d-x”,搜狗会弹出“舆论导向”,以及“耶鲁大学”等其他选项。这些呈现出的选项如此简单明了, 足够用户从“抄袭”等词中选中“诚信”。

鉴于输入法是这样的运行方式,计算上的所有中文输入都是某种形式的本地通讯。当然,如果一个人在中国编辑word文档,输入的信息不会发给第三方,而是返还给用户本身。Word编辑者把字母代码传到输入法,输入法处理代码并以汉字形式将信息传回给用户。

云输入

从麻省理工的工程学教授塞缪尔·考德威尔(Samuel Caldwell)发明首台试验性中文计算机至今,60多年来中文计算机系统都主要依靠这种输入方式。事实上,计算机诞生之前便存在中文输入,甚至考德威尔的灵感也来自于知名作家、语言学家林语堂在20世纪40年代发明的明快(MingKwai )中文机械打字机。自林和考德威尔之后,每一代中文计算机科学家和工程师都把中文输入作为设计的核心考量。

特别是从2000年开始,中文计算机系统利用个人电脑不断增强的处理能力让汉字输入过程疯狂加速,同时汉字输入愈发智能,愈发依赖预测文本,自动补齐,快捷键和缩略词。因此,比起英文字母键盘那种“打什么字出什么字”,中国的全键盘变得更加“聪明”。所有这些或许都让中文成为地球上电脑输入最快的语言。

近几年发生了影响深远的变化:云输入法出现了。上世纪80年代到21世纪初的输入法,输入的全过程都发生在电脑内部,而搜狗、百度、腾讯、微软等推出的云输入系统开始使用巨大的中文语料库和复杂的自然语言处理算法。2013年,微软的研究者把自家中文输入法不断完善的性能当做卖点;而搜狗在其官网上吹嘘其基于云技术的输入法具有更加卓越的准确率和性能。“长句识别”是指输入法将具有一定长度和复杂性的字母精确地转化为多字符中文的能力。搜狗称,依赖本地语料库的传统输入法的长句识别准确率为62.5%,如今云输入法已经将准确率提高到了84%,同时“短句识别”的准确率也从91.52%提高到了96%。

安全问题

或许很多人已经注意到了云输入法速度和准确性的提高,但很少有人指出这种系统可能会引发数据安全问题。如果说输入法本质上就是一种键盘记录器,那云输入法就是联网的键盘记录器。在云输入法中,每在标准键盘上按一个键,都相当于是按了“发送”、“上传”和“转发”。

随着数以亿计的按键在光纤中来回输送,近年来人们开始担心这种输入方式容易受到监控。另外,英文计算机一般仅仅是在浏览网页时由谷歌提供搜索候选(译者注:根据用户输入提供用户可能需要搜索的关键词),而在中国,搜索候选功能已经成为了所有输入法的核心部分。

当然,有些人也许会问,能否使用其他人的电脑来避开这种云输入法带来的监控。毕竟如果没有确定的身份标识,一定无法判断内容的输入者究竟是谁。但事实或许不是这样。

作为斯坦福大学的空间与文本分析中心(CESTA)数字人文亚洲项目中的一项研究,我和我的团队一直在分析键盘的输入记录,试图理解在键盘输入中的各种逻辑和策略。

尽管研究还未结束,但我们已经发现不同用户的键盘记录之间有惊人的差异。而且每个用户都有属于自己的且彼此间区别明显的中文输入方法。虽然我们仍处在研究的初期,但我们的发现对安全和隐私问题会带来的影响已经十分深远。

在个人电脑出现之前,对打字机和打字机打出的文本进行科学鉴定是国内外监视的重要部分。由于打字机制式的不同,打字机打出的文本存在细微的差异。就连不同牌子的打字机色带也会在文件上留下略有不同的“标记”。在美国和前共产主义阵营国家(译者注:Communist bloc或Soviet bloc指和前苏联站在一起的一系列国家,不仅限于中欧和东欧的国家)中,监视部门就利用这些微妙的差异来分析来源不明的文件可能的出处和作者。(要想了解这种分析方法,读者可以去观看2006年电影《窃听风暴》。)

我们的初步研究显示,通过计算机输入法输入的文本也有自己的标记,所以“输入法鉴定”是完全可能的。在斯坦福大学,我们邀请研究样本使用自己偏爱的输入法,输入唐代诗人王维(公元前701-公元前761)所做的古诗《送别》。我们的发现很惊人——就连在前两句诗、短短的十个字中,键盘记录下不同样本的习惯也存在差异。

下马饮君酒,问君何所之?

输入键盘记录,样本#1:xiama_yinjunjiu_,wen_jun_hesuozhi2?

输入键盘记录,样本#2:xiamayinjunjiu2,wenjunhesuozhi2?

注释:下划线是用户按下空格键的地方,这意味着用户选择了搜狗输入法选字框中的第一个字。数字2代表用户选择了搜狗输入法选字菜单中的第二个字。

我们在示例1中可以看到,有些人每次只输入一个字的拼音,他们输入“w-e-n”,然后使用空格键(_)选择想要的字。另外的人在面对包含多个汉字的文本时,会选择输入更多的字母(比如“x-i-a-m-a-y-i-n-j-u-n-j-i-u”),这类人对输入法联想能力的依赖度更高。

另外,随着文本长度的增加,不同电脑用户之间存在的差异会更大。这意味着,当我们把一个人每年成千上万(甚至上百万)次的按键结合在一起,就能总结出那个人独有的“指纹”——这种“指纹”的有效性和打字机时代最先进的识别技术不相上下。把输入法指纹和定位数据、网页缓存数据和其他数据获取方法进行交叉比对时,我们发现输入法指纹甚至更胜一筹。

在云输入法的时代,电脑用户仅仅通过更换电脑来躲避监控是不够的,因为其输入指纹有可能会如影随形挥之不去。在愤怒时发过邮件或者喝醉时发过短信的人都知道,编辑时的信息和最终发送出去的信息可谓是天差地别。但如果这种不同完全消失呢?如果你的每一个Word文档,包括没有保存的那些以及整个编辑过程都能被拦截呢?如果你删除掉的每段话,修改过的每个短语,做过的每个改动和最终保存的文件都被一视同仁地保存在了监控世界中呢?这些你以为已经删除掉、但其实被保存下来的信息,有一天是否会被用来针对你?

菲利普·狄克(Philip K. Dick)在他1956年的作品《少数派报告》(The Minority Report)中,提出了让人胆寒的“犯罪预防”(precrime)概念,意指在事先即察觉(甚至起诉)犯罪行为。云输入法的出现提出了一个问题:Wei Jingsheng被监禁的原因主要是因为他1978年攥写的文章The Fifth Modernization;Liu Xiaobo被监禁的原因,部分是因为他与人合著了Charter 08;在未来,异见者在用电脑进行创作时,是否会像恐怖分子一样,还未来得及行动就被察觉?

另外,上述猜测不局限于中文输入或中文中。可以说,全球的IT公司和用户像中国一样开始利用智能键盘提供的便捷只是时间问题。

当我准备按下“发送”按钮,将带着一个docx附件的电邮发给我的编辑时,我已经完全意识到,我写下的每一句话很可能已经被政府和私企的相关方拦截读取。

相关新闻

以下伯衡君只择取了一部分大量中国产输入法爆出的问题的标题,全文可以根据新闻内容来搜索:

  • 百度手机输入法被发现会调用录音功能
  • 百度回应输入法输入“没钱”会跳出借贷广告
  • 日本政府呼吁停用百度日语输入法
  • 搜狗输入法收集用户隐私信息,未屏蔽爬虫
  • 隐私泄露防不胜防!多款输入法被指收集用户上传内容
  • 搜狗输入法被指泄露隐私与必应互指错在对方

以上只是各种负面新闻的冰山一角,有兴趣的朋友可以去搜索一番,看完后你会触目惊心。

解决方法

防止出现这种现象的方法,就是使用一个对于自己不会产生直接利益冲突的输入法,那么可以这样选择:

  • Google输入:支持Android, iOS, Windows客户端
  • 苹果手机,平板,电脑自带的中文输入法
  • Windows10自带输入法

未来,最有价值的就是隐私,请一定要保护好自己的隐私。

而且在中国大陆,你输入的敏感词,会被送到一个叫做国保的人眼前,为了奖励你,没准会请你“喝茶”哦。

分享至:
  • 我的微信
  • 微信扫一扫加好友
  • weinxin
  • 我的微信公众号
  • 扫描关注公众号
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: