编程随想的博客: 如何保护隐私[6]：如何防范“浏览器指纹”？

2014年1月22日

如何保护隐私[6]：如何防范“浏览器指纹”？

　　前一篇介绍了“浏览器指纹的基本概念”今天这篇分享一些防范的技巧。

★防范“指纹”的一般性原则？

　　不管是哪一种特征，要想成为“指纹”至少要具备两个条件：“唯一性”和“稳定性”。比如人类手指的纹路就同时具有“唯一性”和“稳定性”——任意两个人的纹路都不同，而且每个人的纹路终生不变。所以，要对付“指纹识别”，咱们就必须反其道而行——破坏“唯一性”和“稳定性”。对浏览器而言，做到这两点并不难。且听俺细细道来。

★“浏览器指纹”的构成及信息量

　　前一篇博文已经给大伙儿介绍了 EFF 的浏览器指纹测试工具（链接在“这里”）。通过这个工具可以明显看出，User Agent 的信息量最大，至少占据一半以上的信息量。换句话说，其它所有特征的信息量加起来都没有 User Agent 大。而且除了 User Agent，其它特征的信息量都比较小。这说明啥捏？
　　请大伙儿换位思考一下：如果某个网站想要利用浏览器指纹进行用户身份定位，User Agent 是必不可少的一项。缺少这一项，定位的精度会大打折扣。所以，User Agent 是浏览器指纹的关键性信息。
　　俺已经在博客中多次唠叨了“二八原理”，浏览器指纹中的 User Agent 就是这关键性的“20%”。有鉴于此，本文的主要篇幅谈【User Agent】；聊完它之后，再聊另外几种指纹机制及防范。

★如何消除【User Agent】的指纹

◇利用浏览器内置的防范措施

　　先来聊最简单的招数——使用浏览器内置防御措施。
　　要想用这招，首先要判断你使用的浏览器，是否内置了“伪装 User Agent”的功能。
　　由于浏览器有很多种，以下介绍用 Firefox 来举例。

　　Firefox 从版本 59 开始，引入 RFP 功能（这是洋文“Resistance Fingerprinting”的缩写）。如果启用了该功能，Firefox 默认就会伪装 User Agent 的信息——把真实的 User Agent 伪装成某个常见的 User Agent。

　　本方案的优点
　　“易用性”很好——你只需开启这个功能，Firefox 自动就帮你伪装好了。

　　本方案的缺点
　　主要缺点是“不够彻底”——由于 Firefox 使用某个固定且常见的“User Agent 值”进行伪装。因此，目标网站依然【有可能】判断出你在使用 Firefox。仅仅知道你在使用 Firefox，这个信息量【很小】。因此，这个缺点不严重。

◇“多浏览器”方案

　　这个方案最简单，也最容易想到。一看这个小标题，估计大部分读者都猜到俺想喷啥口水。
　　如果你同时具有两个不同的浏览器（比如：一个 Firefox 一个 Chrome），那么这两个浏览器必然具有不同的 User Agent。如果某个网站收集了浏览器指纹，而你又想在这个网站注册两个不同的马甲，那么你就可以用“多浏览器方案”——分别用不同的浏览器注册不同的马甲。

　　本方案的优点
　　操作很简单，会装浏览器的同学都玩。

　　本方案的缺点
　　浏览器的种类毕竟有限（知名且靠谱的浏览器，一只手都能数过来）。万一你想注册十多个马甲，用这个方案就显得傻逼了。

◇“多实例”方案

　　为了解决“多浏览器方案”的局限性，自然会想到“多实例”这个方案。此招数俺曾经在《如何防止黑客入侵》系列博文中介绍过。
　　在主流的三大浏览器中，Firefox 和 Chrome 支持“多实例”，IE 不支持。所以那些喜欢 IE 的同学就没法用这招了。
　　关于 Firefox 和 Chrome 如何配置多实例，请看俺之前的博文（这里）。对于用 Chrome 的同学，俺再次罗嗦一下：Chrome 同时提供“多实例”（洋文叫“Multiple Profiles”）和“多用户”（洋文叫“Multiple Accounts”）两种功能，这两者是完全不同滴。它的“多用户”依然在同一个“实例”中。
　　配置完“多实例”之后，一定要记得修改每一个实例的 User Agent，并确保【两两不同】。至于如何修改 User Agent 请参见“这篇博文”——里面提供了三大主流浏览器的修改方法。

　　本方案的优点
　　浏览器的实例可以配置任意多个（只要你有耐心，硬盘够大，配几百几千都可以）。

　　本方案的缺点
　　某些浏览器（比如 IE）不支持多实例。

◇“多虚拟机”方案

　　要对付 User Agent 的指纹，前面两招基本够用了。但某些同学可能有特殊需求，或者安全要求比较高，所以俺顺便介绍第三种方法。
　　第三种方法就是利用虚拟机软件安装不同的虚拟系统，然后在每个虚拟系统中安装浏览器。没用过虚拟化软件的同学，先看俺之前的扫盲教程（在“这里”）。再次罗嗦：如果你在不同的虚拟机中安装相同的浏览器，要记得修改【每个】虚拟机中浏览器的 User Agent。

　　本方案的优点
　　优点1：前面说了，某些浏览器不支持多实例。万一你偏偏喜欢这种浏览器，就可以考虑用“多虚拟机”的方案。
　　优点2：因为屏幕分辨率、系统时区也都是指纹特征。所以在虚拟系统中，你还可以调整屏幕分辨率和时区（使之不同于你真实系统的分辨率和时区）。

　　本方案的缺点
　　缺点1：你需要额外安装虚拟化软件，然后再安装虚拟系统。过程稍嫌繁琐。对技术菜鸟也有难度。
　　缺点2：对系统的硬件有一定的要求（如果你的电脑硬件太寒酸，就甭考虑这招啦）。

◇“动态 User Agent”方案

　　（现在来聊最高级，也最难的方案）
　　善于思考的同学会发现：前面三个招数，其本质是相通滴。说白了都是利用技术手段“隔离”出不同的浏览器环境，然后单独修改每个环境的指纹，以此来伪造出多个身份。但是对于每一个具体的环境，其指纹依然是固定的。换句话说，前面那三个招数都是针对指纹的【唯一性】。下面俺要介绍的招数可以用来破坏指纹的【稳定性】。
　　前面说了，浏览器指纹的信息量，至少有一半以上是来自于 User Agent。所以要破坏浏览器指纹的稳定性，只要让浏览器的 User Agent 动态变化即可。下面分别说明技术思路（以下的招数适合于有一定折腾能力的同学，需要用到一点点编写脚本的伎俩）。

　　如何获取常见的 User Agent
　　要构造随机的 User Agent ，其实也不难。到“这个网站”可以看到各种各样浏览器的 User Agent。你可以收集一大堆预存着，然后每次从中随机挑选一条作为你的伪装。为了做到每次随机挑选并设置，你可以写一个脚本来干这事儿，然后顺便让这个脚本来帮你启动浏览器。
　　再唠叨一下：挑选 User Agent 是有讲究滴，要尽量选择那些比较常见的 User Agent——越常见的 User Agent 所包含的信息量越小。

　　对 Firefox 的定制
　　三大浏览器中，最有利于隐私保护的是 Firefox（具体的原因分析请看本系列前面的博文），所以先说它的技术实现。

　　通过修改 user.js 文件，可以手工指定 Firefox 使用的 User Agent。具体做法是：往 user.js 添加一个配置项，其“名称”是 general.useragent.override，其“值”就是“伪装的 User Agent”。
　　如何修改 user.js，请参见博文：《扫盲 Firefox 定制——从“user.js”到“omni.ja”》

　　上述做法只能达到【静态】效果——你伪装了 User Agent 之后，它就一直保持你设定的值。
　　要想做到【动态】的效果，就需要用到【脚本】来自动修改 user.js 文件里面关于 general.useragent.override 的那行代码，每次修改都使用某个【随机选定】的 User Agent。修改完 user.js 之后再把 Firefox 启动起来。
　　对于 Windows 下的 Firefox，可以用 VBScript 或 JScript 或 PowerShell 这三种系统内置的脚本；对于 Linux 或苹果系统，可以尝试各种 shell 脚本。
　　某些爱思考的同学可能会问，为啥不直接在 user.js 文件里面用 javascript 代码进行 User Agent 的随机生成。
　　俺也曾经企图这么干，可惜不行！因为 user.js 中对函数 user_pref 的调用，两个参数都必须是【常量】；而且， user.js 中除了调用该函数，不允许再出现其它的代码行。

　　对 Chrome 的定制
　　对于 Chrome，可以在命令行参数指定其 User Agent，具体请参见“这篇博文”。
　　所以，你可以自己写一个脚本，专门用来启动 Chrome。每次启动都传递一个随机的 User Agent 作为命令行参数。
　　对于 Windows 下的 Chrome，可以用 VBScript 或 JScript 或 PowerShell 这三种系统内置的脚本；对于 Linux 或苹果系统，可以尝试各种 shell 脚本。

　　对 IE 的定制
　　对于 IE 的 User Agent，需要修改注册表的键值（HKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\Internet Settings\User Agent）。所以捏，可以通过事先写好的脚本（VBScript 或 JScript 或 PowerShell）往相应的注册表键值中写入随机的User Agent，然后再由这个脚本启动 IE。

◇补充说明

　　（本文发出之后，看到某些读者留言，特地补充这个小节）
　　对于“动态 UserAgent 方案”，很多读者在问：为啥不直接给出代码？
　　俺提醒一下：【授人以鱼不如授人以渔】是本博客长期奉行的原则。所以在技术方面，俺更愿意分享一些思路，尽量避免直接给出现成的东西。自己动手实践，有助于能力的提升而且印象更深刻。
　　如果你是个程序猿/程序媛，写这样一个脚本应该是易如反掌滴；如果你不是搞技术的，顺便学一下简易的脚本编程（其实很容易滴）。不会编程的同学，俺建议从 Python 开始入手，功能强且门槛低，具体请参见《为啥俺推荐 Python》系列博文。

★如何消除【屏幕分辨率】的指纹

◇“屏幕分辨率”的信息量

　　对于【不】使用虚拟机的普通网友，其屏幕分辨率也就是【常见】的那几种（大概在20种以内）——这种情况下，“屏幕分辨率”暴露出的信息量【很低】，不要紧。
　　但如果你使用“操作系统虚拟机”，就需要留意“屏幕分辨率的问题”。
　　当你在 Guest OS 中上网，并且你【没有】使用全屏模式，那么 Guest OS 的分辨率可能会是一个很奇怪的分辨率（因为独特性很高，会包含【很多】的“指纹信息量”）。所以，俺建议那些用虚拟系统上网的同学，采用如下几个措施：

◇如何防范

　　措施1：每个 VM 都采用“全屏模式”
　　这个方案针对的是——【普通】的隐私需求。
　　VM 全都采用【全屏】，虽然每个 VM 的分辨率相同。但至少这个分辨率是某个【常见】的分辨率，因此【信息量很低】。

　　措施2：对每个 VM 都采用某个常见的分辨率（【非】全屏），且每个 VM 的分辨率【各不相同】
　　这个方案针对的是——【特别高】的隐私需求。
　　由于每个 VM 的分辨率各不相同，假设网站收集了分辨率作为指纹，不同 VM 的上网身份，会被识别为【不同身份】。

★如何消除【Canvas】的指纹

◇“Canvas”是啥玩意儿？

　　在本文发布约半年后，有读者在博客留言中询问了“基于 HTML5 的 Canvas 语法进行指纹追踪”。所以俺单独补充了这个章节。
　　所谓的“Canvas 指纹”，依赖的是 HTML5 新增的 Canvas 语法。利用这个 Canvas 语法可以实现一些绘图的功能。由于不同类型的浏览器使用了不同的绘图引擎；并且同一种浏览器在不同操作系统平台上，绘图引擎的特性也会有细微的差别。因此，“Canvas 的功能特性”会成为某种指纹信息。

◇如何防范

　　Canvas 的绘图功能要依赖于 JS 脚本。因此，只需“禁用 JS 脚本”就可以让“Canvas 指纹”失效。
　　俺的建议是：使用一些安全扩展（比如 NoScript），对你不信任的网站禁用 JS 脚本。另外，电子前哨基金会（EFF）提供的“Privacy Badger 扩展”，也可以屏蔽“Canvas 指纹”。
　　要测试自己的浏览器是否存在“Canvas 指纹”，请猛击“这个链接”。
　　对于 Firefox 浏览器，从版本 59 开始，已经引入 RFP（洋文“Resistance Fingerprinting”的缩写），默认就会限制 Canvas 指纹。
　　退一步讲，就算你无法屏蔽“Canvas 指纹”，也不用怕。在本文开头提到了“防范指纹的一般性原则”，其中之一是【破坏唯一性】。前面章节介绍了几个招数，用来破坏“User Agent 的唯一性”。这些招数也可以用来破坏“Canvas 的唯一性”。
　　提醒一下：单纯用“多实例”的招数无法破坏“Canvas 指纹”的唯一性。因为在“多实例”的情况下，每个实例共享【同一个】浏览器引擎。所以你必须采用“多浏览器”或者“多虚拟机”的方式。

★补充说明： EFF 的浏览器指纹测试

　　前一篇博文介绍了 EFF 的浏览器指纹测试工具，估计很多同学都去测试了。其实捏，不必太在意具体每一项的“比特数”。大伙儿只需要关注其“定性”而不必太在意其“定量”。因为 EFF 网站目前收集的样本还不够多（只有几百万），所以其分析出的信息量（相比全球的统计数据）会有所偏差。
　　另外，很多人测试下来的总信息量是 21.85 bits，这是因为 EFF 的总样本目前只有 370万左右（370万约等于“2的21.85次方”）。所以比特数到 21.85 就封顶了。

回到本系列的目录

148 条评论:

匿名2014年1月22日 13:58:00
这个和《如何防止黑客入侵》好像已经重复了
回复删除
回复
匿名2014年1月22日 14:00:00
看了你的博文就想学派森，只是到现在还没开始。。。
回复删除
回复
匿名2014年1月22日 14:01:00
今天中午发文，不符合一贯半夜发文的习惯。
回复删除
回复
匿名2014年1月22日 15:09:00
估计楼主是半夜写好的，辛苦了！前排围观！
回复删除
回复
匿名2014年1月22日 15:21:00
to 楼主：问题是系统字体那一项比特数最高，怎么防？
回复删除
回复
匿名2014年1月22日 15:26:00
to 楼主：月底就快要到了，你的那篇关于用电脑内部硬盘安装系统的通用方法的博文开始写了没有？
回复删除
回复
匿名2014年1月22日 16:19:00
直接挂一层Privoxy代理不就好了吗。
回复删除
回复
匿名2014年1月22日 21:01:00
不知博主的编程学到什么程度了，是一直在python还是已经到c/c++语言上了？有没有兴趣转向移动开发呢（例如做个具有穿墙能力的“编程随想”android app，免了繁琐设置安装好就可以看了）
回复删除
回复
匿名2014年1月22日 23:39:00
关于〈---如何防止黑客入侵[6]：Web相关的防范 (中)---〉多操作系统用户，《windows7安全指南》这本书有详细的介绍，另外关于各个用户和用户组权限的介绍也很详细。大伙儿可以看看这本书，至少我看完后，安全意识提升了不少，里面介绍的链接的四种方式：目录链接，快捷方式，符号链接，硬链接。对我来说还是蛮有用的，可以来回跳跃。另外还有软件限制策略，应用程序控制策略（PS：xp无此项功能），特别是应用程序控制策略，可以根据软件的元数据限制软件行为。比如360软件，即使证书换了，也可以根据文件-属性-详细说明里面的项目来限制软件行为。另外防火墙的功能也不要忽视啊。我喜欢使用系统内存在的功能。
回复删除
回复
瘦肉丝2014年1月23日 04:53:00
EFF测试工具的链接指向其wiki了。
回复删除
回复
孤独艾滋姑娘2014年1月23日 06:25:00
楼主哥哥你好关注你的博客很久了只是一直没有评论今天突然悲从中来
我就在几个月前刚被确诊为HIV阳性成了一名艾滋病病人我还很年轻才20多岁疾控中心说我坚持使用抗病毒药物可以活个几年不知道是不是真的
我感觉疾控都是培训好的说辞主要是为了维稳怕患者报复社会你说是吗？到底艾滋病的真相是什么呢？

中国现在没有好的药物药物又贵艾滋病人也没有补贴我收入也不高家境也不好不知道还能维持多久主要还是国家关心艾滋病群体关心的不够！我感觉艾滋病最大的问题就是钱的问题如果那些贪官的钱拿出一小部分就不成问题了

楼主可以给我这样的艾滋病人指条明路吗？我们这个群体该怎样才能获得党国更多的关注和拨款还有社会支持呢？

我真的不想像一些堕落的人那样去恶意传染无辜的人可如果感染的人不多我们这些艾滋病人是不是没人重视只能等死了？
我自问从来没吸毒没做恶没做过什么亏心事一辈子本本分分这病可能是前男友传给我的我真的很冤枉

楼主哥哥我是个没主见的女孩子现在我真的很绝望不知道楼主能不能给我们艾滋病患者一些指示难道我们这些艾滋病人只能通过“煽颠 ”一类的行为才能引起党国重视吗？

我一个人真的很害怕很害怕而且中国现在不能安乐死请问楼主我们艾滋病人怎样才能争取到安乐死的权利呢？实在不想发病时痛苦地死去

不知道有多少人能感同身受我的处境我一个姑娘一个人真的很怕很怕怕孤独怕一个人凄惨的死去平时夜深人静一个人翻翻墙看看新闻看楼主的博客楼主的博客早已经成为我生活的一部分今天第一次评论就这么沉重实在是我不知自己还能支撑多久给父母打电话时爸妈伤心的哭了我从没听过父母那么绝望的哭声他们年纪大了我更是不忍心拖累他们写到这里我已经泣不成声自己这病更是不敢再告诉其他人生怕被疏离被排挤谁不希望和乐观的人在一起而我这样阴郁的人只能让别人更加烦闷大概躲我都来不及呢自己连个说知心话的人都没有因为没患病的人可能无法理解死神靠近之时的恐惧和绝望现在中国的大环境人人都自顾不暇生存艰难谁还有心情理会我这种人的死活呢想必平时来这里的人平时也都会因为天朝各种事不顺心会愤怒之前我也这样好怀念那些愤怒的日子可现在我已经愤怒不起来了

不知道楼主哥哥平时生活中是不是一个坚强乐观的人呢？不知道如果想和楼主哥哥交哥朋友的话楼主会不会嫌弃我浑身散发着腐烂的气息呢？会不会嫌弃我没用呢？很想知道楼主哥哥夜深人静的时候是否会失落是否偷偷哭过？楼主哥哥遇到挫折是如何面对的呢？

最后给楼主哥哥一些小小建议可以吗？就是哥哥一定要保重身体平时多吃有利于健康的食物不碰烟酒尤其不要熬夜好吗熬夜是免疫力杀手好好休息不要过劳好吗
希望楼主哥哥能好好的我怕我是活不到党国崩溃的那一天了可是我不甘心我染上这病也和穷有关系因为穷才想着找个有钱点的男友帮助我上学的学费可天有不测风云如果不是党国执政中国不会那么穷我的日子也不会那么苦很多人的生活质量和命运都会不一样如果不是穷就算染上这病了也不担心没钱看病治疗党国根本不管我们这些艾滋病人前些日子习近平夫人彭丽媛的一系列关心艾滋病儿童的公益也感觉是作秀而已国家要真有心随便拨点经费艾滋病就能攻克了以我国的科研实力绝对能做到的那点钱和他们贪污的钱比起来简直是小巫见大巫所以我死前看不到党国崩溃也希望死后共党倒台因为中国这几千万的艾滋病人之所以染病和得不到治疗共产党是罪魁祸首！！！！！！！！！！！！！我真的好恨可又无能为力只有期待楼主哥哥身体好好的不要像我一样病怏怏的

因为楼主哥哥在我眼里一直是以救世主的形象出现的像是茫茫漆黑宇宙中的光亮燃烧着自己（希望你不要觉得夸张是真心话）一直很崇拜你我知道党国是信不过也靠不住的我自己又缺乏辨识能力和主见现在只求楼主哥哥给我指条明路了如果沦陷区居民哥哥能看到也很想听听你的意见你们都一直是我的偶像很多个夜晚我都是看着你们的文章和评论度过的
回复删除
回复
匿名2014年1月23日 11:39:00
似乎在这问不合适，不知道楼主对十年文革什么定义，是政治清洗？革命运动？一直很模糊，维基百科的评论也不那么清晰，想听听楼主的看法
回复删除
回复
感冒了。。。2014年1月23日 12:35:00
我有点晕啊！用多重代理还要考虑浏览器指纹的问题么？
回复删除
回复
恩恩恩2014年1月23日 13:11:00

代理是隐藏公网IP的，不能隐藏浏览器指纹么？
回复删除
回复
匿名2014年1月23日 13:26:00
留言被吞了，请恢复。
回复删除
回复
月荣2014年1月23日 18:01:00
祝愿编程兄春节愉快！
回复删除
回复
Atry2014年1月23日 19:48:00
我有三项都是21.86+，普通的办法不大可能消除这些指纹。
* Browser Plugin Details
* HTTP_ACCEPT Headers
* System Fonts

所以我这个账号就是实名账号，也不用费心隐藏了。如果要干坏事，还是得用Tor Browser。
回复删除
回复
匿名2014年1月26日 23:27:00
我检测了自己的浏览器指纹，goagent的id都在里面，这个很容易定位。更改 UserAgent 名称照样出现。
用户能够完全定制自己指纹内容麼
回复删除
回复
匿名2014年1月28日 19:35:00
有没有哪个书是介绍中共杀人历史的，要详细专攻的。要有电子版的书...
回复删除
回复
GlacJAY2014年2月18日 12:33:00
我分数最高的是插件项嘿
回复删除
回复
匿名2014年2月27日 17:03:00
xiugai tor chajian xinxi
回复删除
回复
匿名2014年2月27日 17:06:00
最好能有个软件修改插件名称，版本号，个数，分辨率
回复删除
回复
匿名2014年3月2日 16:59:00
突然想到法轮功整机隔离，普通浏览器暴露的不仅是时区，而且还有时间（好像和主机系统相同的时间），系统类型，假设机器的时间和真实情况有差别，而时区又有差别，会不会成为指纹？
回复删除
回复
匿名2014年8月26日 23:17:00
请问编程君的博客会收集哪些浏览器指纹信息？如果有的话，有哪些？您看得到吗？

再请问如何避免javascript和HTTP_ACCEPT Headers产生的指纹信息量？经实验，我发现我的HTTP_ACCEPT Headers的信息量有19bit，超过user agent的11bit。开启js后发现Browser Plugin Details也产生了很大的信息量。能否禁止javascript访问Browser Plugin Details？有不少网站没有javascript就无法正常工作，而开启js的话很可能产生大量指纹。

再推荐个和“信息指纹”和“匿名”有关的网站：http://33bits.org/
里面的两篇文章：
数码相机的指纹和图片来源鉴定（上传敏感图片的朋友们要注意了！）http://33bits.org/2011/09/19/digital-camera-fingerprinting/
说话方式的指纹：http://33bits.org/2012/02/20/is-writing-style-sufficient-to-deanonymize-material-posted-online/
希望编程大牛能抽时间看看，也算是多一点防范吧。好像没在您的博客上看到图片，所以我猜想是无法通过找到出自您的照相机的图片来确定您的身份的，不过说话方式的指纹很可能成为有关部门的突破口！毕竟每个人都会在网上说很多话。

祝平安！
回复删除
回复
匿名2014年8月27日 08:16:00
发帖时间也是重要的指纹信息。

例如：假设编程随想在2014年8月27日12时34分56秒发表了一篇博文或一条评论（还不包括恢复被误删除评论等等会被看出来的操作），在12时34分56秒±3秒的时间段内：
A正在qq/微信上打字
B正在浏览百度贴吧
C正在被刑事拘留
D正在坐飞机
E正在网游中奋战
F正在打电话
G在公交车上刷了一次卡
H正在某个公安局布置的摄像机下睡大觉
I正在某个口岸过境
J在ATM取了1500元钱

那么可以推断出，ABCDEFGHIJ都不太可能在同一时间发帖，所以不太可能是编程随想。如此不断地排除每个在编程随想发帖时不在场的人，就可以取得更多的信息。

现在中共虽然腐败，筑墙的钱都贪污走了，但是也说不定哪一天会突然变本加厉地采用先进的大数据等技术。就以上面的一些不在场信息来说，政府都是比较有可能获取的，就有可能更进一步的筛选。

下面我瞎掰一些数据来算下：

中国网民假设为6亿人，
假设每个中国网民平均每天有8分钟（占1天的1/180）被认为“有不在场证明”——这个数据波动比较大，如果你坐飞机，可能一小时以上都不能发帖；而对于一些对监控系统接触很少的“幽灵”来说，十天半个月也不一定有不在场证明。不过以编程随想的思想水平，是这一类“幽灵”的可能性很小。可以大胆的估计，编程随想平均每天打电话的时间和“有不在场证明”的时间在3分钟以上。
假设编程随想（或者某个水王）每次发帖的时候都不是在自己被认为“有不在场证明”的时间，
那么编程随想每次发帖时，都会有1/180的可能是编程随想的人被认为“有不在场证明”被排除掉。

通过指数计算(179/180)^n可以得出：
假如编程随想发了2000个贴子，那么可以排除到剩下8694人
假如编程随想发了3000个贴子，那么可以排除到剩下33.09人
假如编程随想发了3600个以上的贴子，那么恭喜！基本上可以排除到只剩1个编程随想本尊了。当然这只是仅用这一种方法的结果，如果配合其他的线索来筛选，可能需要的发帖量还更少。

当然，以前建立这类不在场证明的大数据库的技术条件还不成熟，所以从比较早的发帖时间中，可以得到的信息量相对较少。

不知道编程随想名下的有发帖时间的贴子有多少？是否已经上千了？

解决这个问题其实很容易：只要先写好贴子，再设法在你被认为“有不在场证明”的时候发布，这样上面的这种方法就无效了。

大数据、监控设施和人工智能的进步可能是隐私的威胁，为政府的监控提供条件，甚至促进政治的高压化。我希望编程随想能活到更光明的那一天，而不是被更高压的恐怖统治和更先进的技术压倒！
回复删除
回复
匿名2014年8月29日 11:07:00
谢谢回复。

编程随想的发帖时间选得比较好。不过我这几天又继续思考了一下这方法的可行性。

先说你说到的上班族（可能博主也是其中一员），我觉得其中的信息量还是比较多的。首先是某些工作岗位没有在工作时间长时间发帖的条件。例如流水线工人、厨师、服务员、保安、司机、快递员等。如果能获取各种企业的员工和岗位信息，就可以排除大量在发帖时段内正在工作岗位上的这些人。比较可能难以分辨的是办公室白领，但是这些人也会产生很多信息：不少人（我猜想>20%）会在上班时间使用qq/微信交流；有些人会休假、或者是公司的需要出去办事而不是呆在办公室里，产生的信息量就会大大增加；在周末，行动的自由度更多了，也会产生很多的信息。

当然，不是只有确定的条件才能排除。例如，一边打电话一边发帖是有可能的，但是在“打电话”发生的情况下时发帖的概率会小于在一般情况下发帖的概率。如果打电话和发帖的次数很多，打电话的时间和发帖的时间就会出现比较明显的关系。与发帖人不相干的人，可能在发帖时间内正在打电话的次数会比较多一点点。
同理，也有人可能在飞机上上网，这个情况的概率应该小于一边打电话一边发帖的可能。也就是说坐飞机比打电话产生的信息量大。
这种概率上的关联还可以延续一段时间。例如你在ATM取款拿出钱的这一瞬间，你在网上发帖的概率最小，过了10秒以后，可能手快的人已经把手机拿出来了，发帖的概率比之前大一些，但是发帖的概率还没有恢复到一般情况下的水平。过了比较长的时间（如3分钟后），“在ATM取款”这个事件对发帖的概率的影响就比较小了。各种事件的概率函数可以通过实验或理论推算或保守的瞎掰得出。
除了“负关联”，还有一些情况属于“正关联”，比如网络访问、访问国外地址、访问已知为tor节点的国外地址（正关联程度依次增加）。

简单概括一下这个算法：

第1步：数据获取——主要是有关部门人员通过索取数据或者黑客、社会工程学窃取的方法，获取网站访问记录、银行提款记录、刷卡记录、航班记录、过境记录、公司用人记录一类的资料。公共设施的信息在刑侦领域经常会用到，应该已经有比较成熟的获取机制，虽说无差别的数据获取可能会遇到一些阻力。某些企业的用人数据获取稍微困难一些，而且数据保存时限也有限，这一部分需要很多的人工工作量（假设每人每天能搜集100MB的数据，那么10000人需要近3个月时间才能收集到100T的数据
）。同时，大规模的数据获取会产生一定的“舆论影响”——参照西方国家对信息监控、斯诺登爆料的舆论反响。
第2步：预处理
将获得的信息处理为统一的格式，例如：用2byte/16比特存储事件的类型，4byte/32比特存储事件开始和结束的时间（2^32秒=4294967296秒=136年），存储至多100000个事件只需600000byte，存储所有中国人的信息只需900TB，可谓相当袖珍——天河二号有5PB的存储器容量，世界知名的大网站的数据存储量可达到100PB（1亿GB/10万TB）的数量级。
第3步：获取目标的时间指纹，例如发帖时间（虽然编程随想的博客上显示的评论时间只能精确到分，但是有关部门可以每1秒访问1次编程随想的博客主页，然后观察“最新评论”的变化）、文件修改时间（如果你上传的某些文件含有可以确定为时间指纹的信息）。由于这一步只需要获取几千个左右的时间指纹，可以由人手完成。
第4步：划定范围
以编程随想为例，在2009年开张博客，可估计年龄〉20岁，同时不太可能是远离信息技术的人（还可能有更多的信息，我就不说了）
第5步：搜索
for （最多14亿，通过上一步的筛选还可以去掉几个亿，比如说20岁以下的人口）
从信息量最大的事件开始，逐个分析事件的概率函数与目标的时间指纹的匹配程度，当某人是目标的概率小于某个阈值（如10^-12）时，将此人从搜索范围内去除，并处理下一人

这样搜索完成后，就算不能确定，也基本能排除到几百人左右的数量级，可以各个击破了。

计算能力：假如需要相当于10GFLOPS的计算量来在第2步预处理1个人的信息，那么天河二号以30PFLOPS的速度可以在500秒内处理所有中国人的信息。至于排除阶段需要的计算量就更少了，有可能只找了一个人的开头几十个信息量最大的事件，就可以判断出此人不是目标。大概最多只需要几个PFLOPS就可以排除到只剩几百个人。

我前几天发帖的时候，还感觉“至少需要十年，相关的技术才能成熟”，不过略一分析，发现这个算法需要的存储技术和运算技术几乎已经齐备，主要的瓶颈只剩下“数据获取”和“政治条件”了。

我认为对于技术的发展，要保护我们的隐私和自由，只能靠努力改变政治环境使得政府的监控受到更多的监督，避免出现“有极权体制又有技术”的恐怖集权统治。不仅是中国这类接近朝鲜的国家，其他民主一些的国家也可能有政治蜕变的可能。

话说编程随想对于未来中国的政治气候，以及信息监控立法的展望如何？
回复删除
回复
匿名2014年8月29日 11:50:00
请问如何修改自己的电脑对外显示的MAC地址信息？过去在使用一些公共场所的wifi时发现，wifi提供商会知道我的MAC地址，这相当危险。
回复删除
回复
匿名2014年8月30日 15:45:00
大数据分析（确切的说，我上面提到的一种方法应该是“基于时间指纹的大数据分析”）也有一些死角，就是信息获取范围达不到或者获取的信息太少的地方，例如国外，例如某些不和信息网络连通的地方。
对大数据分析最有抵抗力的是“游击队黑客”，他们不使用公共服务，不做会被记录的工作，也不使用任何能联系上个人身份的通信设备（例如把发出的信息伪装成不存在/随机的电脑再使用公共wifi+多重代理接入）。我上面列出的一些信息无法把他们和无业游民、隐士、其他游击队黑客区分。只有极强的逆向追踪和现场摄像机可以确认他们的身份。如果编程随想是这一类人的话，那么恭喜，至少在10年内你还是安全的。

要保障个人隐私安全，除了加强对政府的监督，还有另一条“公民团结抗命”的路。如果各种公司、个人不交给政府信息，或者交给政府的信息存在一些虚假（参见plausible deniability），那么政府的监视能力就会大打折扣。不管怎样，隐私的保障都需要有相当多的思维清醒，并且重视自己的隐私的公民。

与此同时，隐私也会成为犯罪分子，特别是政府/电信公司内部能控制信息的犯罪分子的掩体。
政府可能以“社会安全”为由来忽悠我们：掌握在短时间内确切地找出一个公民的技术能力是必要的，这是为你们好。（如美国的反恐，PRISM）
同时技术鸿沟的降低也使得不仅仅政府有监控的能力。想象将来某个拥有一台便携式3D打印机的私家侦探可以在几分钟内制造出一堆带有摄像头的机器蚊子用来窥探别人的隐私。我们对技术的限制必须非常微妙——如果政府和人民间的技术差距过大，那么政府会很轻易地控制人民；如果政府和人民间的技术差距过小，那么任何人都可以随意地窥探其他人的隐私。

扯了这么多，继续说怎么面对大数据分析的策略：
——减少关联，一个马甲只干一件事。比如我以前在一些知识问答类网站上问问题的时候，就每次问问题、下载文件都换不同的马甲，并且也做好浏览器指纹的防范工作。这样你的操作就几乎不可能被关联起来，除了你提问时使用的语言可能会被文字分析——但是一个问题如果只有几段话的话，信息量非常非常少。当然，对于编程随想这类需要稳定身份的情况就不适用了。
——尽量减少你制造的信息，例如：如果能付现金，就不要刷卡。
——如果你是有良心的技术人员，请不要参与1984工程，不要自掘坟墓。
——如果你是有良心的公司管理人员，请尽量限制政府从你的公司获取的信息。
——集中AND/OR混淆时间指纹。如果你在1天的10个时间点发了10个帖子，那你就会产生10个时间点的指纹，如果你先写好这些帖子再用脚本在几秒钟内发出去，那么就只有1个时间点的指纹。有关部门对于你具体在什么时间写了这些帖子、什么时候有联网的能力所能知道的信息就会少很多（尽管有关部门还是可以对你发的一堆帖子的内容，推断出你最早可能的写每个帖子的时间，以及你为每个帖子打字大致花费的时间量——但是并不知道具体的时间——除非回帖量多到你必须把日程排满才能写出每个帖子，否则时间的分布会比较模糊不定，信息量会少很多）。
——但是，“【不自然的在短时间内发布大量非spam的帖子】”也是一种信息量大的指纹，因为会这么做的人很少。如果你在两个以上的论坛开设帐号并且都这么做，那么会增加被辨认的风险。因此，你也可以把你发帖的时间平移一些，例如设立一个延时发送信息的代理服务器，你在t时刻发送的数据，到t+k±c时刻才会被送出，隔三差五把k，c参数改一下避免太有规律，这样可以起到“混淆视听”的作用。
——在比较少见的情况（至少在编程随想的博客上非常少见）下，如果【回复的内容和时间的联系很高】（例如某个帖子在4时20分是一个话题，4时30分又是不一样的话题，而你在7时14分发表的回复只和4时20分存在的信息有关系）仍然会看起来比较可疑，这时候可以等话题更新速度放慢下来再发帖或者减少延时。当然如果【只是考虑回复这个现象】而【不考虑回复内容】的话，如果你在7时14分只回复到了4时20分和以前的帖子而没有回复以后的帖子，并不一定能说明你是在4时20分回帖然后延迟到7时14分，也有可能是你刚好累了不想回帖了。
回复删除
回复
热心读者2019年2月6日 15:17:00
9012年了，提醒下博主更新博文内容，
Firefox 的 about:config 中，有 privacy.resistfingerprinting 选项，【无需拓展】即可防范 Canvas 指纹，且会使用 Tor 的一系列隐私措施（UserAgent 也会改成 Tor 的），建议博主在博文后面添加一下。
回复删除
回复
回苑2020年7月1日 17:31:00
请教下博主。
加入用Chrome,Edge(chrome同内核)，其他Chrome同内核浏览器。
会出现与“多配置文件”相同的指纹撞车现象吗？
回复删除
回复

添加评论