如何保护隐私[5]：扫盲“浏览器指纹”

　　去年4季度，俺写了4篇《TrueCrypt 使用经验》，又写了3篇 Linux 方面的扫盲，导致本系列又中断了几个月。经热心读者提醒，现继续补上。
　　本系列的前面三篇，咱们聊了浏览器的基本防范。对于“隐私要求不高并且技术水平也不高”的同学，那三篇基本上够了。后面俺要继续聊浏览器方面的问题，面向的是那些“对隐私要求较高，同时也具有一定折腾能力”的同学。今天这篇谈谈浏览器的“指纹”是如何暴露你的隐私，顺便分享一些防范技巧。

★啥是“指纹”？

　　看过警匪片或者破案小说的同学，应该都知道“指纹”在刑侦中的作用——警方虽然没有直接看到犯罪现场的作案人员，但可以根据现场留下的指纹来猜测/判断作案人员。
　　如果你时常接触信息安全领域的一些资料，也会听到“指纹”这个形象的说法（比如：操作系统指纹、网络协议栈指纹、等等）。IT 领域提到的“指纹”一词，其原理跟“刑侦”是类似的——“当你需要研究某个对象的类型/类别，但这个对象你又无法直接接触到。这时候你可以利用若干技术来获取该对象的某些特征，然后根据这些特征来猜测/判断该对象的类型/类别。”

★啥是“指纹”的“信息量”？

　　在 IT 领域有各种各样的特征可以用来充当“指纹”。这时候就需要判断，用哪个特征做指纹，效果更好。为了讨论这个问题，就得扫盲一下“指纹的信息量”。
　　为了帮助大伙儿理解，先举一个例子：
假设你要在学校中定位某个人，如果你光知道此人的性别，你是比较难定位的（只能排除 1/2 的人）；反之如果你不知道性别，但是知道此人的生日，就比较容易定位（可以排除掉大约 364/365 的人，只剩大约 1/365 的人）。为啥捏？因为“生日”比“性别”更加独特，所以“生日”比“性别”能够提供更多的信息量。
　　从这个例子可以看出：某个特征越独特，则该特征的信息量越大；反之亦然。信息量越大的特征，就可以把对象定位到越小的范围。

★“指纹”的“信息量”如何度量——关于指纹的比特数？

　　（本节涉及到中学数学，数学很差的或者对数学有恐惧感的读者，请直接无视）
　　在 IT 领域中，可以用【比特数】来衡量某个指纹所包含的信息量。为了通俗起见，先以前面提到的“性别”来说事儿。性别只有两种可能性——“男”或者“女”，并且男女的比例是大致平均的。（那些喜欢抬杠的同学，别跟俺扯啥双性人，俺没空搭理）所以，当你知道了某人的性别，就可以把范围缩小到原先的 1/2。用 IT 的术语来讲，就是：“性别”这个特征只包含“一个比特”的信息量。
　　以此类推：
当我们说：某特征包含3比特信息量，意思就是：该特征会有8种大致平均的可能性（8等于2的3次方）。一旦知道该特征，可以把目标定位到八分之一。
当我们说：某特征包含7比特信息量，意思就是：该特征会有128种大致平均的可能性（128=2^7）。一旦知道该特征，可以定位到 1/128
　　再来说“生日”。（不考虑闰年的情况下）生日有365种可能性（并且也是平均分布滴），所以生日包含的比特数大约是 8.51。为啥是 8.51 捏，因为“2 的 8.51 次方”约等于 365。因此，知道了某人的生日就可以把范围缩小到 1/365
　　通过上述举例，大伙儿对于指纹的信息量，应该有一些粗浅的认识了吧？

★多个指纹的综合定位

　　如果能同时获取【互不相关】的若干个指纹，就可以大大增加定位的精确性。
　　比如要在某个公司里面定位某人，如果你知道此人的“生日”和“生肖”，那么就可以达到 1/4380（1/4380 = 1/12 * 1/365）的定位精度。因为综合定位之后，比例之间是【乘法】的关系，所以范围就被急剧缩小了。
　　为啥俺特别强调“互不相关”捏？假如你同时知道的信息是“生日”和“星座”，那么定位的精度依然是 1/365——因为生日的信息已经包含了星座的信息。所以，只有那些相互独立的特征（所谓的相互独立，数学称为“正交”），在综合定位的时候才可以用【乘法】。

★啥是“浏览器的指纹”？

　　前面说的是预备知识，现在开始进入正题。
　　当你使用浏览器访问某个网站的时候，浏览器【必定会暴露】某些信息给这个网站。为啥俺强调“必定”捏？因为这些信息中，有些是跟 HTTP 协议相关的（本章节说的 HTTP 协议是广义的，也包括 HTTPS）。只要你基于 HTTP 协议访问网站，浏览器就【必定】会传输这些信息给网站的服务器。
　　再罗嗦一下：HTTP 协议是 Web 的基石。只要你通过浏览器访问 Web，必定是基于 HTTP 协议的。因此，Web 网站的服务器必定可以获取到跟你的浏览器相关的某些信息（具体是哪些信息，俺下面会聊）。

★“浏览器指纹”如何暴露隐私？

　　“浏览器指纹”的机制跟 cookie 有点相似。关于 cookie 的作用，建议那些健忘的同学先去“前面的博文”复习一下。
　　对于“浏览器指纹”导致的隐私问题，俺举2个例子来说明其危害。

◇对于无需登录的网站

　　如果你的浏览器允许记录 cookie，当你第一次访问某网站的时候，网站会在你的浏览器端记录一个 cookie，cookie 中包含某个“唯一性的标识信息”。下次你再去访问该网站，网站服务器先从你的浏览器中读取 cookie 信息，然后就可以根据 cookie 中的“唯一标识”判断出，你之前曾经访问过该网站，并且知道你上次访问该网站时，干了些啥。对付这种 cookie 很简单，你只需要在前后两次访问之间，清空浏览器的 cookie，网站就没法用 cookie 的招数来判断你的身份。
　　但是“清空 cookie”这招对“浏览器指纹”是无效滴！比如说你的浏览器具有非常独特的指纹，那么当你第一次访问某网站的时候，网站会在服务器端记录下你的浏览器指纹，并且会记录你在该网站的行为；下次你再去访问的时候，网站服务器再次读取浏览器指纹，然后跟之前存储的指纹进行比对，就知道你是否曾经来过，并且知道你上次访问期间干了些啥。

◇对于需要登录的网站

　　假如网站没有采用“指纹追踪”的技术，那么你可以在该网站上注册若干个帐号（马甲）。当你需要切换身份的时候，只需要先注销用户，清空浏览器的 cookie，然后用另一个帐号登录。网站是看不出来的。
　　一旦网站采用“指纹追踪”的技术，即使你用上述方式伪造马甲，但因为你用的是同一个浏览器，浏览器指纹相同。网站的服务器软件可以猜测出，这两个帐号来自同一个人。

★“浏览器指纹”比“cookie”更隐蔽，更危险

　　刚才对比了“浏览器指纹”和“cookie”两种身份追踪技术。两者的原理类似——都是利用某些特殊的信息来定位你的身份。两者的本质差异在于：
1. cookie 需要把信息保存在浏览器端，所以会被用户发现，也会被用户清除。
2. 而“浏览器指纹”无需在客户端保存任何信息，不会被用户发觉，用户也无法清除（换句话说：你甚至无法判断你访问的网站到底有没有收集浏览器指纹）。

★“浏览器指纹”包含哪些信息？

　　浏览器暴露给网站的信息有很多种，常见的有如下几种：

◇User Agent

　　关于 User Agent 是啥，俺已经在本系列前一篇博文中扫盲过了（请看“这里”），健忘的同学先去复习一下，再继续往下看。

◇屏幕分辨率

　　这个比较通俗易懂。俺稍微补充一下：这一项不仅包括屏幕的尺寸，还包括颜色深度（比如你的屏幕是16位色、24位色、还是32位色）。

◇时区

　　这个也比较通俗。对于大部分天朝的网友，你的时区应该都是“东8区”

◇浏览器的插件信息

　　也就是你的浏览器装了哪些插件。
　　再罗嗦一次：浏览器的“插件”和“扩展”是两码事儿，别搞混了。本系列前面的博文扫盲了两者的差异，链接在“这里”。

◇字体信息

　　和浏览器相关的一些字体信息。
　　如果你的浏览器安装了 Flash 或 Java 插件，有可能会暴露某些字体信息。所以俺在本系列的第2篇就警告了浏览器插件的风险。

◇Canvas 绘图的指纹

　　Canvas 是 HTML5 新增的一个功能。该功能可以让 JavaScript 脚本在页面的 canvas 元素中绘图。由于不同的浏览器类型，不同的浏览器版本，不同的操作系统平台，都会导致“Canvas 绘图”在一些细节方面的差异。因此，该功能也会暴露浏览器信息（成为“浏览器指纹”的一部分）。
　　要想测试你的浏览器是否暴露“Canvas 绘图指纹”，可以查看“这个链接”。
　　如果你用的是 Firefox 浏览器，可以安装“这个扩展”，来禁用 canvas 绘图功能。该扩展可以针对不同的域名配置“黑名单和白名单”。

◇HTTP ACCEPT

　　这是 HTTP 协议头中的一个字段。考虑到列位看官大都不是搞 IT 技术的，俺就不深入解释这项。

◇其它

　　以上就是常见的浏览器指纹。当然啦，还有其它一些信息也可以成为“浏览器指纹”，考虑到篇幅，俺就不一一列举并解释了。有兴趣的同学，请自行阅读 Mozilla 官网的文档（在“这里”。提醒一下：是洋文）

★如何看自己浏览器的指纹？

　　关于浏览器指纹导致的隐私问题，可能是由“电子前哨基金会”（简称 EFF）率先在2010年曝光的。后来 EFF 提供了一个页面，帮助网友看自己浏览器的指纹（请猛击“这个链接”）。
　　打开此页面之后，当中有一个大大的，红色的“TEST ME”按钮。点一下此按钮，稍等几秒钟，会显示出一个表格，里面包含你当前的浏览器的指纹信息。
　　在这个表格中会列出每一项指纹的“信息量”以及该指纹的“占比”。关于“信息量”的含义，本文前面已经扫盲过，此处不再罗嗦。你只需记住，某项的信息量越大，就说明该项越独特。而越独特的指纹，对隐私的威胁也就越大。

　　考虑到篇幅有点长，今天先聊到这里。俺争取明后天发下一篇，聊聊如何防范“浏览器指纹”导致的隐私风险。

回到本系列的目录

版权声明
本博客所有的原创文章，作者皆保留版权。转载必须包含本声明，保持本文完整，并以超链接形式注明作者编程随想和本文原始地址：
https://program-think.blogspot.com/2014/01/privacy-protection-5.html

119 条评论

匿名2014年1月17日 22:16:00
博主，学编程的话数学要懂到什么程度啊？需要到大学高等数学程度还是高中水平就可以了？
回复删除
回复
ho steven2014年1月17日 22:41:00
此评论已被作者删除。
回复删除
回复
ho steven2014年1月17日 22:42:00
编程的时间宝贵，基础问题建议楼上去其他论坛发问喔。
回复删除
回复
匿名2014年1月17日 22:56:00
"一旦网站没有采用“指纹追踪”的技术，即使你用上述方式伪造马甲....."
编程兄，有处笔误。
回复删除
回复
Softether2014年1月18日 01:23:00
好靠前挤挤
浏览器指纹果然有问题这些广告似乎也和这个有关？删除了很多次cookies挂了代理百度推广都可能相似
回复删除
回复
匿名2014年1月18日 05:45:00
请教：【VPN Gate 提供的中继服务器，遍及全球，而且大都是由志愿者义务提供的。】这样的话安全吗？如果这些中继服务器里面遇到方校长派人搞得咋办？会不会暴露自己的信息？
回复删除
回复
Unknown2014年1月18日 06:56:00
21.85bite 算高吗？说我的指纹在370W人种独一。。。
回复删除
回复
Atry2014年1月18日 12:40:00
21.85bit是高到爆表的意思。就是说他从来没见过跟你一样的指纹。而一共只有370万人在这个网站上测过指纹。
回复删除
回复
匿名2014年1月18日 15:17:00
我也是哎，有没有人是低于21.85bit的？
回复删除
回复
匿名2014年1月18日 18:08:00
TorBrowser3.5 UserAgent只有8.15分...
回复删除
回复
匿名2014年1月18日 20:14:00
如何挖掘网络资源[0]：为啥要写这个话题？

为了方便阅读，把本系列帖子的目录整理如下（需翻墙）：
1. 网站的类型和使用场景
2. Google 搜索的基本语法
3. 解答 Google 搜索的常见问题(FAQ)
4. 搜索关键字有啥讲究
5. 扫盲博客阅读器的使用
6. （未完待续）

请把这个系列补下吧.觉得挺有用的.
回复删除
回复
匿名2014年1月18日 21:40:00
同样是appears to be unique的路过
回复删除
回复
匿名2014年1月18日 21:52:00
随想大哥我想镜像您的博客网站，使用wget -m http://program-think.blogspot.com 中间是否还要加什么参数啊？
比如 wget -c -k -r -p -np http://program-think.blogspot.com
这个和上面那个效果一样吗
回复删除
回复
Unknown2014年1月18日 23:39:00
博主谈谈你的文章是咋写的

逻辑性强

废话少

还能把问题阐述清楚

快指点一下如何办到的
回复删除
回复
匿名2014年1月19日 10:19:00
感谢楼主的那个太子党关系网，很多深度洗脑者、中老年人、对中共歪曲的政治感兴趣的人难以接受真相，但是看了这个看兴趣，或者有点怀疑中共的神圣。建议楼主能把博文分门别类的制作电子书，像太子党关系网一样让我和广大网友在墙内传播。楼主的年龄估计34岁左右吧？
回复删除
回复
匿名2014年1月19日 19:46:00
使用goagent+chorome+SwitchySharp，按照博主提供的方法（http://program-think.blogspot.com/2013/07/privacy-protection-4.html#useragent）修改chrome的User Agent，查询User Agent里依然还有appid的信息，显示如下：XXX AppEngine-Google; (+http://code.google.com/appengine; appid: s~##########)
XXX为修改后的User Agent ######### 为appid
用goagent的同学们你们有什么感想？
回复删除
回复
匿名2014年1月19日 22:00:00
刚刚在网页上做了个测试，感觉结果还好吧。User Agent为14.76，HTTP_ACCEPT Headers为15.09，Are Cookies Enabled为1.94，其余各项（Browser Plugin Details、Time Zone、Screen Size and Color Depth、System Fonts、Limited supercookie test）均为1.73。不知编程君以为如何？
回复删除
回复
匿名2014年1月19日 22:47:00
博主，可不可以改变一下你的博客主题呀？实在太简陋了！简洁大方的主题风格看着让人很舒爽、不花哨
回复删除
回复
匿名2014年1月19日 23:17:00
RSS订阅功能貌似挂了
回复删除
回复
匿名2014年1月20日 19:46:00
to 楼主：有一本关于较为通俗的介绍女权运动的书籍，我已经发给你了，邮件主题是“通俗介绍女权运动流派由来的书”，请查收一下，另外还发了一本关于言论自由的书，请在有空时上传分享给大家，谢谢！
回复删除
回复
jeff2014年1月21日 14:17:00
建议博主开个论坛，现在以你的博客影响力和人气肯定撑得起一个论坛。博文是干货，论坛是其他讨论，哪怕是用google论坛开一个，链接过来
回复删除
回复
匿名2014年1月21日 19:30:00
Firefox 附加组件Lightbeam怎么用，看不懂，
回复删除
回复
匿名2014年1月22日 01:00:00
过滤至少一部分浏览器指纹，可以用privoxy。比如UA可以过滤。当然，配置过于麻烦了。
从privoxy的配置文件中我还注意到一个指纹——真是没想到啊——浏览器发送HTTP Headers时各项的顺序。配置文件说，这个顺序可以识别浏览器，但是过滤时重新排序，最好按照一个比较常见的顺序，否则特立独行，反而会增加指纹的独特性。
回复删除
回复
vpsspot2014年1月22日 09:43:00
大神，请教一个问题。我们公司使用NAC Agent。如果我用GoAgent代理访问网站公司能监控到我访问的是什么网站吗？
回复删除
回复
匿名2014年1月22日 09:52:00
大神，关于昨天下午DNS被劫持的事件，你有什么看法没有？？因为国内报刊说的都是黑客的攻击。。我觉得这是假的。
还有就是“曾经发生国E国用户经过C国问A国地址被忽悠到未知领域的恶性事件，于是C国的世界级邮局被除名”，这是什么事件？
回复删除
回复
ho steven2014年1月22日 13:14:00
wsj给出的答案-http://cn.wsj.com/gb/20140122/bog093049.asp?source=whatnews2
貌似是GFW进行后台调整出现了错误，官媒当然不敢报道，只好推到黑客的头上。
回复删除
回复
匿名2014年2月7日 10:35:00
https://download-chromium.appspot.com/ 这个页面，很奇怪，貌似是浏览器下载地址。然后，我直接点下载，下载的安装包88.5M，右键复制链接地址&迅雷下载无论怎么整都是33.4M。这个可能被篡改吗？迅雷探测到这个地址然后自己替代文件？没有搞懂哎~还是我这是偶然现象？
回复删除
回复
匿名2014年3月31日 18:38:00
编程随想您是不是忘了xff header?
回复删除
回复
匿名2014年6月25日 16:07:00
对于第二个的 solution：进入chrome://plugins/，把所有插件都禁用了
回复删除
回复
匿名2014年8月30日 13:17:00
我的指纹现在达到 20多位啦，不要问我具体数字
回复删除
回复
无2014年12月29日 22:15:00
在使用代理时，据说FLASH和JAVA会泄露真实IP，把谷歌浏览器“设置-内容设置-插件”选项，设置成“点击运行”或“阻止所有插件”，应该就可以了吧！
IP泄露测试站点：http://ip-check.info
回复删除
回复
匿名2015年1月7日 10:31:00
现代浏览器的一项安全功能有可能成为一种超级的跟踪器，除非你改用IE。HTTP Strict Transport Security（HSTS）是帮助网站将用户从不安全的HTTP版本重定向到安全的HTTPS版本的一种机制。如果你访问的网站启用了HSTS，那么浏览器将会记住这一标记，确保你在未来每次访问该网站都会自动使用HTTPS连接。自动重定向功能能保护你的连接在访问期间不会被人拦截，但也可能会被恶意网站滥用，储存一个独一无二的数据跟踪你的浏览器。即使使用隐私模式，HSTS标记也会在网站之间共享。在Google Chrome、Firefox 和Opera上，这个问题不那么严重，因为清空cookies会同时清空HSTS标记，但苹果设备则没有方法清空HSTS标记。IE则不存在这个问题，因为它不支持HSTS。
回复删除
回复
匿名2017年7月28日 12:22:00
想问您个问题，我用虚拟机的系统打开浏览器canvas指纹还和主机一样是什么情况？应该如何防护？
回复删除
回复

添加评论

编程随想的博客

如何保护隐私[5]：扫盲“浏览器指纹”

★啥是“指纹”？

★啥是“指纹”的“信息量”？

★“指纹”的“信息量”如何度量——关于指纹的比特数？

★多个指纹的综合定位

★啥是“浏览器的指纹”？

★“浏览器指纹”如何暴露隐私？

◇对于无需登录的网站

◇对于需要登录的网站

★“浏览器指纹”比“cookie”更隐蔽，更危险

★“浏览器指纹”包含哪些信息？

◇User Agent

◇屏幕分辨率

◇时区

◇浏览器的插件信息

◇字体信息

◇Canvas 绘图的指纹

◇HTTP ACCEPT

◇其它

★如何看自己浏览器的指纹？

119 条评论

博客订阅网址

【免翻墙】的资源

博客主要内容

推荐帖子（翻墙技术）

推荐帖子（信息安全）

推荐帖子（提升个人能力）

推荐帖子（洗脑与反洗脑）

推荐帖子（心理学）

推荐帖子（政治）

推荐帖子（历史）

推荐帖子（编程技术）

推荐帖子（职场与管理）

博客站内搜索

分类标签

最近30天热帖

历史归档

最新评论