“have i been pwned”网站成立三周年了,安全研究人员 troy hunt 想为全世界的安全人员带来点福利,于是决定把网站的绝大部分数据共享出来。
hunt表示,分享这些数据是为了研究人员做分析,不想给任何人带来风险。由于担心有人受到伤害,hunt去掉了数据集中的三项敏感信息:
1. 所有的个人身份信息;
2. 所有账户的域名;
3. 所有敏感的数据泄露信息
所有的账户信息本来是以下面的形式存储在 azure table storage 中:
{“partition”:”hotmail.com”,”key”:”troyhunt”,”websites”:”000webhost;adobe;dropbox;geekedin;linkedin;patreon;plex;tumblr”,”timestamp”:”2016-11-16t08:36:51.1806398z”}
删掉敏感信息后就成了下面这个样子:
000webhost;adobe;dropbox;geekedin;linkedin;patreon;plex;tumblr
上面的数据共有1,431,112,732行(有冗余),文件约15.3g大小。
一些数字:
1,989,141,353 –
“hibp”当前的账户数量,包括用户名。如snapchat的460万条记录,但没有邮件地址。
1,574,694,164 –
电子邮件地址数量,但不包括用户名。
1,431,112,732 –
包括更多账户的电子邮件地址,但去除了敏感信息。
2,399,307 –
网站账户组合数量。
分析人员可以把数据整合成下面的标准形式:
torrent下载链接:
https://haveibeenpwned.com/hibp consolidated and anonymised data.torrent
试用申请