PB级数据是什么概念?一提到数据量级,人们通常会联想到美国国会图书馆(见图)。德勤、麦肯锡、IBM、Gartner和移动广告公司Adfonic的数据专家向TechTarget记者介绍了PB级数据究竟有多大。
麦肯锡首席分析师Michael Chui指出,美国国会图书馆“在2011年4月前已经收集了235TB的数据,而一个PB相当于它的4倍。”
TechTarget自己的百科网站Whatis有关于PB大小的定义:“PB是数据存储容量的单位,它等于2的50次方个字节,或者在数值上大约等于1000个TB。”
那么一个TB呢?
“TB是一个计算机存储容量的单位,它等于2的40次方,或者接近一万亿个字节(即,一千千兆字节)。”
未来学家Raymond Kurzweil他的论文中对PB的定义进行延伸:人类功能记忆的容量预计在1.25个TB。这意味着,800个人类记忆才相当于1个PB。
如果这样还不够清楚,那么Adfonic的CTO Wes Biggs给出了下面更直接的计算:
- 假设手机播放MP3的编码速度为平均每分钟1MB,而1首歌曲的平均时长为4分钟,那么1PB歌曲可以连续播放2000年。
- 如果智能手机相机拍摄相片的平均大小为3MB,打印照片的平均大小为8.5英寸,那么总共1PB的照片的并排排列长度就达到48000英里——大约可以环绕地球2周。
- 1PB足够存储整个美国人口的DNA,而且还能再克隆2倍。
DVD、战列舰和六国赛
从比特(bit)和字节(byte)开始,德勤的分析师还将他们的思考向以下方面进一步延伸。(1个比特是1个二进制位,可能是0或1;1个字节长8个二进制):
- 如果以每秒1个位的速度数一下1PB所包含的位数,那么您需要2.85亿年才能数完。
- 如果每秒数1个字节,那么您需要数357万年。
- 保存1PB数据需要用掉22.3万张DVD。
- 保存1PB数据,需要用掉7.46亿张3.5英寸软盘;这7.46亿软盘重13422吨。这个重量仅仅比2艘Type 45驱逐舰轻一些。
- 人类身体细胞数据各不相同,但是数量最多的接近100万亿个,如果用1个位来表示1个细胞,那么1PB足够记录90个人的身体细胞,相当于橄榄球六国赛的全部球员。
谷歌、社交媒体和宇宙大爆炸
谷歌在2004年率先进军数字地图领域,并在2005年发布了谷歌地图和谷歌地球。现在,谷歌为用户提供了超过20PB(215亿MB)的地图影像——包括卫星图片、航拍照片和360度街景图片。
即使在2008年,谷歌每天处理的数据已经达到20 PB,一年就是7300 PB。
从那时起,社交媒体网站就开始生成PB级数据,它们逐渐成为所谓的“大数据”。
根据2012年2月1日Facebook向美国证券交易委员会提交的IPO文档记录,Facebook在1年前已经存储了100 PB数据。
在Twitter网站上,每分钟就有34000条微博出现。IBM非常关注于一个天文项目:“由于20个国家共同出资总计15亿欧元建设的平方公里阵列(Square Kilometer Array, SKA)是一个无线电天文望远镜,它可以观测宇宙大爆炸的衰弱信号。”
SKA(计划在2024年完成)估计整个宇宙每天将生成1376 PB数据,相当于每天传输的全球互联网流量的两倍。
最后,金融时报提供了一个生动的动画,演示了PB级数据的规模到底有多大。点击链接观看视频:http://www.ft.com/cms/s/2/bc7350a6-8fe7-11e2-ae9e-00144feabdc0.html
文章中提到,早在2000年初,“社交媒体网站就开始生成PB级数据,它们逐渐成为所谓的“大数据”。那么,Facebook面对PB级的数据仓库是如何提升存储效率的?互联网新兴企业是如何利用大数据提升商业洞察的?更多相关内容,继续阅读:
- Facebook 300PB的数据仓库是如何炼成的?
- 看Facebook如何使用深度学习模式提升用户参与度
- 从Facebook社交媒体情绪实验看大数据道德困境
- Facebook的数据挖掘,从谈情说爱开始
- 三大案例告诉你互联网新兴企业为什么需要实时流数据分析
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]
-
新Qlik Sense功能可用于云计算、AI和大数据
一年前,Qlik公司公布其长期计划,即将高级云计算、AI和大数据功能添加到其自助式BI和数据可视化软件中。现在 […]
-
Cambridge Analytica秘密收集Facebook数据表明对道德数据挖掘的需求
当有关Cambridge Analytica公司秘密收集Facebook数据的消息传出时,这暴露了一个薄弱环节 […]