关注:63 发布时间:2022-02-01 07:49:01
刚开始学接触编程的时候接触到c,然后是c,然后是java。我第一次接触java的时候,就爱上了它,因为它简单易懂。之后接触了javaweb,开始学习一些后端开发技术。那时候大数据也热,而且因为我是数学出身,大数据对我来说是个不错的选择。
慢慢的,我开始涉足大数据,从javase开始,然后学习linux系统,其中linux包含了centos和ubuntu,两者个人都比较好用。然后学习hadoop,它包括两个块:hdfs(分布式文件系统)和mapreduce(并行计算框架)。虽然现在用的比较少,但是学习它对你以后学习更好的并行计算框架会有很多好处。然后就可以学习数据仓库hive了。hive的底层实现是mapreduce。它使用的sql语言叫做hql。如果你之前学过mysql数据库的话,很容易上手。但是想要更好的了解hive,就需要学习mapreduce。hive用于olap,不支持交易。然后学习面向列族的hbase分布式数据库,支持事务操作,但是在实践中感觉不是很好。它是一个基于hadoop的数据库,适合随机访问和实时读写。但是,在拥有了大量的数据之后,如何更好的将不同来源的数据导入到想要使用的数据库中,可以使用sqoop。个人觉得简单方便。
接下来,您可以学习flume,这是一个分布式日志收集框架,可以处理多种类型的文件。然后学习卡夫卡,这是一个消息发布和订阅的实时处理系统。具有高通量的能力。然后你可以学习strom,一个实时流媒体计算框架。它可以高速抓取数据,并对各种数据进行并行计算。然后可以学习spark,spark由sparksql、spark streaming、mllib、graph等组成。它可以解决三个核心问题,如批处理、流处理和ad-hocquery。spark确实比mapreduce快很多,毕竟是基于内存计算的框架。
接下来可以学习数据分析、数据挖掘、机器学习等相关知识。
现在我要开始读什么是大数据了。
大数据顾名思义就是海量数据,到什么程度?不是几兆,不是几千兆,而是几百千兆,几tb,几千兆,传统数据库承受不了的。现在一般用hadoop技术,hive技术,spark技术等等进行处理。
那么大数据有什么特点呢?有四点
1.数据量非常大,比如文字,来源各种各样,比如电子书,实体书,杂志,报纸等。他们的数据很大。
2.数据的类型有很多种,有些是结构化数据,比如传统数据库中的数据,比如oracle、mysql等,一般都是结构化的,也有非结构化的,比如html、word、execl等格式。
3.它们的价值密度低。这么说吧。比如你看一段数据,看起来它的价值并不大,但是分析完所有的数据之后呢?总会有重要的东西被挖掘出来。
大数据的特征
4.处理这些数据的速度应该很快。比如像hadoop技术这样的mapreduce计算框架,比传统的数据库处理速度快,吞吐量特别大。例如,spark的内存比hadoop快100倍,磁盘快10倍。
大数据处理和传统数据处理有什么区别?
就是用所有的数据去分析,去得出结论,去思考,去了解它的好处。
大数据的应用?
你可以做一个推荐系统,像电商,影视app,你平时关注什么产品,或者浏览什么类型的产品,或者看什么类型的电影,或者谁是影视主力。经过大数据分析处理,这些应用会推荐类似的产品或电影。
销售方面,我想大家都听过一个例子,就是纸尿裤和啤酒的捆绑销售
反欺诈在银行中的应用。经过大量的数据分析,我们可以得到欺诈的行为特征,并根据这些特征,以更大的概率来判断是否是欺诈
在人工智能方面,像谷歌的alpha dog,无人驾驶汽车驾驶等。所有这些都使用大数据。
….
那是电子线路板和一些胶水的味道。如果产品功能还行,过几天就没了。
拉几台电脑,什么卡,重启时至少重启5分钟
上一篇:怎么省钱组装一台电脑?
下一篇:电脑修图软件免费的有什么
86位用户关注
289位用户关注
156位用户关注
53位用户关注
96位用户关注
47位用户关注
28位用户关注
98位用户关注
142位用户关注
21位用户关注
96位用户关注
37位用户关注