[2013 UPDATE]Hadoop 2.0转型基本无可阻挡,今年下半年要正式发布了,它的出现让大家知识体系都要更新了。Hadoop1.0搞了8年才发布,2.0不到2年就出来了。2.0的核心是YARN,它的诞生还是有趣的故事http://tech.qq.com/a/20130703/015928.htmYARN介绍http://hortonworks.com/hadoop/yarn/http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yaHadoop 生态系统http://www.neevtech.com/blog/2013/03/18/hadoop-ecosystem-at-a-gSQL on Hadoophttp://gigaom.com/2013/02/21/sql-is-whats-next-for-hadoop-heresHadoop Summithttp://hadoopsummit.org/san-jose/#######################随着大数据的盛行,Hadoop也流行起来。之前面过一些公司,包括开发Hadoop:如Cloudera, Hortonworks, MapR, Teradata, Greenplum, Amazon EMR, 使用Hadoop的除了Google,数不胜数了这块还是机会挺多的,我就把我知道的给大家分享一下。书籍和Paper<Hadoop: The Definitive Guide>: 里面内容非常好,既有高屋建瓴,又有微观把握,基本适用于0.18-0.20版本。比如mapreduce各个子阶段,Join在里面也有代码实现,第三版http://it-ebooks.info/book/635/https://github.com/tomwhite/hadoop-bookGoogle的三辆马车,GFS, MapReduce, BigTableGoogle的新三辆马车:Caffeine、Pregel、Dremelhttp://blog.mikiobraun.de/2013/02/big-data-beyond-map-reduce-goSIGMOD, VLDB最新入门:知道MapReduce大致流程,Map, Shuffle, Reduce知道Combiner, partition作用,设置Compression搭建Hadoop集群,Master/Slave 都运行那些服务 NameNode, DataNode, JobTracker,TaskTrackerPig, Hive 简单语法,UDF写法http://www.hadoopwizard.com/when-to-use-pig-latin-versus-hive-shttp://ofps.oreilly.com/titles/9781449302641/index.htmlhttp://www.slideshare.net/zshaohttp://www.cloudera.com/content/cloudera/en/resources/library/thttp://i.stanford.edu/~ragho/hive-icde2010.pdfhttp://www.slideshare.net/ragho/hive-icde-2010Hadoop 2.0新知识; HDFS2 HA,snapshot, ResourceManager,ApplicationsManager,NodeManager进阶:HDFS,Replica如何定位http://hadoop.apache.org/docs/r0.18.0/hdfs_design.pdfHadoop 参数调优,性能优化,Cluster level: JVM, Map/Reduce Slots, Job level:Reducer #,Memory, use Combiner? use Compression?http://blog.cloudera.com/blog/2009/12/7-tips-for-improving-maprhttp://www.slideshare.net/ydn/hadoop-summit-2010-tuning-hadoop-HBase 搭建,region server, key如何选取http://hbase.apache.org/book.html数据倾斜怎么办?http://www.tbdata.org/archives/2109算法:字典同位词翻译SQL语句 select count(x) from a group by b;http://blog.cloudera.com/wp-content/uploads/2010/01/5-MapReduceBlog关注Cloudera, Hortonworkshttp://hortonworks.com/blog/http://blog.cloudera.com/blog/http://dongxicheng.org/http://cloud21.iteye.com/blog/607175相关系统数据流系统: Storm(Twitter), S4(Yahoo)https://github.com/nathanmarz/storm/wiki/Tutorial内存计算系统: Spark and Shark (Berkeley)http://www.slideshare.net/Hadoop_Summit/spark-and-shark交互式实时系统:Cloudera Impala, Apache Drill (Dremel开源实现),Tez (Hortonworks)公司列表:http://wiki.apache.org/hadoop/PoweredBy其他- 这个领域还是印度人占主体,Hortonworks挺喜欢开源,开发节奏很快,cloudera的拳头产品Enterprise manager是收费的,估计最被H逼着要开源了。- 开源让这个世界更美好,Hadoop进化目标:开发部署傻瓜化,性能更强劲,最后为程序员标配。- 核心都是被寡头控制的,记得一边文章说一流的公司卖标准,二流的公司卖技术,三流的公司卖产品,H和C有最多的committer,自然就影响着整个Hadoop社区。- 技术就是日新月异,还是多看看那些公司的博客,关注感兴趣的新产品,比如hortonworks.com/hadoop/ambari,我做过跟这个类似。- 在Hadoop系统中从头裸写MapReduce不现实了,ETL基本靠Hive,Pig, 之前还用过Scalding,https://github.com/twitter/scalding- MapReduce并不是最优的,仅适合批处理,很多问题:JVM的启动overhead很大,小Job更明显,数据必须先存储,不适合迭代计算,延迟高。DB学术圈讨论很久tradeoff了,这片MapReduce: 一个巨大的倒退http://blog.sina.com.cn/s/blog_62a9902f0100gs4q.html
http://www.mitbbs.com/article_t/JobHunting/32058103.html
分享到:
相关推荐
Hadoop、hive、hbase常见面试题!!! Hadoop、hive、hbase常见面试题!!! Hadoop、hive、hbase常见面试题!!! Hadoop、hive、hbase常见面试题!!!
超人学院hadoop面试葵花宝典
Hadoop面试100题.pdf
Hadoop面试100题
Hadoop面试题目及答案.pdfHadoop面试题目及答案.pdfHadoop面试题目及答案.pdfHadoop面试题目及答案.pdfHadoop面试题目及答案.pdfHadoop面试题目及答案.pdfHadoop面试题目及答案.pdfHadoop面试题目及答案.pdfHadoop...
国内第一部hadoop面试葵花宝典,如果从事找hadoop云方面可,这个必看!
最新大数据Hadoop面试题!(附答案解析).pdf最新大数据Hadoop面试题!(附答案解析).pdf最新大数据Hadoop面试题!(附答案解析).pdf最新大数据Hadoop面试题!(附答案解析).pdf最新大数据Hadoop面试题!(附答案解析).pdf最新...
大数据技术之Hadoop知识分享 Hadoop面试题目及其答案 Hadoop面试题目整理 Hadoop使用经验 共9页.pdf
Hadoop面试45个题目及答案.doc Hadoop面试45个题目及答案.doc Hadoop面试45个题目及答案.doc
面试题汇总,比较全面的总结和题型筛选,面试题汇总,比较全面的总结和题型筛选,
hadoop面试
Hadoop大数据常见面试题库
分享的hadoop2的面试题,云帆大数据分享。
整理的一些hadoop面试题及答案,希望对你有帮助 整理的一些hadoop面试题及答案,希望对你有帮助
Hadoop权威指南中文版(完全版)Hadoop权威指南中文版(完全版)Hadoop权威指南中文版(完全版)Hadoop权威指南中文版(完全版)
Hadoop学习总结,内容包括: 1. HDFS简洁 2. HDFS读写过程解析 3. MapReduce入门 4. MapReduce过程解析 5. Hadoop运行痕迹 6. MapReduce源码分析总结
大数据面试资料,很全面,包括新手最关注的的数据量和处理时间
Hadoop_Spark相关面试问题总结 - Hadoop知识库.pdf Hadoop_Spark相关面试问题总结 - Hadoop知识库.pdf Hadoop_Spark相关面试问题总结 - Hadoop知识库.pdf
Apache Hadoop面试题