如果你在准备面试，就好好看看这130道题

这些题目是一个知识星球的球友发给我的，其中有几个题帮着解答了一下。希望对大家有帮助。如果你不知道如何准备面试，那么看看这个。

年假马上来临，我相信有不少读者都在准备或者考虑面试，无论如何不妨收藏一下。

如果你某个题目不知道答案，那么就去搜一下，如果搜不到，在公众号回复【加群】，可以加到群里寻求小伙伴们的求助。或者扫最下面的二维码加小助手好友并留言，有时间后我会回复你。

顺便多提一句，计算机基础和语言基础请大家务必重视，如果你不是计算机专业，那么这些东西都要平时多看看。

这130个题暂时没有答案，很多题目《大数据技术与架构》都发过文章讲解过，需要你自己去准备，去看，去思考，真正理解。不要妄想别人喂给你，毕竟我们是人不是鸭子。

1、HashMap 和 Hashtable 区别2、Java 垃圾回收机制和生命周期3、怎么解决 Kafka 数据丢失的问题4、zookeeper 是如何保证数据一致性的5、hadoop 和 spark 在处理数据时，处理出现内存溢出的方法有哪些？6、java 实现快速排序7、设计微信群发红包数据库表结构（包含表名称、字段名称、类型）8、如何选型：业务场景、性能要求、维护和扩展性、成本、开源活跃度9、Spark如何调优10、Flink和spark的通信框架有什么异同11、Java的代理12、Java的内存溢出和内存泄漏13、hadoop 的组件有哪些？Yarn的调度器有哪些？14、hadoop 的 shuffle 过程15、简述Spark集群运行的几种模式16、RDD 中的 reducebyKey 与 groupByKey 哪个性能高？17、简述 HBase 的读写过程18、在 2.5亿个整数中，找出不重复的整数，注意：内存不足以容纳 2.5亿个整数。19、CDH 和 HDP 的区别20、Java原子操作21、Java封装、继承和多态22、JVM 模型23、Flume taildirSorce 重复读取数据解决方法24、Flume 如何保证数据不丢25、Java 类加载过程26、Spark Task 运行原理27、手写一个线程安全的单例28、设计模式29、impala 和 kudu 的适用场景，读写性能如何30、Kafka ack原理31、phoenix 创建索引的方式及区别32、Flink TaskManager 和 Job Manager 通信33、Flink 双流 join方式34、Flink state 管理和 checkpoint 的流程35、Flink 分层架构36、Flink 窗口37、Flink watermark 如何处理乱序数据38、Flink time39、Flink支持exactly-once 的 sink 和 source40、Flink 提交作业的流程41、Flink connect 和 join 区别42、重启 task 的策略43、hive 的锁44、hive sql 优化方式45、hadoop shuffle 过程和架构46、如何优化 shuffle过程47、冒泡排序和快速排序48、讲讲Spark的stage49、spark mkrdd和Parrallilaze函数区别50、Spark checkpoint 过程51、二次排序52、如何注册 hive udf53、SQL去重方法54、Hive分析和窗口函数55、Hadoop 容错，一个节点挂掉然后又上线56、掌握 JVM 原理57、Java 并发原理58、多线程的实现方法59、RocksDBStatebackend实现（源码级别）60、HashMap、ConcurrentMap和 Hashtable 区别61、Flink Checkpoint 是怎么做的，作用到算子还是chain62、Checkpoint失败了的监控63、String、StringBuffer和 StringBuilder的区别64、Kafka存储流程，为什么高吞吐？65、Spark优化方法举例66、keyby的最大并行度67、Flink 优化方法68、Kafka ISR 机制69、Kafka partition的4个状态70、Kafka 副本的7个状态71、Flink taskmanager的数量72、if 和 switch 的性能及 switch 支持的参数73、kafka 零拷贝74、hadoop 节点容错机制75、HDFS 的副本分布策略76、Hadoop面试题汇总，大概都在这里(https://www.cnblogs.com/gala1021/p/8552850.html)77、Kudu 和Impala 权限控制78、Timewait状态？当server处理完client的请求后立刻closesocket此时会出现timewait状态.79、三次握手交换了什么？ (SYN,ACK,SEQ,窗口大小)3次握手建立链接，4次握手断开链接。80、hashmap 1.7和1.8 的区别81、concurrenthashmap 1.7和1.8？82、Kafka 的ack83、sql 去重方法(group by 、distinct、窗口函数)84、哪些 Hive sql 不能在 Spark sql 上运行，看这里：https://spark.apache.org/docs/2.2.0/sql-programming-guide.html#unsupported-hive-functionality85、什么情况下发生死锁86、事务隔离级别？可重复读、不可重复读、读未提交、串行化87、Spark shuffle 和 Hadoop shuffle的异同88、Spark静态内存和动态内存89、mysql btree 和 hash tree 的区别。btree 需要唯一主键，hash tree 适合>= 等，精确匹配，不适合范围检索90、udf、udtf和 udaf 的区别91、hive sql 的执行过程92、client 端，spark sql 的执行过程93、找出数组中最长的top10字符串94、Flink 数据处理流程95、Flink 与 Spark streaming 对比96、Flink watermark 使用97、窗口与流的结合98、Flink 实时告警设计99、Java：面向对象、容器、多线程、单例100、Flink：部署、API、状态、checkpoint、savepoint、watermark、重启策略、datastream 算子和优化、job和task状态101、Spark：原理、部署、优化102、Kafka：读写原理、使用、优化103、hive的外部表104、spark的函数式编程105、线性数据结构和数据结构106、Spark映射，rdd。107、java的内存溢出和内存泄漏。108、多线程的实现方法109、HashMap、ConcurrentMap和 Hashtable 区别110、Flink Checkpoint 是怎么做的，作用到算子还是chain111、Checkpoint失败了的监控112、String、StringBuffer和 StringBuilder的区别113、Kafka存储流程，为什么高吞吐114、Spark 优化方法举例115、keyby 的最大并行度116、Flink 优化方法117、kafka isr 机制118、kafka partition 的 4个状态119、kafka 副本的 7个状态120、taskmanager 的数量121、if 和 switch 的性能122、Hdfs读写流程（结合cap理论讲）123、技术选型原则124、Kafka组件介绍125、g1和cms的区别126、熟悉的数据结构127、spark oom处理方法128、看了哪些源码129、Spark task原理130、解决过的最有挑战的问题131、Hbase读写流程

如果这130个题目有30个以上答不上来，面壁思过吧。

关注我的公众号，后台回复【JAVAPDF】获取200页面试题！5万人关注的大数据成神之路，不来了解一下吗？5万人关注的大数据成神之路，真的不来了解一下吗？5万人关注的大数据成神之路，确定真的不来了解一下吗？

欢迎您关注《大数据成神之路》

大数据技术与架构