首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
zicesun
掘友等级
预备程序员
|
大厂快来砸我
计算机硕士研究生
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
18
文章 18
沸点 0
赞
18
返回
|
搜索文章
最新
热门
HiveQL 数据操作
HiveSQL对Hive的数据操作包括对内部表、外部表、分区表以及桶表的数据的导入以及导出。 Hive不提供行级数据的插入,更新以及删除操作,因此当创建一个新的表,往表中装载数据是以大量数据的装载实现的,也就是把数据文件装载到HDFS文件系统表对应的目录下。 Load 命令将文…
Kafka生产者简介
Kafka是分布式消息发布和订阅的消息系统。而生产者则对应的是消息的生产和发布。也就是说,生产者是消息的来源。生产者将消息发送搭kafka中。 Kafka生产者发送的消息封装成ProduceRecord,其中包含了消息的主题和要发送的内容。 bootstrap.servers,…
YARN基本框架和工作流程
YARN是Hadoop2.0中资源管理系统,它的基本设计思想是将MRV1中的jobtracker拆分成了两个独立的服务:一个全局的资源管理器resourceManager和每个应用程序特有的ApplicationMaster,其中resourceManager负责整个系统的资源…
基于RNN的英文姓名的性别预测
根据人的名字判断任务的性别是一个很有趣的工作. 预测英文姓名的性别,对first name进行预测,有很多种方法,比如朴素贝叶斯法,SVM,神经网络等.预测的时候能够利用的特征也有多种:名字的最后一个字母,两个字母(2-gram),最后一个字母是否是元音或者辅音. 我们讲介绍如…
Apache Spark 分区器的实现分析
最近在学习 Apache Spark 1.4.1 的源码和写 Apache Spark 源码阅读 系列学习笔记,大多数的子模块啃得还算比较顺利,唯独分区器(Partitioner),尤其是范围分区器(Range Partitioner)这一块,代码有着诸多疑惑之处,能 Goog…
Spark学习之Spark RDD算子
这里,从源码的角度总结一下Spark RDD算子的用法。 源码中有一个 sc.clean() 函数,它的所用是去除闭包中不能序列话的外部引用变量。Scala支持闭包,闭包会把它对外的引用(闭包里面引用了闭包外面的对像)保存到自己内部,这个闭包就可以被单独使用了,而不用担心它脱离…
Spark学习之Spark 集群资源调度
Spark的集群调度其实蛮简单的,这里总结了一些集群资源调度的基本原理。 spark集群是怎么管理集群的计算资源和内存资源的呢?其实在这背后有一个资源注册的机制。简单来说,就是Worker节点讲自己的资源报告给master。 首先,在Worker节点启动的时候,Worker进程…
Spark学习之 Spark调度机制(1)
Spark的调度机制是Spark的核心基础,分成两个部分,一是集群资源调度,二是应用程序内部的作业调度。这篇文章简单介绍一下基本概念。 应用程序(Application) 每次通过spark-submit命令提交的Jar包都可以看作是Spark应用程序。Spark应用程序是集群…
Spark学习之spark集群搭建
本文讲介绍如何搭建spark集群。 上述所有的文件都安装在/home/zhuyb/opt文件夹中。 服务器是实验室的,选用了一台master和三台slave机器.IP和机器名在hosts文件中做了映射,因此可以通过hostname直接访问机器。 shh免密登录配置其实很容易,我…
数据结构与算法系列 目录
最近抽空整理了"数据结构和算法"的相关文章。在整理过程中,对于每种数据结构和算法分别给出"C"、"C++"和"Java"这三种语言的实现;实现语言虽不同,但原理如出一辙。因此,读者在了解和学习的过程中,择其一即可! 下面是整理数据数据和算法的目录表,对于每一种按照C/C++/J…
下一页
个人成就
文章被点赞
15
文章被阅读
14,713
掘力值
303
关注了
6
关注者
5
收藏集
2
关注标签
15
加入于
2019-06-04