(大数据分析)第 3 讲 大数据分析模型

222 阅读2分钟

数据分析

  1. 目的 : 把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出研究对象的内在规律
  2. 大数据的采集和存储 (1) 系统日志采集:可以使用海量数据采集工具 (2) 互联网数据采集:网络爬虫 (3) APP移动端数据采集:SDK插件可以把用户信息上传 (4) 与数据服务机构进行合作

数据清洗

  1. 缺失值填充:删除,预测填充、统一填充、统计填充

  2. 实体识别:冗余问题、

  • 冗余发现
  • 重复发现
  • 真值发现
  1. 错误发现与修复
  • 逻辑错误清洗:修正矛盾内容
  • 非需求数据清洗
  • 比特率:较低的比特率

大数据分析模型建立步骤

  1. 浏览数据

  1. 变量选择

  2. 定义或发现模式

  3. 计算模型参数

  4. 模型的解释与评估

基本统计量

全表统计量

  1. 反应数据集中趋势
  • 平均值
  • 加权平均
  • 中位数
  • 众数
  1. 反应数据波动大小
  • 极差
  • 方差
  • 协方差

皮尔森相关系数

  1. 两个属性间的关联关系

  2. 变化范围[-1,1],绝对值越大相关性越强。

  3. 使用条件

  1. 通常假设为正态分布。(正态分布是许多统计方法的理论基础)

小结

推断统计:参数估计

点估计

  1. 极大似然估计 在只有概率的情况下,湖绿低概率直接将高概率时间认为是真实事件

  2. 点估计的评价

  • 无篇性
  • 有效性

区间估计

  1. 置信水平

  2. 置信区间

点估计与区间估计的异同

推断统计:假设检验

  1. 带有某种概率性质的反证法

  2. 小概率,概率 < 0.05

步骤

1.提出假设

  • 原假设
  • 备择假设
  1. 确定适当的检验统计量

  2. 规定显著水平和计算检验统计量的值

  3. 做出结论

t检验

  1. 单样本均数t检验t检验

  2. 两个独立样本均数t检验

  3. 配对样本均数t检验