数据分析
- 目的 : 把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出研究对象的内在规律
- 大数据的采集和存储 (1) 系统日志采集:可以使用海量数据采集工具 (2) 互联网数据采集:网络爬虫 (3) APP移动端数据采集:SDK插件可以把用户信息上传 (4) 与数据服务机构进行合作
数据清洗
-
缺失值填充:删除,预测填充、统一填充、统计填充
-
实体识别:冗余问题、
- 冗余发现
- 重复发现
- 真值发现
- 错误发现与修复
- 逻辑错误清洗:修正矛盾内容
- 非需求数据清洗
- 比特率:较低的比特率
大数据分析模型建立步骤
- 浏览数据
-
变量选择
-
定义或发现模式
-
计算模型参数
-
模型的解释与评估
基本统计量
全表统计量
- 反应数据集中趋势
- 平均值
- 加权平均
- 中位数
- 众数
- 反应数据波动大小
- 极差
- 方差
- 协方差
皮尔森相关系数
-
两个属性间的关联关系
-
变化范围[-1,1],绝对值越大相关性越强。
-
使用条件
- 通常假设为正态分布。(正态分布是许多统计方法的理论基础)
小结
推断统计:参数估计
点估计
-
极大似然估计 在只有概率的情况下,湖绿低概率直接将高概率时间认为是真实事件
-
点估计的评价
- 无篇性
- 有效性
区间估计
-
置信水平
-
置信区间
点估计与区间估计的异同
推断统计:假设检验
-
带有某种概率性质的反证法
-
小概率,概率 < 0.05
步骤
1.提出假设
- 原假设
- 备择假设
-
确定适当的检验统计量
-
规定显著水平和计算检验统计量的值
-
做出结论
t检验
-
单样本均数t检验t检验
-
两个独立样本均数t检验
-
配对样本均数t检验