统计学基础干货:描述统计学的数值方法有哪些

统计学基础干货:描述统计学的数值方法

01

位置的度量

1.平均数

  • 样本平均数

统计学基础干货:描述统计学的数值方法

  • 总体平均数

统计学基础干货:描述统计学的数值方法

  • 加权平均数

统计学基础干货:描述统计学的数值方法

  • 几何平均数

统计学基础干货:描述统计学的数值方法

  • 中位数

将数据按照从小到大排列:

  • 对于偶数个观测值,中位数为中间两数的平均值。
  • 对于奇数个观测值,中位数为中间数。
  • 众数

出现最多的数据,可能不止一个。

  • 百分位数

至少有p%的数据小于等于该值,至少有1-p%的数据大于等于该值。

将数据按照从小到大的顺序排列,并计算n*p%:

  • 若为整数,则取该值与下一位数的平均数。
  • 若不为整数,则向上取整。
  • 中位数、四分位数等是特殊的百分位数。

02

变异程度的度量

1.极差与四分位数间距

  • 极差:最大值与最小值之差

统计学基础干货:描述统计学的数值方法

  • 四分位数间距(Interquantile Range,IQR):四分位数之差

统计学基础干货:描述统计学的数值方法

极差与四分位数间距都是变异程度的简单度量,相比较而言,极差更容易受异常值影响,因此多采用四分位数间距。

2.方差与标准差

方差是对数据总体变异程度的度量。

  • 总体方差:

统计学基础干货:描述统计学的数值方法

  • 样本方差:

统计学基础干货:描述统计学的数值方法

其中样本方差为无偏方差。

  • 无偏性:统计量的估计值的均值等于该统计量

统计学基础干货:描述统计学的数值方法

证明:其中μ为总体均值,σ为总体标准差

统计学基础干货:描述统计学的数值方法

对于随机变量X

统计学基础干货:描述统计学的数值方法

故有

统计学基础干货:描述统计学的数值方法

同理,由于

统计学基础干货:描述统计学的数值方法

统计学基础干货:描述统计学的数值方法

标准差(s):方差的算术平方根。

标准差系数(变异系数):标准差除以平均数。

统计学基础干货:描述统计学的数值方法

03

分布形态、相对位置度量以及异常值检测

1.分布形态的度量——偏度

偏度:若随机变量的三阶矩存在,则偏度定义如下:

统计学基础干货:描述统计学的数值方法

当偏度大于0时,称为右偏,偏度小于零称为左偏。

统计学基础干货:描述统计学的数值方法

2.切比雪夫定理

切比雪夫定理:对于任意分布,与均值距离z个标准差的之内的数据所占的比例至少为1-1/z2,其中z>0。

统计学基础干货:描述统计学的数值方法

统计学基础干货:描述统计学的数值方法

针对连续变量的切比雪夫不等式证明:

要证

统计学基础干货:描述统计学的数值方法

只需

统计学基础干货:描述统计学的数值方法

统计学基础干货:描述统计学的数值方法

由于

统计学基础干货:描述统计学的数值方法

统计学基础干货:描述统计学的数值方法

故原命题得证。

3.异常值检测

异常值检测有两种简单的方法:

1.z-score法

统计学基础干货:描述统计学的数值方法

由于日常数据大多近似服从正态分布,由标准正态分布表可知,数据位于z=±3之内的的概率为99.87%,因此,对于z位于该区间之外的数据认为是异常值。

2.四分位数间距法

统计学基础干货:描述统计学的数值方法

04

五数概括法和箱线图置的度量

1.五数概括法

用最大值最小值中位数以及上下四分位数五个数字对数据进行概括的方法。

2.箱线图

统计学基础干货:描述统计学的数值方法

以上数据为某城市100家餐厅的代表餐品价格以及餐厅的质量评级,下面使用箱线图描述不同等级的餐厅价格分布。其中:

  • 箱内线:中位数
  • 箱子上边界:第三四分位数Q3
  • 箱子下边界:第一四分位数Q1
  • 上边界线:min{max(X),Q3+1.5IQR}
  • 下边界线:max{min(X),Q1-1.5IQR}
  • 上下边界外的点:异常值

统计学基础干货:描述统计学的数值方法

05

两变量之间关系的度量

1.协方差

协方差是两随机变量线性相关性的度量,协方差绝对值越大,两随机变量相关性越强,协方差为正数表明两随机变量正相关,协方差为负表明两随机变量负相关。对于一组容量为N的数据,其观测值为(X1Y1),(X2Y2)…(XNYN),其协方差定义如下:

总体协方差:

统计学基础干货:描述统计学的数值方法

类似的,样本协方差为:

统计学基础干货:描述统计学的数值方法

样本协方差为总体协方差的无偏估计量,其证明如下:

统计学基础干货:描述统计学的数值方法

2.相关系数

协方差的问题在于受数据大小影响,例如,将所有数据扩大5倍,则线性相关性不变但是协方差绝对值增大,为避免这种现象,我们采用相关系数描述相关性。

总体相关系数:

统计学基础干货:描述统计学的数值方法

样本相关系数:

统计学基础干货:描述统计学的数值方法

  • 样本相关系数不是总体相关系数的无偏估计。
  • 相关系数取值范围为[-1,1],其绝对值越接近1线性相关性越强。

相关系数取值范围的证明:

由柯西-施瓦茨不等式

统计学基础干货:描述统计学的数值方法

易证明相关系数取值范围为[-1,1]

柯西-施瓦茨不等式简单证明:

构造一个恒不为负的二次函数

统计学基础干货:描述统计学的数值方法

由于其恒为非负,故有判别式小于等于0,即:

统计学基础干货:描述统计学的数值方法

原命题得证。

荐:

【中国风动漫】除了《哪吒》,这些良心国产动画也应该被更多人知道!

声明

来源:segmentfault,人工智能产业链联盟推荐阅读,不代表人工智能产业链联盟立场,转载请注明,如涉及作品版权问题,请联系我们删除或做相关处理!

本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:dandanxi6@qq.com

(0)
上一篇 2023-04-03 11:25
下一篇 2023-04-03 12:44

相关推荐

  • 心死了还能复活吗

    心死了,还能复活吗?所谓冰冻三尺,非一日之寒。人一旦心死了,绝望了,确实很难复活,也就是说人一旦产生绝望的念头,再想让他回到从前那真的是很难、很难。但我们必须承认,任何事物都没有绝…

    2023-02-17
  • 泰坦尼克号背后的真实故事

    今天是2018年4月14日 【今日由头】 1912年4月14日 “泰坦尼克”号撞冰山沉没 1 1912年4月14日,夜,北大西洋。 “泰坦尼克”号以接近23节的高速(每小时40公里…

    2023-09-13
  • 梅香正浓白桦的资料,梅香正浓白桦阅读答案

    白桦原名陈佑华,中国作家协会会员。著有长篇小说《妈妈呀,妈妈!》、话剧剧本集《白桦剧作选》等。电影文学剧本《山间铃响马帮来》、《今夜星光灿烂》等均已拍成电影,2017年白桦获得第3…

    2023-04-18
  • 从0到1读懂商业应用开发平台(应用开发平台商业价值)

    商业应用开发平台,对于用户来讲需求大吗?大众对于它又有多少认知呢?下面这篇文章是笔者从产生背景、核心单元等几个方面分析商业应用开发平台的相关内容,感兴趣的同学进来看看吧! 近期看微…

    2024-01-27
  • 如何看懂击剑比赛

    看比赛不简单 By:William Spear November 3, 2017 是吧?击剑比赛常常让人迷糊。对于第一次参加比赛的人、带孩子来参赛的家长、还有来观赛的朋友,比赛将让…

    2022-12-05
  • 湖南岳阳楼夜景

    岳阳楼在历史上因兵燹水患、雷击电火屡毁屡建,查史可证有32次之多,清代圮修次数最为频繁,从清德宗载湉光绪六年(1880)最大一次重建后百余年再没圮毁。民国时期于1932年——193…

    用户投稿 2023-05-15
  • 教育制度背诵版(学校教育制度的类型背诵口诀)

    教育制度概述 教育制度含义与特点 含义:教育制度是一个国家各级各类实施教育的机构体系及其组织运行的规则。包含:各级各类教育机构与组织;教育机构与组织赖以存在和运行的规则。 内容:教…

    2023-01-19
  • 管中窥豹略见一斑

    管中窥豹是什么意思 [释义] 从竹管的小孔中看豹;只看到豹身上的一块斑痕。比喻没有看到事物的全貌;只是片面了解。也比喻可以从观察到的部分推测全貌。 [语出] 《三国志·武帝纪》裴松…

    2022-11-22
  • bescon美瞳

    彩色隐形眼镜在我们的日常生活中,已经不足为奇,人人都渴望拥有一双明亮的眼睛,随着隐形眼镜的普及,不少爱美人士告别了框架眼镜。彩色隐形眼镜早已成为当代都市人装扮自己,美容加冕的必备法…

    2022-11-16
  • 越野车北京212

    2019款北京BJ 212已经正式上市,外观内饰相比现款车型均没有发生改变,新车最大的变化在于换装了1.5T+6MT动力总成。目前的版本符合国五排放标准,未来还将有国六版本的车型登…

    2023-07-05