亚太杯数学建模竞赛
数据类型题涉及的知识点及基本模型讲解
本人曾参加亚太杯四次,三次都是 First Prize,其中有一次因中途电脑烧坏了就暂停编写建模论文因而拿了Second Prize;我们立足当前,着眼长远,按照社会价值导向,辅导学生跨越梦想的桥梁;全面推进每个学子数学建模竞赛的获奖目标,切实抓好编程与数学模型的任务重点。
可以说亚太杯是所有建模竞赛中最容易获奖的数学建模竞赛,不论这次亚太杯的题目是研究算法效率的、还是探寻数据规律的、还是有固定范围计算结果答案的,我们都可以屡试不爽的使用我接下来介绍的数据描述基本模型:
数据的基本统计描述
– 目的
– 数据的基本统计描述
• 更好地识别数据的性质,把握数据全貌。
• 中心趋势度量、数据分散度量、数据的图形表示
– 中心趋势度量
• 均值、加权算数均值、中位数、众数、中列数
– 数据分散度量
• 极差、分位数和四分位数、方差和标准差
– 数据的图形显示
• 箱图、饼图、频率直方图、散点图
有的人可能会说你这个写这么简单的东西,根本入不了评委的眼睛,不好意思,我年年这么干,年年First Prize,因为你数据分析前:第一要做数据处理;第二宏观上了解数据的情况这一步就叫做数据的基本统计描述;第三步然后才是具体有针对的分析数据变量
1. 中心趋势度量
– 均值(Mean)
• 令x1,x2,…,xN为某数值属性X的N个观测值,该值集合的均值如式
(2-1)所示。
– 加权算数平均数(Weighted Mean)
• 对于i=1,…,N,每个值xi都有一个权重wi。
– 分组数据中位数(Grouped Median)
• 根据N/2确定中位数所在的组
Me:中位数,L:中位数所在组的下限,Sm-1:中位数所在组以下各组的
累计频数,fm:中位数所在组的频数,d:中位数所在组的组距。
– 众数(Mode):数据中出现最频繁的值
– 中列数(Midrange):数据集中最大值和最小值的算术平均值
2. 数据分散度量
– 极差(又称全距,Range):是集合中最大值与最小值之间的差距,
即最大值减最小值后所得数据。
– 分位数(Quantile):取自数据分布的每隔一定间隔上的点,把数据
划分成基本上大小相等的连贯集合。
– 方差(样本方差):是每个数据分别与平均数之差的平方的平均数。
3. 数据的图形显示(数据可视化)
每次数学建模竞赛中都必须得绘图,但你真的了解数据的图形显示么?你知道该怎么绘图么?你知道什么情况下绘制直方图,什么情况下绘制散点图,什么情况下绘制密度直方图么?你知道为什么你绘图了,结果也对为什么没获奖么?**是因为你根本不知道什么情况下绘制什么可视化图形。**我在这里告诉你一下:没有比较就没有鉴别,只知其一,一无所知。
– 盒图(又称箱线图,Box-plot),是一种用来描述数据分布的统计图形,
可以表现观测数据的中位数、四分位数和极值等描述性统计量。
– 饼图(又称圆形图或饼形图,Pie Graph),通常用来表示整体的构成
部分及各部分之间的比例关系。饼图显示一个数据系列中各项的大小
与各项总和的比例关系。
– 频率直方图(又称频率分布直方图,Frequency Histogram), 是在统
计学中表示频率分布的图形。
– 散点图(Scatter Diagram):将样本数据点绘制在二维平面或三维空
间上,根据数据点的分布特征,直观地研究变量之间的统计关系以及
强弱程度。
标称属性的邻近性度量
− 相异性
• p是对象的属性总数,m是匹配的属性数目(即对象i和j状态相
同的属性数)
− 相似性
数据的相异性判别方法有:
欧几里得距离(Euclidean Distance ):又称直线距离。
曼哈顿距离(Manhattan Distance):又称城市块距离。
闵可夫斯基距离(Minkowski Distance )。
切比雪夫距离(Chebyshev Distance ):又称上确界距离,定义两个对
象之间的上确界距离为其各坐标数值差的最大值。
如果你想了解更多,并且在竞赛中取得荣誉,那就努力学习吧。大学学习没有徘徊,没有迷茫,没有纠结,专注的走自己脚下这条学习的道路,走的更远登的更高,不回头,然后有一天当你往脚下看群星在你脚下灿烂。