计量语言学软件Altmann-Fitter阿尔特曼拟合器的使用简介
- 1、Altmann-Fitter是什么
- 1.1 简介
- 1.2 获得地址
- 2、使用说明
- 2.1 数据文件的格式
- 2.2 读取数据
- 2.3 拟合说明
- 2.3.1 读取数据
- 2.3.2 选择模式
- 2.3.3 拟合
- 2.4 指标说明
- 2.4.1 卡方检验
- 2.4.2 P值-probability level
- 3、使用反馈
- 3.1 注意要点
- 参考阅读
1、Altmann-Fitter是什么
1.1 简介
其官网简介为,The Altmann-Fitter is an interactive software for the iterative fitting of univariate discrete probability distributions to frequency data. It uses the Nelder-Mead Simplex Algorithm.即,Altmann-Fitter 是一种交互式软件,用于将单变量离散概率分布迭代拟合到频率数据。它使用 Nelder-Mead 单纯形算法。
Altmann-Fitter是一款用于对频次分布进行单变量离散概率分布拟合的软件,在所有的实证研究领域都能使用。它内置了超过200种概率分布及其相关属性的信息,这是目前所能找到的最大的分布集之一。该软件拟合操作的自动化程度很高,用户基本上无须设定初始值或其他参数。其拟合优度的标准是基于卡方检验。拟合过程是以迭代的方式进行的,程序会不断提高拟合优度,直至找不到更好的拟合结果为止。
1.2 获得地址
该软件为收费软件,其最新版本为3.1.0版。软件的试用版可以从其网站(http://www.ram-verlag.eu/software/)上免费下载安装。试用版除了不能导出数据之外,其他的功能与收费版都是一样的。
因此,软件的试用版就已经可以用于实际研究了。
如果网络不好打不开网页,也可以下载CSDN上面分享的版本:Altmann-Fitter-v3.1.0-Setup.zip
2、使用说明
以下说明基于计量语言学导论和官方说明。
2.1 数据文件的格式
该软件使用的数据文件,纯文本文件即可,文件后缀可以是txt,也可以dat,
数据内容为两列,第一列为序号,第二列为频次,两列之间可以用若干个空格隔开,也可以用tab符。
1 15695369
2 12679522
3 8973486
4 8254443
5 7689020
2.2 读取数据
这个软件读取数据和大多数软件打开文件的操作是差不多的,只需要找到类似的打开图标就可以读取数据。
读取前页面
读取后页面
注意,软件和数据文件的存储路径都不能有中文,不然,偶尔会报错,还找不出问题
2.3 拟合说明
下面以奇普夫拟合为说明
2.3.1 读取数据
见上文2.2操作
2.3.2 选择模式
- 选择拟合
- 可以选择拟合的公式
- 自动拟合
- 当不知道需要拟合的分布时,可以让软件自动拟合所有的分布
- 特殊拟合
- 还不懂,仅推荐给受过专门培训的专家
- 批量拟合
- 就是批量做选择拟合,即可以对多个数据文本进行拟合
2.3.3 拟合
点击拟合按钮,处理结束后就可以查看结果
点击图表按钮,即可查看可视化结果
2.4 指标说明
Parameters框中显示的是所选分布与数据集拟合最佳时的几个参数的值。
2.4.1 卡方检验
卡方检验,用来观察数据的观察值和预测值差距是否显著的方法,全称是卡方值独立性检验(Chi-square test of independence),又称为卡方值显著度检验。
卡方检验,有两个要素,一个是卡方值,一个是自由度,这个要素显示一个卡方值出现的概率。
- 卡方值
- 是衡量预期与观察之间差距的指标。
- 计算方法,先计算每个单元里面观察值和预期值的差,然后平方,然后除以这个单元格的期望值,然后把各个单元格计算的数字相加。
- 解释卡方值的意义,需要参照两个信息,一个是自由度,一个是概率
- 自由度
- 即,任意度,degree of freedom
- 例如,2*2的交叉表有4个单元格,自由度是1,意思是只有一个单元格可以“任意取值”,只有一个单元格是“自由的”
- 自由度=(行数-1)*(列数-1)
- 自由度越大,出现大卡方值的概论越大
2.4.2 P值-probability level
P值,即卡方值出现的概率
- 上图中,P(x2)值远大于0.05,表明拟合结果极佳
- DF为卡方检验的自由度。
- C为差异系数,是卡方值的函数
- C=x2/N,其中N为数据集中观测对象的总数。
- 在数据集规模过大导致卡方检验失效的情况下,可以采用C来判断拟合效果的优劣
- 一般说来,当C<0.02时,结果为好;当C<0.01时,结果为非常好。
- R2为拟合的决定系数。
3、使用反馈
虽然很简单的软件,但是使用的时候还是不是很好用,特别是批量处理的模式,总感觉哪里有问题,但可能是自己的数据文件的问题。这个需要再看看。
3.1 注意要点
- 所有路径名、文件名必须非中文
- 数据格式是两列,序号列必须是等差为1,两列中间由空格或tab符隔开
- 批量拟合的文件,是有上限的,虽然该软件并没有对此说明(没有找到),但是,在试图对一万多个文本批量拟合是,会执行一部分文本后报错,似乎是超时错误。如果是几百个文件,则没有问题。还不清楚是文件的数量,还是其他原因造成。
参考阅读
1、计量语言学导论,刘海涛著. 计量语言学导论. 北京:商务印书馆, 2017.09.
2、RAM-Verlag 官网.引用日期【20210722】
3、Altmann-Fitter官方说明文档。
4、戏说统计 文科生的量化方法. 李连江著. 北京:中国政法大学出版社, 2017.10.