怎样学好统计学
在学校上了无数次的统计课程,学了一大堆的理论知识,也记住了好多的计算公式,但是一旦碰到实际数据,总是不知如何下手,最终只能找几篇类似的文章,照搬上面的方法,也不管对不对了。下面为大家带来怎样学好统计学,快来看看吧。
怎样学好统计学
我们为什么学不会统计,估计很多人很少会去像这个问题。我虽然也没有刻意去思考,但是在多年的协助别人设计、分析的经历中,慢慢地发现了一些可能的原因。
第一、统计学本身是一个非常灵活的学科,真正符合“具体问题具体分析”这样的一个哲学理念。即使是同样的指标,在不同场合下所选用的方法也可能不同。单说一个简单的方差分析,就因不同的设计类型需要采用不同的分析方法。甚至于同一批数据如果目的不同,其方法与结果也是不同的。
第二、大多数人最头疼的问题应该是:对于一批数据,不知道到底应该选用什么方法。尽管各种方法应用的前提条件背了一堆,但好像每个都像,每个又都不像。感觉好像用哪个方法也行,就是不知道哪个方法更准确。对于这样的问题,确实没有什么好办法能解决。正像医学生刚毕业时判断不准疾病一样,只能靠经验积累。
第三、目前的医学统计学教材大都是一个模式,冷冰冰的框架,没有一点人性化的词语,全是一些让人摸不着头脑的话语。实际上,这也正是目前医学统计学领域的悲哀,真正有水平的人很少,大多都是似懂非懂,缺乏分析的经验,写书时只能是照搬,相互抄来抄去,最终导致所有的医学统计学教材都是一个面孔。
第四、目前是学术界烦躁的一个时期,没有多少人能够耐住寂寞地真正研究理论。多数人都只是学了一知半解,就自封为“专家”、“人才”。帽子很大,学问不多。也有很多人能够学习理论,但是又不能结合实际,脱离实际问题,没有真正的效益。统计学是一门方法学,本身也在不断地发展,真正想要掌握统计,必须不断地学习新知识,同时应不断地应用,只有在应用过程中才能真正地学会并理解。目前国内医学统计领域真正的高手已经越来越少,主要就是因为大多数人都很难沉下心来仔细研究统计学方法的进展和应用。如果自己都对统计学不了解,如何谈得上教授学生,结果必将是让学生更加糊涂。
真正的统计高手,至少应熟悉传统的统计学理论,了解最新的统计学进展,经常应用统计学解决各种各样的问题,至少精通一个数据库工具,至少掌握一门编程语言,必须精通SAS,这里不说SPSS,因为只有在SAS编程过程中,才能够更加理解统计学理论,而SPSS仅靠菜单运行,除了知道结果之外,对如何得出结果仍然一无所知,无助于统计学的理解。世界500强中90%以上用SAS而不是SPSS分析数据,不是没有道理的。
统计学发展过程
起源
统计学的英文statistics最早源于现代拉丁文Statisticum Collegium(国会)、意大利文Statista(国民或政治家)以及德文Statistik,最早是由Gottfried Achenwall于1749年使用,代表对国家的资料进行分析的学问,也就是“研究国家的科学”。十九世纪,统计学在广泛的数据以及资料中探究其意义,并且由John Sinclair引进到英语世界。
统计学是一门很古老的科学,一般认为其学理研究始于古希腊的亚里士多德时代,迄今已有两千三百多年的历史。它起源于研究社会经济问题,在两千多年的发展过程中,统计学至少经历了“城邦政情”、“政治算数”和“统计分析科学”三个发展阶段。所谓“数理统计”并非***于统计学的新学科,确切地说,它是统计学在第三个发展阶段所形成的所有收集和分析数据的新方法的一个综合性名词。概率论是数理统计方法的理论基础,但是它不属于统计学的范畴,而是属于数学的范畴。
城邦政情
“城邦政情”(Matters of state)阶段始于古希腊的亚里斯多德撰写“城邦政情”或“城邦纪要”。他一共撰写了一百五十余种纪要,其内容包括各城邦的历史、行政、科学、艺术、人口、资源和财富等社会和经济情况的比较、分析,具有社会科学特点。“城邦政情”式的统计研究延续了一两千年,直至十七世纪中叶才逐渐被“政治算术”这个名词所替代,并且很快被演化为“统计学”(Statistics)。但统计学依然保留了城邦(state)这个词根。
政治算术
与“城邦政情”阶段没有很明显的分界点,本质的差别也不大。
“政治算术”的特点是统计方法与数学计算和推理方法开始结合。分析社会经济问题的方式更加注重运用定量分析方法。
1690年英国威廉·配弟出版《政治算数》一书作为这个阶段的起始标志。
威廉·配第用数字、重量和尺度将社会经济现象数量化的方法是近代统计学的重要特征。因此,威廉·配第的《政治算术》被后来的学者评价为近代统计学的来源,威廉·配第本人也被评价为近代统计学之父。
配第在书中使用的数字有三类:
第一类是对社会经济现象进行统计调查和经验观察得到的数字。因为受历史条件的限制,书中通过严格的统计调查得到的数据少,根据经验得出的数字多;
第二类是运用某种数学方法推算出来的`数字。其推算方法可分为三种:
(1)以已知数或已知量为基础,循著某种具体关系进行推算的方法;
(2)通过运用数字的理论性推理来进行推算的方法;
(3)以平均数为基础进行推算的方法”;
第三类是为了进行理论性推理而采用的例示性的数字。配第把这种运用数字和符号进行的推理称之为“代数的算法”。从配第使用数据的方法看,“政治算数”阶段的统计学已经比较明显地体现了“收集和分析数据的科学和艺术”特点,统计实证方法和理论分析方法浑然一体,这种方法即使是现代统计学也依然继承。
统计分析科学
在“政治算术”阶段出现的统计与数学的结合趋势逐渐发展形成了“统计分析科学”。
十九世纪末,欧洲大学开设的“国情纪要”或“政治算数”等课程名称逐渐消失,代之而起的是“统计分析科学”课程。当时的“统计分析科学”(Science of statistical analysis)课程的内容仍然是分析研究社会经济问题。
“统计分析科学”课程的出现是现代统计发展阶段的开端。1908年,“学生”氏(William Sleey Gosset的笔名Student)发表了关于t分布的论文。这是一篇在统计学发展史上划时代的文章,它创立了小样本代替大样本的方法,开创了统计学的新纪元。
现代统计学的代表人物首推比利时统计学家奎特莱(Adolphe Quelet),他将统计分析科学广泛应用于社会科学,自然科学和工程技术科学领域,因为他深信统计学是可以用于研究任何科学的一般研究方法.
现代统计学的理论基础概率论始于研究赌博的机遇问题,大约开始于1477年。数学家为了解释支配机遇的一般法则进行了长期的研究,逐渐形成了概率论理论框架。在概率论进一步发展的基础上,到十九世纪初,数学家们逐渐建立了观察误差理论,正态分布理论和最小平方法则。于是,现代统计方法便有了比较坚实的理论基础。
主要术语
统计学(statistics):收集、处理、分析、解释数据并从数据中得出结论的科学。
描述统计(descriptive statistics):研究数据收集、处理和描述的统计学方法。
推断统计(inferential statistics):研究如何利用样本数据来推断总体特征的统计学方法。
变量(variable):每次观察会得到不同结果的某种特征。
分类变量(categorical variable):观测结果表现为某种类别的变量。
顺序变量(rank variable):又称有序分类变量,观测结果表现为某种有序类别的变量。
数值型变量(metric variable):又称定量变量,观测结果表现为数字的变量。
均值(mean):均值也就是平均数,有时特指算术平均数,这是相对其他方式计算的均值,求法是先将所有数字加起来,然后除以数字的个数,这是测量集中趋势,或者说平均数的一种方法。
中位数(median):也就是选取中间的数,要找中位数,首先需要从小到大排序,排序后,再看中间的数字是什么。
众数(mode):众数也就是数据集中出现频率最多的数字。