统计学的坑坑洼洼

发布于:2023-01-22 ⋅ 阅读:(13) ⋅ 点赞:(0) ⋅ 评论:(0)

百科给的定义是“关于认识客观现象总体数量特征和数量关系的科学”,定义中共提及2个词语“数量”,通俗理解即为数字。古代人可以通过竹简计数,80年代的人使用算盘,90年的人则使用计算器,2000年后计算机普及,电脑逐步替代计算器,手机的兴起慢慢替代电脑,也许后面还有更高科学的产品进行替代。无论如何,工具的便捷,半导体领域的摩尔定律,都是解放着人类。让一切都变得快捷且方便。
统计学是通过搜集、整理、分析统计资料,从而认识客观现象数量规律性的方法论科学。

从搜集数据的角度来看

原始数据的收集从普及的谈话收集文字信息,语音数据资料收集,再到视频资料的整理收集,人口普查,填写资料信息等各式各样。

随着互联网的兴起,传统的数据收集显得笨拙且麻烦,问卷,表单数据等小数据铺天盖地,身边无不一环饶着数据收集的身影。以及最近几年大数据的兴起,开始诞生出电子商务交易性数据,互联网信息资料数据,信用卡交易数据,从理论上看,任何在网络操作,不论是电脑还是手机等媒体身上,都能将数据进行汇总而且轻易的获取出来。

收集数据的形式多样,但并非一帆风顺。成本,时间,人力,即时性,规范性等让人类显得有点'着急'。搜索引擎时代,可以使用爬虫去抓取网络信息,但爬虫读取的数据不具有结构化特点。大数据时代下,T级别甚至更大量的数据更是少数企业的'专利',反而是数据量过大无从下手,没有数据的企业想有数据做点事情,挖掘一些信息,而有大量数据的企业也无法有效的利用好数据,反倒是数据信息的'泛滥'导致人们高估了数据本身的价值。

从整理数据的角度来看

数据整理是个繁琐的过程。20世纪以前,人们只能将数据信息进行整理规范保留为书籍或者音频、视频。但这类非结构化的数据,想挖掘出有价值的信息,是件非常复杂的事情。即使今天,计算机技术的发展,让我们可以使用文本挖掘工具,提取关键词一类的信息,也是不那么令人满意。

反倒是20世纪后,所有的数据信息却是基于互联网,以技术为出发点进行思考,数据均以结构化形式进行收集归纳并且保存,才使人类对于数据有了新的认识。当前时代下的小数据收集,比如问卷星,国外的surveymonkey等,均是网页或者手机填写资料,直接以结构化的形式存储在服务器上。这使得分析数据变得容易。而大数据下的电商交易数据等更是结构化规则化保存。亚马逊的数据存储,完全规范结构,将数据存储于上百万个表格中,分析人员直接提取出自己想要的数据信息马上就能研究使用。

就在当下,依然还有非常多的数据以非结构化形式存储,比如纸质版本收集问卷,录入数据就是一项麻烦的工具。整理数据这一难题如果能彻底解决,数据的应用空间会更大广泛。

从分析数据资料的角度来看

站在分析人员的角度来看,数据资料的分析基本上均是对结构化数据进行研究。也可理解为定量分析和定性分析,结构化数据可以直观的使用图、表、研究方法指标等进行研究,以得到通俗理解的结构。定性分析更多是研究人员对于结构的整理、加工,加上经验的积累从而得到结论。从社会发展,以及参考国外的发展来看,结构化数据更容易被人接受。

早在互联网之前,数据分析并不是一门专门的学问,会个算盘,会点加减乘除也可以简单的统计收集整理。但在2000年后,数据收集的结构化整理,数据收集的场景变多,数据量大以及对于计算机进行数据分析的要求变多,因而分析工作变得职业化。分析人员需要对行业有深入的理解,企业分析人员需要具备各项知识技能,包括数据清理,数据抓取,数据分析及呈现,报告撰写,对于业务理解等要求,因而整体上数据分析职业化已经成为趋势及普及化。专业分析人员更可能深入理解统计研究方法,对于数据的一整套工具及方法论的使用更加得心应手。

随着数据研究标准化,数据分析可成为各行业的标准交流语言。企业管理中直接用数字说话,不需要来回多费口舌,指标情况如何一目了然,所有企业经营情况如何也可以通过数字进行衡量、监督,并且可使用数据指标管理企业运营等。因而每个人都懂一些基本的数据统计知识也有其必要性。

数据统计分析的应用场景

当前数据统计的应用场景上,自然、社会、经济、科学技术等领域及分支机构会更多的使用。比如教育行业、互联网行业、医疗行业等。

教育行业中使用数据分析有一个非常明显的场景即研究课题时的数据分析,写论文时需要数据分析指标进行观点论证支撑。数据指标客观存在,所有人都对相应的指标进行阅读理解即可。

互联网行业中可用数据指标进行运营管理,绩效考核,市场推广等,metrics的每天监控,长时间的考查,绩效通过metrics进行衡量,均体现了数据的价值。

医疗行业进行实验研究,新药品的研发等均需要数据分析。

统计数据研究可让人信服,用客观的标准成为自己手中的利剑,说服别人的同时,也是对自然客观规律性的致敬。

数据统计分析软件工具的使用

提到统计数据分析,一定需要提到的就是分析软件工具。从软件工具的应用场景来看,包括数据统计方法平台,比如SPSS、SAS、R、SPSSAU、Mintab、Matlab、Stata、Eviews、Python等数据可视化的呈现工具比如EXCEL、Power BI、Tableau等,数据可视化的工具还有很多,简单来讲即将数据进行图形化,并且通过图示化直观的发现其中规律挖掘价值信息。除此之外,还有非常多的数据分析软件,比如百度统计工具等。

数据分析统计软件上,当前时代下均是国外的天下。SPSS、SAS、Stata为世界三大统计软件,以及Python、R、Mintab等,都是国外产品,我们国家一个被人熟知的统计软件产品都没有,但这类软件都是统计算法的罗列,需要专业分析人员才能使用。当前国家人工智能战略,大量人工智能产品涌现,不乏个别优秀产品,比如SPSSAU,这是在线网页版本的SPSS,其将SPSS软件功能移置到网页上并且进行很多改良,包括人工智能文字分析,算法的智能化选择(多种方法的智能判断),SPSSAU里面也有可视化图表功能,可以进行推荐,但其过于傻瓜化,所以更适合于新手,适合于数据分析理论原理完全不理解的用户。如果专业用户,也许使用可以写代码的sas,stata等更加便捷,当然SPSSAU是网页直接使用,这是独特的优点。

可视化工具当前有优秀的产品推荐为tableau,其可视化和分析功能强大,尤其是展示效果方面,tableau极其优秀,但其费用高昂,并且功能过多相对仅适合企业付费用户,且专业人员使用更适合。当然,也许还有很多用户推荐使用Excel,确实当前Excel已经成为一类标准,每台电脑均有安装,因而excel的可获取性、易用性上也无可置疑。

数据分析软件是替代计算器,算盘之类的东西,其运用并不复杂,尤其是使用过SPSSAU的用户就会知道其简便之处,效率非常高,拖拽点下即可完成。但最关键的还是懂一些原理更好,每个软件产品都自带帮助文档。对于不太会懂原理的用户来说,一份好的帮助文档就像是一位老的老师,可以指导使用者快速全面的了解软件,这也可以算得上是一条快速掌握新技能的小捷径了。


更多干货请前往SPSSAU官网查看。