全方位解读「大数据」:定义、分析、工具、应用与案例

发布于:2022-11-09 ⋅ 阅读:(16) ⋅ 点赞:(0) ⋅ 评论:(0)

大数据技术和产业的蓬勃发展,使资料成为了重要的生产力,同时也使当今社会的生产关系发生了变革。大数据时代的战略意义不仅在于掌握庞大的资料信息,还在于发现和理解信息内容及信息与信息之间的关系。

很多人其实并不清楚大数据到底是什么?今天,就透过大数据的定义、分析、工具、应用与案例,助你全方位解读「大数据」。

一、大数据的定义

大数据(Big Data), 又称作巨量资料。认识大数据,首先从大数据的特性和类型入手。

1.大数据的特征

大数据主要有以下4种特征:

容量 (Volume)

提到大数据,首先会想到与巨大的容量有关。资料量的大小在决定资料的价值方面起着非常重要的作用。因此,“量”是处理大数据时需要考虑的一个重要特征。

想想Facebook。这个世界上最受欢迎的社交媒体平台现在拥有超过22亿活跃使用者,他们中的许多人每天花数小时释出更新、评论图片、给贴文点赞、点选广告、玩游戏,以及做无数其他产生可以分析的资料的事情。每天产生的资料量是难以计数的。

多样性 (Variety)

大数据的另一个特征是多样性。多样性指的资料来源的多样,包括结构化资料和非结构化资料。在早期,大多数应用程序的资料来源基本上是电子表格和数据库。但随着科技的发展,电子邮件、照片、影片、监控装置、pdf等形式的资料也被考虑在分析应用中。这种非结构化资料给资料的储存、挖掘和分析也带来了一些挑战。

速度 (Velocity)

大量的资料从各种不同的来源以极快的速度涌入,这就给了我们第三个特征——速度。高资料速度意味着在任何一天都比前一天有更多的资料可用——但这也意味着资料分析的速度需要同样高。

如今,资料专业人士不会长期收集资料,然后在周末、月底或季度末进行单一的分析。相反,分析是实时的——资料收集和处理的速度越快,它在长期和短期内就越有价值。Facebook讯息、Twitter贴文、信用卡刷卡和电子商务销售交易都是高速资料的例子。

准确性 (Veracity)

准确性是指所收集资料的质量、准确性和可信度。高准确性的资料是真正有价值的东西,以一种有意义的方式对整体结果作出贡献。而且必须是高质量的。例如,如果您正在分析Twitter资料,那么必须直接从Twitter站点本身提取资料(如果可能的话使用本机API),而不是从可能不可信的第三方系统提取资料。据估计,资料的不准确性或错误导致美国公司每年损失超过3.1万亿美元,原因是基于这些资料做出了错误的决策,以及花费大量资金对资料进行清洗、清理和修复。

2.大数据的种类

大数据可以分为三种类型:

结构化资料 (Structured)

结构化资料指可以使用关系型数据库表示和储存,表现为二维形式的资料。你可以透过固有键值获取相应信息,且资料的格式固定。

非结构化资料(Unstructured)

任何形式或结构未知的资料都被归类为非结构化资料,一个典型例子是包含简单文字档案、影象、影片等组合的异构资料来源。

据IDC的一项调查报告中指出:企业中80%的资料都是非结构化资料,这些资料每年都按指数增长60%。但是因为这些是非结构化的,对于公司和IT部门来说,如何将这些资料转化为价值,仍存在很大的挑战。

半结构化资料(Semi-Structured)

半结构化资料可以同时包含这两种形式的资料。我们可以把半结构化的资料看成是结构化的,但却不方便模式化,不能用关系DBMS中的表定义来定义。例如日志档案、XML文件、JSON文件、Email等

二、什么是大数据分析?

大资料分析是“研究包含多种资料型别的大型资料集的过程,以发现隐藏的模式、未知的关联、市场趋势、客户偏好和其他信息。”

IIA研究部主任Tom Davenport采访了50家实施大资料分析的公司,发现大资料分析对公司主要的价值包括更降低成本,帮助更好更快的决策,以及发现新的收入机会,开发新的产品和服务等。

三、大数据分析的步骤

大数据分析的步骤主要有以下五步:

1、提出问题

提出问题是是大资料分析的第一步,这个步骤帮助你定位想要挖掘的信息中心,后续的步骤都围绕此来进行

2、采集资料

虽然每天网际网络都会产生大量的资料,但是这些并不是所谓的大数据,只是一个信息的泛滥资料而已。对于企业来讲,要搜集对自己企业有用的资料才是真的大数据。而大数据的采集很简单,透过操作资料分析软件,利用多个数据库对各种资料进行查询和处理,并存储在相应的空间当中。

在这个过程中,大数据分析软件最大的挑战是并发数高。我们都知道,有不少网站的访问量是非常高的,对它们的资料采集必须要有大的数据库才能支撑,因此大数据分析软件质量不好,也会阻碍分析。

3、汇入以及预处理

采集所产生的资料虽多,但是却并不全是有效的,需要数据分析软件对其进行分析,而要想分析这些资料,就要先将这些资料汇入到一个数据库中,并做一些简单的处理,这样可以集中删除一些无用但是占存储器的资料,帮助企业更快的找到有效数,满足企业对资料的分析要求。

4、统计分析

使用分析和统计工具评估资料以发现有用的信息,是大数据分析过程中最重要的步骤。利用数据库中的大量资料,对其进行分析,采集,从而获得对企业发展有益的信息,满足企业的分析需求。另外,在分析统计过程中,企业还要做到资料的可靠性才行。有些资料如果出现问题,会给企业分析带来误导,所以在输入过程中一定要注意准确性。

5、资料视觉化

这一步,藉助FineReport、FineBI和Tableau等工具,将上一步的资料结果用图表、dashboard等更直观的方式呈现,帮助企业更容易理解资料,找到资料背后的真相。

「注意」

值得一提的是,虽然大资料分析的步骤可以套用到任何一个商业案例上,但是资料分析的功力可就因人而异了。一般情况下,可以把资料分析的功力级别分为三级。

  • 初级:只会被动的取数。没办法解决业务的问题,业务部门缺什么资料,我就取什么资料… 常被调侃叫”茶树菇 / 表哥 / 表姐“。
  • 中级:解决具体问题。采用由上至下的思维方式来分析,透过做使用者画像-寻找差异-差异量化成指标-问题假设-改进方案-验证。
  • 高级:指导业务。这类人很少,一般是总监级别,思维和业务都非常熟练。

前两者占了90%,最后一层需要你有大量的实际经验,并不是看几篇文章,会几个工具,读几本书就能达到的。如果你还处在取数阶段,不用慌,这是个必经的过程,但是工作了三五年,还被叫表哥表姐的话,就很危险了。

那么,如何破局呢?记住一条,业务为王。

理论上:资料分析=业务分析+资料手段+量化业务

实际上:资料分析=监控类(资料埋点、建表、写BI、资料观察)+资料支援类+问题分析

你只有抓住业务本质,你分析出出来的结论和报告,才是对业务有指导作用 ,是能影响管理层决策的。那从哪里去了解业务呢?这个应该不用我多说。

四、热门的大数据分析工具

大资料分析工具的选择有两种,一类是在资料分析步骤中选择相对应的专业的工具,一类是选择功能可以涵盖从资料收集到资料视觉化的每一步的全面的资料分析工具。

各资料应用架构层的大数据分析工具

1、资料处理层

常用的资料储存层有Access,MySQL数据库等。但是这个很难满足大资料分析的需求。一般企业级的大型数据库会选择DB2,Oracle数据库。如果还是不能满足海量的资料储存需求,这个时候就需要上企业级应用的数仓了。

2、资料分析层

资料分析层最常用的是Excel。 更专业的有SPSS软件和SAS软件。SPSS作为资料分析入门是比较好的。对于高阶资料分析师,使用分析工具是核心能力,VBA基本必备,SPSS/SAS/R至少要熟练使用其中之一,其他分析工具(如Matlab)视情况而定。对于资料采撷工程师,可以用R和Python写程序码来解决。

3、表现层

因为大数据的数据量很大,一些在线的图表工具很难支撑大数据的视觉化呈现。所以在表现层常用一些专业的企业级的视觉化工具来实现。比如FineReport,你可以将它连线各种数据库,或是ERP、CRM、OA、MIS在内的各种业务系统资料。

FineReport提供了70多种图表和能强大的复杂报表和战情室功能。你可以将你的数据可视化便捷地发布到多场景的资料大屏上进行视觉化集中管理,比如行动端、TV屏、大屏等。

其他特点:

  • Excel+绑定资料列的界面,操作容易,简单易学
  • 拥有很多主题的模板,可重复使用
  • 功能强大,除了基础的数据展现外,FineReport还支持数据填报、定时推送,多级上报,打印导出等各种场景
  • 大屏3D特效、15 种动态载入效果,以及联动、离屏控制

一体化大数据分析工具

上述各应用层架构上对应的资料分析工具,多多少少会需要用到程序码或是SQL,对技术的要求比较高,适合IT部门使用。

那么,对于有及时的业务分析需求的业务部门或是资料分析师呢?这里建议可以选择一功能全面且好上手的大资料分析工具,比如FineBI

FineBI能够打通各类资料源,支援超过30种以上的数据库表和SQL资料来源,和数仓的便捷连线。基于Spider大资料引擎的直连模式和本地模式,以轻量级的架构实现大体量资料的抽取、计算和分析。最高可以支撑20亿资料的秒级呈现,可支撑大资料分析的各种应用场景

FineBI专业、简洁、易用,界面和流程一目了然,每个模块都有明确的功能分区。透过FineBI自助资料集功能,普通业务人员就能拖拖拽拽对资料做筛选、切割、排序、汇总等,自助灵活地达成期望的资料结果,并选取智慧推送的图表和dashboard实现资料的视觉化。

并且,FineBI内置了各种计算公式、过滤组件,基本告别SQL和代码。

五、大数据分析应用

1.制造业

痛点:

制造业面临技术工艺不精、缺乏市场意识、商贸流通环节多、物流成本大、仓储效率低下的问题,正处在转型的特殊时期。制造业原有的各应用系统(ERP、SCM、CRM)随着企业的发展积累了大量的资料,但未得到有效利用,并且由于各个应用系统相互独立,挖掘出资料的潜在价值是比较困难

透过业智慧资料仓库的建立,将企业中的所有相关资料经过ETL转换,资料清洗后放到资料仓库中,业务人员可透过自动建模实现自助式分析,及时了解生产、销售情况,摆脱资料孤岛的烦恼。如最佳化生产线管理,可以透过整合的FineBI商业智慧平台,工厂内不同工序的管理者能够获得实时的资料资料并查阅不同的报表。

生产部经理能从生产时间、产能利用和资源运用等关键绩效指标(KPI),监控生产力并策划产能和最佳化资源;质量管理部经理能够透过产品缺陷分析改善产品质量;而高阶管理层能透过更有效地控制成本及开支分析提升投资回报率。

2.零售业

痛点:

很多零售连锁公司、百货公司很早就引入了OA办公系统,自有的信息平台也都投入使用,但面对日益庞大的顾客消费资料,如何让沉淀下来的客户资料发挥最大的价值,尤其是商场的会员,怎样让会员的黏着度,会员的价值以及忠诚度提升到最优,以提供根据吸引力的增值服务,成为摆在面前的一道难题。

大数据应用

打通数据之间的逻辑到指标,指标之间的逻辑到内容,内容之间的逻辑到主题,主题之间的逻辑到管理。形成一整套零售业大数据分析体系,不仅仅让数据被看到,更让数据和业务和管理紧密相连,让数据价值清晰可见。

十几年来,帆软协助众多零售企业成功向新零售迈进,有着丰富零售业数位转型经验,并举办多场线下交流大会,邀请有实作经验之人士共同探讨零售业大数据分析实例,探讨零售业之未来发展。

3.交通物流行业

痛点:

很多交通运输公司,在信息化发展后,已建成了多个信息管理系统,涉及运营、管理、财务等方面。这些系统既相对独立,又具有一定的联络,彼此会互相呼叫其它系统的资料。但这些信息系统经过了近十年的使用与发展,其本身固有的限制已经越来越不适合当前企业的业务需求。他们一致寻求既能不影响现有系统的执行,又能对全公司资料进行集中分析处理的方法,商业智慧正是一个优秀的解决方案。

大数据应用:

堆积的资料也都”活跃“起来。也正因为这样一个网络式搭建的系统,车辆的信息得到归档集中,管理人员能够实时有效地检视车辆运营信息和车辆维修保养状况,辅助进行决策。帆软解决方案也给管理执行带来如下益处