大数据技术概述_3.大数据的研究内容

发布于:2024-05-06 ⋅ 阅读:(24) ⋅ 点赞:(0)

        为了应对大数据的研究工作面临的5个方面的挑战,白皮书建议采用现有成熟技术解决大数据带来的挑战,并给出了大数据分析的分析步骤,大致分为数据获取/记录、信息抽取/清洗/注记、数据集成/聚集/表现、数据分析/建模和数据解释5个主要阶段。在每个阶段都面临着各自的研究问题。

1.数据获取和记录

         研究数据压缩中的科学问题,能够智能地处理原始数据,在不丢失信息的情况下,将海量数据压缩到可以理解的程度:研究“在线|”数据分析技术,能够处理实时流数据;研究元数据自动获取技术和相关系统;研究数据来源技术,追踪数据的产生和处理过程。

2.信息抽取和清洗

         一般来说,收集到的信息需要一个信息抽取过程,才能用来进行数据分析。抽取的对象可能包含图像、视频等具有复杂结构的数据,而且该过程通常是与应用高度相关的。

        一般认为,大数据通常会反映事实情况,实际上大数据中广泛存在着虚假数据。关于数据清洗的现有工作通常假设数据是有效的、良好组织的,或对其错误模型具有良好的先验知识,这些假设在大数据领域将不再正确。

3.数据集成、聚集和表示

         由于大量异构数据的存在,大数据处理不能仅仅是对数据进行记录,然后就将其放入存储中。如果仅仅是将一堆数据翻入存储中,那么其他人就可能无法查找、修改数据,更不能使用数据了。即使各个数据源都存在元数据,将异构数据整合在一起仍然是一项巨大的挑战。

        对大规模数据进行有效分析需要以自动化的方式对数据进行定位、识别、理解和引用。为了实现该目标,需要研究数据结构和语义的统一描述方式与智能理解技术,实现机器自动处理,从这一角度看,对数据结构和数据库的设计也显得尤为重要。

4.查询处理、数据建模和分析

         大数据中的噪声很多,具有动态性、异构性、关联性、不可信性等多种特征。尽管如此,即使是充满噪声的大数据也可能比小样本数据更有价值,因为通过频繁模式和相关性分析得到的一般统计数据通常强于具有波动性的个体数据,往往透露更可靠的隐藏模式和知识。此外,信息网络可以通过信息冗余以弥补缺失的数据、交叉验证冲突的情况、验证可信赖的关系。

        数据挖掘需要完整的、经过清洗的、可信的、可被高效访问的数据,以及声明性的查询(例如SQL)和挖掘接口,还需要可扩展的挖掘算法即大数据计算环境。在TB级别上的可伸缩复杂交互查询技术是目前数据处理的一个重要的开放性研究问题。当前的大数据分析的一个问题是缺乏数据库系统之间的协作,需要研究并实现卖给你声明性查询语句与数据挖掘、数据统计包有机整合在一起的数据分析系统。

5.解释

         仅仅有能力分析大数据本身,而无法让用户理解分析结果,这样的效果价值不大。如果用户无法理解的分析。最终,一个决策者需要对数据分析结果进行解释。对数据的解释不能凭空出现,通常包括检查所有提出的假设并对分析过程进行追踪和折回分析。此外,分析过程中可能引入许多可能的误差来源:计算机系统可能有缺陷、模型总有其适用范围和假设、分析结果可能基于错误的数据等。在这种情况下,大数据分析系统应该支持用户了解、验证、分析旧电脑所产生的结果。大数据由于其复杂性,这一过程特别具有挑战性,是一个重要的研究内容。。


网站公告

今日签到

点亮在社区的每一天
去签到