大数据服务之数据管理

数据管理过程主要包括:数据转换、数据关联、数据丰富、数据操作以及数据保持。

数据转换就是将数据从一种形式变换为另一种形式,通过形式的变化,使得数据更便于分析利用。比如在数据采集阶段导入的原始数据,需要将其从字符串类型转换为浮点型,这样便于对该数据项进行求和。另外,也可能因为数据格式问题进行数据转换,比如原始数据为网页这样的半结构化数据,为了能够搜索到网页中的数据,往往需要将网页中的关键数据提取出来并做成标签,再把标签作为检索项,这样检索时就没有必要检索整个网页了,通过这样达到提高检索效率的目的。

数据关联是按照需要,借助关联属性将多个分散的数据源关联在一起,就像用一根绳子将多个数据串接起来一样,目的是方便定位所需数据,同时便于从多个维度进行数据统计。比如,身份号码、手机号码、终端设备号、网络编码等可以作为数据关联的外键,也可以根据分析需要构建多个数据表,以实现数据的关联。

范式原则可以提高操作型数据模型对业务需求响应的灵活性,减少数据冗余,分析型数据模型则希望通过数据关联形成面向多个主题的数据模型,面向主题的数据模型更加接近于用户需求,便于多维度地分析和展现数据。

数据丰富也是为了满足业务需求而对数据进行的完善,比如有一个学生,如

相关推荐