当今世界数据无处不在|半结构化和非结构化数据的概念

当今世界数据无处不在 , 并且仍在不断的产生 。
我们如何来定义数据呢?
数据是为某种目的收集和翻译的任何字符集 , 通常用于研究或分析 。 数据可以包括:事实、观察、感知、数字、字符、符号、图像、音频、文本或任意其中的组合 。
当今世界数据无处不在|半结构化和非结构化数据的概念
文章图片
01数据的类型多种多样
常见的数据类型有:
单个字符;
Boolean(TRUE/FALSE);
文本(字符串);
数字(整数或小数);
当今世界数据无处不在|半结构化和非结构化数据的概念】图片;
声音;
视频……
数据可分为原始(一手)数据和二手数据 。
一手数据是经需要该信息的个人直接获取生成;二手数据是指已经为其他目的而收集的数据 。 原始数据(未经分析) , 包含数字、仪器读数和从源头收集而来的数据 。 在考试中 , 原始数据便是学生的考试成绩 。 经处理后 , 原始数据输出可以用于分析和研究 。 在计算机上 , 数据和信息的手机是通过使用硬盘驱动器或其他存储设备 , 以二进制形式(0或1)进行存储 。
数据
当今世界数据无处不在|半结构化和非结构化数据的概念
文章图片
数据的形式有以下几种:
1.个人数据(personaldata):特定于个人的任何信息 , 如姓名、人口统计、位置、地址和其他身份识别信息 。
2.业务数据(transactionaldata):在线广告、网购、网站访问等形式的数据 , 这些数据需要进行采集 , 对商业活动非常重要 , 可以帮助企业灵活应变和优化运营 。
3.网页数据(webdata):互联网上面向公众的信息的总括(换句话说 , 不是存储在私有数据库中) 。 公司可以使用这些信息来了解竞争对手、跟踪潜在客户、跟踪渠道合作伙伴、生成潜在客户和构建应用程序 。
4.传感器数据(sensordata):由对象产生的信息 , 通常称为物联网(IoT , InternetofThings) 。 这类数据涵盖了从测量心率和温度的智能手表 , 到带有外部传感器的建筑物 , 这些传感器可以测量天气或在检测到移动时打开灯光等 。 目前 , 传感器数据的主要用途是帮助优化流程 。
数据按照等级和刚性分类 , 有以下几种类型:
1.结构化数据(structureddata):数据库以行和列存储和显示结构化数据 , 类似于Excel或Word表格 。 数据按照清晰的图式和严格的结构进行存储 , 这些特性也使得关系数据库(以表格形式存储数据)成为结构化数据的理想选择 。 MicrosoftSQLServer、IBMDb2和Oracle数据库等都是用于存储结构化数据的具体示例 。
2.半结构化数据(semi-structureddata):具有一些组织属性 , 但数据不以严格的表格图式收集在所需的行和列中 。 相反 , 半结构化数据使用标签和元数据组织成层次结构 , 并存储在非关系数据库中 。
3.非结构化数据(unstructureddata):不具有可识别结构或特定格式、序列、语义或规则的数据 , 通常存储在NoSQL数据库中 。 非结构化数据最常见的例子包括文本 , 如Word文档和电子邮件 , 还包括图像、音频文件和日志文件等 。 MongoDB、Hbase、CassandraDB和OracleNoSQLDB等是用于存储半结构化和非结构化数据的具体示例 。
当今世界数据无处不在|半结构化和非结构化数据的概念
文章图片
述(最多18字
02数据的来源与使用
目前有多种数据源可用 , 包括:
1.存储在数据库中的内部组织数据;
2.公共可用数据 , 如天气、金融、政府等相关的数据;
3.API和网页服务;