ETL

ETL方法论:数据类型

1. 多种类型的数据

1.1. 结构化数据

有完整的结构规则,如 MySQL、Oracle、Excel 表等。

1.2. 半结构化数据

由基本固定结构模式的数据,比如日志文件、XML文档、JSON文档、email等。

1.3. 非结构化数据

无固定格式的数据,如Word、PDF、PPT、图片、音频、视频等。

2. 数据提取

2.1. 提取结构化数据

可以通过关系型数据库表形式进行存储。

2.2. 提取半结构化数据

可以通过固定规则提取数据信息,实时数据经常遇到这类数据,比如通过 kafka 传送 JSON 数据流。

一般情况下,在数据接入环节、就需要提取结构化的信息。

2.3. 提取非结构化数据

需要通过数据挖掘、机器学习等算法,提取结构化信息。

一般不在数据接入过程中,进行信息提取。因为非结构化数据没有明显特征,提取的时候需要大量样本进行学习、训练,如果算法模型有问题、这会导致源数据的大量损失。

多数时候会存在 HDFS、FTP、华为云obs、阿里云oss等,然后将文件路径存储为结构化数据,在使用的时候通过文件路径找到文件。

3.非结构化数据

3.1. 文本信息提取

  • 要素信息:
    • 姓名
    • 身份证号码
    • 电话
    • 地址
    • 账号
    • 性别
    • 年龄等
  • 关键词摘要:
    • 关键词
    • 段落
    • 摘要文本
  • 关系提取:
    • 人员关系

3.2. 音频信息提取

  • 特征信息:
    • 声纹特征、
    • 语种特征
  • 语音转文本:
    • 文本信息提取

3.3. 视频图片信息提取

  • 特征信息:
    • 人像信息、
    • 物品信息、
    • 场景信息、
    • 字幕信息