1. 多种类型的数据
1.1. 结构化数据
有完整的结构规则,如 MySQL、Oracle、Excel 表等。
1.2. 半结构化数据
由基本固定结构模式的数据,比如日志文件、XML文档、JSON文档、email等。
1.3. 非结构化数据
无固定格式的数据,如Word、PDF、PPT、图片、音频、视频等。
2. 数据提取
2.1. 提取结构化数据
可以通过关系型数据库表形式进行存储。
2.2. 提取半结构化数据
可以通过固定规则提取数据信息,实时数据经常遇到这类数据,比如通过 kafka 传送 JSON 数据流。
一般情况下,在数据接入环节、就需要提取结构化的信息。
2.3. 提取非结构化数据
需要通过数据挖掘、机器学习等算法,提取结构化信息。
一般不在数据接入过程中,进行信息提取。因为非结构化数据没有明显特征,提取的时候需要大量样本进行学习、训练,如果算法模型有问题、这会导致源数据的大量损失。
多数时候会存在 HDFS、FTP、华为云obs、阿里云oss等,然后将文件路径存储为结构化数据,在使用的时候通过文件路径找到文件。
3.非结构化数据
3.1. 文本信息提取
- 要素信息:
- 姓名
- 身份证号码
- 电话
- 地址
- 账号
- 性别
- 年龄等
- 关键词摘要:
- 关键词
- 段落
- 摘要文本
- 关系提取:
- 人员关系
3.2. 音频信息提取
- 特征信息:
- 声纹特征、
- 语种特征
- 语音转文本:
- 文本信息提取
3.3. 视频图片信息提取
- 特征信息:
- 人像信息、
- 物品信息、
- 场景信息、
- 字幕信息