数据清洗思路

整理一下数据清洗思路

配置项

实习有感,以org为例进行配置项分析

  • 一般将配置项作为记录存储在数据库中,但往往一个org对应几百个配置项,

    • 插入几百条记录,数据库的容量也是要钱的
    • 查找几百条记录,org又不作为主键,随机io更是对DB性能的一次毁灭性打击

    因此,采用json字符串透传形式保存,一条记录即可搞定。添加新配置也很简单,转为json插入再转为字符串插入DB

    一般也会做一层缓存,配置更新了删掉缓存重新从数据库取

  • 针对新配置,很少会做全量更新。新功能也是要花钱的,这种时候只需要给添加功能的org更新字段即可,但要给之前的org配置默认值

    数据清洗要做好默认值的储备。即当前id对应的配置如果找不到,从内存map中取默认falseortrue

图床

之前的文档都是在语雀上写的,转为md发现图片显示不出来。

原因是语雀做了防盗链

清洗的思路也很简单:

  • 批量下载markdown中所有的图片
  • 上传markdown的图片到图床
  • 替换markdown中的图片链接
  • 生成一个新的markdown文件,里面的图片链接都来自图床本地路径文件

文档信息

Search

    Table of Contents