1 概述
2 s3迁移
3 ElasticSearch数据迁移
4 Postgresql数据库
- 4.1 pg_dump 格式的迁移
- 4.2 基于AWS snapshot格式的迁移

概述

经过差不多两周的迁移终于将AWS账号(576184071779)下的数据迁移到DigitalOcean，包含以下几个项目S3桶、前端项目、ES服务数据（main和barnard）、Postgresql数据库这几部分

s3迁移

目标是将AWS中的ES数据迁移到DigitalOcean，使用工具 rclone （参考https://github.com/rclone/rclone ，该工具支持一些市面上一些主流的存储服务的相互迁移）

分为以下步骤

首先安装rclone成功后，进行配置，我们需要配置源和目标，有两种配置方法即通过命令行配置和配置文件（实际上命令行配置后也会写入到该配置文件，文件路径为~/.config/rclone/rclone.conf），文件内容如下
# AWS 配置 [s3] type = s3 provider = AWS env_auth = false access_key_id = XXXXXXXX # 获取方式自行查阅相关文档 secret_access_key = XXXXXXXX # 获取方式自行查阅相关文档 region = ap-northeast-1 location_constraint = ap-northeast-1 acl = private # DigitalOcean 配置 [spaces] type = s3 provider = DigitalOcean env_auth = false access_key_id = XXXXXXXX # 获取方式自行查阅相关文档 secret_access_key = XXXXXXXX # 获取方式自行查阅相关文档 endpoint = sgp1.digitaloceanspaces.com acl = private
执行以下同步命令，将开始同步指定的AWS s3桶，这里举例`cw-to-feishu-westar`，需要开一个窗口等待执行完成（这里建议在远程机器或者在本地上面开一个可被detach的命令行，否则当前session会被锁定在这里直到同步执行完成），请确保在执行该命令前，DigitalOcean中Space中对应的桶已经存在
# 同步s3 的 cw-to-feishu-westar 桶中的内容到 DigitalOcean中对应的桶 rclone --no-check-certificate sync s3:cw-to-feishu-westar spaces:cw-to-feishu-westar -vv # 同步完成后执行该命令做检查 rclone check s3:cw-to-feishu-westar spaces:cw-to-feishu-westar -vv

ElasticSearch数据迁移

目标是将AWS中的ES数据（源集群，下同）迁移到DigitalOcean（目标集群，下同），这里选择了采用基于快照的迁移方式，基于以下优点考虑：

侵入式比较少且数据也会比较完整
可以选择自己想要的部分同步
采用挂载方式省去快照数据拷贝的过程

主要的流程为

先在源集群上创建一个快照，并存入到对应的s3存储桶
在目标集群挂载s3
从快照中进行数据同步

1. 在源的集群上创建快照

AWS这里比较麻烦，需要先去配置权限，（这里参考文档https://docs.aws.amazon.com/zh_cn/opensearch-service/latest/developerguide/managedomains-snapshots.html ）如果这里不太熟悉AWS的权限，那么先建议阅读一下相关文档，我这里简要说明一下，AWS中有角色和账户，通常可以通过创建角色来为该角色配置安全策略。关于创建策略和角色参考以下文档：

https://docs.aws.amazon.com/zh_cn/IAM/latest/UserGuide/access_policies_create-console.html

https://docs.aws.amazon.com/zh_cn/IAM/latest/UserGuide/id_roles_create_for-user.html

首先需要创建一个角色专门为快照进行同步，且赋予它两个IAM策略（上面创建快照文档中均有说明）
1. 角色本身有个信任源，需要修改角色信任关系，让其信任OpenSearch服务
  { "Version": "2012-10-17", "Statement": [{ "Sid": "", "Effect": "Allow", "Principal": { "Service": "es.amazonaws.com" }, "Action": "sts:AssumeRole" }] }
2. 允许读写桶的策略，这里的策略资源名称为arn:aws:iam::576184071779:policy/es-snapshot-s3-access，
3. 是将这个角色的读写桶的权限交给ElasticSearch（AWS里面叫OpenSearch），这里我们称为权限传递，可见传递角色为arn:aws:iam::576184071779:role/es-snapshot，传递给ES服务
使用 awscurl 发起请求创建快照库（这里一定要用awscurl，否则OpenSearch服务不知道请求者的身份），如果已经配置了 AWS CLI，awscurl 可以使用相同的凭证文件（通常位于 ~/.aws/credentials），有了快照库之后才会有快照。
在kibana的devtool中查看快照的创建进度，若状态为 SUCCESS 说明创建成功

2. 在目标集群挂载S3

增加配置，这里在命令行做了两件事情：a. 在es服务上面安装s3-repository插件，b. 将aws s3的访问信息加入到es库中
启动后在目标集群的kibana devtool中创建挂载的快照库
检查一下快照库中的快照是否存在，如果存在说明挂载的快照可用，此时就可以进行数据同步了

3. 在目标集群上同步挂载快照的数据

执行以下命令进行同步
查看同步进度，可以通过检查doc的数量与源集群的索引是否一致来判断是否同步完成

Postgresql数据库

pg_dump 格式的迁移

（推荐使用该格式进行迁移）该部分比较简单，由于数据量较小（1.7G），直接使用 pg_dump 工具将其所有数据直接导出即可，之后可以进行导入。

在进行导出之前，先使用以下脚本先清理掉原来库中的一些数据，避免脏数据影响。注意schemaname 要改成需要的schema 名称以免清理错误。

此处为了影响最小，写了一个分离程序，将导出的部分拆分成了main和barnard两个schema

运行以下命令可以将其数据分离出来，注意每次都要指定 schema 命令，之后可以通过psql命令导入分离出来的sql脚本。

基于AWS snapshot格式的迁移

在使用AWS的RDS创建快照的时候，RDS会将其创建为基于Parquet格式的快照https://parquet.apache.org/ ，（关于RDS为何创建为Parquet格式，可能为了考虑兼容性和跨不同的数据服务）在基于这个格式的快照下，我们可以通过创建python文件来读取parquet格式，Python文件如下：

Chain

DigitalOcean 服务迁移笔记

Analytics

概述