dave

2022-12-19

  • delete old db instance starcoin-pg

  • prepare data for export snapshot bug

  • clean old cluster admin role

2022-12-18

2022-12-17

  • fix manifest file for sync block

2022-12-16

  • clean old canary monitor, delete and transfer to new account

  • analysis fail reason for sync block

    •  

2022-12-15

  • clean old account

  • fix sync block index file

  • do proxima seed

2022-12-14

  • new release v1.12.9

  • 在do 部署了proxima网络 两个seed节点,观察中

2022-12-13

调整了集群节点组配置之后,观察不再频繁扩缩,同时seed节点的OOM kill现象消失,CPU使用率有些高。

NAME CPU(cores) MEMORY(bytes) starcoin-0 1076m 2214Mi starcoin-1 1064m 2267Mi starcoin-2 1081m 3166Mi starcoin-3 1065m 2570Mi starcoin-4 1078m 2666Mi starcoin-5 1091m 2307Mi starcoin-6 1059m 2217Mi starcoin-7 1073m 4523Mi starcoin-8 1081m 2309Mi starswap-info-deployment-b6c9b8566-chg4c 1m 344Mi

2022-12-09

  • aws 新集群扩缩容频率有些高,排查原因

    • 调整了集群配置,后续继续观察,是否有改进。

  • seed 节点有出现OOM,排查原因

    • 从统计信息来看,个别seed随着时间推移,确实占用内存较多,考虑是否有内存泄漏,需要进一步排查

      • NAME CPU(cores) MEMORY(bytes) starcoin-0 49m 590Mi starcoin-1 68m 757Mi starcoin-2 119m 1686Mi starcoin-3 31m 510Mi starcoin-4 92m 4556Mi starcoin-5 62m 815Mi starcoin-6 42m 689Mi starcoin-7 140m 3510Mi starcoin-8 88m 787Mi starcoin-main-indexer-deployment-7f68895b75-f87nk 10m 284Mi starswap-info-deployment-b6c9b8566-chg4c 2m 252Mi

2022-12-08

  • 创建DO K8s集群,尝试一下DO的云服务

2022-12-07

  • 更新sync block s3 bucket

  • 梳理现有业务成本分布,分析优化点,预估月末账单

2022-12-06

  • 删除老账号下

    • 迁移备用的snapshot、卷

    • 已经迁移完成的数据库实例

  • release v1.12.8

  • 修复sync block cron action

2022-12-05

  • 更新kube manifest

    • starcoin

    • starswap

    • StarcoinPriceReporter

    • dao-api

    • starcoin-airdrop-api

    • starcoin-faucet-api

    • starcoin-faucet-worker

    • starcoin-poll-api

2022-12-02

  • 升级aptos fullnode

    • testnet

    • devnet

    • mainnet

  • 关注迁移升级之后,CI是否还有卡住的情况

  •  

2022-12-01

2022-11-21

  • 寻找更快的链数据同步方式,单纯自然同步的方式速度太慢

    • create snapshot

    • use snapshot create pv pvc and attach to new seed node

2022-11-17~19

  • S3 25个bucket 数据同步

2022-11-15

  • CI构建迁移到aws新账号,部署完成,已迁移

  • main和barnard已开始逐步部署

2022-11-14

  • move安全升级starcoin发版

2022-11-12

  • 在barnard网络上升级stdlib到v12版本

 

2022-11-11

在banard准备提交提案之前,发现本地的数据同步有问题,数据坏了,解决方式是清空本地数据,然后从头导入,下次得留意一下。

  • Sync task is interrupted by node hash not found:NodeIndex(17214768), cause:"node hash not found:NodeIndex(17214768)"

等数据同步完成之后,明天尝试在barnard提交模块升级提案。

建立提案出错,但没有错误信息。Failed to parse server response as SignedUserTransaction: unknown variant struct, expected one of Bool, U8, U64, U128, Address, Signer, Vector, Struct


2022-11-09

2022-11-08

  • 精细化成本统计方案,调研结果,

    • 按namespace来看各个业务的成本,理论可行。目前业内有一个收费方案,kubecost每月449美元,我这里倾向于选择开源方案,搭建服务初步跑起来的效果如下,数据细节还有问题,需要定位原因。

    •  

2022-11-03~07

  • 调研成本统计方案,目标是能更好的看到各个业务的成本

    • 是否要分集群,分析优缺点

      • 缺点

        • 每个EKS集群每月会带来75美元的费用

        • 如果每个业务独立EKS集群,node资源可能会用不满也带来成本上升

    • 调研按namespace统计成本的方案

2022-10-31~2022-11-01

  • aptos fullnode 节点存储扩容到200G

    • devnet

    • testnet

    • mainnet

  • movescan高度差监控

    • 采用lambda和cloudwatch结合的方式去实现

  • 增加Ubuntu22.04的release

2022-10-28

2022-10-26~27

新账号监控相关

  • Send logs to CloudWatch Logs

    • set up cloudwatch agent and fluent bit

  • 发现aptos-fullnode-testnet实例宕机,增加监控,后续观察

    • 分析日志,testnet node可能存在问题, oom 被kill

      • Oct 26 23:03:07 ip-172-31-46-204 kernel: [460422.616108] Out of memory: Killed process 62539 (aptos-node) total-vm:44755712kB, anon-rss:30949020kB, file-rss:0kB, shmem-rss:0kB, UID:0 pgtables:79900kB oom_score_adj:0

    • 给aptos官方提issue,

    • 打算增加一台实力运行devnode

      • 申请解除32 vCPU限额,Case ID 11120933131

2022-10-25

  • movescan 监控相关

    • 增加pg使用率报警

    • 增加高度差报警

      • TODO 获取indexer日志当前处理的高度

      • 对比aptos full node高度

TODO add lambda for cloudwatch msg to discord

2022-10-24

  • 跟进排查Sync Blocks Cron失败原因

    • 之前的错误导致数据花了,现已修复。

2022-10-21

  • seed节点存储扩容

    • main

    • barnard

  • movescan数据库迁移

  • aws新账号

    • EKS node-group 根目录磁盘大小,200G->100G

    • 部署aptos devnet fullnode,启动devnet失败

      • 给官方提issue

2022-10-20

  • 排查sync block 任务失败原因,定位是导出快照命令导致容器OOM,

    • 暂定先扩容seed节点的存储,后续再观察

  • aws新账号

    • 创建跳板机,node group,db资源等

    • 部署starfly服务,确认eks处于可用状态

2022-10-19

  • 对比权限发现k8s group里的权限有缺失,增加iam子账号admin权限之后,EKS已创建。

2022-10-18

  • 新账号vpc子网划分等完成,遵循aws安全操作规范设置IAM子账号来创建EKS集群,遇到两个权限问题,待排查

  • 搭建Aptos mainnet节点 http://13.231.122.240:8080/v1/

2022-10-17

  • 新账号用户组策略等创建完成

  • 排查sync block cron 失败原因

2022-10-13

  • 针对未安装过starmask插件的用户,movestar前端应该给出更好的提示,不要直接报错。

2022-10-12

  • 和文科老师沟通服务迁移相关

  • review

  • review

2022-10-11

  • 和aws初步沟通账号创建细节,账号已创建

  • 新账号部署初步推进计划

    •  

2022-10-10

  • 和aws bd 约线上会,聊创建新账号细节

  • 迁移计划梳理

2022-10-08

  • make a english video tutorial,

  • 梳理现有服务,制定账号迁移步骤

2022-09-29

写seed节点搭建文档,并估算seed节点成本
搭建一个seed节点

 

2022-09-28

barnard network 验证是否有交易会导致卡住
add verify modules when build and test
有些疑问,需要再理解一下这个PR,
看下怎么做英文视频tutorial 满足外国用户的需求
节点激励

2022-09-27

  • release v1.12.5 等3760合进去,release之后通知矿池

  • upgrade v1.12.5

2022-09-26

  • Sync Blocks Cron Failed 排查

    • review

  • 临时用于验证的aws节点扩容到400G,同时导入main 和 barnard block

    • TODO 晚上检查main barnard 区块同步情况

    • Done 晚上测试main block是否有卡住的情况

  • 测试复现通过远程节点p2p转账错误

  • add verify modules when build and test

2022-09-23

  • 给朋友介绍starcoin以及如何运行节点

2022-09-22

  • 节点激励

  • 思考怎么实现 verify modules作为一个独立测试任务

2022-09-21

2022-09-20

  • upgrade v1.12.4

  • paper

    • Bitcoin price and its marginal cost of production: supporting evidence

2022-09-19

2022-09-17

  • upgrade v1.12.3 and fix version

2022-09-16