1.1 目标定义:明确需要在台湾部署多少台服务器(Web、API、DB、缓存、日志/备份),并定义单台规格与冗余比(N+1、N+2)。
1.2 业务峰值估算:基于并发、带宽、QPS、存储量估算CPU、内存、磁盘和出网带宽,确定是否需要多可用区或多线路。
1.3 合规与域名:确认域名、备案/注册要求(台湾地区通常无大陆备案),以及数据主权和隐私合规需求。
2.1 比较项:比较机房位置(台北/台中/高雄)、ISP(中华电信/台固等)、BGP支持、带宽峰值计费、DDOS保护、机柜接入时延。
2.2 合约条款:核实带宽承诺、换机/维修时限、拉取控制台权限、API管理能力与SLA赔付条款。
2.3 时间预算:供应商确认与付款:通常1-5个工作日(含KYC/合同);机架/上架/带宽开通额外1-7天。
3.1 基本规格示例:Web:4核/8G/100G SSD;应用:8核/32G/200G;数据库:16核/64G/1T NVMe(或企业级SSD)。
3.2 网络:预留公网IP数、内部私有网络CIDR、VLAN划分、BGP多线或专线接入;规划内网子网与防火墙策略。
4.1 SSH密钥:为每位管理员生成SSH公钥,禁止密码登录(编辑/etc/ssh/sshd_config PasswordAuthentication no)。
4.2 防火墙:使用ufw/iptables先配置管理白名单(仅允许运维IP访问SSH/管理端口),生产环境建议仅对负载均衡器开放业务端口。
4.3 WAF与DDoS:申请供应商WAF或第三方服务,并在上生产前开启基础规则与攻击告警。
5.1 操作系统:选择稳定版本(如CentOS 7/8、Ubuntu LTS),设置时区Asia/Taipei,安装基本包:yum/apt update、vim、net-tools、curl、wget。
5.2 最小脚本:示例命令(以Ubuntu为例):
apt update && apt install -y nginx mysql-client git fail2ban ufw
timedatectl set-timezone Asia/Taipei
useradd -m deploy && mkdir /home/deploy/.ssh && chmod 700 /home/deploy/.ssh
5.3 镜像化:将已调优的系统制作成私有镜像,用于快速扩容与回滚。
6.1 Web/应用:将代码通过CI/CD拉到目标机器或容器,建议使用容器化(Docker)并配合编排(Docker Compose / Kubernetes)。
6.2 负载均衡:部署Nginx/HAProxy作为边缘负载均衡,配置Health Check路径与连接池参数,示例Nginx upstream配置并测试。
6.3 缓存与队列:Redis/Memcached按需部署主从或Cluster,RabbitMQ/ActiveMQ用于任务队列并启用持久化。
7.1 生产DB部署:主从或主主复制(MySQL Group Replication / PostgreSQL streaming),并开启binlog/Point-in-Time Recovery。
7.2 备份计划:每日全备+每小时增量,使用工具(xtrabackup、pg_basebackup),备份存放到另一个区域或对象存储并定期演练恢复。
7.3 数据同步测试:模拟主库故障切换并验证数据完整性与应用兼容性。
8.1 监控项:CPU、内存、磁盘IO、网络带宽、负载、响应时延、错误率、数据库延迟、队列堆积量。
8.2 工具建议:Prometheus+Grafana、ELK/EFK日志平台、Zabbix/Datadog告警;配置报警阈值、短信/钉钉/邮件告警链路。
8.3 演练:进行压力测试(JMeter/Locust)并验证报警触发与故障响应流程。
9.1 T-14天:完成机房与带宽开通、镜像制作、基础网络与安全组配置。
9.2 T-7天:部署应用与中间件、完成备份配置、初步压测与监控接入。
9.3 T-1天:切换DNS TTL到低值(如300s)、完成回滚方案、通知相关团队与客户窗口。
9.4 上线当日:按预定时间灰度/分批放量,实时监控关键指标,若超阈值立即回滚并记录原因。
10.1 灰度发布:先将10%-30%流量导向新节点,监测错误率、延迟、CPU等指标,持续30-60分钟。
10.2 全量切换:若灰度通过,逐步增量到100%;若出现问题,执行回滚脚本:1) 将流量切回旧负载均衡池;2) 如果有DB写冲突,触发数据修复脚本或回滚点。
10.3 回滚验证:回滚后再次运行回归测试用例,确认系统恢复正常并通报结果。
11.1 答:常见带宽选项包括按峰值计费或保底带宽(例如10M/100M/1G),建议为外网峰值预留至少1.5倍带宽。DDoS防护可选择机房自带清洗、云WAF或第三方清洗服务(按流量或按峰值计费),企业级建议同时启用WAF与清洗并配置黑白名单策略。
12.1 答:选择与目标用户地理接近的机房、启用多线路BGP、在不同可用区放置节点以实现故障隔离、使用CDN缓存静态资源并将动态加速通过智能路由,此外配置健康检查与自动扩容策略来应对突发流量。
13.1 答:每日检查项包括:监控告警是否清零、备份成功状态、错误日志增长情况、磁盘使用率、数据库复制延迟与慢查询、SSL证书到期提醒,以及上游带宽与流量异常;每周进行一次恢复演练与安全扫描。