Kubernetes集群管理

### Kubernetes 集群管理

#### 资源配额与限制

**资源配额（ResourceQuota）**
- **定义**：ResourceQuota 是一种用于限制命名空间内资源使用的对象。它允许集群管理员对命名空间中的资源使用进行配额管理，确保不同的团队或项目之间资源的公平分配和有效利用。
- **工作方式**：
  - 不同的团队可以在不同的命名空间下工作，这可以通过 RBAC 强制执行。
  - 集群管理员可以为每个命名空间创建一个或多个 ResourceQuota 对象。
  - 当用户在命名空间下创建资源（如 Pod、Service 等）时，Kubernetes 的配额系统会跟踪集群的资源使用情况，以确保使用的资源用量不超过 ResourceQuota 中定义的硬性资源限额。
  - 如果资源创建或者更新请求违反了配额约束，那么该请求会报错（HTTP 403 FORBIDDEN），并在消息中给出有可能违反的约束。
  - 如果命名空间下的计算资源（如 CPU 和内存）的配额被启用，则用户必须为这些资源设定请求值（request）和约束值（limit），否则配额系统将拒绝 Pod 的创建。

**限制范围（LimitRange）**
- **定义**：LimitRange 是一种用于限制命名空间内可为每个适用的对象类别（例如 Pod 或 PersistentVolumeClaim）指定的资源分配量（限制和请求）的策略对象。
- **功能**：
  - 在一个命名空间中实施对每个 Pod 或 Container 最小和最大的资源使用量的限制。
  - 在一个命名空间中实施对每个 PersistentVolumeClaim 能申请的最小和最大的存储空间大小的限制。
  - 在一个命名空间中实施对一种资源的申请值和限制值的比值的控制。
  - 设置一个命名空间中对计算资源的默认申请/限制值，并且自动的在运行时注入到多个 Container 中。

#### 资源监控与日志管理

**监控工具**
- **cAdvisor**：cAdvisor 是一个专注于监控容器资源使用情况的工具。它能够自动收集容器的 CPU、内存、文件系统、网络等资源使用信息，并将数据提供给上层监控系统（如 Prometheus）。
- **Kube-State-Metrics**：Kube-State-Metrics 是 Kubernetes 的一个监控插件，专门用于收集 Kubernetes 对象的状态（如 Pod、Deployment、Service、Ingress 等），而不是容器的资源使用。它将这些对象的状态数据导出为 Prometheus 的 metrics 格式。
- **Node Exporter**：Node Exporter 是 Prometheus 生态的一部分，负责导出主机级别的系统监控指标，如 CPU 使用率、磁盘 I/O、网络流量等。Kubernetes 中每个节点都可以运行 Node Exporter，从而监控集群的节点级资源。

**常见问题及解决方案**
- **监控数据丢失**：
  - **问题描述**：监控数据不完整，某些节点或 Pod 的数据无法及时上报到 Prometheus。
  - **解决方案**：
    - 调整 Prometheus 的 `scrape_interval`，增加数据拉取的频率：
      ```yaml
      global:
        scrape_interval: 15s
      ```
    - 增加 Prometheus 的资源配额，确保其有足够的 CPU 和内存处理大量监控数据。

- **日志丢失**：
  - **问题描述**：部分 Pod 的日志无法找到，或者日志数据不完整。
  - **解决方案**：
    - 增加 Fluentd 缓冲区大小，防止日志量大时出现丢失：
      ```yaml
      <buffer>
        @type memory
        flush_interval 5s
        flush_thread_count 2
        chunk_limit_size 8M
        total_limit_size 512M
      </buffer>
      ```
    - 将日志导出到远程存储（如 S3 或 Elasticsearch），避免因为 Pod 删除导致日志丢失。

- **监控和日志整合难度大**：
  - **问题描述**：监控系统和日志系统分离，难以将某个时间点的监控指标与日志数据进行关联分析。
  - **解决方案**：
    - 使用 Loki 和 Prometheus 的集成，通过 Grafana 将监控数据和日志数据整合到一起。Loki 的日志查询可以结合 Prometheus 的指标查询，便于问题排查和分析。

#### 集群升级与维护

**升级 Master 节点**
1. **验证升级计划**：
   - 使用 `kubeadm upgrade plan` 命令查看可用的 Kubernetes 版本。
   - 使用 `kubeadm upgrade diff <version>` 命令查看将要应用的配置差异。

2. **备份数据**：
   - 在升级前需要备份当前的数据，以防升级过程中的意外情况导致数据丢失。

3. **升级 Master 节点**：
   - 使用 `kubeadm upgrade apply <version>` 命令升级 Master 节点。
   - 确保所有 Master 节点的组件（如 kube-apiserver、kube-controller-manager、kube-scheduler）都已升级到新版本。

**升级 Node 节点**
1. **停止 Kubelet 和 kube-proxy 服务**：
   - 使用 `systemctl stop kubelet` 和 `systemctl stop kube-proxy` 命令停止服务。

2. **升级 Kubernetes 组件**：
   - 使用新版本的二进制文件替换旧版本的二进制文件。
   - 重新启动 Kubelet 和 kube-proxy 服务：
     ```sh
     systemctl start kubelet
     systemctl start kube-proxy
     ```

3. **验证升级结果**：
   - 使用 `kubectl get nodes` 命令查看节点状态，确保所有节点都处于 `Ready` 状态。
   - 使用 `kubectl get pods --all-namespaces` 命令查看系统 Pod 的状态，确保所有系统 Pod 都正常运行。

**多 Master 部署**
1. **部署 Master2 组件**：
   - 重复 Master 组件的部署步骤，部署更多的 Master 节点，确保高可用性。

2. **部署 Nginx 负载均衡**：
   - 在负载均衡器上安装 Nginx 服务。
   - **配置 Nginx**：编辑 Nginx 配置文件，将请求转发到多个 Master 节点的 kube-apiserver。
   - **启动 Nginx**：启动 Nginx 服务，并确保其正常运行。

3. **部署 KeepAlive**：
   - 在负载均衡器上安装 KeepAlive 服务。
   - **配置 KeepAlive**：编辑 KeepAlive 配置文件，确保 Nginx 服务的高可用性。
   - **启动 KeepAlive**：启动 KeepAlive 服务，并确保其正常运行。

通过以上步骤，你可以成功管理和维护一个高可用的生产环境 Kubernetes 集群。每个步骤都需要仔细规划和配置，确保集群的稳定性和安全性。