第一部分：heapster

本文档基于heapster 1.5.1和k8s 1.9.x，旧版文档请看heapster 1.4.3

Heapster 监控整个集群资源的过程：首先kubelet内置的cAdvisor收集本node节点的容器资源占用情况，然后heapster从kubelet提供的api采集节点和容器的资源占用，最后heapster 持久化数据存储到influxdb中（也可以是其他的存储后端,Google Cloud Monitoring等）。

Grafana 则通过配置数据源指向上述 influxdb，从而界面化显示监控信息。

部署

访问 heapster release页面下载最新 release 1.5.1，参考目录heapster-1.5.1/deploy/kube-config/influxdb，请在参考官方yaml文件的基础上使用本项目提供的yaml文件

grafana
heapster
influxdb

安装比较简单 kubectl create -f /etc/ansible/manifests/heapster/，主要讲一下注意事项

grafana.yaml配置

参数- name: GF_SERVER_ROOT_URL的设置要根据后续访问grafana的方式确定，如果使用 NodePort方式访问，必须设置成:value: /；如果使用apiserver proxy方式，必须设置成value: /api/v1/namespaces/kube-system/services/monitoring-grafana/proxy/
kubernetes.io/cluster-service: 'true' 和 type: NodePort 根据上述的访问方式设置，建议使用apiserver 方式，可以增加安全控制

heapster.yaml配置

需要配置 RBAC 把 ServiceAccount heapster 与集群预定义的集群角色 system:heapster 绑定，这样heapster pod才有相应权限去访问 apiserver

influxdb.yaml配置

influxdb 官方建议使用命令行或 HTTP API 接口来查询数据库，从 v1.1.0 版本开始默认关闭 admin UI, 从 v1.3.3 版本开始已经移除 admin UI 插件，如果你因特殊原因需要访问admin UI，请使用 v1.1.1 版本并使用configMap 配置开启它。参考heapster 1.4.3，具体配置yaml文件参考influxdb v1.1.1

验证

$ kubectl get pods -n kube-system | grep -E 'heapster|monitoring'
heapster-3273315324-tmxbg               1/1       Running   0          11m
monitoring-grafana-2255110352-94lpn     1/1       Running   0          11m
monitoring-influxdb-884893134-3vb6n     1/1       Running   0          11m

检查Pods日志：

$ kubectl logs heapster-3273315324-tmxbg -n kube-system
$ kubectl logs monitoring-grafana-2255110352-94lpn -n kube-system
$ kubectl logs monitoring-influxdb-884893134-3vb6n -n kube-system

部署完heapster，使用上一步介绍方法查看kubernets dashboard 界面，就可以看到各 Nodes、Pods 的 CPU、内存、负载等利用率曲线图，如果 dashboard上还无法看到利用率图，使用以下命令重启 dashboard pod：

首先删除 kubectl scale deploy kubernetes-dashboard --replicas=0 -n kube-system
然后新建 kubectl scale deploy kubernetes-dashboard --replicas=1 -n kube-system

部署完heapster，直接使用 kubectl 客户端工具查看资源使用

# 查看node 节点资源使用情况
$ kubectl top node	
# 查看各pod 的资源使用情况
$ kubectl top pod --all-namespaces

访问 grafana

1.通过apiserver 访问（建议的方式）

kubectl cluster-info | grep grafana
monitoring-grafana is running at https://x.x.x.x:6443/api/v1/namespaces/kube-system/services/monitoring-grafana/proxy

请参考上一步访问dashboard同样的方式，使用证书或者密码认证（参照hosts文件配置，默认：用户admin 密码test1234），访问https://x.x.x.x:6443/api/v1/namespaces/kube-system/services/monitoring-grafana/proxy即可，如图可以点击[Home]选择查看 Cluster Pods的监控图形

2.通过NodePort 访问

修改 Service 允许 type: NodePort
修改 Deployment中参数- name: GF_SERVER_ROOT_URL为 value: /
如果之前grafana已经运行，使用 kubectl replace --force -f /etc/ansible/manifests/heapster/grafana.yaml 重启 grafana插件

kubectl get svc -n kube-system|grep grafana
monitoring-grafana        NodePort    10.68.135.50    <none>        80:5855/TCP		11m

然后用浏览器访问 http://NodeIP:5855

第二部分：heapster 之监控数据持久化

我们知道监控数据是存储到influxdb中的，但是默认情况下influxdb.yaml文件中存储使用的是emptyDir类型，所以当influxdb POD被删除时，监控数据也就丢失了，以下是使用nfs持久化保存监控数据的例子。

前提

环境准备一个nfs服务器，如果没有可以参考nfs-server创建。

创建 PV

PersistentVolume (PV) 和 PersistentVolumeClaim (PVC) 提供了方便的持久化卷；PV 是集群的存储资源，就像 node是集群的计算资源，PV 可以静态或动态创建，这里使用静态方式创建；PVC 就是用来申请PV 资源，它可以直接挂载在POD 里面使用。更多知识请访问官网。根据你监控日志的多少和需保存时间需求创>建固定大小的PV 资源，例子：

apiVersion: v1
kind: PersistentVolume
metadata:
  name: pv-influxdb
spec:
  capacity:
    storage: 5Gi
  accessModes:
    - ReadWriteMany
  volumeMode: Filesystem
  persistentVolumeReclaimPolicy: Recycle
  storageClassName: slow
  nfs:
    # 根据实际共享目录修改
    path: /share
    # 根据实际 nfs服务器地址修改
    server: 192.168.1.208

修改influxdb 存储卷

使用PVC 替换 volumes emptyDir:{}，创建PVC 如下：

kind: PersistentVolumeClaim
apiVersion: v1
metadata:
  name: influxdb-claim
  namespace: kube-system
spec:
  accessModes:
    - ReadWriteMany
  volumeMode: Filesystem
  resources:
    requests:
      storage: 3Gi
  storageClassName: slow

注意PV 是不区分namespace，而PVC 是区分namespace的

安装持久化influxdb

如果之前已经安装本项目创建了heapster，请使用如下删除 influxdb POD:

kubectl delete -f /etc/ansible/manifests/heapster/influxdb.yaml

然后使用如下命令新建持久化的 influxdb POD :

kubectl create -f /etc/ansible/manifests/heapster/influxdb-with-pv/

验证监控数据的持久性

1.查看集群 pv pvc 情况

$ kubectl get pv
$ kubectl get pvc --all-namespaces

2.手动删除 influxdb，半小时后再次创建，登陆grafana 确认历史数据是否还在。

# 删除 influxdb deploy
kubectl delete -f /etc/ansible/manifests/heapster/influxdb-with-pv/influxdb.yaml

# 等待半小时后重新创建
kubectl create -f /etc/ansible/manifests/heapster/influxdb-with-pv/influxdb.yaml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

heapster.md

heapster.md

第一部分：heapster

部署

grafana.yaml配置

heapster.yaml配置

influxdb.yaml配置

验证

访问 grafana

1.通过apiserver 访问（建议的方式）

2.通过NodePort 访问

第二部分：heapster 之监控数据持久化

前提

创建 PV

修改influxdb 存储卷

安装持久化influxdb

验证监控数据的持久性

Files

heapster.md

Latest commit

History

heapster.md

File metadata and controls

第一部分：heapster

部署

grafana.yaml配置

heapster.yaml配置

influxdb.yaml配置

验证

访问 grafana

1.通过apiserver 访问（建议的方式）

2.通过NodePort 访问

第二部分：heapster 之监控数据持久化

前提

创建 PV

修改influxdb 存储卷

安装持久化influxdb

验证监控数据的持久性