国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【云原生】K8S集群

2年前作者：DDD嘀嘀嘀分類：Toy博客閱讀(24)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了【云原生】K8S集群。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

一、調(diào)度約束

Kubernetes 是通過 List-Watch 的機(jī)制進(jìn)行每個(gè)組件的協(xié)作，保持?jǐn)?shù)據(jù)同步的，每個(gè)組件之間的設(shè)計(jì)實(shí)現(xiàn)了解耦。

1.1 POT的創(chuàng)建過程

【云原生】K8S集群,云原生,云原生,kubernetes,容器

（1）這里有三個(gè) List-Watch，分別是 Controller Manager（運(yùn)行在 Master），Scheduler（運(yùn)行在 Master），kubelet（運(yùn)行在 Node）。他們?cè)谶M(jìn)程已啟動(dòng)就會(huì)監(jiān)聽（Watch）APIServer 發(fā)出來的事件。

（2）用戶通過 kubectl 或其他 API 客戶端提交請(qǐng)求給 APIServer 來建立一個(gè) Pod 對(duì)象副本。

（3）APIServer 嘗試著將 Pod 對(duì)象的相關(guān)元信息存入 etcd 中，待寫入操作執(zhí)行完成，APIServer 即會(huì)返回確認(rèn)信息至客戶端。

（4）當(dāng) etcd 接受創(chuàng)建 Pod 信息以后，會(huì)發(fā)送一個(gè) Create 事件給 APIServer。

（5）由于 Controller Manager 一直在監(jiān)聽（Watch，通過https的6443端口）APIServer 中的事件。此時(shí) APIServer 接受到了 Create 事件，又會(huì)發(fā)送給 Controller Manager。

（6）Controller Manager 在接到 Create 事件以后，調(diào)用其中的 Replication Controller 來保證 Node 上面需要?jiǎng)?chuàng)建的副本數(shù)量。一旦副本數(shù)量少于 RC 中定義的數(shù)量，RC 會(huì)自動(dòng)創(chuàng)建副本?？傊潜ＷC副本數(shù)量的 Controller（PS：擴(kuò)容縮容的擔(dān)當(dāng)）。

（7）在 Controller Manager 創(chuàng)建 Pod 副本以后，APIServer 會(huì)在 etcd 中記錄這個(gè) Pod 的詳細(xì)信息。例如 Pod 的副本數(shù)，Container 的內(nèi)容是什么。

（8）同樣的 etcd 會(huì)將創(chuàng)建 Pod 的信息通過事件發(fā)送給 APIServer。

（9）由于 Scheduler 在監(jiān)聽（Watch）APIServer，并且它在系統(tǒng)中起到了“承上啟下”的作用，“承上”是指它負(fù)責(zé)接收創(chuàng)建的 Pod 事件，為其安排 Node；“啟下”是指安置工作完成后，Node 上的 kubelet 進(jìn)程會(huì)接管后繼工作，負(fù)責(zé) Pod 生命周期中的“下半生”。換句話說，Scheduler 的作用是將待調(diào)度的 Pod 按照調(diào)度算法和策略綁定到集群中 Node 上。

（10）Scheduler 調(diào)度完畢以后會(huì)更新 Pod 的信息，此時(shí)的信息更加豐富了。除了知道 Pod 的副本數(shù)量，副本內(nèi)容。還知道部署到哪個(gè) Node 上面了。并將上面的 Pod 信息更新至 API Server，由 APIServer 更新至 etcd 中，保存起來。

（11）etcd 將更新成功的事件發(fā)送給 APIServer，APIServer 也開始反映此 Pod 對(duì)象的調(diào)度結(jié)果。

（12）kubelet 是在 Node 上面運(yùn)行的進(jìn)程，它也通過 List-Watch 的方式監(jiān)聽（Watch，通過https的6443端口）APIServer 發(fā)送的 Pod 更新的事件。kubelet 會(huì)嘗試在當(dāng)前節(jié)點(diǎn)上調(diào)用 Docker 啟動(dòng)容器，并將 Pod 以及容器的結(jié)果狀態(tài)回送至 APIServer。

（13）APIServer 將 Pod 狀態(tài)信息存入 etcd 中。在 etcd 確認(rèn)寫入操作成功完成后，APIServer將確認(rèn)信息發(fā)送至相關(guān)的 kubelet，事件將通過它被接受。

#注意：在創(chuàng)建 Pod 的工作就已經(jīng)完成了后，為什么 kubelet 還要一直監(jiān)聽呢？原因很簡(jiǎn)單，假設(shè)這個(gè)時(shí)候 kubectl 發(fā)命令，要擴(kuò)充 Pod 副本數(shù)量，那么上面的流程又會(huì)觸發(fā)一遍，kubelet 會(huì)根據(jù)最新的 Pod 的部署情況調(diào)整 Node 的資源。又或者 Pod 副本數(shù)量沒有發(fā)生變化，但是其中的鏡像文件升級(jí)了，kubelet 也會(huì)自動(dòng)獲取最新的鏡像文件并且加載。

1.1調(diào)度過程

Scheduler 是 kubernetes 的調(diào)度器，主要的任務(wù)是把定義的 pod 分配到集群的節(jié)點(diǎn)上。其主要考慮的問題如下：

●公平：如何保證每個(gè)節(jié)點(diǎn)都能被分配資源
●資源高效利用：集群所有資源最大化被使用
●效率：調(diào)度的性能要好，能夠盡快地對(duì)大批量的 pod 完成調(diào)度工作
●靈活：允許用戶根據(jù)自己的需求控制調(diào)度的邏輯

Sheduler 是作為單獨(dú)的程序運(yùn)行的，啟動(dòng)之后會(huì)一直監(jiān)聽 APIServer，獲取 spec.nodeName 為空的 pod，對(duì)每個(gè) pod 都會(huì)創(chuàng)建一個(gè) binding，表明該 pod 應(yīng)該放到哪個(gè)節(jié)點(diǎn)上。
調(diào)度分為幾個(gè)部分：首先是過濾掉不滿足條件的節(jié)點(diǎn)，這個(gè)過程稱為預(yù)算策略（predicate）；然后對(duì)通過的節(jié)點(diǎn)按照優(yōu)先級(jí)排序，這個(gè)是優(yōu)選策略（priorities）；最后從中選擇優(yōu)先級(jí)最高的節(jié)點(diǎn)。如果中間任何一步驟有錯(cuò)誤，就直接返回錯(cuò)誤。

Predicate 有一系列的常見的算法可以使用

●PodFitsResources：節(jié)點(diǎn)上剩余的資源是否大于 pod 請(qǐng)求的資源。
●PodFitsHost：如果 pod 指定了 NodeName，檢查節(jié)點(diǎn)名稱是否和 NodeName 匹配。
●PodFitsHostPorts：節(jié)點(diǎn)上已經(jīng)使用的 port 是否和 pod 申請(qǐng)的 port 沖突。
●PodSelectorMatches：過濾掉和 pod 指定的 label 不匹配的節(jié)點(diǎn)。
●NoDiskConflict：已經(jīng) mount 的 volume 和 pod 指定的 volume 不沖突，除非它們都是只讀。

如果在 predicate 過程中沒有合適的節(jié)點(diǎn)，pod 會(huì)一直在 pending 狀態(tài)，不斷重試調(diào)度，直到有節(jié)點(diǎn)滿足條件。經(jīng)過這個(gè)步驟，如果有多個(gè)節(jié)點(diǎn)滿足條件，就繼續(xù) priorities 過程：按照優(yōu)先級(jí)大小對(duì)節(jié)點(diǎn)排序。

優(yōu)先級(jí)由一系列鍵值對(duì)組成，鍵是該優(yōu)先級(jí)項(xiàng)的名稱，值是它的權(quán)重（該項(xiàng)的重要性）。有一系列的常見的優(yōu)先級(jí)選項(xiàng)包括：

●LeastRequestedPriority：通過計(jì)算CPU和Memory的使用率來決定權(quán)重，使用率越低權(quán)重越高。也就是說，這個(gè)優(yōu)先級(jí)指標(biāo)傾向于資源使用比例更低的節(jié)點(diǎn)。
●BalancedResourceAllocation：節(jié)點(diǎn)上 CPU 和 Memory 使用率越接近，權(quán)重越高。這個(gè)一般和上面的一起使用，不單獨(dú)使用。比如 node01 的 CPU 和 Memory 使用率 20:60，node02 的 CPU 和 Memory 使用率 50:50，雖然 node01 的總使用率比 node02 低，但 node02 的 CPU 和 Memory 使用率更接近，從而調(diào)度時(shí)會(huì)優(yōu)選 node02。
●ImageLocalityPriority：傾向于已經(jīng)有要使用鏡像的節(jié)點(diǎn)，鏡像總大小值越大，權(quán)重越高。

通過算法對(duì)所有的優(yōu)先級(jí)項(xiàng)目和權(quán)重進(jìn)行計(jì)算，得出最終的結(jié)果。

二、指定節(jié)點(diǎn)調(diào)度

pod.spec.nodeName 將 Pod 直接調(diào)度到指定的 Node 節(jié)點(diǎn)上，會(huì)跳過 Scheduler 的調(diào)度策略，該匹配規(guī)則是強(qiáng)制匹配

vim myapp.yaml
apiVersion: apps/v1  
kind: Deployment  
metadata:
  name: myapp
spec:
  replicas: 3
  selector:
    matchLabels:
      app: myapp
  template:
    metadata:
      labels:
        app: myapp
    spec:
      nodeName: node01
      containers:
      - name: myapp
        image: soscscs/myapp:v1
        ports:
        - containerPort: 80
		
kubectl apply -f myapp.yaml

kubectl get pods -o wide
NAME                     READY   STATUS    RESTARTS   AGE   IP            NODE     NOMINATED NODE   READINESS GATES
myapp-6bc58d7775-6wlpp   1/1     Running   0          14s   10.244.1.25   node01   <none>           <none>
myapp-6bc58d7775-szcvp   1/1     Running   0          14s   10.244.1.26   node01   <none>           <none>
myapp-6bc58d7775-vnxlp   1/1     Running   0          14s   10.244.1.24   node01   <none>           <none>

【云原生】K8S集群,云原生,云原生,kubernetes,容器

查看詳細(xì)事件（發(fā)現(xiàn)未經(jīng)過 scheduler 調(diào)度分配）

kubectl describe pod myapp-6bc58d7775-6wlpp
......
 Type    Reason   Age   From             Message
  ----    ------   ----  ----             -------
  Normal  Pulled   95s   kubelet, node01  Container image "soscscs/myapp:v1" already present on machine
  Normal  Created  99s   kubelet, node01  Created container nginx
  Normal  Started  99s   kubelet, node01  Started container nginx

【云原生】K8S集群,云原生,云原生,kubernetes,容器

2.1 通過標(biāo)簽選擇節(jié)點(diǎn)

pod.spec.nodeSelector：通過 kubernetes 的 label-selector 機(jī)制選擇節(jié)點(diǎn)，由調(diào)度器調(diào)度策略匹配 label，然后調(diào)度 Pod 到目標(biāo)節(jié)點(diǎn)，該匹配規(guī)則屬于強(qiáng)制約束

//獲取標(biāo)簽幫助
kubectl label --help
Usage:
  kubectl label [--overwrite] (-f FILENAME | TYPE NAME) KEY_1=VAL_1 ... KEY_N=VAL_N [--resource-version=version] [options]

//需要獲取 node 上的 NAME 名稱
kubectl get node
NAME     STATUS   ROLES    AGE   VERSION
master   Ready    master   30h   v1.20.11
node01   Ready    <none>   30h   v1.20.11
node02   Ready    <none>   30h   v1.20.11

//給對(duì)應(yīng)的 node 設(shè)置標(biāo)簽分別為 kgc=a 和 kgc=b
kubectl label nodes node01 kgc=a

kubectl label nodes node02 kgc=b

//查看標(biāo)簽
kubectl get nodes --show-labels
NAME     STATUS   ROLES    AGE   VERSION   LABELS
master   Ready    master   30h   v1.20.11   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=master,kubernetes.io/os=linux,node-role.kubernetes.io/master=
node01   Ready    <none>   30h   v1.20.11   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kgc=a,kubernetes.io/arch=amd64,kubernetes.io/hostname=node01,kubernetes.io/os=linux
node02   Ready    <none>   30h   v1.20.11   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kgc=b,kubernetes.io/arch=amd64,kubernetes.io/hostname=node02,kubernetes.io/os=linux

//修改成 nodeSelector 調(diào)度方式
vim myapp1.yaml
apiVersion: apps/v1
kind: Deployment  
metadata:
  name: myapp1
spec:
  replicas: 3
  selector:
    matchLabels:
      app: myapp1
  template:
    metadata:
      labels:
        app: myapp1
    spec:
      nodeSelector:
	    kgc: a
      containers:
      - name: myapp1
        image: soscscs/myapp:v1
        ports:
        - containerPort: 80


kubectl apply -f myapp1.yaml 

kubectl get pods -o wide
NAME                     READY   STATUS    RESTARTS   AGE   IP            NODE     NOMINATED NODE   READINESS GATES
myapp1-58cff4d75-52xm5   1/1     Running   0          24s   10.244.1.29   node01   <none>           <none>
myapp1-58cff4d75-f747q   1/1     Running   0          24s   10.244.1.27   node01   <none>           <none>
myapp1-58cff4d75-kn8gk   1/1     Running   0          24s   10.244.1.28   node01   <none>           <none>

//查看詳細(xì)事件（通過事件可以發(fā)現(xiàn)要先經(jīng)過 scheduler 調(diào)度分配）
kubectl describe pod myapp1-58cff4d75-52xm5
Events:
  Type    Reason     Age   From               Message
  ----    ------     ----  ----               -------
  Normal  Scheduled  57s   default-scheduler  Successfully assigned default/myapp1-58cff4d75-52xm5 to node01
  Normal  Pulled     57s   kubelet, node01    Container image "soscscs/myapp:v1" already present on machine
  Normal  Created    56s   kubelet, node01    Created container myapp1
  Normal  Started    56s   kubelet, node01    Started container myapp1

【云原生】K8S集群,云原生,云原生,kubernetes,容器

【云原生】K8S集群,云原生,云原生,kubernetes,容器

//修改一個(gè) label 的值，需要加上 --overwrite 參數(shù)
kubectl label nodes node02 kgc=a --overwrite

//刪除一個(gè) label，只需在命令行最后指定 label 的 key 名并與一個(gè)減號(hào)相連即可：
kubectl label nodes node02 kgc-

//指定標(biāo)簽查詢 node 節(jié)點(diǎn)
kubectl get node -l kgc=a

三、親和性

https://kubernetes.io/zh/docs/concepts/scheduling-eviction/assign-pod-node/

（1）節(jié)點(diǎn)親和性

（1）節(jié)點(diǎn)親和性

pod.spec.nodeAffinity
●preferredDuringSchedulingIgnoredDuringExecution：軟策略
●requiredDuringSchedulingIgnoredDuringExecution：硬策略

（2）Pod 親和性

pod.spec.affinity.podAffinity/podAntiAffinity
●preferredDuringSchedulingIgnoredDuringExecution：軟策略
●requiredDuringSchedulingIgnoredDuringExecution：硬策略

可以把自己理解成一個(gè)Pod，當(dāng)你報(bào)名來學(xué)云計(jì)算，如果你更傾向去zhangsan老師帶的班級(jí)，把不同老師帶的班級(jí)當(dāng)作一個(gè)node的話，這個(gè)就是節(jié)點(diǎn)親和性。如果你是必須要去zhangsan老師帶的班級(jí)，這就是硬策略；而你說你想去并且最好能去zhangsan老師帶的班級(jí)，這就是軟策略。
如果你有一個(gè)很好的朋友叫l(wèi)isi，你傾向和lisi同學(xué)在同一個(gè)班級(jí)，這個(gè)就是Pod親和性。如果你一定要去lisi同學(xué)在的班級(jí)，這就是硬策略；而你說你想去并且最好能去lisi同學(xué)在的班級(jí)，這就是軟策略。軟策略是不去也可以，硬策略則是不去就不行。

鍵值運(yùn)算關(guān)系

●In：label 的值在某個(gè)列表中
●NotIn：label 的值不在某個(gè)列表中
●Gt：label 的值大于某個(gè)值
●Lt：label 的值小于某個(gè)值
●Exists：某個(gè) label 存在
●DoesNotExist：某個(gè) label 不存在

kubectl get nodes --show-labels
NAME     STATUS   ROLES    AGE   VERSION   LABELS
master   Ready    master   11d   v1.20.11   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=master,kubernetes.io/os=linux,node-role.kubernetes.io/master=
node01   Ready    <none>   11d   v1.20.11   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=node01,kubernetes.io/os=linux
node02   Ready    <none>   11d   v1.20.11   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=node02,kubernetes.io/os=linux

3.1requiredDuringSchedulingIgnoredDuringExecution：硬策略

mkdir /opt/affinity
cd /opt/affinity

vim pod1.yaml
apiVersion: v1
kind: Pod
metadata:
  name: affinity
  labels:
    app: node-affinity-pod
spec:
  containers:
  - name: with-node-affinity
    image: soscscs/myapp:v1
  affinity:
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
        nodeSelectorTerms:
        - matchExpressions:
          - key: kubernetes.io/hostname    #指定node的標(biāo)簽
            operator: NotIn     #設(shè)置Pod安裝到kubernetes.io/hostname的標(biāo)簽值不在values列表中的node上
            values:
            - node02
			

kubectl apply -f pod1.yaml

kubectl get pods -o wide
NAME       READY   STATUS    RESTARTS   AGE   IP            NODE     NOMINATED NODE   READINESS GATES
affinity   1/1     Running   0          13s   10.244.1.30   node01   <none>           <none>

kubectl delete pod --all && kubectl apply -f pod1.yaml && kubectl get pods -o wide

#如果硬策略不滿足條件，Pod 狀態(tài)一直會(huì)處于 Pending 狀態(tài)。

3.1 preferredDuringSchedulingIgnoredDuringExecution：軟策略

vim pod2.yaml
apiVersion: v1
kind: Pod
metadata:
  name: affinity
  labels:
    app: node-affinity-pod
spec:
  containers:
  - name: with-node-affinity
    image: soscscs/myapp:v1
  affinity:
    nodeAffinity:
      preferredDuringSchedulingIgnoredDuringExecution:
      - weight: 1   #如果有多個(gè)軟策略選項(xiàng)的話，權(quán)重越大，優(yōu)先級(jí)越高
        preference:
          matchExpressions:
          - key: kubernetes.io/hostname
            operator: In
            values:
            - node03


kubectl apply -f pod2.yaml

kubectl get pods -o wide
NAME       READY   STATUS    RESTARTS   AGE   IP            NODE     NOMINATED NODE   READINESS GATES
affinity   1/1     Running   0          5s    10.244.2.35   node02   <none>           <none>

//把values:的值改成node01，則會(huì)優(yōu)先在node01上創(chuàng)建Pod
kubectl delete pod --all && kubectl apply -f pod2.yaml && kubectl get pods -o wide

//如果把硬策略和軟策略合在一起使用，則要先滿足硬策略之后才會(huì)滿足軟策略
//示例：
apiVersion: v1
kind: Pod
metadata:
  name: affinity
  labels:
    app: node-affinity-pod
spec:
  containers:
  - name: with-node-affinity
    image: soscscs/myapp:v1
  affinity:
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:   #先滿足硬策略，排除有kubernetes.io/hostname=node02標(biāo)簽的節(jié)點(diǎn)
        nodeSelectorTerms:
        - matchExpressions:
          - key: kubernetes.io/hostname
            operator: NotIn
            values:
            - node02
      preferredDuringSchedulingIgnoredDuringExecution:  #再滿足軟策略，優(yōu)先選擇有kgc=a標(biāo)簽的節(jié)點(diǎn)
	  - weight: 1
        preference:
          matchExpressions:
          - key: kgc
            operator: In
            values:
            - a

3.3Pod親和性與反親和性

調(diào)度策略	匹配標(biāo)簽	操作符	拓?fù)溆蛑С?/th>	調(diào)度目標(biāo)
nodeAffinity	主機(jī)	In, NotIn, Exists,DoesNotExist, Gt, Lt	否	指定主機(jī)
podAffinity	Pod	In, NotIn, Exists,DoesNotExist	是	Pod與指定Pod同一拓?fù)溆?/td>
podAntiAffinity	Pod	In, NotIn, Exists,DoesNotExist	是	Pod與指定Pod不在同一拓?fù)溆?/td>

kubectl label nodes node01 kgc=a
kubectl label nodes node02 kgc=a

//創(chuàng)建一個(gè)標(biāo)簽為 app=myapp01 的 Pod
vim pod3.yaml
apiVersion: v1
kind: Pod
metadata:
  name: myapp01
  labels:
    app: myapp01
spec:
  containers:
  - name: with-node-affinity
    image: soscscs/myapp:v1
	

kubectl apply -f pod3.yaml

kubectl get pods --show-labels -o wide
NAME      READY   STATUS    RESTARTS   AGE   IP           NODE     NOMINATED NODE   READINESS GATES   LABELS
myapp01   1/1     Running   0          37s   10.244.2.3   node01   <none>           <none>            app=myapp01

//使用 Pod 親和性調(diào)度，創(chuàng)建多個(gè) Pod 資源
vim pod4.yaml
apiVersion: v1
kind: Pod
metadata:
  name: myapp02
  labels:
    app: myapp02
spec:
  containers:
  - name: myapp02
    image: soscscs/myapp:v1
  affinity:
    podAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
      - labelSelector:
          matchExpressions:
          - key: app
            operator: In
            values:
            - myapp01
        topologyKey: kgc
		
#僅當(dāng)節(jié)點(diǎn)和至少一個(gè)已運(yùn)行且有鍵為“app”且值為“myapp01”的標(biāo)簽 的 Pod 處于同一拓?fù)溆驎r(shí)，才可以將該 Pod 調(diào)度到節(jié)點(diǎn)上。 （更確切的說，如果節(jié)點(diǎn) N 具有帶有鍵 kgc 和某個(gè)值 V 的標(biāo)簽，則 Pod 有資格在節(jié)點(diǎn) N 上運(yùn)行，以便集群中至少有一個(gè)具有鍵 kgc 和值為 V 的節(jié)點(diǎn)正在運(yùn)行具有鍵“app”和值 “myapp01”的標(biāo)簽的 pod。）
#topologyKey 是節(jié)點(diǎn)標(biāo)簽的鍵。如果兩個(gè)節(jié)點(diǎn)使用此鍵標(biāo)記并且具有相同的標(biāo)簽值，則調(diào)度器會(huì)將這兩個(gè)節(jié)點(diǎn)視為處于同一拓?fù)溆蛑小?調(diào)度器試圖在每個(gè)拓?fù)溆蛑蟹胖脭?shù)量均衡的 Pod。
#如果 kgc 對(duì)應(yīng)的值不一樣就是不同的拓?fù)溆颉１热?Pod1 在 kgc=a 的 Node 上，Pod2 在 kgc=b 的 Node 上，Pod3 在 kgc=a 的 Node 上，則 Pod2 和 Pod1、Pod3 不在同一個(gè)拓?fù)溆?，而Pod1 和 Pod3在同一個(gè)拓?fù)溆颉?/span>

kubectl apply -f pod4.yaml

kubectl get pods --show-labels -o wide
NAME      READY   STATUS    RESTARTS   AGE   IP           NODE     NOMINATED NODE   READINESS GATES   LABELS
myapp01   1/1     Running   0          15m   10.244.1.3   node01   <none>           <none>            app=myapp01
myapp02   1/1     Running   0          8s    10.244.1.4   node01   <none>           <none>            app=myapp02
myapp03   1/1     Running   0          52s   10.244.2.53  node02   <none>           <none>            app=myapp03
myapp04   1/1     Running   0          44s   10.244.1.51  node01   <none>           <none>            app=myapp03
myapp05   1/1     Running   0          38s   10.244.2.54  node02   <none>           <none>            app=myapp03
myapp06   1/1     Running   0          30s   10.244.1.52  node01   <none>           <none>            app=myapp03
myapp07   1/1     Running   0          24s   10.244.2.55  node02   <none>           <none>            app=myapp03

3.4使用 Pod 反親和性調(diào)度

示例1


vim pod5.yaml
apiVersion: v1
kind: Pod
metadata:
  name: myapp10
  labels:
    app: myapp10
spec:
  containers:
  - name: myapp10
    image: soscscs/myapp:v1
  affinity:
    podAntiAffinity:
      preferredDuringSchedulingIgnoredDuringExecution:
      - weight: 100
        podAffinityTerm:
          labelSelector:
            matchExpressions:
            - key: app
              operator: In
              values:
              - myapp01
          topologyKey: kubernetes.io/hostname

#如果節(jié)點(diǎn)處于 Pod 所在的同一拓?fù)溆蚯揖哂墟I“app”和值“myapp01”的標(biāo)簽， 則該 pod 不應(yīng)將其調(diào)度到該節(jié)點(diǎn)上。 （如果 topologyKey 為 kubernetes.io/hostname，則意味著當(dāng)節(jié)點(diǎn)和具有鍵 “app”和值“myapp01”的 Pod 處于相同的拓?fù)溆?，Pod 不能被調(diào)度到該節(jié)點(diǎn)上。）

kubectl apply -f pod5.yaml

kubectl get pods --show-labels -o wide
NAME      READY   STATUS    RESTARTS   AGE   IP           NODE     NOMINATED NODE   READINESS GATES   LABELS
myapp01   1/1     Running   0          44m   10.244.1.3   node01   <none>           <none>            app=myapp01
myapp02   1/1     Running   0          29m   10.244.1.4   node01   <none>           <none>            app=myapp02
myapp10   1/1     Running   0          75s   10.244.2.4   node02   <none>           <none>            app=myapp03

示例2：

vim pod6.yaml
apiVersion: v1
kind: Pod
metadata:
  name: myapp20
  labels:
    app: myapp20
spec:
  containers:
  - name: myapp20
    image: soscscs/myapp:v1
  affinity:
    podAntiAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
      - labelSelector:
          matchExpressions:
          - key: app
            operator: In
            values:
            - myapp01
        topologyKey: kgc
		
//由于指定 Pod 所在的 node01 節(jié)點(diǎn)上具有帶有鍵 kgc 和標(biāo)簽值 a 的標(biāo)簽，node02 也有這個(gè)kgc=a的標(biāo)簽，所以 node01 和 node02 是在一個(gè)拓?fù)溆蛑?，反親和要求新 Pod 與指定 Pod 不在同一拓?fù)溆?，所以?Pod 沒有可用的 node 節(jié)點(diǎn)，即為 Pending 狀態(tài)。
kubectl get pod --show-labels -owide
NAME          READY   STATUS    RESTARTS   AGE     IP            NODE     NOMINATED NODE   READINESS GATES   LABELS
myapp01       1/1     Running   0          43s     10.244.1.68   node01   <none>           <none>            app=myapp01
myapp20       0/1     Pending   0          4s      <none>        <none>   <none>           <none>            app=myapp03

kubectl label nodes node02 kgc=b --overwrite

kubectl get pod --show-labels -o wide
NAME          READY   STATUS    RESTARTS   AGE     IP            NODE     NOMINATED NODE   READINESS GATES   LABELS
myapp01       1/1     Running   0          7m40s   10.244.1.68   node01   <none>           <none>            app=myapp01
myapp21       1/1     Running   0          7m1s    10.244.2.65   node02   <none>           <none>            app=myapp03

四、污點(diǎn)和容忍

4.1 污點(diǎn)(Taint)

節(jié)點(diǎn)親和性，是Pod的一種屬性（偏好或硬性要求），它使Pod被吸引到一類特定的節(jié)點(diǎn)。Taint 則相反，它使節(jié)點(diǎn)能夠排斥一類特定的 Pod。
Taint 和 Toleration 相互配合，可以用來避免 Pod 被分配到不合適的節(jié)點(diǎn)上。每個(gè)節(jié)點(diǎn)上都可以應(yīng)用一個(gè)或多個(gè) taint ，這表示對(duì)于那些不能容忍這些 taint 的 Pod，是不會(huì)被該節(jié)點(diǎn)接受的。如果將 toleration 應(yīng)用于 Pod 上，則表示這些 Pod 可以（但不一定）被調(diào)度到具有匹配 taint 的節(jié)點(diǎn)上。

使用 kubectl taint 命令可以給某個(gè) Node 節(jié)點(diǎn)設(shè)置污點(diǎn)，Node 被設(shè)置上污點(diǎn)之后就和 Pod 之間存在了一種相斥的關(guān)系，可以讓 Node 拒絕 Pod 的調(diào)度執(zhí)行，甚至將 Node 已經(jīng)存在的 Pod 驅(qū)逐出去。

污點(diǎn)的組成格式如下：

key=value:effect

每個(gè)污點(diǎn)有一個(gè) key 和 value 作為污點(diǎn)的標(biāo)簽，其中 value 可以為空，effect 描述污點(diǎn)的作用。

當(dāng)前 taint effect 支持如下三個(gè)選項(xiàng)：

●NoSchedule：表示 k8s 將不會(huì)將 Pod 調(diào)度到具有該污點(diǎn)的 Node 上
●PreferNoSchedule：表示 k8s 將盡量避免將 Pod 調(diào)度到具有該污點(diǎn)的 Node 上
●NoExecute：表示 k8s 將不會(huì)將 Pod 調(diào)度到具有該污點(diǎn)的 Node 上，同時(shí)會(huì)將 Node 上已經(jīng)存在的 Pod 驅(qū)逐出去

kubectl get nodes
NAME     STATUS   ROLES    AGE   VERSION
master   Ready    master   11d   v1.20.11
node01   Ready    <none>   11d   v1.20.11
node02   Ready    <none>   11d   v1.20.11

//master 就是因?yàn)橛?NoSchedule 污點(diǎn)，k8s 才不會(huì)將 Pod 調(diào)度到 master 節(jié)點(diǎn)上
kubectl describe node master
......
Taints:             node-role.kubernetes.io/master:NoSchedule


#設(shè)置污點(diǎn)
kubectl taint node node01 key1=value1:NoSchedule

#節(jié)點(diǎn)說明中，查找 Taints 字段
kubectl describe node node-name  

#去除污點(diǎn)
kubectl taint node node01 key1:NoSchedule-


kubectl get pods -o wide
NAME      READY   STATUS    RESTARTS   AGE     IP           NODE     NOMINATED NODE   READINESS GATES
myapp01   1/1     Running   0          4h28m   10.244.2.3   node02   <none>           <none>
myapp02   1/1     Running   0          4h13m   10.244.2.4   node02   <none>           <none>
myapp03   1/1     Running   0          3h45m   10.244.1.4   node01   <none>           <none>

kubectl taint node node02 check=mycheck:NoExecute

//查看 Pod 狀態(tài)，會(huì)發(fā)現(xiàn) node02 上的 Pod 已經(jīng)被全部驅(qū)逐（注：如果是 Deployment 或者 StatefulSet 資源類型，為了維持副本數(shù)量則會(huì)在別的 Node 上再創(chuàng)建新的 Pod）
kubectl get pods -o wide
NAME      READY   STATUS    RESTARTS   AGE     IP           NODE     NOMINATED NODE   READINESS GATES
myapp03   1/1     Running   0          3h48m   10.244.1.4   node01   <none>           <none>

4.2容忍(Tolerations)

設(shè)置了污點(diǎn)的 Node 將根據(jù) taint 的 effect:NoSchedule、PreferNoSchedule、NoExecute 和 Pod 之間產(chǎn)生互斥的關(guān)系，Pod 將在一定程度上不會(huì)被調(diào)度到 Node 上。但我們可以在 Pod 上設(shè)置容忍(Tolerations)，意思是設(shè)置了容忍的 Pod 將可以容忍污點(diǎn)的存在，可以被調(diào)度到存在污點(diǎn)的 Node 上。

kubectl taint node node01 check=mycheck:NoExecute

vim pod3.yaml
apiVersion: v1
kind: Pod
metadata:
  name: myapp01
  labels:
    app: myapp01
spec:
  containers:
  - name: with-node-affinity
    image: soscscs/myapp:v1
	
kubectl apply -f pod3.yaml

//在兩個(gè) Node 上都設(shè)置了污點(diǎn)后，此時(shí) Pod 將無法創(chuàng)建成功
kubectl get pods -o wide
NAME      READY   STATUS    RESTARTS   AGE   IP       NODE     NOMINATED NODE   READINESS GATES
myapp01   0/1     Pending   0          17s   <none>   <none>   <none>           <none>

vim pod3.yaml
apiVersion: v1
kind: Pod
metadata:
  name: myapp01
  labels:
    app: myapp01
spec:
  containers:
  - name: with-node-affinity
    image: soscscs/myapp:v1
  tolerations:
  - key: "check"
    operator: "Equal"
    value: "mycheck"
    effect: "NoExecute"
    tolerationSeconds: 3600
	
#其中的 key、vaule、effect 都要與 Node 上設(shè)置的 taint 保持一致
#operator 的值為 Exists 將會(huì)忽略 value 值，即存在即可
#tolerationSeconds 用于描述當(dāng) Pod 需要被驅(qū)逐時(shí)可以在 Node 上繼續(xù)保留運(yùn)行的時(shí)間

kubectl apply -f pod3.yaml

//在設(shè)置了容忍之后，Pod 創(chuàng)建成功
kubectl get pods -o wide
NAME      READY   STATUS    RESTARTS   AGE   IP           NODE     NOMINATED NODE   READINESS GATES
myapp01   1/1     Running   0          10m   10.244.1.5   node01   <none>           <none>


//其它注意事項(xiàng)
（1）當(dāng)不指定 key 值時(shí)，表示容忍所有的污點(diǎn) key
  tolerations:
  - operator: "Exists"
  
（2）當(dāng)不指定 effect 值時(shí)，表示容忍所有的污點(diǎn)作用
  tolerations:
  - key: "key"
    operator: "Exists"

（3）有多個(gè) Master 存在時(shí)，防止資源浪費(fèi)，可以如下設(shè)置
kubectl taint node Master-Name node-role.kubernetes.io/master=:PreferNoSchedule

//如果某個(gè) Node 更新升級(jí)系統(tǒng)組件，為了防止業(yè)務(wù)長(zhǎng)時(shí)間中斷，可以先在該 Node 設(shè)置 NoExecute 污點(diǎn)，把該 Node 上的 Pod 都驅(qū)逐出去
kubectl taint node node01 check=mycheck:NoExecute

//此時(shí)如果別的 Node 資源不夠用，可臨時(shí)給 Master 設(shè)置 PreferNoSchedule 污點(diǎn)，讓 Pod 可在 Master 上臨時(shí)創(chuàng)建
kubectl taint node master node-role.kubernetes.io/master=:PreferNoSchedule

//待所有 Node 的更新操作都完成后，再去除污點(diǎn)
kubectl taint node node01 check=mycheck:NoExecute-


//cordon 和 drain
##對(duì)節(jié)點(diǎn)執(zhí)行維護(hù)操作：
kubectl get nodes

//將 Node 標(biāo)記為不可調(diào)度的狀態(tài)，這樣就不會(huì)讓新創(chuàng)建的 Pod 在此 Node 上運(yùn)行
kubectl cordon <NODE_NAME> 		 #該node將會(huì)變?yōu)镾chedulingDisabled狀態(tài)

//kubectl drain 可以讓 Node 節(jié)點(diǎn)開始釋放所有 pod，并且不接收新的 pod 進(jìn)程。drain 本意排水，意思是將出問題的 Node 下的 Pod 轉(zhuǎn)移到其它 Node 下運(yùn)行
kubectl drain <NODE_NAME> --ignore-daemonsets --delete-emptydir-data --force

--ignore-daemonsets：無視 DaemonSet 管理下的 Pod。
--delete-emptydir-data：如果有 mount local volume 的 pod，會(huì)強(qiáng)制殺掉該 pod。
--force：強(qiáng)制釋放不是控制器管理的 Pod。

注：執(zhí)行 drain 命令，會(huì)自動(dòng)做了兩件事情:
（1）設(shè)定此 node 為不可調(diào)度狀態(tài)（cordon)
（2）evict（驅(qū)逐）了 Pod

//kubectl uncordon 將 Node 標(biāo)記為可調(diào)度的狀態(tài)
kubectl uncordon <NODE_NAME>

五、Pod啟動(dòng)階段（相位 phase）

Pod 創(chuàng)建完之后，一直到持久運(yùn)行起來，中間有很多步驟，也就有很多出錯(cuò)的可能，因此會(huì)有很多不同的狀態(tài)。

一般來說，pod 這個(gè)過程包含以下幾個(gè)步驟：
（1）調(diào)度到某臺(tái) node 上。kubernetes 根據(jù)一定的優(yōu)先級(jí)算法選擇一臺(tái) node 節(jié)點(diǎn)將其作為 Pod 運(yùn)行的 node
（2）拉取鏡像
（3）掛載存儲(chǔ)配置等
（4）容器運(yùn)行起來。如果有健康檢查，會(huì)根據(jù)檢查的結(jié)果來設(shè)置其狀態(tài)。

//phase 的可能狀態(tài)有：

●Pending：表示APIServer創(chuàng)建了Pod資源對(duì)象并已經(jīng)存入了etcd中，但是它并未被調(diào)度完成（比如還沒有調(diào)度到某臺(tái)node上），或者仍然處于從倉庫下載鏡像的過程中。

●Running：Pod已經(jīng)被調(diào)度到某節(jié)點(diǎn)之上，并且Pod中所有容器都已經(jīng)被kubelet創(chuàng)建。至少有一個(gè)容器正在運(yùn)行，或者正處于啟動(dòng)或者重啟狀態(tài)（也就是說Running狀態(tài)下的Pod不一定能被正常訪問）。

●Succeeded：有些pod不是長(zhǎng)久運(yùn)行的，比如job、cronjob，一段時(shí)間后Pod中的所有容器都被成功終止，并且不會(huì)再重啟。需要反饋任務(wù)執(zhí)行的結(jié)果。

●Failed：Pod中的所有容器都已終止了，并且至少有一個(gè)容器是因?yàn)槭〗K止。也就是說，容器以非0狀態(tài)退出或者被系統(tǒng)終止，比如 command 寫的有問題。

●Unknown：表示無法讀取 Pod 狀態(tài)，通常是 kube-controller-manager 無法與 Pod 通信。Pod 所在的 Node 出了問題或失聯(lián)，從而導(dǎo)致 Pod 的狀態(tài)為 Unknow

如何刪除 Unknown 狀態(tài)的 Pod ?

●從集群中刪除有問題的 Node。使用公有云時(shí)，kube-controller-manager 會(huì)在 VM 刪除后自動(dòng)刪除對(duì)應(yīng)的 Node。而在物理機(jī)部署的集群中，需要管理員手動(dòng)刪除 Node（kubectl delete node <node_name>）。

●被動(dòng)等待 Node 恢復(fù)正常，Kubelet 會(huì)重新跟 kube-apiserver 通信確認(rèn)這些 Pod 的期待狀態(tài)，進(jìn)而再?zèng)Q定刪除或者繼續(xù)運(yùn)行這些 Pod。

●主動(dòng)刪除 Pod，通過執(zhí)行 kubectl delete pod <pod_name> --grace-period=0 --force 強(qiáng)制刪除 Pod。但是這里需要注意的是，除非明確知道 Pod 的確處于停止?fàn)顟B(tài)（比如 Node 所在 VM 或物理機(jī)已經(jīng)關(guān)機(jī)），否則不建議使用該方法。特別是 StatefulSet 管理的 Pod，強(qiáng)制刪除容易導(dǎo)致腦裂或者數(shù)據(jù)丟失等問題。文章來源地址http://www.zghlxwxcb.cn/news/detail-640414.html

故障排除步驟：

//查看Pod事件
kubectl describe TYPE NAME_PREFIX  

//查看Pod日志（Failed狀態(tài)下）
kubectl logs <POD_NAME> [-c Container_NAME]

//進(jìn)入Pod（狀態(tài)為running，但是服務(wù)沒有提供）
kubectl exec –it <POD_NAME> bash

//查看集群信息
kubectl get nodes

//發(fā)現(xiàn)集群狀態(tài)正常
kubectl cluster-info

//查看kubelet日志發(fā)現(xiàn)
journalctl -xefu kubelet

到了這里，關(guān)于【云原生】K8S集群的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

云原生Kubernetes:阿里云托管k8s集群ACK創(chuàng)建和使用
目錄 ? 一、理論 1.容器服務(wù)Kubernetes版 2.ACK Pro版集群概述 3.ACK版本說明二、實(shí)驗(yàn) 1.創(chuàng)建專有版Kubernetes集群三、問題 1.依賴檢查未通過 ? （1）概念阿里云容器服務(wù)Kubernetes版（Alibaba Cloud Container Service for Kubernetes，簡(jiǎn)稱容器服務(wù)ACK）是全球首批通過Kubernetes一致性認(rèn)證的服務(wù)平
2024年02月13日
瀏覽(36)
【云原生 | Kubernetes 系列】—K8S部署RocketMQ集群（雙主雙從+同步模式）
rocketMQ高可用有很多種方式，比如：?jiǎn)螜C(jī)部署，多主集群，雙主雙從同步部署，雙主雙從異步部署，以及多主多從部署。部署集群可按照自己公司的實(shí)際情況進(jìn)行部署。單機(jī)部署：只啟動(dòng)一個(gè)rocketMQ實(shí)例就可以了，一般常用來本機(jī)測(cè)試使用。原因：一旦rocketMQ因某些原因掛掉，
2024年02月04日
瀏覽(122)
【云原生之kubernetes】在k8s集群中安裝和配置Metrics Server
2024年01月01日
瀏覽(25)
云原生Kubernetes：K8S集群版本升級(jí)(v1.20.6 - v1.20.15)
目錄一、理論 1.K8S集群升級(jí) 2.集群概況 3.升級(jí)集群 4.驗(yàn)證集群二、實(shí)驗(yàn) ?1.升級(jí)集群 2.驗(yàn)證集群三、問題 1.給node1節(jié)點(diǎn)打污點(diǎn)報(bào)錯(cuò) （1）概念搭建K8S集群的方式有很多種，比如二進(jìn)制，kubeadm，RKE（Rancher）等，K8S集群升級(jí)方式也各有千秋，目前準(zhǔn)備使用kubeadm方式搭建的k8s集群
2024年02月07日
瀏覽(27)
云原生Kubernetes：K8S集群版本升級(jí)(v1.20.15 - v1.22.14)
目錄一、理論 1.K8S集群升級(jí) 2.集群概況 3.升級(jí)集群（v1.21.14） 4.驗(yàn)證集群（v1.21.14） 5.升級(jí)集群（v1.22.14） 6.驗(yàn)證集群? (v1.22.14) 二、實(shí)驗(yàn) ?1.升級(jí)集群（v1.21.14） 2.驗(yàn)證集群（v1.21.14） ?3.升級(jí)集群（v1.22.14） 4.驗(yàn)證集群（v1.22.14）（1）概念搭建K8S集群的方式有很多種，比如二
2024年02月07日
瀏覽(18)
云上攻防-云原生篇&Kubernetes&K8s安全&API&Kubelet未授權(quán)訪問&容器執(zhí)行
Kubernetes是一個(gè)開源的，用于編排云平臺(tái)中多個(gè)主機(jī)上的容器化的應(yīng)用，目標(biāo)是讓部署容器化的應(yīng)用能簡(jiǎn)單并且高效的使用, 提供了應(yīng)用部署，規(guī)劃，更新，維護(hù)的一種機(jī)制。其核心的特點(diǎn)就是能夠自主的管理容器來保證云平臺(tái)中的容器按照用戶的期望狀態(tài)運(yùn)行著，管理員可
2024年02月08日
瀏覽(31)
【云原生 | Kubernetes 系列】K8s 實(shí)戰(zhàn) 如何給應(yīng)用注入數(shù)據(jù) II 將pod數(shù)據(jù)傳遞給容器
在上一篇文章中，我們學(xué)習(xí)了針對(duì)容器設(shè)置啟動(dòng)時(shí)要執(zhí)行的命令和參數(shù)、定義相互依賴的環(huán)境變量、為容器設(shè)置環(huán)境變量，三種設(shè)置方式，本篇文章，我們將繼續(xù)學(xué)習(xí)數(shù)據(jù)的傳遞。有兩種方式可以將 Pod 和 Container 字段傳遞給運(yùn)行中的容器：環(huán)境變量卷文件這兩種呈現(xiàn) Pod
2024年01月25日
瀏覽(526)
云原生之容器編排實(shí)踐-在K8S集群中使用Registry2搭建私有鏡像倉庫
基于前面搭建的3節(jié)點(diǎn) Kubernetes 集群，今天我們使用 Registry2 搭建私有鏡像倉庫，這在鏡像安全性以及離線環(huán)境下運(yùn)維等方面具有重要意義。 Note: 由于是測(cè)試環(huán)境，以下創(chuàng)建了一個(gè) local-storage 的 StorageClass ，并使用本地磁盤的方式創(chuàng)建使用 PV ，實(shí)際建議使用 NFS 。共用到了三臺(tái)
2024年02月19日
瀏覽(22)
云原生黑馬Kubernetes教程（K8S教程）筆記——第一章 kubernetes介紹——Master集群控制節(jié)點(diǎn)、Node工作負(fù)載節(jié)點(diǎn)、Pod控制單元
參考文章：kubernetes介紹本章節(jié)主要介紹應(yīng)用程序在服務(wù)器上部署方式演變以及kubernetes的概念、組件和工作原理。在部署應(yīng)用程序的方式上，主要經(jīng)歷了三個(gè)時(shí)代：傳統(tǒng)部署：互聯(lián)網(wǎng)早期，會(huì)直接將應(yīng)用程序部署在物理機(jī)上優(yōu)點(diǎn)：簡(jiǎn)單，不需要其它技術(shù)的參與缺點(diǎn)：不能為
2024年02月04日
瀏覽(35)
云上攻防-云原生篇&；Kubernetes&；K8s安全&；API&；Kubelet未授權(quán)訪問&；容器執(zhí)行
curl -XPOST -k “https://192.168.139.132:10250/run///” -d “cmd=id” 執(zhí)行的命令是test03容器里的命令，需要進(jìn)行容器逃逸。 1、攻擊8080端口：API Server(Master)未授權(quán)訪問舊版本的k8s的API Server默認(rèn)會(huì)開啟兩個(gè)端口：8080和6443。 6443是安全端口，安全端口使用TLS加密；但是8080端口無需認(rèn)證，
2024年04月22日
瀏覽(71)

<kbd id="g037x"><div id="g037x"><sup id="g037x"></sup></div></kbd>