2022年1月28日 星期五

GPU | 如何在Linux下查詢目前GPU的PCIe速度 8x 16x

Linux沒辦法像Windows用CPUz查到目前GPU在PCIe的速度,如果是用Nvidia的顯卡只要用nvidia-smi指令就可以查到,如下面所示,目前使用16x的速度。

2022年1月13日 星期四

k8s | 使用NVIDIA k8s-device-plugin

這邊紀錄使用NVIDIA k8s-device-plugin遇到的坑,如果看官網描述會感覺很簡單,大概幾個步驟安裝就結束了,我是真的遇到一堆坑花了很多時間才解決。

第一坑遇到了安裝完後,無法看到GPU資源的問題,中間我換過不同版本的Plugin,也試著自己Docker build plugin,但都無法解決問題,這時候看Plugin錯誤訊息如下,顯示無法載入NVML模組。

# 錯誤訊息
Loading NVML
Failed to initialize NVML: could not load NVML library.
If this is a GPU node, did you set the docker default runtime to `nvidia`?
You can check the prerequisites at: https://github.com/NVIDIA/k8s-device-plugin#prerequisites
You can learn how to set the runtime at: https://github.com/NVIDIA/k8s-device-plugin#quick-start

後來跟大神友人討論之後,他懷疑是CRI-O的問題,結果還真的是這問題,詳情請看這邊,接著我重建Cluster,不使用CRI-O就可以找到GPU資源,所以如果安裝完後找不到GPU資源,那可能是這個原因,以下就簡單紀錄安裝過程。

2022年1月12日 星期三

k8s | memory.swap.max or memory.memsw.limit_in_bytes: no such file or directory error message

建立完K8s cluster後,查看Pods狀態時,發現coredns佈署失敗查看log顯示內容如下所示,由於我用兩個不同Cgroup版本都有遇到所以訊息會不同,錯誤訊息的意思是找不到配置swap的檔案。

Cgroup V1:memory.memsw.limit_in_bytes
Cgroup V2:memory.swap.max

2022年1月11日 星期二

2022年1月6日 星期四

k8s | 重建Kubenetes Cluster

重建Kubenetes Cluster只需要下kubeadm reset,然後再init就可以,reset指令下完後,會有提示說kubeconfig要手動刪除,如下面訊息。

Ubuntu | 簡單安裝遠端桌面VNC服務

在Linux用遠端桌面很直覺得就是要用VNC,但目前非常多VNC server,裝了一輪下來遇到的坑還真多最後終於找到最無腦簡單的Vino VNC,以下是在Ubuntu 20.04環境安裝步驟。

步驟一:在Ubuntu安裝Vino VNC

$ sudo apt install vino

2022年1月5日 星期三

VMWare | 升級 Upgrade ESXi 6.7 to 7與解決DependencyError問題

 er

這邊介紹用command line升級ESXi,步驟蠻簡單的,隨意看一下吧。

2022年1月4日 星期二

VMware | ESXi開啟Passthrough功能給VM使用GPU

VMware雖然有vGPU的功能,但是所耗費的License費用極高,雖然使用Passthrough只能一張gpu指定給一台VM,但剩餘的資源還可以拿來開其他VM,而且用VM的好處相當多,還是極力推薦使用這功能,以下就介紹如何使用Passthrough功能。