大型網站維運排查想法:硬體篇1.0

原创 李逸皓
伺服器硬體問題
一、網路線故障–丟包–失聯 ==>更換網路線
1. 判斷伺服器是否丟包可以用ping指令偵測伺服器網路是否丟包。
具體做法是:- 登入Linux 伺服器,ping 網關或知名網站位址,如ping www.baidu.com- 加上數目參數,如ping www.baidu.com -c 1000,檢測1000次的丟包情況- 觀察丟包率,如果丟包率較高,說明有丟包問題
2. 網線線序網線有568A和568B兩種線序標準,區別是橙白、綠白、藍、藍白、綠、棕白、棕這7根線的順序不同。 568B: 橘白橙綠白藍藍白綠棕白棕568A: 橘白綠白橙藍藍白綠棕白棕如果機房線纜是568A,伺服器網卡是568B,需要對調橘白、綠白兩對線,使線序一致,否則會導致網路不通。
3. 處理方法如果判斷伺服器網路有丟包問題,可以換用新的網路線測試,若丟包解決,則可以斷定是網路線故障。
二、板載網卡故障—->更換主機板
1. 板載網卡故障如果伺服器板載網卡故障,網卡無法連接網路,可以考慮更換主機板來解決。
2. 使用外接網卡當板載網卡故障時,可以使用外接的萬兆網卡來暫時連接網路。使用方法是:- 安裝網路卡的驅動程式,載入網卡模組- 將網路卡透過PCI-E插槽插入主機板,連接網路線- 設定網路卡IP等網路參數,使其連接網路
3. 使用光纖網路卡對於伺服器間的連接,可以使用光纖網路卡+光模組來實現。將光模組插入網路卡介面,使用光纖線連接到交換器連接埠。
4. 萬兆網路卡速率萬兆網路卡的協商速率最大可達10000Mb/s,約合10Gbps。
5.萬兆網路卡–外接的網路卡–>安裝驅動–>使用光纖+模組
三、CPU(機器裡有幾個CPU)
1. 伺服器CPU數量伺服器可以設定多個CPU。多CPU伺服器可以提供更強大的處理能力。
2. 單一CPU伺服器宕機如果單一CPU伺服器的CPU故障,會導致整台機器宕機和無法啟動。
3. 雙CPU伺服器報錯如果雙CPU伺服器,只有1個CPU故障,由於還有另一個CPU工作,機器不會完全宕機,可以啟動。但會在日誌或螢幕看到報錯訊息,例如CPU1 ERROR。
4. 定位故障CPU根據錯誤訊息中的CPU編號,例如CPU1,可以定位到故障發生在具體哪個CPU,然後可以進行更換。
5. 處理方法處理方法為更換故障CPU,雙CPU伺服器更換1個CPU後可以繼續工作,單CPU伺服器則需要更換CPU後才能恢復。
四、伺服器品牌
1. Dell:戴爾,全球知名的伺服器供應商,產品線齊全,從小型Tower伺服器到大型機架式伺服器均有,如PowerEdge R710是常見的2U機架伺服器。
2. IBM:IBM也是全球伺服器龍頭老品牌,從小型到大型伺服器應有盡有,System X、System Z系列比較知名。
3. HP:惠普,同樣全球知名的伺服器品牌,ProLiant系列較常見。
4. Inspur:浪潮,中國本土伺服器品牌,提供小型到大型伺服器,代表產品如浪潮NF系列機架伺服器。
5. H3C:杭州華三通訊技術有限公司,知名的網路設備供應商,也提供伺服器產品。
6. GD:廣達電腦,台灣知名伺服器OEM生產商,為全球許多品牌生產伺服器。
7. Lenovo:聯想,知名的個人電腦品牌,也生產小型機架式伺服器。
五、內存報錯MEM-(DIMM_A1)
1. 內存錯誤報錯如果伺服器內存條發生故障,會在啟動時報錯,提示具體是哪根內存條出現問題,例如MEM-DIMM_A1 ERROR表示A1內存插槽的內存條故障。
2. 導致的故障現象記憶體故障時,伺服器可能會出現無故障自動重新啟動的情況。且啟動時會卡在BIOS介面,需要按F1才能繼續啟動進入系統。
3. 解決方法可以換裝相同規格的記憶體條進行替換,或者測試拔出故障的記憶體條,讓伺服器運行在減少記憶體的狀況下。
4. 更換注意事項更換記憶體時需注意記憶體型號、容量、速度等參數要匹配,以確保系統穩定運作。