详解VMware vSAN安装过程 (磁盘组 链路聚合 超详细 避坑指南)

图解VMware vSAN安装(下:vSAN部署及管理安装)


前言

这是《图解VMware vSAN安装(上:硬件及vSphere部署)》的下篇

本文1-6章节均为理论篇,摘选整理自VMware官网资料。

直接部署的话可以直接从《7 vSAN网络部署》开始

vSAN配置相关设计和优化内容可参考官方网站《vSAN 规划和部署》

https://docs.vmware.com/cn/VMware-vSphere/7.0/com.vmware.vsphere.vsan-planning.doc/GUID-194D9B44-7593-4D3E-A9DD-A6646C1DCC05.html

及VMware Docs

https://docs.vmware.com/cn/VMware-vSphere/index.html

1 vSAN部署要求

1、一个标准 vSAN 集群至少包含三个主机。通常情况下,标准 vSAN 集群中的所有主机都位于同一位置,并在相同的第 2 层网络上相连接。全闪存配置需要 10Gb 网络连接,同时也建议对混合配置使用此设置。为达到最佳效果,请为 vSAN 集群配置四个或四个以上主机。

2、在集群上启用 vSAN 之前,必须禁用 vSphere HA。然后,可以重新启用 vSphere HA。

3、至少有一个固态硬盘作为缓存盘,启用“去重和压缩”必须全部都是全闪盘。

4、对于混合配置,专用带宽为 1 Gbps;对于全闪存配置,专用或共享带宽为 10 Gbp。

5、vSAN 集群中的每个主机都必须具有适用于 vSAN 流量的 VMkernel 网络适配器;

6、集群中所有主机之间的标准(非延伸)vSAN 集群的 RTT 最大为 1 毫秒;

7、vSAN包括标准版高级版企业版。高级版包括 RAID 5/6 擦除编码、去重和压缩。企业版包括加密和延伸群集功能;

双主机或三主机集群配置的限制

在三主机配置中,只能通过将允许的故障数设置为 1 来允许一个主机故障。对于虚拟机数据的两个必需副本,vSAN 将各个副本保存在不同的主机上。见证对象位于第三个主机上。由于集群中的主机数量较少,因此存在以下限制:

  • 当某个主机出现故障时,vSAN 无法在另一个主机上重新构建数据以防止出现另一个故障。
  • 如果主机必须进入维护模式,则vSAN无法从主机撤出数据以维持策略合规性。主机处于维护模式时,如果发生其他故障,数据会面临潜在故障或无法访问的风险。只能使用确保数据可访问性数据撤出选项。确保数据可访问性可保证对象在数据迁移期间保持可用,但如果发生其他故障可能会面临风险。双主机或三主机集群上的 vSAN 对象不符合策略。主机退出维护模式时,将重新构建对象以确保策略合规性。

    在双主机或三主机集群具有无法访问的主机或磁盘组的任何情况下,如果发生其他故障,vSAN 对象将面临变得无法访问的风险。

要求 描述
ESXi 主机 确认使用的是最新版本的 ESXi。确认至少有三个配有受支持存储配置的 ESXi 主机可分配给 vSAN 集群。为达到最佳效果,请为 vSAN 集群配置四个或四个以上主机。
内存 确认每个主机至少具有 32 GB 内存。为获得更高的配置和更出色的性能,集群中必须至少有 32 GB 内存。
存储 I/O 控制器、驱动程序和固件 验证存储 I/O 控制器、驱动程序和固件版本是否已经过认证并已在 VCG 网站 (http://www.vmware.com/resources/compatibility/search.php) 中列出。确认该控制器配置为直通还是 RAID 0 模式。确认该控制器缓存和高级功能已禁用。如果无法禁用缓存,则必须将读取缓存设置为 100%。确认您使用的是具有较高队列深度的控制器。在维护和故障期间,使用队列深度小于 256 的控制器会显著影响您的虚拟机性能。
缓存和容量 确认为集群提供存储的 vSAN 主机至少有一个缓存和一个容量设备。vSAN 需要独占访问 vSAN 集群中主机的本地缓存和容量设备。它们无法与其他用途(例如,虚拟闪存文件系统 (VFFS)、VMFS 分区或 ESXi 引导分区)共享这些设备。为获得最佳效果,请创建拥有统一配置主机的 vSAN 集群。
网络连接 确认每个主机都至少配置有一个网络适配器。对于混合配置,确认 vSAN 主机的专用带宽至少为 1 GbE。对于全闪存配置,确认 vSAN 主机的带宽至少为 10 GbE。
许可证密钥 确认您拥有有效的 vSAN 许可证密钥。要使用全闪存功能,您的许可证必须支持该功能。要使用高级功能,例如延伸集群或者去重和压缩,您的许可证必须支持这些功能。确认您计划使用的许可证容量等于加入 vSAN 集群的各个主机的 CPU 总数。请勿仅为向集群提供容量的主机提供许可证容量。有关 vSAN 的许可信息,请参见《vCenter Server 和主机管理》文档。

2 vSAN存储设计

1、闪存缓存设备与磁盘组数量之比始终为 1:1。

2、在全闪存配置中,vSAN 不会将缓存用于读取操作(只有写缓存),也不会应用虚拟机存储策略中的读取缓存预留设置。对于缓存设备,您可以使用少量具有高写入持久力的成本更高的闪存。为了实现更好的 vSAN 性能,请使用更多由较小闪存容量设备组成的磁盘组。为了获得平衡的性能和可预测的行为,请使用同一类型和型号的闪存容量设备。

3、注意闪存设备的写寿命和性能分类。

4、vSAN每个主机最多5个磁盘组,每个磁盘最最大7个容量盘。

1、每个 vCenter Server 实例可以有多个 vSAN 群集。可以使用一个 vCenter Server管理多个 vSAN 群集。

2、vSAN将占用所有设备(包括闪存缓存和容量设备),并且不会与其他功能共享设备。

3、vSAN群集可以包含具有/不具有容量设备的主机。最低要求是三个带容量设备的主机。为获得最佳效果,请创建拥有统一配置主机的 vSAN群集。

4、如果主机提供容量,则该主机必须至少具有一个闪存缓存设备和一个容量设备。

5、在混合群集中,磁盘用于提供容量,闪存设备用于提供读写缓存。vSAN 将所有可用缓存的 70% 分配为读取缓存,30% 分配为写入缓冲区。在混合配置中,闪存设备用作读取缓存和写入缓冲区。

6、在全闪存群集中,一个指定的闪存设备用作写入缓存,其他闪存设备用作容量设备。在全闪存群集中,所有读取请求都直接来自闪存池容量。只有本地容量设备或直接连接的容量设备能够加入vSAN群集。vSAN无法占用其他连接到群集的外部存储,例如 SAN 或 NAS。

7、有别于VMFS文件系统,采用vSAN的的虚拟机,文件系统为vSAN类型。

1、==至少留有 30% 的未使用空间==,以防止vSAN重新均衡存储负载。==只要单个容量设备上的消耗达到 80% 或以上==,vSAN就会重新均衡集群中的组件。重新均衡操作可能会影响应用程序的性能。要避免这些问题,存储消耗应低于 70%。

2、规划额外容量,用于处理任何潜在故障或替换容量设备、磁盘组和主机。当某个容量设备无法访问时,vSAN会在集群中的其他设备中恢复组件。当闪存缓存设备出现故障或移除时,vSAN会从整个磁盘组中恢复组件。

3、预留额外容量以确保vSAN在出现主机故障或主机进入维护模式时恢复组件。例如,置备具有足够容量的主机,以便留有足够的可用容量以在主机出现故障或维护期间重新构建组件。存在三个以上的主机时此额外空间非常重要,这样您才有足够的可用容量来重新构建出现故障的组件。如果主机出现故障,将在其他主机的可用存储上进行重新构建,这样可以允许再次出现故障。但是,在三主机集群中,如果将允许的故障数主要级别设置为 1,则 vSAN 不会执行重新构建操作,因为在一个主机出现故障后,集群中只剩下两个主机。要允许故障后重新构建,至少必须有三个正常运行的主机。

4、提供足够的临时存储空间,以便在vSAN虚拟机存储策略中进行更改。动态更改虚拟机存储策略时,vSAN 可能会创建新的对象 RAID 树布局。vSAN 实例化和同步新布局时,对象可能会暂时占用额外的空间。在集群中保留一些临时存储空间以处理此类更改。

5、如果计划使用软件校验和或去重和压缩等高级功能,请保留额外的容量以处理操作开销

1、如果可能,请使用多个存储控制器,这样可以改善性能并只将潜在的控制器故障隔离到磁盘组子集中。

2、使用VMware 兼容性指南中队列深度最高的存储控制器。使用具有高队列深度的控制器可提高性能。例如,在出现故障后 vSAN 重新构建组件时或者主机进入维护模式时。

3、在直通模式下使用存储控制器以实现 vSAN 的最佳性能。与处于直通模式的存储控制器相比,处于 RAID 0 模式的存储控制器需要较高的配置和维护工作量。

4、对控制器禁用缓存,或将缓存设置为 100% 读取。

存储控制器功能 存储控制器要求
所需模式 有关控制器的所需模式(直通或 RAID 0),请查看VMware 兼容性指南中的 vSAN 要求。如果直通和 RAID 0 模式均受支持,请配置直通模式,而非 RAID 0。替换磁盘时,RAID 0 会增加复杂程度。
RAID 模式 如果使用 RAID 0,每个物理磁盘设备需要创建一个 RAID 卷。请勿启用VMware 兼容性指南中所列模式之外的 RAID 模式。请勿启用控制器跨越模式。
驱动程序和固件版本 根据VMware 兼容性指南,为控制器使用最新版本的驱动程序和固件。如果使用内置控制器驱动程序,请确认驱动程序已经过 vSAN 认证。OEM ESXi 版本可能包含未经认证且未在VMware 兼容性指南中列出的驱动程序。
队列深度 确认控制器的队列深度为 256 或更高。较高的队列深度能够提高性能。
缓存 禁用存储控制器缓存,如果不能禁用该缓存,请将其设置为 100% 读取。
高级功能 禁用高级功能(例如,HP SSD 智能路径)。

案例中主机型号为:DELL R740,其中控制器型号为PERC H330。这里有两种模式。Non-RAID模式或者将阵列卡设置为HBA直通模式。

另外注意:vSAN 不支持 PERC H330 控制器,且没有计划对其进行认证,详见https://kb.vmware.com/s/article/2149392?lang=zh_CN。生产环境中建议选择vSAN兼容的控制器。

3 vSAN设计和优化

1、全闪存配置,请安排具有专用或共享 10-GbE 适配器的主机。

2、如果 10-GbE 适配器与其他流量类型共享,请使用 vSphere Distributed Switch 以便 vSAN 流量通过使用 Network I/O Control 和 VLAN 隔离流量。为 vSAN 流量创建物理适配器组以确保冗余。

3、如果闪存缓存或存储控制器停止响应,则整个磁盘组可能出现故障。因此,vSAN 会从群集中的其他位置重新构建故障磁盘组的所有组件。建议使用多个磁盘组

  • 优点
    • 因为数据存储具有更多汇总缓存并且 I/O 操作更快,所以提高了性能。
    • 故障风险分散到多个磁盘组。
    • 如果磁盘组出现故障,则 vSAN 重新构建较少的组件,因此提高了性能。
  • 劣势
    • 因为需要两个或更多缓存设备,成本增加。
    • 需要更多内存来处理更多磁盘组。
    • 需要多个存储控制器来降低单点故障风险。

4、设备热插拔和交互

考虑使用存储控制器直通模式支持,以轻松实现主机上的磁盘和闪存容量设备的热插拔或更换。如果控制器适用于 RAID 0 模式,必须执行其他步骤才可以使主机发现新驱动器。

4 vSAN集群的设计注意事项

设计主机和管理节点的配置,以获得最佳可用性并允许消耗增长。

可以在虚拟机存储策略中配置允许的故障数主要级别 (PFTT) 属性以处理主机故障。集群所需的主机数计算方式为:2 * PFTT 1。集群所配置允许的故障越多,所需的容量主机越多。

如果在机架服务器中连接集群主机,可以将主机整理到故障域以提高机架顶部交换机故障和服务器机架断电等问题的应对能力。请参见设计和优化 vSAN 故障域

在三主机配置中,只能通过将允许的故障数设置为 1 来允许一个主机故障。对于虚拟机数据的两个必需副本,vSAN 将各个副本保存在不同的主机上。见证对象位于第三个主机上。由于集群中的主机数量较少,因此存在以下限制:

  • 当某个主机出现故障时,vSAN 无法在另一个主机上重新构建数据以防止出现另一个故障。
  • 如果主机必须进入维护模式,则vSAN无法从主机撤出数据以维持策略合规性。主机处于维护模式时,如果发生其他故障,数据会面临潜在故障或无法访问的风险。只能使用确保数据可访问性数据撤出选项。确保数据可访问性可保证对象在数据迁移期间保持可用,但如果发生其他故障可能会面临风险。双主机或三主机集群上的 vSAN 对象不符合策略。主机退出维护模式时,将重新构建对象以确保策略合规性。

    在双主机或三主机集群具有无法访问的主机或磁盘组的任何情况下,如果发生其他故障,vSAN 对象将面临变得无法访问的风险。

vSAN 最适合在具有统一配置(包括存储配置)的主机上运行。

如果 vSAN 集群使用具有不同配置的主机,则会存在以下劣势:

  • 存储性能的可预测性将会降低,因为 vSAN 不会在各个主机上存储相同数量的组件。
  • 维护步骤不同。
  • 对于集群中拥有较少或类型不同的缓存设备的主机,性能将会降低。

如果 vCenter Server 变得不可用,vSAN 将继续正常工作,且虚拟机继续运行。

如果 vCenter Server 部署在 vSAN 数据存储中,则 vSAN 集群发生问题时,可以使用 Web 浏览器通过 vSphere Host Client 访问每个 ESXi 主机并监控 vSAN。vSAN 运行状况信息显示在 Host Client 中,也可以通过 esxcli 命令查看。

5 vSAN 网络

实际上vSphere网络配置看上去很复杂,包括端口组、分布式交换机、标准交换机等等。

网络类型从某种程度上说包括vSAN网络和非vSAN网络。

我们这里接来下配置的基于vSAN需求的vSAN网络,推荐采用分布式交换机进行实施,生产环境下需要用多网卡进行链路聚合,上联物理交换机采用采用双机跨链路聚合进行,M_lag的优势不在此进行阐述。

先说明几点vSAN网络的基本概念,然后在《8 vSAN网络部署》中详细说明。

vSAN 使用在仅用于网络冗余的后备虚拟交换机上配置的绑定和故障切换策略。vSAN 不会将网卡绑定用于负载均衡 。如果计划为可用性配置网卡成组,请考虑这些故障切换配置。

成组算法 组中适配器的故障切换配置
基于源虚拟端口的路由 主动/被动
基于 IP 哈希的路由 主动/主动,静态 EtherChannel 用于标准交换机,LACP 端口通道用于分布式交换机
基于物理网络适配器负载的路由 主动/主动

注意这里的静态 EtherChannel 用于标准交换机,LACP 端口通道用于分布式交换机

后续采用分布式交换机建立LACP,物理交换机采用M_lag跨设备的链路聚合实现vSAN网络的高可用性。

vSAN 流量可以与其他系统流量类型(例如 vSphere vMotion 流量、vSphere HA 流量和虚拟机流量)共享 10-GbE 物理网络适配器。要保证 vSAN 所需带宽的大小,请使用 vSphere Distributed Switch 中的 vSphere Network I/O Control。

在 vSphere Network I/O Control 中,您可以为 vSAN 出站流量配置预留和份额。

  • 设置预留以便 Network I/O Control 保证 vSAN 的物理适配器可用的最小带宽。
  • 设置份额以便当分配给 vSAN 的物理适配器变成饱和状态时,vSAN 仍有特定带宽可用并且防止 vSAN 在重新构建和同步操作期间占用物理适配器的全部容量。例如,当组中其他物理适配器出现故障且端口组中所有流量被转移到组中其他适配器时,物理适配器可能变成饱和状态。

例如,在处理 vSAN、vSphere vMotion 和虚拟机流量的 10-GbE 物理适配器上,您可以配置特定带宽和份额。

流量类型 预留,Gbps 份额
vSAN 1 100
vSphere vMotion 0.5 70
虚拟机 0.5 30

如果 10-GbE 适配器变成饱和状态,Network I/O Control 将分配 5 Gbps 到物理适配器上的 vSAN。

1、对于混合配置,请专门使用至少 1 GbE 的物理网络适配器。若要获得最佳网络性能,请将 vSAN 流量放置于专用的或共享的 10-GbE 物理适配器上。

2、对于全闪存配置,请使用专用的或共享的 10-GbE 物理网络适配器。

3、置备一个附加物理网卡作为故障切换网卡。

4、如果您使用了共享的 10-GbE 网络适配器,请将 vSAN 流量置于 Distributed Switch 上,然后配置 Network I/O Control 以保证 vSAN 的带宽。

5、生产环境下,vMotion、vSAN将流量进行隔离,跟别创建不同的分布式交换机。后续业务和管理的网络也都进行物理隔离。

1 2 3 4 5 6 7 8 9

允许随意转载;但,请点赞!点赞-NMBHOST:NMB HOST » 详解VMware vSAN安装过程 (磁盘组 链路聚合 超详细 避坑指南)

赞 (18) 无功不受禄

NMBHOST 需要你的支持

9+1=