【高性能】Lustre分布式存储文件系统介绍和故障分析
2016-03-02 15:06
886 查看
Lustre是应用广泛的linux开源分布式存储文件系统,其容量可轻易扩容到PB级别,在HPC、云上有相应的使用。
Lustre由元数据服务器MDS、数据存储服务器OSS组成。MDS服务器负责管理OSS服务器上的数据,并处理来自客户端的数据请求。每个OSS服务器的本地存储器,比如硬盘,被划分为多个raid阵列,每个阵列被虚拟为OST数据链路;一个oss服务器包含多个热备盘用于备份本地数据,热备盘并不保存某块硬盘的数据备份,而是使用全局数据推算的方法,保存oss服务器上的数据的数字特征,这使得任意一块硬盘发生故障,oss服务器可通过热备盘记录的数据恢复出本地所有的数据。Oss服务器的数据存储方式有条带和非条带方式,条带方式会将一份文件完整地存储在任意oss上,非条带方式则会打散文件并存到任意oss上;前者有助于数据恢复,后者有利于加快数据传输速度。
linux客户端使用lustre,需要安装相应的lustre客户端软件,并远程挂载MDS服务器上提供的lustre路径。为了指定lustre服务使用的网络驱动器,需要设置/etc/modprobe.d/lustre.conf文件的内容为:options lnetnetworks=tcp(你的网络驱动器)。启动lustre需要加载lnet和lustre模块,设mds服务器地址为192.168.2.1,启动代码如下:
modprobe lnet
modprobe lustre#有版本不需要
lctl network up
mount –t lustre
192.168.2.1@tcp:/lustre /lustre
linux客户端遇到无法挂载lustre的情况,依次检查:
1、 网络是否启用是否能ping通mds服务器
2、 是否加载和启用lnet和lustre服务
3、 检查/etc/modprobe.d/lustre.conf文件是否设置了正确的网络驱动器
4、 某些版本lustre可能会使用/etc/modprobe.d/lustre1w之类的奇怪文件作为lustre设置,检查这些文件
5、 Mds服务器是否宕机
6、 条带存储型的lustre系统的oss服务器发生故障,可能有一部分客户端能够连接,一部分客户端配置正确却不能连接。可以在管理节点上使用StorMan软件逐个检查oss服务器是否宕机
7、 使用lfs df命令查看ost是否存在故障
大部分无法挂载的情况,检查并更新配置,重启客户端,重启宕机的服务器,一般都能解决。如果oss服务器出现故障硬盘(硬盘灯常亮),需要及时更换新硬盘,lustre会自动在新硬盘上重建数据;如果坏硬盘数量超过热备盘,一般很难恢复所有数据。如果无法启动oss服务器,考虑内存、硬盘或者raid卡发生故障,这时候需要联系厂商售后更换故障零部件。
Lustre由元数据服务器MDS、数据存储服务器OSS组成。MDS服务器负责管理OSS服务器上的数据,并处理来自客户端的数据请求。每个OSS服务器的本地存储器,比如硬盘,被划分为多个raid阵列,每个阵列被虚拟为OST数据链路;一个oss服务器包含多个热备盘用于备份本地数据,热备盘并不保存某块硬盘的数据备份,而是使用全局数据推算的方法,保存oss服务器上的数据的数字特征,这使得任意一块硬盘发生故障,oss服务器可通过热备盘记录的数据恢复出本地所有的数据。Oss服务器的数据存储方式有条带和非条带方式,条带方式会将一份文件完整地存储在任意oss上,非条带方式则会打散文件并存到任意oss上;前者有助于数据恢复,后者有利于加快数据传输速度。
linux客户端使用lustre,需要安装相应的lustre客户端软件,并远程挂载MDS服务器上提供的lustre路径。为了指定lustre服务使用的网络驱动器,需要设置/etc/modprobe.d/lustre.conf文件的内容为:options lnetnetworks=tcp(你的网络驱动器)。启动lustre需要加载lnet和lustre模块,设mds服务器地址为192.168.2.1,启动代码如下:
modprobe lnet
modprobe lustre#有版本不需要
lctl network up
mount –t lustre
192.168.2.1@tcp:/lustre /lustre
linux客户端遇到无法挂载lustre的情况,依次检查:
1、 网络是否启用是否能ping通mds服务器
2、 是否加载和启用lnet和lustre服务
3、 检查/etc/modprobe.d/lustre.conf文件是否设置了正确的网络驱动器
4、 某些版本lustre可能会使用/etc/modprobe.d/lustre1w之类的奇怪文件作为lustre设置,检查这些文件
5、 Mds服务器是否宕机
6、 条带存储型的lustre系统的oss服务器发生故障,可能有一部分客户端能够连接,一部分客户端配置正确却不能连接。可以在管理节点上使用StorMan软件逐个检查oss服务器是否宕机
7、 使用lfs df命令查看ost是否存在故障
大部分无法挂载的情况,检查并更新配置,重启客户端,重启宕机的服务器,一般都能解决。如果oss服务器出现故障硬盘(硬盘灯常亮),需要及时更换新硬盘,lustre会自动在新硬盘上重建数据;如果坏硬盘数量超过热备盘,一般很难恢复所有数据。如果无法启动oss服务器,考虑内存、硬盘或者raid卡发生故障,这时候需要联系厂商售后更换故障零部件。
相关文章推荐
- Linux socket 初步
- 超算即服务:超级计算机如何上云
- Linux Kernel 4.0 RC5 发布!
- linux lsof详解
- linux 文件权限
- Linux 执行数学运算
- 10 篇对初学者和专家都有用的 Linux 命令教程
- Linux 与 Windows 对UNICODE 的处理方式
- Ubuntu12.04下QQ完美走起啊!走起啊!有木有啊!
- 解決Linux下Android开发真机调试设备不被识别问题
- 运维入门
- 运维提升
- Linux 自检和 SystemTap
- Ubuntu Linux使用体验
- c语言实现hashmap(转载)
- Linux 信号signal处理机制
- linux下mysql添加用户
- Scientific Linux 5.5 图形安装教程