这次,我们主要是要把两年半前购买,价值20多万的 90G SCSI RAID更换为10万元左右, 600G 的IDE RAID。并且引进 lvm 与 journaling file system,以提供可以自由缩放的硬碟分割功能与当机快速修复的档案系统。我们预期建造一个巨大、容易调整、稳定安全而且便宜的全新档案系统,然后把旧的SCSI RAID移到台北机房,供台北站使用。
于是,我们用了一个礼拜的时间,利用tech(技术组测试机器)先在新RAID上安装 redhat 7.3 系统,并且把旧资料搬过去,然后启动新系统。没想到在这个过程中,遭遇到 tech 的 SCSI 卡不稳定,而后终究损坏的事件,让我们查了半天,浪费了一个多礼拜的时间,才搞定。其间当然花了不少精力,我自己重装redhat 7.3至少有十几次,又跑了不少次电脑公司,浪费了不少长途电话费....当然,我们不用太差的SCSI卡,乃是使用 AHA 的高档卡,只是没想到发生这种问题。
真正重大的损失,是在我们已经完成life的安装,正利用tech安装bbs时,SCSI卡正式宣告损坏,而损坏的结果造成 SCSI 卡送出乱七八糟的信号,以至于装在同一台 RAID 上的 life (已经装好了的)档案系统严重损毁。本来,我们使用ext3 这种 journaling file system,具有如同资料库般的容错功能,就算电源被直接关掉,重新开机只要几秒钟就可以正常运作,不用耗费长时间去检查硬碟。但是遇到tech的SCSI卡损坏,却让整个系统出现一些奇怪的不稳定状况,直到昨天我还在排除这些错误导致的问题.....至于硬体的损失就不用说了,我们又乖乖的去买了一片近万元的高档 SCSI卡。
不管怎么说,还是要感谢主,看著 PDA 上面的待办事项一件一件的减少,也就表示我们的系统一天一天的稳定健全。终于我们快要可以享受lvm与journaling file system 的稳定与好处了(也就是这样我才能在这里报告进度)。目前,仅剩的两件大工程,就是我们必须进行高档 SCSI 卡的迁移(要把高档的卡换到工作的主机上,总不能一直放在测试用的 tech 上吧!),并且进行 RAID 的硬碟抽换演习。这些事情,都预计在本周一(2003.03.24)晚上南部技术组开会后进行,如果上帝保守,一切顺利,则南部机房可以进入另一个稳定的时期了。600 G(BBS 200G Life 400G)要灌爆,至少要过个两三年吧?
一切的计画与保护措施,有时也敌不过意外的重大损坏。周一的大动作,仍需您的代祷,我们预计停机时间将在一个小时之内。喔!忘了说,承蒙神的恩典与mic的帮忙,我们找到六个硬碟的 RAID,所以使用六个120G的硬碟后,可以用十万元多一点的价格买到我们心目中的 RAID,这对我们拮据的预算,有重大的意义。
欢迎参观
Message版与作者对话
如欲参与讨论,请先至 信望爱 WebBBS 注册