Проверка б/у сервера: что должен знать каждый перед покупкой
28.07.2021 17:53
На первый взгляд мощный б/у сервер с гарантией от поставщика выглядит как идеальное решение для бизнеса: высокая производительность, надежность и цена в разы ниже нового оборудования. Но за привлекательной оберткой может скрываться целый список технических сюрпризов, от перегретых компонентов до проблемного RAID-контроллера. Перед покупкой важно не просто включить сервер и посмотреть на мигающие огоньки, а провести полноценную проверку.
В этом материале составим пошаговый план диагностики, бесплатные инструменты и советы от тех, кто умеет отличать выгодную сделку от замаскированной катастрофы.
Что расскажет корпус сервера о его прошлом
Проверка б/у сервера начинается не с запуска тестов, а с внимательного взгляда. Корпус - это как кожа у человека: по ней можно многое сказать о прошлом, условиях эксплуатации и скрытых болячках.
Неуловимые, но важные следы
Опытные инженеры начинают осмотр с винтов. Да, с обычных винтов на крышке корпуса. Если они потерты, с надломленными гранями, то значит, сервер вскрывали не раз. Это может быть нормальной практикой техобслуживания. А может и тревожным сигналом: перед вами оборудование, которое перебирали в спешке, перебрасывая от одного клиента к другому.
Если корпус заметно поцарапан, на боковинах - следы наклеек или скотча, а на задней панели - вмятины и «выкушенные» края портов, скорее всего, сервер использовали в условиях, далеких от стерильного дата-центра. Такие артефакты чаще всего встречаются на серверах, стоявших «на коленке» в подсобках, либо в производственных цехах, где влажность и пыль могли серьёзно сократить ресурс техники.
Один из клиентов приобрел сервер HP DL380 Gen9 с идеально чистым корпусом. Снаружи как новый, внутри - радиаторы блестят, а вентиляторы как будто только из коробки. Но через пару недель после ввода в эксплуатацию сервер начал сбоить. Диагностика выявила выгоревший RAID-контроллер. Причиной послужила утечка электролита под радиатором. При визуальном осмотре без полного разбора её просто невозможно было заметить. Сервер оказался «хорошо почищенным», но с тяжелым прошлым.
Пыль, запах и коррозия - враги из прошлого
Запах гари или химии внутри корпуса тревожный сигнал. Это может быть последствием перегрева, пробоя, нештатной замены компонентов. Коррозия на металле, особенно возле вентиляторов или портов - еще один признак, что сервер трудился в сыром или пыльном помещении, а может, даже пострадал при транспортировке.
Если вы чувствуете резкий запах или видите остатки коррозии - даже не включайте сервер. Такой экземпляр требует углубленной проверки питания, VRM и накопителей, а порой и полной замены критически важных компонентов.
Рассказывающие наклейки
Серверы из крупных дата-центров часто имеют наклейки с инвентарными номерами, QR-кодами, логотипами операторов. Это не всегда плохо. Напротив, сервер, бывший в дата-центре, скорее всего, обслуживался по регламенту и работал в контролируемых условиях.
Однако если вы видите, что идентификаторы удаляли механически - царапали, отрывали с остатками пластика - это может быть попыткой скрыть происхождение техники. Попросите у продавца фото таблички с серийным номером и загрузите его на официальный сайт производителя.
Где и как проверить историю:
-
Dell - support.dell.com → вкладка «Warranty & Ownership Transfer»
-
HPE - support.hpe.com → раздел «Warranty Check»
-
Lenovo - pcsupport.lenovo.com
По этим данным можно не только узнать дату покупки, но и регион первоначальной продажи, а иногда даже и владельца.
Базовая диагностика refurbished сервера
Когда внешний осмотр не вызывает тревоги, самое время перейти к первичной диагностике «внутреннего состояния» сервера. Здесь важна не только внимательность, но и умение интерпретировать данные, которые может выдать даже самый старый сервер. Ведь оборудование не врет, просто надо уметь его слушать.
Первое, на что стоит обратить внимание - это SMART-атрибуты накопителей. Даже если диски не издают тревожных звуков и вроде бы работают, по их внутренним счетчикам можно узнать многое.
Три критически важных параметра:
-
Reallocated Sectors Count - количество переназначенных секторов. Признак того, что диск «вырезал» плохие блоки и работает в режиме самозащиты.
-
Power-On Hours (POH) - общее время работы. Если цифра перевалила за 30 000 часов (≈3,5 года непрерывной работы), диск уже близок к критическому износу.
-
CRC Error Count - ошибки на уровне интерфейса SATA/SAS. Часто указывают не на диск, а на повреждённый кабель или контроллер.
Важно: не доверяйте только зеленым галочкам из Windows или общим статусам «Good». Используйте smartctl (из пакета smartmontools) или фирменные утилиты производителя.
BIOS и POST - сигналы, которые нельзя игнорировать
При запуске сервера обязательно смотрите не только на успешную загрузку, но и на POST-сообщения (Power-On Self Test) и статус BIOS. Часто именно здесь можно заметить «молчаливые» ошибки:
-
«Fan failure» - не работает один из вентиляторов (может привести к перегреву).
-
«Power Supply Redundancy Lost» - отказ одного из блоков питания.
-
«RAID degraded» - массив работает, но с риском полной потери данных при следующем сбое.
IPMI: черный ящик сервера
Если сервер поддерживает IPMI (интерфейс удаленного управления оборудованием), вы получили доступ к кладезю информации. Это не просто мониторинг температуры, а журнал всего, что когда-либо шло не так.
Проверьте:
-
Историю срабатываний по перегреву, сбоям питания, отключениям вентиляторов.
-
Нагрузку по линиям питания (часто помогает выявить уставший БП).
-
Температурный профиль - скачки и нестабильность говорят о проблемах с охлаждением.
«Диагностика IPMI как черный ящик самолета. Все, что когда-либо шло не так, там записано» - Евгений Руденко, инженер ЦОД, 18 лет в эксплуатации серверов
Не забудьте обновить прошивки. Перед любой глубокой проверкой обязательно обновите:
-
BIOS
-
Firmware RAID-контроллера
-
BMC/IPMI прошивку
Многие критические баги и несовместимости устраняются именно на уровне микропрограмм, и это может радикально изменить поведение оборудования. Например, после обновления BMC лог IPMI может начать показывать те ошибки, которые раньше попросту игнорировались.
Проверка оперативной памяти и RAID-контроллеров
Если в прошлом сервер был «рабочей лошадкой», больше всего нагрузки приходилось на память и подсистему хранения. Именно здесь чаще всего скрываются накопленные сбои, которые не видны при обычной загрузке.
Оперативная память: скрытые сбои и медленные утечки
MemTest86+, Memtester, TestMem5 - любые из этих инструментов подойдут для начальной диагностики, но одной быстрой сессии недостаточно.
Рекомендуем не менее 2 полных проходов, лучше циклический тест в течение 6–8 часов. Память может «сыпать» ошибки только при прогреве, и только в определённых банках.
Не забудьте включить:
-
ECC error logging - даже если память сама корректирует ошибки, логи помогут понять, насколько часто это происходит.
-
Memory scrubbing - фоновая проверка памяти системой, бывает отключена по умолчанию.
RAID-контроллер: сердце и ахиллесова пята
RAID-контроллер - это как трансмиссия у автомобиля: его стабильность влияет на всё. Но большинство покупателей бу серверов игнорируют важные аспекты:
-
Состояние кэша: есть ли BBU (батарея) или supercap, заряжается ли она, не отключен ли write-back режим.
-
Журнал ребилдов и ошибок синхронизации: регулярные ребилды без причины - признак деградации массива или нестабильного диска.
-
Температура и питание контроллера: перегрев может не вызывать немедленной ошибки, но приводит к нестабильности.
Частая ошибка: сервер с LSI-контроллером и никакого ПО для его конфигурации. Без утилиты вроде MegaRAID Storage Manager или storcli вы не узнаете реальное состояние массива и не сможете управлять кэшем и логами.
Например, у малого интегратора из Екатеринбурга сервер с 3PAR-системой вдруг начал давать задержки при отклике приложений. В течение 12 часов админы искали проблему, перебрали сеть, обновили прошивки и даже заменили шасси. Оказалось, что вышел из строя модуль кэширования в LSI-контроллере. Ошибка проявлялась только в proprietary диагностике от Broadcom и только при полной нагрузке.
Как устроить стресс-тест, не потратив ни копейки
Проверка сервера без нагрузки - все равно что осматривать спортивный автомобиль на стоянке. Только стресс-тест покажет, на что действительно способно оборудование и где у него слабые места.
Даже без платных решений можно устроить полноценную имитацию боевой эксплуатации. Цель - не просто «нагрузить» сервер, а воспроизвести предельные сценарии: перегрев, пиковое энергопотребление, узкие места по I/O и сети.
Типовой сценарий (на 4–6 часов):
-
CPU: используем stress или Prime95 (в режиме Small FFTs) для максимальной загрузки процессоров. Это выявит проблемы охлаждения и сбои при высоких температурах.
-
RAM: подключаем stress-ng с параметром --vm или memtester. Смотрим на стабильность и отклик, следим за ECC-ошибками.
-
Диски: программа fio с произвольными чтением/записью (4K random read/write) позволит проверить не только скорость, но и устойчивость массивов.
-
Сеть: iperf3 в режиме bidirectional покажет реальные параметры пропускной способности и стабильность интерфейсов.
-
Мониторинг: параллельно следим за температурой (lm-sensors), поведением вентиляторов (через IPMI или ipmitool), загрузкой шины (iostat, htop).
-
Финальный этап - восстановление после пика: после отключения нагрузки наблюдайте, как быстро температура падает, вентиляторы возвращаются в норму, и не возникает ли «догоняющих» ошибок (часто они фиксируются именно после пика).
«Хороший стресс-тест - это не просто «погонять проц», а попытка воссоздать худший рабочий сценарий и посмотреть, что откажет первым» - Михаил Логинов, специалист по закупкам серверного «б/у» в телеком-секторе
Знание - сила
Покупка бывшего в употреблении сервера не лотерея, если подходить к делу с умом. Поверхностный блеск может скрывать годы перегрузок, замен и усталых компонентов, но грамотная диагностика позволяет отличить реальную находку от потенциальной катастрофы.
Что важно помнить:
-
Корпус и следы эксплуатации расскажут многое о прошлом сервера.
-
Внутренняя диагностика (SMART, BIOS, IPMI) - это технический рентген.
-
RAID и память требуют отдельного внимания - здесь часто прячутся «отложенные» проблемы.
-
Бесплатные инструменты дают все возможности для стресс-тестирования - не экономьте время на проверку.
В современном IT-секторе, где каждый сбой может стоить бизнесу тысячи евро, грамотная проверка оборудования не пункт формальности, а элемент стратегии. Сервер не должен быть загадкой. Он должен быть как книга, в которой ты прочитал все до последней строчки прежде, чем пустить в продакшн.
Популярное
Часть Сыктывкара останется без горячей воды на 10 дней
22 мая“Информация преждевременна”: власти Коми прокомментировали слухи об изъятии ребёнка после поломки праздничной конструкции
31 маяВ Сыктывкаре подписан первый в Коми договор КРТ: на Маркова – Сысольском шоссе снесут деревянные дома и построят новый квартал
27 маяВ одном из районов Сыктывкара начали подготовку к установке фонарей
31 маяДорога, тротуары, фонари: в Сыктывкаре до октября 2026 года появится современная улица Усадебная
27 маяЖительница Коми ответит перед законом за гибель 14-летнего сына
6 июняСыктывкарцам раскрыли подробности мероприятий, подготовленных на 12-14 июня
10 июняПожар в квартире на Октябрьском проспекте в Сыктывкаре унес жизнь мужчины
23 маяВ Сыктывкаре изменились названия автобусных остановок
5 июняГлава Коми поручил ускорить помощь фермерам в развитии агротуризма
31 маяВ Коми многодетная мать отсудила более высокую выплату на четверых детей
30 маяС 1 июня в Коми работающие родители с двумя детьми могут получить новую семейную выплату
28 маяМикологи Коми обнаружили деликатесный гриб из Красной книги
23 маяВ Коми молодой монтажник осуждён за хищение техники на 300 тысяч рублей
27 маяВ четырёх районах Коми ожидаются мощные ливни
31 маяСуд взыскал с Социального фонда почти 355 тысяч рублей в пользу пенсионерки из Коми
3 июняЖителям Коми разъяснили, как не лишиться северного коэффициента к пенсии
9 июняСамолетики, вальс и "Царица" на школьный лад: репортаж с последнего звонка в Сыктывкаре
27 маяВ Сыктывкаре прекращено дело о помещении ребенка в центр для несовершеннолетних правонарушителей
4 июняВ Коми автомобиль опрокинулся в кювет: пострадали трое
7 июня