Во время посещения сайта вы соглашаетесь с тем, что мы обрабатываем ваши персональные данные с использованием метрик Яндекс Метрика, top.mail.ru, LiveInternet.

Проверка б/у сервера: что должен знать каждый перед покупкой

28.07.2021 17:53

На первый взгляд мощный б/у сервер с гарантией от поставщика выглядит как идеальное решение для бизнеса: высокая производительность, надежность и цена в разы ниже нового оборудования. Но за привлекательной оберткой может скрываться целый список технических сюрпризов, от перегретых компонентов до проблемного RAID-контроллера. Перед покупкой важно не просто включить сервер и посмотреть на мигающие огоньки, а провести полноценную проверку.

В этом материале составим пошаговый план диагностики, бесплатные инструменты и советы от тех, кто умеет отличать выгодную сделку от замаскированной катастрофы.

Что расскажет корпус сервера о его прошлом

Проверка б/у сервера начинается не с запуска тестов, а с внимательного взгляда. Корпус - это как кожа у человека: по ней можно многое сказать о прошлом, условиях эксплуатации и скрытых болячках.

Неуловимые, но важные следы

Опытные инженеры начинают осмотр с винтов. Да, с обычных винтов на крышке корпуса. Если они потерты, с надломленными гранями, то значит, сервер вскрывали не раз. Это может быть нормальной практикой техобслуживания. А может и тревожным сигналом: перед вами оборудование, которое перебирали в спешке, перебрасывая от одного клиента к другому.

Если корпус заметно поцарапан, на боковинах - следы наклеек или скотча, а на задней панели - вмятины и «выкушенные» края портов, скорее всего, сервер использовали в условиях, далеких от стерильного дата-центра. Такие артефакты чаще всего встречаются на серверах, стоявших «на коленке» в подсобках, либо в производственных цехах, где влажность и пыль могли серьёзно сократить ресурс техники.
Один из клиентов приобрел сервер HP DL380 Gen9 с идеально чистым корпусом. Снаружи как новый, внутри - радиаторы блестят, а вентиляторы как будто только из коробки. Но через пару недель после ввода в эксплуатацию сервер начал сбоить. Диагностика выявила выгоревший RAID-контроллер. Причиной послужила утечка электролита под радиатором. При визуальном осмотре без полного разбора её просто невозможно было заметить. Сервер оказался «хорошо почищенным», но с тяжелым прошлым.

Пыль, запах и коррозия - враги из прошлого

Запах гари или химии внутри корпуса тревожный сигнал. Это может быть последствием перегрева, пробоя, нештатной замены компонентов. Коррозия на металле, особенно возле вентиляторов или портов - еще один признак, что сервер трудился в сыром или пыльном помещении, а может, даже пострадал при транспортировке.

Если вы чувствуете резкий запах или видите остатки коррозии - даже не включайте сервер. Такой экземпляр требует углубленной проверки питания, VRM и накопителей, а порой и полной замены критически важных компонентов.

Рассказывающие наклейки

Серверы из крупных дата-центров часто имеют наклейки с инвентарными номерами, QR-кодами, логотипами операторов. Это не всегда плохо. Напротив, сервер, бывший в дата-центре, скорее всего, обслуживался по регламенту и работал в контролируемых условиях.

Однако если вы видите, что идентификаторы удаляли механически - царапали, отрывали с остатками пластика - это может быть попыткой скрыть происхождение техники. Попросите у продавца фото таблички с серийным номером и загрузите его на официальный сайт производителя.

Где и как проверить историю:

  • Dell - support.dell.com → вкладка «Warranty & Ownership Transfer»

  • HPE - support.hpe.com → раздел «Warranty Check»

  • Lenovo - pcsupport.lenovo.com

По этим данным можно не только узнать дату покупки, но и регион первоначальной продажи, а иногда даже и владельца.

Базовая диагностика refurbished сервера

Когда внешний осмотр не вызывает тревоги, самое время перейти к первичной диагностике «внутреннего состояния» сервера. Здесь важна не только внимательность, но и умение интерпретировать данные, которые может выдать даже самый старый сервер. Ведь оборудование не врет, просто надо уметь его слушать.

Первое, на что стоит обратить внимание - это SMART-атрибуты накопителей. Даже если диски не издают тревожных звуков и вроде бы работают, по их внутренним счетчикам можно узнать многое.

Три критически важных параметра:

  1. Reallocated Sectors Count - количество переназначенных секторов. Признак того, что диск «вырезал» плохие блоки и работает в режиме самозащиты.

  2. Power-On Hours (POH) - общее время работы. Если цифра перевалила за 30 000 часов (≈3,5 года непрерывной работы), диск уже близок к критическому износу.

  3. CRC Error Count - ошибки на уровне интерфейса SATA/SAS. Часто указывают не на диск, а на повреждённый кабель или контроллер.

Важно: не доверяйте только зеленым галочкам из Windows или общим статусам «Good». Используйте smartctl (из пакета smartmontools) или фирменные утилиты производителя.

BIOS и POST - сигналы, которые нельзя игнорировать

При запуске сервера обязательно смотрите не только на успешную загрузку, но и на POST-сообщения (Power-On Self Test) и статус BIOS. Часто именно здесь можно заметить «молчаливые» ошибки:

  • «Fan failure» - не работает один из вентиляторов (может привести к перегреву).

  • «Power Supply Redundancy Lost» - отказ одного из блоков питания.

  • «RAID degraded» - массив работает, но с риском полной потери данных при следующем сбое.

IPMI: черный ящик сервера

Если сервер поддерживает IPMI (интерфейс удаленного управления оборудованием), вы получили доступ к кладезю информации. Это не просто мониторинг температуры, а журнал всего, что когда-либо шло не так.

Проверьте:

  • Историю срабатываний по перегреву, сбоям питания, отключениям вентиляторов.

  • Нагрузку по линиям питания (часто помогает выявить уставший БП).

  • Температурный профиль - скачки и нестабильность говорят о проблемах с охлаждением.

«Диагностика IPMI как черный ящик самолета. Все, что когда-либо шло не так, там записано» - Евгений Руденко, инженер ЦОД, 18 лет в эксплуатации серверов

Не забудьте обновить прошивки. Перед любой глубокой проверкой обязательно обновите:

  • BIOS

  • Firmware RAID-контроллера

  • BMC/IPMI прошивку

Многие критические баги и несовместимости устраняются именно на уровне микропрограмм, и это может радикально изменить поведение оборудования. Например, после обновления BMC лог IPMI может начать показывать те ошибки, которые раньше попросту игнорировались.

Проверка оперативной памяти и RAID-контроллеров

Если в прошлом сервер был «рабочей лошадкой», больше всего нагрузки приходилось на память и подсистему хранения. Именно здесь чаще всего скрываются накопленные сбои, которые не видны при обычной загрузке.

Оперативная память: скрытые сбои и медленные утечки

MemTest86+, Memtester, TestMem5 - любые из этих инструментов подойдут для начальной диагностики, но одной быстрой сессии недостаточно.

Рекомендуем не менее 2 полных проходов, лучше циклический тест в течение 6–8 часов. Память может «сыпать» ошибки только при прогреве, и только в определённых банках.

Не забудьте включить:

  • ECC error logging - даже если память сама корректирует ошибки, логи помогут понять, насколько часто это происходит.

  • Memory scrubbing - фоновая проверка памяти системой, бывает отключена по умолчанию.

RAID-контроллер: сердце и ахиллесова пята

RAID-контроллер - это как трансмиссия у автомобиля: его стабильность влияет на всё. Но большинство покупателей бу серверов игнорируют важные аспекты:

  • Состояние кэша: есть ли BBU (батарея) или supercap, заряжается ли она, не отключен ли write-back режим.

  • Журнал ребилдов и ошибок синхронизации: регулярные ребилды без причины - признак деградации массива или нестабильного диска.

  • Температура и питание контроллера: перегрев может не вызывать немедленной ошибки, но приводит к нестабильности.

Частая ошибка: сервер с LSI-контроллером и никакого ПО для его конфигурации. Без утилиты вроде MegaRAID Storage Manager или storcli вы не узнаете реальное состояние массива и не сможете управлять кэшем и логами.

Например, у малого интегратора из Екатеринбурга сервер с 3PAR-системой вдруг начал давать задержки при отклике приложений. В течение 12 часов админы искали проблему, перебрали сеть, обновили прошивки и даже заменили шасси. Оказалось, что вышел из строя модуль кэширования в LSI-контроллере. Ошибка проявлялась только в proprietary диагностике от Broadcom и только при полной нагрузке.

Как устроить стресс-тест, не потратив ни копейки

Проверка сервера без нагрузки - все равно что осматривать спортивный автомобиль на стоянке. Только стресс-тест покажет, на что действительно способно оборудование и где у него слабые места.

Даже без платных решений можно устроить полноценную имитацию боевой эксплуатации. Цель - не просто «нагрузить» сервер, а воспроизвести предельные сценарии: перегрев, пиковое энергопотребление, узкие места по I/O и сети.

Типовой сценарий (на 4–6 часов):

  1. CPU: используем stress или Prime95 (в режиме Small FFTs) для максимальной загрузки процессоров. Это выявит проблемы охлаждения и сбои при высоких температурах.

  2. RAM: подключаем stress-ng с параметром --vm или memtester. Смотрим на стабильность и отклик, следим за ECC-ошибками.

  3. Диски: программа fio с произвольными чтением/записью (4K random read/write) позволит проверить не только скорость, но и устойчивость массивов.

  4. Сеть: iperf3 в режиме bidirectional покажет реальные параметры пропускной способности и стабильность интерфейсов.

  5. Мониторинг: параллельно следим за температурой (lm-sensors), поведением вентиляторов (через IPMI или ipmitool), загрузкой шины (iostat, htop).

  6. Финальный этап - восстановление после пика: после отключения нагрузки наблюдайте, как быстро температура падает, вентиляторы возвращаются в норму, и не возникает ли «догоняющих» ошибок (часто они фиксируются именно после пика).

«Хороший стресс-тест - это не просто «погонять проц», а попытка воссоздать худший рабочий сценарий и посмотреть, что откажет первым» - Михаил Логинов, специалист по закупкам серверного «б/у» в телеком-секторе

Знание - сила

Покупка бывшего в употреблении сервера не лотерея, если подходить к делу с умом. Поверхностный блеск может скрывать годы перегрузок, замен и усталых компонентов, но грамотная диагностика позволяет отличить реальную находку от потенциальной катастрофы.

Что важно помнить:

  • Корпус и следы эксплуатации расскажут многое о прошлом сервера.

  • Внутренняя диагностика (SMART, BIOS, IPMI) - это технический рентген.

  • RAID и память требуют отдельного внимания - здесь часто прячутся «отложенные» проблемы.

  • Бесплатные инструменты дают все возможности для стресс-тестирования - не экономьте время на проверку.

В современном IT-секторе, где каждый сбой может стоить бизнесу тысячи евро, грамотная проверка оборудования не пункт формальности, а элемент стратегии. Сервер не должен быть загадкой. Он должен быть как книга, в которой ты прочитал все до последней строчки прежде, чем пустить в продакшн.

Популярное