Доброго времени!
Имеется несколько штук сабжевых матерей, проблема одинаковая, прошу помощи в диагностике.
Суть проблемы в следующем - при высокой нагрузке мать "зависает".
Конфигурация системы - мать + 2 цпу + по 4 модуля памяти на проц, больше ничего. Пробовал разные комбинации: цпу 2x opteron 6168 либо 2x 6238, память 8x2gb samsung 1600mhz либо 8x2gb hynix 1333mhz (все модули одинаковые).
По БП - все напруги в норме (измерено руками, отклонение не более 3-5% от номинала), запас по мощности БП двухкратный.
Имеется возможность видеть в реал-тайме потребляемую мощность системы, так вот без нагрузки это около 50-80 Вт, при полной нагрузке это около 330/350 Вт (6168/6238 соответственно). После непродолжительной работы под нагрузкой, когда плата зависнет - остаётся стабильное потребление в 160/180 Вт. (половина - это указывает на то, что отваливается один из цпу?)
Суть "зависания" - отваливаются сетевухи, видео, usb-порты обесточиваются. (это указывает на чипсет или таки нет? вроде сетевухи в одном чипе, видео в другом, usb - в третьем, вроде не чипсет тогда) Помогает ресет/power-cycle. Повторный запуск - штатно, с кнопки, сразу же, без проблем... (это указывает на то, что перегрев исключён?)
По температурам - создал тепличные условия, не более 60*С на процах при полной нагрузке (15*С в простое). Чипсет, радиаторы vrmов теплые, имхо незначительно всё.
Как такое в принципе можно диагностировать?
Можно ли что-то увидеть через возможности отладки pci-e (никогда не пробовал)?
Или единственный вариант - качать даташиты на все крупные микры и мерить руками, искать отклонения от нормы?
П.С. все цпу и память с рабочих машин, к ним претензий не было раньше никогда. на тех машинах они и сейчас работают без проблем
правка: биосы пробовал зашивать почти все, которые были выпущены (6238 поддержиается вроде бы с поздних 1.х или с 2.0),
также пробовал отключать всё ненужное (типа sata контроллеров и т.д.) - без результата
на правах догадки - может такое быть, что сильно устали-постарели кондёры в vrm'ах, и под нагрузкой проседает какое-нибудь напряжение, и какая-нибудь умная система мониторинга отключает его?
Отправить комментарий