Процессоры AMD Athlon XP и Intel Pentium 4 были в буквальном и переносном смысле разобраны на части и разложены по полочкам в тех публикациях, что вы можете без особого труда найти на нашем сайте. Однако за кадром осталась большая группа вопросов, связанных с тепловым режимом, температурным мониторингом и термоконтролем этих процессоров. Совершенно естественно, что все эти моменты требуют не менее пристального внимания, чем анализ производительности и исследование микроархитектурных особенностей, ведь только при корректно функционирующем температурном мониторинге совместно с правильно разработанными и сконфигурированными механизмами термоконтроля можно обеспечить действительно оптимальный тепловой режим и реально гарантировать надежную работу этих двух флагманов микропроцессорной индустрии.
С момента появления Athlon XP и начала продвижения в массы относительно дешевых платформ на основе Pentium 4 нами было тщательно проработано более сотни технических и нормативных документов, по крупицам была собрана вся необходимая информация технологического и производственного характера, был проведен не один десяток тестовых испытаний и практических исследований. Это позволило нам наиболее полно и объективно проанализировать весьма больную тему теплового режима двух самых "горячих" современных процессоров и прийти к достаточно любопытным, в некотором смысле даже провокационным выводам, с которыми мы вас сегодня и познакомим.
Симптоматика заболевания и возможные осложнения
Нагрев кристалла интегральной схемы (ИС) в процессе ее функционирования — факт совершенно очевидный и неизбежный. Протекание тока в проводнике (полупроводнике) обязательно сопровождается выделением в нем тепловой мощности, и поскольку сам проводник (полупроводник) имеет вполне конечную теплопроводность, его температура оказывается выше температуры окружающей среды. Корпус микросхемы и различные внутренние защитные/изолирующие слои, которые, как правило, обладают меньшей теплопроводностью, чем проводниковые или полупроводниковые материалы, еще более усугубляют ситуацию, затрудняя теплоотвод от кристалла ИС и существенно увеличивая его температуру.
В принципе, очень высокие (или наоборот, экстремально низкие) температуры были бы совсем не страшны, если бы не четкая зависимость правильного и надежного функционирования транзисторов ИС и структуры их межсоединений от температурных условий. В результате рабочий температурный диапазон для "среднестатистической" ИС получается довольно узким — как правило, от -40 до 125°C. Ограничение снизу является следствием различия коэффициентов теплового расширения кремниевой подложки, изолирующих/защитных слоев, слоев металлизации и т.п. (при низких температурах возникают внутренние механические напряжения — термомеханический стресс, что оказывает влияние на электрофизические свойства ИС и может привести даже к физическому разрушению кристалла). Ограничение сверху обусловлено ухудшением частотных и электрических свойств транзисторов (уменьшение тока, понижение порогового напряжения и т.п.), а также возможностью возникновения необратимых пробойных явлений в обратносмещенных p-n-переходах. Для современных процессоров (в частности, Athlon XP и Pentium 4), отличающихся гораздо более тонкой микроструктурой и более комплексными корпусами, чем "среднестатистическая" КМОП ИС, диапазон рабочих температур оказывается еще строже — обычно от 0 до 100°C.
Что ж, если процессор может более или менее нормально функционировать при температуре 100°C, то к чему тогда все эти мониторинги и термоконтроли, ведь его температура редко дотягивает до 90-95°C даже с очень слабой системой охлаждения?! На самом деле, нормальная работоспособность при высоких температурах весьма иллюзорна, поскольку в глубинах металло- кремниевого сердца компьютера имеют место не только чисто электрические явления, но и огромное количество электрохимических процессов и реакций, которые являются по своей сути термоактивационными (их скорость исключительно сильно зависит от температуры). С течением времени они принципиально могут не только затруднить корректное функционирование процессора, но и даже привести к его полному отказу, хотя рабочие температуры при этом могут находиться во вполне безопасных пределах, если смотреть с чисто электрической точки зрения. Нельзя сказать, что поголовно все эти явления оказывают пагубное воздействие на жизнедеятельность процессора — наоборот, некоторые из них могут даже улучшить электрические и частотные свойства транзисторов. Но все-таки большая часть термоактивационных процессов им на пользу явно не идет.
Наиболее "влиятельны" по своему вредоносному воздействию две группы таких процессов. Первая — электрохимическое разрушение металлизации (электромиграция). Под воздействием электрического поля и повышенной температуры атомы металла срываются со своих насиженных мест и мигрируют в прилегающие области. С течением времени толщина проводника может значительно уменьшиться (с резким увеличением активного сопротивления на этом участке), так что даже при относительно малом токе в условиях локального перегрева вполне вероятен обрыв (выгорание) участка дорожки и последующий за ним выход из строя группы транзисторов, функционального узла и всей ИС в целом. Несмотря на то, что 0.18-ти микрометровая технология производства процессоров Pentium 4 и Athlon XP закладывает достаточно неплохой иммунитет к электромиграции и делает этот процесс практически равновесным, обеспечивая благоприятные условия для обратной диффузии, уже при температурах 75-85°C и выше равновесие нарушается со всеми вытекающими отсюда последствиями.
Вторая группа явлений — деградация окисла. Технологически невозможно обеспечить идеальную чистоту пленки двуокиси кремния, используемой в качестве диэлектрика под затвором транзисторов. В ней всегда присутствуют примеси (обычно донорного типа), которые сосредотачиваются вблизи внутренней поверхности пленки (на границе раздела между диэлектриком и кремнием). Ионы примесей способствуют образованию побочных инверсных или обогащенных слоев (паразитных каналов) у поверхности полупроводника под диэлектриком, которые оказывают влияние на обратный ток p-n-переходов и величину пробивного напряжения. Под воздействием поля (в 0.18 мкм транзисторах напряженность поля достигает 106 В/см) и градиентов температуры происходит дрейф и диффузия ионов в диэлектрике, что приводит к изменению свойств самого диэлектрика и существенным изменениям электропроводности и протяженности паразитных каналов в полупроводнике (следовательно — к нарушению нормального функционирования транзистора за счет значительных флуктуаций тока), а в самом "запущенном" случае — к пробою диэлектрика или p-n-перехода стока даже при относительно низких температурах. Ситуация еще более усугубляется из-за немалого количества дополнительных ионов, которые мигрируют в окисел из других областей транзистора (высоколегированные исток и сток, омические контакты, поликремниевый затвор), причем, опять же, это происходит под воздействием высокой температуры.
Даже беглого описания только двух основных электрохимических процессов в современных ИС, вполне достаточно, чтобы понять: высокая температура — враг №1 для процессора и один из наизлейших противников его надежного и долговременного функционирования. Это подтверждают не только теоретические выкладки, но и практические исследования.
По различным данным (результаты ускоренных испытаний нескольких серий зарубежных ИС), средний срок службы относительно примитивной в технологическом отношении ИС составляет 50-75 лет при температуре 60°C и всего лишь 1000-1500 ч при температуре 125°C. Масштабные испытания сложных ИС (процессоров) не проводились, однако некоторые полуэкспериментальные оценки их среднего срока службы оказываются гораздо пессимистичнее, чем в случае простых ИС — не более 1000-1500 ч при температуре всего 85-90°C.
Итак, необходимость корректного температурного мониторинга, позволяющего оценить температуру кристалла с наилучшей точностью, а также механизмов термоконтроля, направленных на поддержание температуры современных процессоров в допустимых пределах, просто очевидна! Однако по-прежнему умами многих пользователей владеет дух сомнения, который в случае "тепловой" проблемы не только не приводит к истине, но даже может стать провокатором весьма плачевных последствий для жизнедеятельности процессора.
Врачебная ошибка
Часто приходится слышать мнение, что температурный мониторинг и термоконтроль — вещи для рядового пользователя чисто опциональные и совершенно ненужные. Мол, разработчики брендовых систем охлаждения или же "боксовых" кулеров знают, что делают, поэтому все и так должно прекрасно работать без какого-либо перегрева. Когда же что-то сбоит или вовсе не работает, то тут, как всегда, виноваты криворукие пользователи, сборщики и т.д. и т.п.
Подобная точка зрения с виду весьма логична и могла бы претендовать на правильность и объективность, если бы не одно важное обстоятельство: ни одна даже самая наибрендовая система охлаждения не является непогрешимой, и никто никогда не может стопроцентно гарантировать полное отсутствие дефектов или правильное функционирование системы в течение даже короткого промежутка времени. Самое опасное здесь то, что какой-либо сбой или накопленная совокупность дефектов обычно проявляются в совершенно неподходящий момент, и пользователь, не обладая необходимыми средствами диагностики и контроля, пребывает в блаженном неведении, в то время как остаток жизненного пути процессора может составлять считанные часы или дни.
Наиболее тривиальный сбой — отказ вентилятора или нарушение правильного функционирования его термоконтроля в кулерах, отказ центробежного насоса или падение его производительности в системах жидкостного охлаждения. Тут достаточно всего нескольких секунд, чтобы термическое сопротивление системы охлаждения увеличилось в разы с пропорциональным увеличением температуры процессора. Учитывая среднюю тепловую мощность процессоров Athlon XP в пределах 60-70 Вт, температуру внутри компьютерного корпуса в пределах 30-40°C и термическое сопротивление системы в условиях естественной конвекции теплоносителя, которое по данным наших исследований может составить от 1.5°C/Вт и выше (в зависимости от типа и конфигурации системы), будет легко подсчитать результирующую температуру и… ужаснуться!
В случае высокого штатного уровня шума вентилятора (или насоса), факт его останова трудно не заметить, и вполне можно успеть произвести спасительный шатдаун системы. Но согласитесь, далеко не все вентиляторы одинаково "громки" (существует довольно широкий ассортимент малошумных, но в то же время весьма производительных вентиляторов или насосов), и далеко не все пользователи обладают чутким слухом. К тому же, самого пользователя может просто не оказаться рядом по вполне естественным причинам. Конечно, тут нельзя упускать из вида модели вентиляторов, оборудованных блоком аварийного звукового сигнала. Но ведь и этот блок в конечном итоге также может оказаться неработоспособным ;-)
Нельзя здесь забывать и о возможности контроля скорости вращения вентилятора, которая предоставляется большинством микросхем системного мониторинга. Казалось бы, посредством утилиты мониторинга будет очень просто отследить останов вентилятора и организовать выключение компьютера при возникновении такого сбоя. Однако на деле и коммерческие, и "фриварные" программы мониторинга тоже не лишены ошибок, имеют, как правило, ограниченный спектр поддерживаемого оборудования и, к тому же, оказываются совершенно бесполезными в случае сбоев операционной системы. Более того, сами микросхемы мониторинга (точнее, каналы АЦП, работающие в режиме таймеров/счетчиков и осуществляющие тахометрический контроль) далеко не всегда и далеко не на всех моделях материнских плат функционируют полностью безошибочно и корректно. Полагаться на их скорую и действенную помощь в случае сбоев систем охлаждения более чем рискованно!
Или наиболее тривиальный дефект — изменение консистенции термопасты (загрязнение, высыхание, расслоение и т.п.) или несоответствие ее физико-химических свойств установленным требованиям. Определить на глаз, "правильная" ли эта термопаста или некондиционная, практически нереально. В результате запросто можно подсунуть процессору вместо хорошей термопасты хороший теплоизолятор с термическим сопротивлением минимум 1.5-2°C/Вт. И еще больше ужаснуться даже без подсчета результирующей температуры процессорного ядра.
Конечно, "сваливать" все процессорные сбои только на неблагоприятные температурные условия нельзя, ведь существует большая группа других факторов, которые принципиально могут стать губительными для здоровья и нормальной жизнедеятельности процессора. Наибольший вред тут может причинить повышенное напряжение питания, которое является таким же мощным катализатором деградации окисла и электромиграции, как и повышенная температура. Но опять же, при повышении питающего напряжения увеличивается рабочий ток, что неминуемо приводит к увеличению тепловой мощности, а следовательно — и росту температуры процессора. То есть, снова приходится сталкиваться все с той же злосчастной высокой температурой! Причем зачастую происходит это даже не по вине самого процессора, а исключительно по вине пользователя, который всегда рад оверклокерским функциям повышения напряжения питания, "любезно" предоставленным производителями материнских плат, и применяет их, как правило, слишком активно и усердно, совершенно не задумываясь о возможных последствиях.
Также возможны и различные сбои схем питания материнских плат или же отказы БП вследствие резких и значительных скачков напряжения в сети переменного тока. Но здесь следует учесть, что современные схемотехнические решения блоков питания и материнских плат располагают огромной массой средств "электрической" защиты и действенными механизмами аварийного отключения. Поэтому полный отказ процессора по причине сбоев схем питания маловероятен: в случае сбоя сразу произойдет аварийное отключение схемы, а значит и отключение самого процессора без каких-либо серьезных последствий для его здоровья.
Таким образом, из всех возможных бед действительно реальной и вполне ощутимой проблемой в нынешних условиях становится только неправильный тепловой режим процессора. И упускать из виду эту опасную тенденцию очень и очень неосмотрительно!
Ну что ж, остается только надеяться, что после изложенных аргументов дух сомнения у наших читателей, если, конечно, он имел место быть, наконец-то немного утихомирится, и голос разума возобладает над его тлетворными увещеваниями. Нам же пора приступать к рассмотрению возможностей температурного мониторинга и термоконтроля, которые предоставляются процессорами Pentium 4 и Athlon XP.
Pentium 4 — диагностика заболевания, лечение и самолечение
Старшие модели процессора Pentium 4 на ядре 0.18 мкм (Willamette) чисто теоретически характеризуются максимальной тепловой мощностью 90-95 Вт. На практике, в условиях стандартной программной среды, такая тепловая мощность, конечно же, недостижима (самые специфические приложения, нагружающие процессор по самое не хочу, еле-еле дотягивают тепловыделение к планке 80-85% от максимума). Но даже потенциально возможные 70-75 Вт — это, мягко говоря, очень и очень много.
Разработчики Pentium 4 предприняли два весомых марш-броска на пути к решению проблемы: на макроуровне усовершенствовали корпус процессора (заменой FC-PGA на FC-PGA2), на микроуровне добавили мощный инструмент термоконтроля — технологию Thermal Monitor.
Корпус FC-PGA2 имеет интегрированный теплорассеиватель (integrated heat spreader), установленный на поверхности процессорного ядра (медная пластина толщиной около 2 мм, покрытая тонким слоем никеля).
Несмотря на то, что теплорассеиватель формально вносит дополнительное термическое сопротивление (порядка 0.3°C/Вт) на пути теплоотвода от процессорного кристалла к радиатору кулера, его применение позволяет в два-три раза уменьшить эффективную плотность теплового потока и существенно ослабить влияние так называемого эффекта сопротивления растеканию, который имеет место при огромных различиях площади теплового источника и подошвы радиатора в случае корпуса FC-PGA. В результате реальное термическое сопротивление системы процессор-кулер не повышается, а наоборот снижается, причем весьма значительно. Еще одним дополнительным преимуществом корпуса FC-PGA2 является лучшая механическая защищенность процессорного кристалла при продольных нагрузках, что позволяет увеличить допустимые усилия прижима для крепежных механизмов кулеров/теплообменников и, следовательно, уменьшить тепловые потери в термоинтерфейсах (слой термопасты, phase change материала и т.п.).
Таким образом, на конструктивном уровне проблема агрессивного тепловыделения процессора Pentium 4 (следовательно, и проблема обеспечения не менее агрессивного охлаждения этого процессора) частично снимается, облегчая дизайн и снижая конечную стоимость систем охлаждения за счет более оптимизированного в тепловом отношении корпуса FC-PGA2.
Но суть проблемы не меняется: тепловая мощность остается прежней и исключительно опасной для здоровья процессора в случае выхода из строя системы охлаждения. Решить ее можно только одним способом — использовать действенные и корректные технологии температурного мониторинга и термоконтроля процессора, обеспечивая функционирование процессора в рамках безопасного диапазона рабочих температур.
Еще на заре развития микроэлектроники для контроля температур сильно теплонагруженных ИС применялся так называемый термодиод (как правило, транзистор в диодном включении), зависимость прямого падения напряжения на p-n-переходе которого от температуры использовалась для определения последней. В конце концов, этот термодиод "забрел" и в процессоры — поначалу нашел себе тепленькое местечко в Intel Pentium II/Celeron, теперь же вполне неплохо устроился и в AMD Athlon MP/XP.
Достоинства термодиода очевидны: его показания не зависят от внешних условий и довольно точно отражают реальную температуру кристалла и ее изменения (температурная характеристика диода практически линейна). Любые методы внешних измерений, будь то термопара, термистор, излучательный или терморезонансный детектор, никогда не позволят объективно оценить температуру кристалла, поскольку сам кристалл в этом случае оказывается недоступным, а температура корпуса ИС сильно зависит от ее конструктивных особенностей и внешних условий. К тому же, стабильность характеристик самих преобразователей температуры также зависит от внешних условий, и они (преобразователи), как правило, нелинейные.
Но при всех достоинствах термодиода общепринятая практика его использования (как довесок к цифровым схемам системного мониторинга на материнских платах) не всегда оказывается действительно объективной. При нормальном функционировании процессора Pentium 4 (да и Athlon XP тоже) вполне возможны резкие скачки температуры — 30-50°С/с. В то же время, цифровые схемы мониторинга обычно не в состоянии "переварить" показания термодиода быстрее 8 отсчетов в секунду, т.е. имеют время преобразования от 125 мс и выше. При наличии резких изменений температуры цифровая схема мониторинга просто не успевает их зарегистрировать должным образом — преобразованное значение как бы "отстает" от реальной температуры кристалла. И чем значительнее скачки, тем больше получается отставание: в случае выхода из строя системы охлаждения скачок температуры может составить 60°С/с и более, а отставание температуры — минимум 7°С. Все это делает "классические" схемы термоконтроля на основе показаний термодиода не слишком приемлемыми для "горячего" нрава процессора Pentium 4.
Во всех процессорах Intel, начиная с Pentium Pro, всегда присутствовали (и присутствуют) температурный датчик и аналоговая схема сравнения, предназначенные для детектирования катастрофического перегрева. Этот датчик, также как и термодиод, представляет собой транзистор в диодном включении, но тут используется уже обратносмещенный p-n-переход транзистора и зависимость обратного тока перехода от температуры. Ток диода сравнивается гистерезисным компаратором с током опорного (эталонного) источника, который отрегулирован таким образом, чтобы компаратор срабатывал на определенное значение температуры. Время отклика подобной схемы обычно не превышает нескольких сотен наносекунд, поэтому выход температуры за допустимые рамки будет обнаружен практически мгновенно. В итоге если температура процессора Intel превышает 125-135°С, описанная схема сравнения немедленно дает команду прекратить подачу синхросигнала на все процессорные узлы и выдает на шину сигнал THERMTRIP#, который рапортует системе (чипсету) о катастрофическом перегреве и понукает ее отключить питание процессора.
Разработчики Pentium 4 не стали изобретать велосипед и, не мудрствуя лукаво, решили повысить гибкость подобной схемы термоконтроля и расширить ее функциональность. Так и родилась практически уникальная "фича" этого процессора — технология Thermal Monitor. Уже имеющийся по умолчанию датчик температуры "переехал" в наиболее теплонагруженный микрорайон "убыстренных" АЛУ Pentium 4 и был "обвязан" дополнительной схемой сравнения и необходимой конфигурационной логикой. Появился еще один порог температуры кристалла (85-90°С в зависимости от модели процессора), блок модуляции синхросигнала (Thermal Control Circuit) и несколько новых регистров MSR.
Идея "фичи" проста — при превышении температурного порога не отключать процессор, а время от времени прекращать подачу синхросигнала на все жизненно важные процессорные блоки в попытке снизить выделяемую тепловую мощность, т.е. выдавать холостой цикл, модулируя синхросигнал.
Сам Thermal Monitor имеет два режима работы — "Автоматический" (Automatic) и "По требованию" (On-Demand). Автоматический режим включается BIOS-ом материнской платы, и в случае перегрева активизируется блок модуляции синхросигнала, который "тормозит" процессор на 50% (т.е. время холостого и нормального цикла одинаково). Режим "По требованию" может быть включен программным обеспечением в любое время и вне зависимости от температурных условий, с немедленной активизацией блока модуляции синхросигнала. Но этот режим уже позволяет варьировать длительность холостого цикла от 12.5% до 87.5%. При своей активизации блок модуляции всегда выдает на шину специализированный сигнал PROCHOT#, который может быть "переварен" системой по собственному усмотрению. Также существует возможность генерации процессорного прерывания по фронту/срезу PROCHOT# (этот сигнал доступен и внутренним блокам процессора), которое разработчики BIOS или системного ПО легко могут использовать в своих благих целях.
Как видим, Thermal Monitor представляет собой исключительно точное, быстрое ("задержка" схемы сравнения у "термального монитора" Pentium 4 составляет несколько десятков наносекунд) и действенное средство термоконтроля процессора. Конечно, механизм Thermal Monitor не является полностью независимым от системной логики — блок модуляции синхросигнала должен быть включен BIOS-ом или системным ПО. Но даже если вдруг эта "фича" по каким-либо причинам окажется неактивизированной, что крайне маловероятно, Pentium 4 по-прежнему располагает схемой защиты от катастрофического перегрева (которая абсолютно надежна и не связана ни с одним процессорным регистром), а также старым добрым термодиодом, который пока еще рано отправлять на свалку истории.
В итоге Pentium 4 является практически непробивным процессором в тепловом отношении и надежно защищен от перегрева двумя внутренними механизмами термоконтроля (Thermal Monitor и схема защиты от катастрофического перегрева). Образно говоря, ему вовсе не обязательно обращаться за помощью к врачу в лице цифровой схемы мониторинга (или чипсета) и сдавать анализы в виде показаний термодиода. Все это становится, по сути, лишним, поскольку Pentium 4, как опытный йог, вполне может сам поставить себе диагноз и самостоятельно регулировать свою температуру, удерживая ее в допустимых пределах и не уповая на, как правило, запоздалое вмешательство микросхем-эскулапов.
Тем не менее, сам термодиод, конечно, по-прежнему остается полностью функциональным и может быть с легкостью использован как средство оценки лечебного эффекта от нового кулера или системы водяного охлаждения.
Итак, с Pentium 4 более или менее разобрались. Ну, а теперь взглянем, как обстоят дела у процессора Athlon XP в плане температурного мониторинга и термоконтроля?
Athlon XP — диагностика и лечение
Плохо дела обстоят, скажу я вам, даже очень плохо!
Во-первых, Athlon XP (как и все его предшественники) начисто лишен схемы защиты от катастрофического перегрева. Чем объясняется такое пренебрежение к здоровью процессора, совершенно непонятно. Ведь подобные схемы присутствуют не только в Pentium-ах, но даже и во многих самых простецких и "никудышных" микроконтроллерах, к тому же "сваять" эту схему и интегрировать ее на кристалл вообще не составит никакого труда для такого гиганта индустрии, как AMD. В результате, Athlon XP оказывается открытым всем тепловым ветрам — если механизмы внешнего мониторинга и термоконтроля не функционируют или работают неправильно, любому серьезному сбою системы охлаждения вполне по силам попросту кремировать процессор (напомню, тепловая мощность старших моделей Athlon XP составляет 60-70 Вт и практически равняется мощности Pentium 4).
Ну и во-вторых, хотя Athlon XP и обладает термодиодом, проку от него фактически никакого. Складывается парадоксальная ситуация: термодиод в процессоре есть, но подавляющее большинство вполне современных, можно даже сказать, только вчера анонсированных Socket A материнских плат его не поддерживают! И это при всем притом, что ведущие чипсетмейкеры и производители материнских плат имели на руках образцы процессоров на ядре Palomino еще в марте-апреле прошлого года! Полагаю, за это время вполне можно было заметить наличие термодиода в этом процессоре.
Не обошлась история с термодиодом и без казусов. Особенно отличилась в этом отношении компания ASUS. Выпустив прошлым летом плату A7V266 и разместив на ней неприметный джампер THEMCPU, компания зажгла лучик надежды в сердцах оверкловеров и продвинутых пользователей платформы AMD, ибо в FAQ-е по этой плате было черным по белому написано, что джампер предназначен для поддержки термодиода будущих процессоров AMD. "Вот он, миг удачи! Теперь и мы вскоре сможем наблюдать температуру процессорного ядра! Дайте нам только Athlon XP, уж мы вам покажем!", — радовались оверклокеры. Каково было их удивление, когда при установке Athlon XP плата стала тупо демонстрировать 50-52°С вне зависимости от нагрузки на процессор, и насколько чист был их английский (русский) в литературном плане после осознания факта неработоспособности термодиода на этой плате, сказать трудно. Но, судя по темам в "железячных" конференциях с риторическим вопросом: "У вас работает?", которые множились, как снежный ком, удивлению и народному гневу не было границ. Ситуация в точности повторилась и на плате A7V266-E. Что ж, будем надеяться, что в следующих продуктах компании (A7V333, например) поддержка термодиода все-таки будет реализована не на словах, а на деле.
Конечно, не все производители материнских плат оказались такими невнимательными. И уже сейчас на рынке присутствуют платы, прекрасно "понимающие" термодиод Athlon XP. Одна из таких плат — модель D1289 от Fujitsu Siemens Computers.
К слову, D1289 имеет очень качественно выполненную поддержку термодиода и сейчас выбрана нами в качестве основы тестового стенда Socket A кулеров.
Термоконтроль процессора на этой плате построен по "классической" схеме (носит название CPU Throttling). В специализированный регистр микросхемы системного мониторинга BIOS-ом или "фирменным" ПО загружается пороговое значение температуры. Показания термодиода регулярно сравниваются (естественно, тут уже используются цифровые методы сравнения) с пороговым значением, и если температура превышает его, на южный мост (в нашем случае это VIA VT8233) подается сигнал THRM# (возможно возникновение SCI или SMI прерывания, в зависимости от системной конфигурации), который понукает мост генерировать холостой цикл, подавая уже на процессор Athlon XP сигнал STPCLK#. Длительность цикла определяется значениями соответствующего регистра южного моста, и может составлять вплоть до 100% (т.е. вплоть до полной остановки процессора).
Схема неплохая. Но, как уже отмечалось ранее при рассмотрении термоконтроля Pentium 4, самый главный недостаток подобной "классики" — высокая "латентность" (для микросхемы мониторинга у D1289 — порядка 150-200 мс), что приводит к отставанию "переваренной" микросхемой температуры от реальной и невозможности оперативного реагирования на резкие температурные скачки. В случае серьезного отказа системы охлаждения полное термическое сопротивление очень быстро возрастает (в два-три раза всего за несколько секунд), и при этом совсем не исключены температурные скачки 70-100°С/с. В таких экстремальных условиях "классическая" схема становится полностью несостоятельной.
На материнских платах без поддержки термодиода, где в качестве датчика температуры используется обычно термистор в сокете, "термоконтроль" (именно в кавычках!) построен примерно также. Но термистор совершенно неадекватно отражает температуру ядра и динамику ее изменения: разница между показаниями термистора и реальной температурой ядра может достигать 20-40°С. В этих условиях микросхема мониторинга не в состоянии распознать даже значительный "уход" температуры кристалла за границы безопасного диапазона, и соответственно — предпринять все необходимые действия для ее понижения. В результате, понятие "термоконтроль" становится здесь просто-напросто неприменимым и теряет свой смысл.
Есть еще один очень важный момент, на который я просто не могу не обратить внимания наших читателей. Процессор Athlon XP имеет поддержку энергосберегающих режимов Halt и Stop Grant, которые обычно ассоциируются с режимами ACPI C1 и C2. Находясь в режиме Stop Grant, процессор выделяет в два-три раза меньше тепловой мощности, чем в обычном рабочем режиме с практически пропорциональным понижением температуры. Однако системная логика большинства Socket A материнских плат сконфигурирована таким образом, что процессор в этот режим никогда не переходит (его запросы попросту игнорируются). В результате, Athlon XP практически постоянно потребляет мощность, довольно близкую к максимальной величине, и постоянно имеет при этом не слишком благоприятную температуру ядра, даже если используется эффективная система охлаждения.
Учитывая тот факт, что типичные офисные компьютеры простаивают почти 99% времени (в смысле процессорного времени), совершенно очевидна необходимость перевода процессора в режим Stop Grant в течение периодов простоя, причем не только с точки зрения улучшения теплового режима, но даже и по вполне естественным соображениям экономии электроэнергии. Но этого почему-то не происходит! А теперь, задумайтесь, сколько мощности потребляют 100-250 простаивающих таким вот "экономным" образом компьютеров, и через какое время придется менять вышедшие из строя процессоры по причине постоянного перегрева? Думаю, очень многие быстро и правильно ответят на эти два вопроса…
"Ваши аргументы очень убедительны и весьма настораживают, — может заметить наш дотошный читатель, — Однако моя система на базе Athlon XP до сих пор отлично работает, несмотря на все эти страхи, и совсем не внушает мне каких-либо опасений. Бывали, конечно, и сбои (пару раз останавливался вентилятор), но тот термисторный термоконтроль, который вы так рьяно ругаете, хорошо справился со своей задачей, и мой процессор по-прежнему жив и здоров". Не сильно ошибусь, если предположу, что именно так выскажутся многие и многие владельцы процессоров Athlon XP ;-) Но, хотя подобное замечание и выглядят вполне логичным и корректным, на деле таковым оно не является. Почему? Давайте разберемся!
Зачастую качественно собранные системы с процессором Athlon XP действительно очень сильно снижают риск катастрофического перегрева. Но, в то же время, вероятность перегрева как такового, пусть даже и не смертельно опасного для процессора, нисколько не уменьшается. Так, если используется радиатор с образцовой тепловой эффективностью и качественная термопаста, то термическое сопротивление системы процессор-кулер в случае отказа вентилятора обычно не превышает 1.5°С/Вт. Катастрофического перегрева в этих условиях, конечно, не происходит (температура процессора в принципе не достигает критической отметки 150-160°С), но сам факт перегрева, причем весьма серьезного, имеет место — температура может составить более 100-110°С и снижается до формально приемлемых 80-90°С, как правило, не ранее чем через 5-10 мин. Совершенно очевидно, что такая высокая температура не проходит бесследно и наносит значительный вред процессорной микроструктуре. Поэтому неправомерно утверждать, что после таких "термопыток" процессор остается полностью здоровым и невредимым: хотя "визуально" ничего серьезного не произошло, и он продолжает вполне нормально функционировать, нет гарантии, что следующие отказы системы охлаждения не доконают его окончательно и бесповоротно. Не исключено, что полный отказ процессора впоследствии произойдет даже в условиях нормальной рабочей температуры — и уже не по причине каких-то сбоев охлаждения, а просто за счет слишком далеко "зашедших" деградации окисла, электромиграции или других вредоносных термоактивационных явлений. Все эти явления, как уже было отмечено выше в подразделе Симптоматика заболевания и возможные осложнения, неразрывно связаны с перегревом процессора и могут значительно сократить остаток его жизненного пути.
Итог получается совсем неутешительным: несмотря на отличную производительность, которую предоставляют системы на базе Athlon XP, подавляющее большинство из них не имеют надежных и действенных средств термоконтроля (даже в случае поддержки термодиода), не обеспечивают оптимальный тепловой режим на системном уровне и очень слабо защищены (зачастую совершенно незащищены) от сбоев систем охлаждения. Это, кстати говоря, вполне наглядно доказал один из известных "железных терапевтов" — старый "добрый" бюргер Том Пабст.
Athlon XP — вивисекция
Полагаю, многие из вас, наши дорогие читатели, видели публикации и душещипательный видеоролик, ставшие результатом вивисекционных экспериментов над процессорами Pentium 4, Pentium III, Athlon и Athlon MP, которые провела команда безжалостных эскулапов во главе с Томом Пабстом. Показав страшные лики фактически кремированных процессоров Athlon и Athlon MP после их весьма кратковременного использования без какой бы то ни было системы охлаждения, Том заставил обливаться холодным потом многих и многих владельцев продукции AMD и подвиг на "научные открытия" в области шоковой терапии других горе- экспериментаторов (благо, их оказалось не так уж и много).
После "премьеры" этого видеоклипа в Сети не замедлили появиться разного рода высказывания о якобы заказном характере ролика и "продажности" Тома, а также "сенсационные" заявления об отсутствии поддержки термодиода у платы D1289 (именно эту материнскую плату использовал Том) и ее "неприспособленности" к процессору Athlon MP. Совершенно очевидно, что все эти заявления и высказывания лишены каких бы то ни было оснований. Также очевидно, что общая суть явления все-таки была отражена Томом верно, хотя и не совсем безупречно. Поэтому мы не будем отвлекаться сейчас на эмоции и смелые предположения, а обратимся лучше к чисто технической стороне вопроса.
С инженерно-технической точки зрения, манипуляции над процессорами, которые провела команда Тома, бессмысленны, и на самом деле не имеют ничего общего с исследовательской практикой. Во-первых, аргументы Тома о высокой вероятности повреждения крепежа сокета или раскрепления кулера (теплообменника) после такелажных работ с системными блоками, доставки компьютеров почтой и т.п., вообще говоря, наивны. Почему? Потому, что крепеж сокета принципиально может выдержать нагрузку 5-10 кг и несколько сотен циклов установки/демонтажа кулеров. Если компьютерная техника, предлагаемая к продаже, не относится к категории "очень долго бывшей в употреблении", подобные казусы крайне маловероятны.
Во-вторых, если вдруг кулер и окажется "падшим", то неизбежны механические (следовательно, и электрические) повреждения видеокарты, которые могут повлечь полный отказ не только самой этой видеокарты, но и материнской платы. Самое анекдотичное, что процессор в этих условиях вполне может остаться невредимым, поскольку грамотно выполненная схема питания процессора (если именно таковая присутствует на материнской плате) практически мгновенно отключит питание в случае собственного катастрофического сбоя.
В-третьих, и процессоры Intel, и процессоры AMD не предназначены к употреблению без системы охлаждения. Причем эта система должна удовлетворять вполне определенным и четким требованиям. Правильное функционирование процессоров вообще без охлаждения абсолютно не гарантирует ни та, ни другая компания.
Наконец, в-четвертых, результат подобного эксперимента над процессорами Athlon или Athlon MP/XP предопределен — они не выживут! Почему? Давайте посмотрим!
В отсутствии системы охлаждения термическое сопротивление процессора составляет 8-9°С/Вт, и уже через 100-150 мс после "отключения" радиатора с вентилятором возникает серьезный локальный перегрев теплонагруженных узлов. Достаточно еще всего лишь 100-200 мс для его полного отказа. Таким образом, система термоконтроля должна за 150-200 мс максимум постараться вернуть температуру процессора в допустимые рамки для предотвращения его гибели. Вспомним теперь, сколько нужно времени микросхеме мониторинга на плате D1289, чтобы "переварить" показания термодиода. Никак не менее 150 мс. Казалось бы, микросхема успевает сделать последний рывок на пути к спасению процессора. Но это не так, поскольку за 150 мс будет получено значение еще той температуры, которая имела место при вполне рабочем кулере или не успела существенно повыситься в случае его отсутствия! Следующий отсчет потребует еще 150-200 мс, но окажется уже совершенно бесполезным — процессор за это время успеет перейти в мир иной.
"А как же ролик от AMD, который появился в Сети после опытов Тома? — вполне резонно спросите вы, — Ведь он доказывает обратное! Процессор Athlon MP остался невредимым и при отсутствии кулера, и при остановке вентилятора!". На самом деле этот ролик ничего не доказывает по одной очень простой причине. Посмотрим внимательно на конфигурацию стенда, который использовался хитроумными экспериментаторами из AMD. Там применялась совершенно другая методика термоконтроля! Ребята взяли микросхему MAX6512 и подключили ее напрямую к выводам процессорного сокета, отвечающим термодиоду Athlon MP/XP. Микросхема эта является чисто аналоговой (по сути, интегральный компаратор постоянного напряжения), и эффективное время измерения температуры при ее использовании составляет порядка 70 мс (резкие скачки температуры "опознаются" быстрее). В результате MAX6512 вполне успевает выдать аварийный сигнал и отключить питание материнской платы и процессора (посредством дополнительной схемотехнической "обвязки"), прежде чем температура последнего достигает критических пределов. Как видим, условия проведения эксперимента у Тома и ребят из AMD разительно отличаются. Поэтому сравнивать их результаты более чем некорректно.
Что ж, несмотря на все методические огрехи и технические несуразицы, эксперименты Тома все-таки дали один вполне положительный результат: к тепловым проблемам процессоров AMD было привлечено внимание не только компьютерной общественности, но и самой компании, которая с завидным упорством предпочитала их не замечать. Будем надеяться, что надлежащие оргвыводы дружный коллектив AMD все-таки сделает, и последующие шаги в направлении решения этих проблем не ограничатся только одним лукавым видеороликом. Ведь нужно лишь добавить махонький датчик катастрофического перегрева вкупе с простенькой системой термоконтроля, а также слегка модифицировать процессорный корпус, чтобы все тепловые вопросы с пометкой "AMD" были успешно разрешены и полностью сняты с нашей повестки дня! ;-)
Окончательный диагноз
Итак, пора подводить окончательные итоги нашего несколько затянувшегося разбирательства. Они будут весьма краткими.
Процессор Intel Pentium 4 обладает огромным запасом надежности, имея на борту схему защиты от катастрофического перегрева и функцию термоконтроля Thermal Monitor. Однако для достижения оптимального соотношения между надежностью и производительностью систем на базе Pentium 4 необходимо использовать только самые эффективные средства охлаждения. В противном случае баланс между надежностью и производительностью нарушается, причем не в пользу последней.
Процессор AMD Athlon XP лишен встроенных средств защиты от перегрева, и подавляющее большинство систем на его основе не имеют корректно работающих механизмов термоконтроля. На данный момент системы на базе Athlon XP очень проблемны в тепловом плане и фактически ненадежны в части защиты от серьезных сбоев средств охлаждения. Тем не менее, системы с поддержкой термодиода этого процессора все-таки предоставляют некоторый минимальный уровень "тепловой" безопасности и с большущей натяжкой могут считаться надежными. Все это требует от продавцов систем на базе Athlon XP максимальной ответственности в части исполнения гарантийных обязательств по возврату/обмену отказавшей техники. Если продавец не предоставляет должных гарантий и не обеспечивает исключительно качественную сборку, то уже ничто и никто не сможет сберечь нервы и содержимое кошелька покупателя Athlon XP, кроме него самого.
Вот, пожалуй, и все на сегодня.
Рекомендуемая литература:
- Викулин И.М., Стафеев В.И. Физика полупроводниковых приборов. М.: Советское радио, 1980.
- Степаненко И.П. Основы теории транзисторов и транзисторных схем. М.: Энергия, 1977.
- Степаненко И.П. Основы микроэлектроники. М.: Советское радио, 1980.
- Давидов П.Д. Анализ и расчет тепловых режимов полупроводниковых приборов. М.: Энергия, 1967.
- MIL-HDBK-217F(2) "Reliability Prediction of Electronic Equipment".
- MIL-HDBK-251 "Reliability/Design Thermal Application".
- Intel® Pentium® 4 Processor in the 423- pin Package at 1.30, 1.40, 1.50, 1.60, 1.70, 1.80, 1.90 and 2 GHz Datasheet.
- Intel® Pentium® 4 Processor in the 478- pin Package at 1.50 GHz, 1.60 GHz, 1.70 GHz, 1.80 GHz, 1.90 GHz, and 2 GHz Datasheet.
- Intel® Pentium® 4 Processor In the 423-pin Package Thermal Design Guidelines.
- Intel® Pentium® 4 Processor in the 478-Pin Package Thermal Design Guidelines.
- AMD Athlon™ XP Processor Model 6 Data Sheet.
- Methodologies for Measuring Temperature on AMD Athlon™ and AMD Duron™ Processors.
- AMD Thermal, Mechanical, and Chassis Cooling Design Guide.
- VIA Technologies Inc., VT8233C Vlink South Bridge, Preliminary Revision 1.0, May 15, 2001.
- Fujitsu Siemens Computers GmbH, FSC BMC Poseidon/System Monitoring and Thermal Management/Register Set Specification, Revision 1.00, July 16, 2001.
- MAX6511, MAX6512, MAX6513: Low-Cost, Remote SOT Temperature Switches.