Ещё более интересен TDP нового P4 Extreme Edition на 3,4 ГГц: при 102,9 Вт процессор вряд ли можно назвать экономичным. Хотя TDP отражает максимально возможное тепловыделение процессора, мы смогли почувствовать (!) и измерить разницу в тепловыделении между Extreme Edition 3,4 и 3,2E ГГц - и не в пользу Prescott.

Больше кэша: 1 Мбайт L2 и 16 кбайт L1/данные



Поскольку уменьшение техпроцесса позволяет изготавливать меньшие по площади чипы, Intel смогла легко увеличить объём кэша L2. Вместо 512 кбайт у Northwood, Prescott может использовать кэш в 1 Мбайт. Несмотря на рост числа транзисторов, площадь ядра уменьшилась со 127 до 112 мм². На частоте 3,4E ГГц Prescott имеет максимальную пропускную способность кэша 108 Гбайт/с.

Кроме того, Intel удвоила размер кэша L1 для данных с 8 до 16 кбайт. Давайте вернёмся в 2000 год, когда Intel выпустила Pentium 4 Willamette: тогда кэш L1 пришлось уменьшить до 8 кбайт, чтобы сохранить задержку в два такта. Увеличение задержки доступа к кэшу ещё бы сильнее увеличило отставание от Pentium III при равных тактовых частотах. Сегодня быстрый кэш не менее важен, поскольку оба AGU (блока формирования адреса) часто к нему обращаются.

Больше инструкций: SSE3

После довольно успешного выхода инструкции SSE2 с Pentium 4 (Streaming SIMD Extensions, 144 инструкции), инструкции SSE3, как мы полагаем, являются реакцией на пожелания и просьбы больших софтверных компаний. Однако на этот раз жизнь программистов облегчают лишь 13 новых инструкций:
fisttp: преобразование fp в int
addsubps, addsubpd, movsldup, movshdup, movddup: сложная арифметика
lddqu: кодирование видео
haddps, hsubps, haddpd, hsubpd: графика (SIMD FP/AOS)
monitor, mwait: синхронизация потоков

Посмотрим, что смогут сделать инструкции SSE3. Пока что мы смогли обнаружить только одно приложение, поддерживающее SSE3: Mainconcept MPEG Encoder 1.4.1 (см. раздел тестов).

Архитектура NetBurst: конвейер с 31 ступенью



Блок-схема Prescott не отличается от схем Northwood или Willamette, поскольку фундаментальных изменений не произошло.

Большой размер кэша и дополнительные инструкции не всегда делают процессор быстрее, поэтому давайте детально рассмотрим изменения, внесённые Intel.

Сначала давайте рассмотрим, что происходит внутри Pentium 4: инструкции поступают в процессор по системной шине шириной 64 бита, с частотой 200 МГц и пропускной способностью 6,4 Гбайт/с. Затем они проходят кэш L2. Блок предварительной выборки анализирует инструкции и активирует BTB (Branch Target Buffer, буфер целей ветвления), чтобы осуществить предсказания ветвлений, где это необходимо, а также определить, какие данные потребуются следующими. Модифицированный набор инструкций проходит блок декодирования, где инструкции x86 превращаются в микрооперации.

Инструкции x86 могут быть довольно сложными и часто используют циклы, именно поэтому Intel решила не применять классический кэш инструкций L1, а ещё с Pentium 4 Willamette перешла на кэш микроопераций (Execution Trace Cache). Он содержит микрооперации и находится за блоком декодирования инструкций, что довольно разумно, - при этом исчезает необходимость в повторном декодировании. Кэш микроопераций хранит и реорганизует цепочки микроопераций, чтобы наиболее эффективно выдавать их на исполнительный движок (Rapid Execution Engine).
 

Copyright @ by Lehach, 2009