Neue Dual-Core-Boliden von Intel
Die nächste Generation

KomponentenWorkspace

Core: So lautet der Name der kommenden Mikroarchitektur von Intel. Die neuen Prozessoren sind auf Leistung und einen niedrigen Energieverbrauch getrimmt.

Moderner, schneller und mit höherer Reichweite

Neue Dual-Core-Boliden von Intel

Enterprise NCC-1701-D: Mit diesem Schiff gehen Captain Picard und Crew auf Fahrt in der TV-Serie Star Trek – Die nächste Generation. Die nächste Generation der IA32-Prozessoren von Intel soll einen ebenso gewaltigen technologischen Fortschritt bringen wie die Next-Generation-Enterprise gegenüber den älteren Schiffen im Star-Trek-Universium: moderner, schneller und mit einer höheren Reichweite.

Die Codenamen der neuen Dual-Core-Boliden in der Intel-Flotte lauten Merom für Notebooks, Conroe für Desktop-PCs und Woodcrest für Server. Damit ist die bisherige Verwendung unterschiedlicher Mikroarchitekturen für Mobil-CPUs auf der einen Seite und Desktop- sowie Serverprozessoren auf der anderen Seite weitgehend aufgehoben. Nur im Server-Segment werden mit den Dual-Core-Prozessoren Dempsey und Tulsa noch zwei neue Xeon-CPUs auf Basis der bisherigen Netburst-Mikroarchitektur erscheinen, die mit dem Pentium 4 eingeführt wurde.


Israelische Wurzeln

Neue Dual-Core-Boliden von Intel

Der Name Core deutet an, dass die neue Mikroarchitektur auf den Intel-Mobilprozessoren auf der bei Intel Israel entwickelten Banias-Familie basiert. Deren letzter Vertreter ist der Mobilprozessor Core Duo. Mit ihm verbindet sie der Aufbau mit zwei Prozessorkernen, die einen gemeinsamen Level-2-Cache verwenden, und die im Vergleich zum Pentium 4 kurze 14-stufige Befehlspipeline.

Hyperthreading bringt bei der 14-stufigen Pipeline keine Vorteile. Daher wird es bei der Core-Mikroarchitektur ebenso wenig genutzt wie beim Pentium M und dessen Verwandten Core Solo und Core Duo. Die Hyperthreading-Technik dient beim Pentium 4 und Pentium D dazu, deren 31-stufige Pipelines effizienter mit Befehlen zu füllen und so die Performance der CPUs zu erhöhen. Beim Fertigungsprozess setzt Intel weiterhin auf die erprobte 65-Nanometer-Technik.


In die Breite gegangen

Neue Dual-Core-Boliden von Intel

Im Gegensatz zu den Mobilprozessoren verfügen die neuen CPUs über Intels 64-Bit-Erweiterung EM64T. Für eine deutlich höhere Leistung bei gleicher Taktrate sorgt die parallele Decodierung von bis zu vier x86-Befehlen in Micro-Ops pro Taktzyklus. Bei den bisherigen Intel-CPUs und dem AMD Athlon wurden drei Instruktionen verarbeitet. Intern arbeiten alle modernen CPUs nicht mit x86-Befehlen, sondern mit Micro-Ops. Das ist ein RISC-ähnlicher Instruktionssatz, der sich wesentlich besser in einem Out-of-order-Kern verarbeiten lässt.

Der Vorteil des Out-of-order-Verfahrens liegt darin, dass Micro-Ops nicht in der normalen Reihenfolge der x86-Instruktionen in einem Programm verarbeitet werden. Stattdessen werden sie in einer Reihenfolge durchlaufen, mit der die einzelnen Ausführungseinheiten der CPU möglichst effizient genutzt werden. Da die Leistung einer CPU von der Anzahl der verarbeiteten Instruktionen pro Taktzyklus und der Taktfrequenz abhängt, bedeutet die Umsetzung von vier statt drei x86-Instruktionen allein bereits eine deutlich höhere Leistung bei gleicher Taktrate.


Mehr Befehle pro Takt

Neue Dual-Core-Boliden von Intel

Eine neue Technik, mit der Intel die Verarbeitung von x86-Befehlen noch einmal beschleunigt, nennt sich Macro-Fusion. Mit ihr werden zwei zueinander passende x86-Instruktionen, die Intel intern als Macro-Ops bezeichnet, in einem einzigen Micro-Op zusammengefasst. Anschließend werden sie in die Prozessor-Pipeline geschickt. Beispiele dafür sind Test- oder Compare-Instruktionen und Sprungbefehle, die etwa in If-Then-Else-Konstruktionen vorkommen und daher oft in Programmen zu finden sind. Laut Intel lässt sich so die Zahl der Micro-Ops, die von den Ausführungseinheiten verarbeitet werden muss, um etwa 10 Prozent vermindern.

Eine weitere Technik zur Reduktion von abzuarbeitenden Befehlen ist die schon bei Banias eingeführte Micro-Op-Fusion. Dabei verschmilzt der Instruction-Decoder zwei Micro-Ops zu einem Befehl. Dieser Vorgang erfolgt weiter unten in der Prozessor-Pipeline als die Macro-Fusion und erhöht die Ausführungsgeschwindigkeit ebenfalls um bis zu 10 Prozent.


Mehr Ausführungseinheiten

Neue Dual-Core-Boliden von Intel

Nicht nur das so genannte Frontend, also die Teile der CPU, in denen die Umsetzung von x86-Instruktionen in die nativen Befehle der CPU erfolgen, wurde verbessert, sondern auch die Ausführungseinheiten. Merom, Conroe und Woodcrest verfügen jeweils über acht Ausführungseinheiten, die über drei Ports mit Micro-Ops versorgt werden: drei 64-Bit-ALUs (Arithmetic Logic Unit) für Integerberechnungen, zwei für wissenschaftliche Programme und Tabellenkalkulationen wichtige 128-Bit-Fließkommaeinheiten und drei 128-Bit-SSE-Einheiten. Diese sind vor allem für Bildbearbeitung und Multimedia wichtig.

Bei Pentium M oder Pentium 4 werden die Ausführungseinheiten nur über zwei Ports mit Instruktionen beschickt, Im Normalfall können sie also weniger Befehle pro Takt abarbeiten. Nur bei einfachen Integer-Operationen kann der Pentium 4 mit seinen beiden doppelt getakteten ALUs gleich vier pro Takt bearbeiten. Dafür verfügt er insgesamt nur über fünf Ausführungseinheiten, ist also auf eine hohe Taktfrequenz angewiesen. Zudem verfügen die bisherigen Intel-CPUs nur über 64-Bit-SSE-Units. Sie benötigen also für 128-Bit-SSE-Instruktionen zwei Taktzyklen, da zwar die Register 128 Bit breit sind, die Datenpfade aber nur 64 Bit transportieren. Die zukünftigen Intel-CPUs bewältigen diese speziellen Multimedia-Befehle in einem Rutsch, da die gesamte SSE-Engine 128 Bit breit ist.


AMD im Vergleich

Neue Dual-Core-Boliden von Intel

Beim AMD Athlon 64 und Opteron sind jeweils drei 64-Bit-Integer- und drei 80-Bit-Fließkommeinheiten über eigene Steuerungseinheiten (Scheduler) angebunden. Die Fließkomma-Units übernehmen auch die Verarbeitung von SSE-Instruktionen. Der AMD-Prozessor benötigt für 128-Bit-Instruktionen ebenfalls zwei Taktzyklen.

Alles in allem können die Ausführungseinheiten der AMD-CPUs zwar unter optimalen Bedingungen mehr Befehle pro Taktzyklus bearbeiten als Prozessoren mit Core-Mikroarchitektur, sind aber dafür weniger flexibel. SSE3 beherrschen alle drei Intel- und auch die aktuellen AMD-Prozessoren. Bei der Core-Mikroarchitektur kommen noch neue SSE4-Befehle dazu, zu denen sich Intel aber noch nicht im Detail geäußert hat.


Cleverer Cache

Neue Dual-Core-Boliden von Intel

Da Intel auch bei der Core-Mikroarchitektur am bisherigen Frontside-Bus-Modell mit dem Speichercontroller in der Northbridge des Chipsatzes festhält, müssen die Zugriffe auf den Hauptspeicher möglichst minimiert werden. Daher verfügen Merom, Conroe und Woodcrest wie schon der Core Duo über einen Level-2-Cache, der gemeinsam von beiden Prozessorkernen genutzt wird. Bei Markteinführung ist der L2-Cache bei allen CPUs 4 MByte groß. Später werden Low-Cost-Modelle mit einem 2 MByte großen Cache folgen.

Der gemeinsam genutzte Cache bietet zwei Vorteile: Zum einen können beide Kerne auf dieselben Daten zugreifen. Daher müssen sie nur einmal gepeichert werden, was die Ausnutzung des Caches erhöht. Zum anderen kann der Cache dynamisch von beiden Cores genutzt werden. Wenn ein Kern gerade einen geringeren Anteil des Pufferspeichers benötigt, kann der andere mehr L2-Cache nutzen. Das verringert die Gefahr von Cache-Misses, also der Anforderung von Daten, die sich nicht im Cache befinden, sondern aus dem deutlich langsameren Hauptspeicher geladen werden müssen.

Die Level-1-Caches werden nicht gemeinsam genutzt, sondern sind als Bestandteil der beiden Prozessorkerne doppelt vorhanden. Wie beim Core Duo sind die beiden L1-Caches 64 KBytes groß, von denen jeweils 32 KBytes für Daten und Instruktionen genutzt werden. Der Instruktionscache puffert
anders als beim Pentium 4 und anderen Netburst-CPUs keine bereits decodierten Micro-Ops, sondern x86-Befehle.

In jedem der Level-1-Caches pro Prozessorkern sorgen drei Prefetcher dafür, dass Instruktionen und Daten auf Vorrat geladen werden. Die beiden Prefetcher im Level-2-Cache werden von beiden Kernen dynamisch genutzt.


Speicher-Kristallkugel

Neue Dual-Core-Boliden von Intel

Intel beschränkt sich bei der Core-Mikroarchitektur aber nicht nur aufs Prefetching, sondern rechnet mit den spekulativ geladenen Daten gleich weiter. So muss die CPU weniger Zeit mit Warten verbringen und kann effizienter rechnen. Diese Vorhersagetechnik wird als Memory-Disambiguation bezeichnet und wurde von Intel erstmals beim Itanium angewendet. Alle modernen Prozessoren sind Out-of-order-CPUs und müssen daher eine große Menge von Lese- und Schreib-Operationen (Load und Store) gleichzeitig bewältigen.

Bei den neuen Intel-CPUs ermitteln intelligente Algorithmen, ob eine Load-Instruktion im Vorfeld durchgeführt werden kann oder von einer Store-Operation abhängt, die noch gar nicht durchgeführt ist. Diese Vorhersagen treffen mit einer Genauigkeit von über 90 Prozent zu. Sollte sich die Vermutung doch als falsch erweisen, erkennt die CPU den Konflikt, lädt automatisch die korrekten Daten und führt die Berechnung erneut durch, ohne dass das ausgeführte Programm davon betroffen ist.


Raffiniertes Stromsparkonzept

Neue Dual-Core-Boliden von Intel

Im Gegensatz zu vielen bisherigen Intel-CPUs werden die Prozessoren auf der Basis der Core-Mikroarchitektur nicht nur schneller, sondern brauchen dabei auch noch weniger elektrische Energie. Der Schlüssel dafür ist das bereits bei den Mobilprozessoren eingeführte feinstufige Power-Management, das nicht benötigte Teile der CPU dynamisch an- oder abschaltet. Dies geschieht unabhängig voneinander in beiden Prozessorkernen.

Verfeinert wird auch die Temperaturmessung in der CPU: Statt der gewohnten Thermaldiode kommen mehrere digitale Thermalsensoren zum Einsatz, die alle möglichen »Hot-Spots« im Halbleiterchip abdecken und so eine feinere Steuerung des Lüfters auf dem Prozessorkühler erlauben.

Stapellauf in der zweiten Jahreshälfte

Intel will die noch unbenannten neuen CPUs auf Basis der Core-Mikroarchitektur in der zweiten Jahreshälfte auf den Markt bringen. Ob sich um die neue Prozessorgeneration von Intel eine ähnlich große Fangemeinde bilden wird wie seinerzeit um die Next Generation von Star Trek, wird sich zeigen. Das Zeug dazu haben die neuen Intel-Prozessoren mit ihrer raffinierten Mikroarchitektur auf jeden Fall.