CPU
Central processing unit
Funktion
Mikroprozessoren sind hochkomplexe Maschinen. Sie basieren jedoch auf einem einfachen Grundprinzip. Wer es kennt, versteht auch die Funktionsweise der modernen CPUs.
History
- Die Von-Neumann-Architektur besteht aus vier Funktionseinheiten, die in Bild 1 zu sehen sind: Rechenwerk, Steuerwerk, Speicher (Memory) und Ein-/Ausgabeeinheit (I/O-Unit).
- Dazu kommen noch die Verbindungen zwischen den Funktionsblöcken - das Bussystem.
- Die beiden wichtigsten Einheiten Rechenwerk und Steuerwerk sind im Prozessor vereint.
- Die CPU als Ganzes übernimmt innerhalb des Von-Neumann-Rechners die Ausführung von Befehlen und die notwendige Ablaufsteuerung.
Bild 1
Von-Neumann-Rechner: Er beinhaltete schon vor 50 Jahren die wesentlichen Bestandteile heutiger PCs.
Von-Neumann-Rechner
- Die Anpassung für jedes zu lösende Problem erfolgt mit im Speicher abgelegten Programmen.
- Diese Software beinhaltet die Informationen zur Steuerung des Rechners.
- Jede Speicherzelle ist mit einer festen Adresse eindeutig identifizierbar.
- In ihrer ursprünglichen Form verarbeitet sie mit nur einem Prozessor Schritt für Schritt Befehle und Daten, die aus dem Speicher stammen.
- Obwohl Befehle und Daten aus dem gleichen Speicher kommen, gibt es nur eine Busverbindung für Beides dorthin.
- So wurde eine hierarchisch gegliederte Speicherstruktur mit Registern und verschiedenen Cache-Ebenen eingeführt.
- Die sequenzielle Befehlsausführung wird in der CPU nach Kräften parallelisiert.
- Dazu stehen mehrere Funktionseinheiten und Ausführungsebenen bereit.
Erweiterte Architektur
- Der Von-Neumann-Rechner holt alle Befehle und Daten direkt aus dem Speicher. Für die heutigen CPUs wäre das viel zu langsam.
- Diese CPU orientiert sich hinsichtlich ihrer Arbeitsweise stark an den x86-Prozessor der PCs.
- Deshalb besitzt sie einen zusätzlichen Registersatz, der den Zugriff auf Befehle und Daten ohne Wartezyklen ermöglicht.
- Es handelt sich um Mehrzweckregister für Befehle und Daten.
- Das Adresswerk ist für die Berechnung der effektiven Adresse zuständig.
- Zusätzlich entkoppelt der L1-Cache den Prozessorkern vom langsamen externen Speicher.
Bild 2
Beispiel-Prozessor: Die erweiterte CPU hat schon alles, was einen einfachen Mikroprozessor ausmacht.
Grundsätzliche Programmablauf im Prozessor:
Holphase (Fetch):
Zunächst muss ein Befehl aus dem Speicher geladen werden. Wenn sich die gesuchte Information noch nicht im L1-Cache befindet, muss die Busschnittstelle dafür den Speicher ansprechen.
Dekodierphase (Decode):
Das Steuerwerk untersucht den Befehl hinsichtlich der vorzunehmenden Arbeitsschritte. Es entscheidet, welche Operation (Addition, Subtraktion, logische Verknüpfung und so weiter) die ALU auszuführen hat.
Ausführungsphase (Execute):
Die ALU wird vom Steuerwerk nun angewiesen, die gewünschte Operation mit den geladenen Daten auszuführen
Schreibphase (Write Back):
Das Ergebnis der Operation landet in einem der Register oder im Speicher. Um langwierige Zugriffe auf das externe RAM zu vermeiden, sammelt die CPU die Daten eventuell im L1-Cache, damit sie später in einem schnellen Blockschreibvorgang übertragen werden können.
Steuereinheit (CU)
- Die CU ist die Kommandozentrale der CPU.
- Sie steuert alle Abläufe im Inneren des Prozessors sowie seine Kommunikation nach außen.
- Die CU holt sich einen Befehl aus dem Arbeitsspeicher/Cache und speichert ihn in einem Register zwischen.
- Damit ist der CPU-Bus frei für weitere Aktionen.
- Im Befehlsdecoder untersucht die CU die einzelnen Bits des Kommandos dann genauer.
- Aus einem Teil der Information ergibt sich der weitere logische und zeitliche Ablauf bei der Befehlsausführung.
- Handelt es sich um einen fest implementierten Befehl, werden sofort die entsprechenden Schritte in der Ablaufsteuerung eingeleitet.
- Sind alle zur Steuerung notwendigen Informationen gesammelt, beginnt die Ablaufsteuerung damit, das System zu koordinieren.
- Dazu gehört auch die Steuerung der BIU, um die Operanden für die Rechenbefehle in die Register zu laden.
Bild 3
Control Unit: Die CU steuert alle Abläufe im Innern des Prozessors sowie seine Kommunikation nach außen.
Rechenwerk (ALU)
- Die ALU ist in der CPU für die Rechenarbeit zuständig.
- Alle aktuellen PC-Prozessoren besitzen neben einem oder mehreren dieser Rechenwerke für Ganzzahlen auch solche für Fließkommaarithmetik.
- Das Bild zeigt den Datenweg unserer Beispiel-CPU.
- Die CU steuert die ALU, die auf Anweisung die beiden Operanden aus dem Registersatz holt, mit denen sie rechnen soll.
- Sie werden zunächst in den beiden Hilfsregistern zwischengepuffert, damit sie während der gesamten Rechenoperation stabil anliegen.
- Im nächsten Schritt führt die ALU die von der CU geforderte Rechenoperation aus.
- Das Resultat wird schließlich im Ergebnisregister zwischengepuffert, damit sich die ALU sofort der nächsten Aufgabe zuwenden kann.
Bild 4
Arithmetical and Logical Unit: Die ALU und ihr Datenweg. Die Hilfsregister für die Operanden und Ergebnisse gehören zu diesem nktionsblock.
Adresseinheit (AU) & Busschnittstelle (BIU)
- Der Aufbau der AU mit einem zentralen Addierer in Bild 5 ähnelt dem der ALU.
- Tatsächlich wurde die Adressberechnung bei den ersten Prozessoren auch noch in dieser erledigt.
- Die spezialisierte AU erledigt das jedoch schneller und vor allem parallel zur ALU.
- Der Decoder ist im einfachsten Fall als Linksschieberegister realisiert.
- Dieser Barrel Shifter extrahiert die Adressinformation aus dem Befehl durch Verschieben des Befehlscodes um n Bits in nur einem Taktzyklus.
- Die extrahierte Grundadresse gelangt dann in Hilfsregister A, wo Sie stabil anliegt bis der Addierer seine Arbeit beendet hat.
- Hilfsregister B beinhaltet den Inhalt des Programmzählers oder den des BIU-Adresspuffers.
- Die komplexere MMU realer PC-Prozessoren kann darüber hinaus virtuelle Adressen verwalten.
- Das Betriebssystem lagert hierbei den Speicher blockweise auf die Festplatte aus.
- Greift die CPU auf den ausgelagerten Speicher zu, verursacht das einen Seitenfehler, der die MMU zum Handeln veranlasst.
- Das Betriebssystem blendet dann den gewünschten Speicherbereich in das RAM des PCs ein und lagert einen gerade nicht benötigten dafür aus.
- Den virtuellen Speicher kann die CPU dank MMU so ansprechen, als wäre er real existierendes RAM.
Bild 5
Address Unit: Die AU sorgt für die Berechnung der Adresse. In modernen CPUs verseht eine leistungsfähigere MMU diesen Dienst.
Busschnittstelle (BIU)
- Die Busschnittstelle verbindet die internen Busse des Prozessors mit der Außenwelt.
- Sie enthält Puffer zur Zwischenspeicherung von Adressen, Daten und Steuersignalen.
- Die CPU arbeitet intern mit einer möglichst niedrigen Spannung, damit die Erwärmung bei hohen Taktfrequenzen in erträglichen Grenzen bleibt.
- Die BIU sorgt deshalb auch für eine Pegelanpassung zwischen dem CPU-Kern und dem externen Bussystem.
Cache-Grundlagen
- Zur Steigerung der Arbeitsleistung sitzt in der CPU zwischen den extrem schnellen Funktionseinheiten und dem vergleichsweise sehr langsamen Arbeitsspeicher der L1-Cache.
- Aus Platzgründen kann der L1-Cache in der CPU nicht besonders groß sein.
- Er bewegt sich in der Regel in Größenordnungen von 16 bis 64 KByte.
- Die Kunst besteht also darin, den schnellen kleinen Speicher so mit dem langsamen großen Arbeitsspeicher zu kombinieren, dass sich eine möglichst schnelle Gesamtlösung ergibt.
- Bild 6 zeigt die Auswertung einer 32-Bit-Adresse nach diesem Prinzip.
Bild 6
Cache Interna: Der prinzipielle Aufbau eines Caches (oben) sowie die Adressauswertung im Cache-Controller (unten).
Briefträger bei der Arbeit:
- Er trägt in einer Stadt (Arbeitsspeicher) die Post (Daten) aus.
- Dafür sortiert er die Post in seiner Tasche nach Straßen (Tag).
- In einer Straße holt er sich die hierfür bestimmte Post heraus und verteilt sie an die Häuser (Set-Zeile).
- Um in Mehrfamilienhäusern auch den richtigen Briefkasten zu erwischen, benötigt er noch den Familiennamen (Byte-Nummer).
Cache-Organisation
- Der direkt abgebildete (direct mapped) Cache im Bild unten ist die einfachste Form.
- Jedem Set ist nur ein Cache-Eintrag zugeordnet.
- Dadurch deckt man im Arbeitsspeicher einen Block von x+n Sets ab.
Bild 7
Assoziativspeicher: Der teilassoziative Mehrweg-Cache beinhaltet im Prinzip mehrere Direct Mapped Caches plus Statistik-Bits (LRU).
Der Briefträger hat dieses Problem ebenfalls:
- Wenn er einen Abstecher in eine Seitenstraße macht, muss er den nach Straßen vorsortierten Briefstapel zurücklegen und den für die Seitenstraße herausholen.
- Die Lösung des Problems sind teilassoziative Mehrweg-Caches.
- Auch dieser Cache-Typ speichert nur einen Teil der Adresse im Tag ab.
- Taucht ein Tag aber nochmals auf, erfolgt kein Komplettaustausch des Speicherblocks.
- Die Hardware merkt sich den Eintrag wieder in der gleichen Set-Zeile.
- Allerdings erfolgt die Speicherung in einer weiteren Ebene (Weg), sodass die erste Zeile nicht überschrieben werden muss.
- Die Ebenenoder Wegauswahl erfolgt über den Set-Adressteil.
Mit einer Mehrwegsortierung arbeitet auch der Briefträger schneller:
- Er hat sich die Post nicht nur in Straßenzüge (Tag) unterteilt, sondern nochmals mit einem Gummiband hinsichtlich der Straßenseite gebündelt (Set-Weg).
- Bei einem Abstecher in die Seitenstrasse greift er sich nur das Briefbündel für eine Straßenseite.
- Dafür legt er nur eines der zwei Bündel der alten Straße weg - und zwar das von der anderen Straßenseite.
- Wenn er aus der Seitenstrasse zurückkommt, hat er immer noch das Bündel der Seite in der Hand, bei der er abgebogen ist.
- Ein Mehrweg-Cache ist ein vervielfachter Direct Mapped Cache.
- Der Schaltungsaufwand für einen teilassoziativen 2-Wege-Cache ist demnach doppelt so hoch wie bei der einfachen Version.
- Bei einem 4-Wege-Cache vervierfacht er sich.
- Irgendwann sind jedoch auch die Ebenen eines Mehrweg-Caches voll.
- Mittels zusätzlich gespeicherter LRU-Bits kann der Cache dann feststellen, welcher Eintrag in welcher Ebene am längsten nicht mehr benutzt wurde.
- Dieser Wegeintrag wird dann überschrieben.
Pipeline-Verfahren
- Bis jetzt sind wir davon ausgegangen, dass die CPU die Befehle nach dem klassischen Von-Neumann-Prinzip nacheinander verarbeitet.
- Jeder Befehl wird innerhalb einer bestimmten Zeit (Taktzyklus) erledigt, dann ist der Nächste dran.
- Wenn man der BIU erlaubt, schon Befehle aus dem Speicher zu holen während die CU gerade einen analysiert, hat man zwei Arbeitsschritte parallelisiert.
- Es sind also zwei Befehle gleichzeitig in Teilbearbeitung. Überträgt man das Prinzip auf alle beteiligten Funktionseinheiten, erhöht sich die Zahl der Teilbearbeitungen weiter.
- Dieses Pipeline-Prinzip verarbeitet aber die eingehenden Befehle und Daten immer noch Schritt für Schritt.
Bild 8
Pipeline in Funktion: Mit der Pipelining-Technik lässt sich die Befehlsausführung beschleunigen.
Superskalare Architektur
- Wenn schon eine Pipeline die Geschwindigkeit erhöht, geht es mit Zweien noch schneller.
- In Bild 9 "Parallel ist schneller" ist im oberen Teil ein solcher Ansatz zu sehen.
- Auf diese Weise arbeitet beispielsweise der Intel Pentium.
- Um unnötige Probleme mit Abhängigkeiten zwischen den Befehlen zu minimieren, arbeitet die Intel-CPU allerdings nur bei Kommandos gleichzeitig mit beiden Pipelines, die gut zueinander passen.
Bild 9
Parallel ist schneller: Superskalare Architekturen mit einer doppelten Pipeline oben und parallel arbeitenden Ausführungseinheiten unten.
Sprungvorhersage
- Die Abhängigkeiten der Befehle untereinander sowie Sprungbefehle machen den Pipelines und superskalaren Architekturen zu schaffen.
- Je mehr parallel vorweggreifend erledigt wird, desto mehr Arbeit ist beispielsweise bei einem Sprungbefehl in ein anderes Programmsegment nachzuholen.
- Die ALUs müssen dann warten, bis sich die neuen Befehle durch die lange Pipeline gequält haben.
Dynamische Sprungvorhersage
Die Sprungvorhersage kann auf einfachen Regeln basieren:
- Beispielsweise ist es bei einem Sprungbefehl gegen den Befehlsstrom sehr wahrscheinlich, dass er mehrheitlich tatsächlich ausgeführt wird.
- Diese Annahme basiert auf der Feststellung, dass Rückwärtssprünge im Programmcode oft am Ende von Schleifen stehen.
- Und Programmschleifen werden in der Regel mehr als nur einmal durchlaufen.
- Bei Vorwärtssprüngen ist eine derart einfache Vorhersage kaum noch zu treffen.
- Hier kann man nur von der statistischen Erkenntnis ausgehen, dass die meisten bedingten Vorwärtssprünge nicht ausgeführt werden.