Die Datenmenge ist ein Maß für die Menge von Daten. Die Grundeinheit der Datenmenge ist das Bit.
Daten dienen dem Speichern und dem Übertragen von Information, wobei zu beachten ist, dass der Informationsgehalt einer Nachricht nicht gleich der Datenmenge ist, auch wenn in diesem Zusammenhang häufig das Wort Information verwendet wird, wenn Daten gemeint sind. Der Informationsgehalt kann im Gegensatz zur Datenmenge nicht unmittelbar abgelesen werden, und es gibt verschiedene Ansätze, ihn zu bestimmen. Die Datenmenge, die in einer Datei gespeichert ist, wird als Dateigröße bezeichnet. Bei Datenträgern wird die Datenmenge zur Angabe des freien und des maximal speicherbaren Datenvolumens (Speicherkapazität) verwendet.
Die Datenmenge, die benötigt wird, um eine gegebene Information zu speichern, hängt einerseits von der Komplexität der Information und andererseits vom Kodierungsverfahren ab. Für umfangreiche Datenmengen gibt es Kompressionsverfahren, die die Menge der Daten reduzieren, aber die gleiche Information speichern. Dabei wird ein geeignetes Kodierungsverfahren verwendet, um den Informationsgehalt der einzelnen Zeichen zu erhöhen bzw. Entropie der Nachricht zu verringern (siehe auch Entropiekodierung).
Daten müssen nicht unbedingt explizit als Bits kodiert oder in einem Computer gespeichert sein. Daten sind überall in der Natur und unserer Alltagswelt. Die größten Datenmengen stecken in unserem Gehirn, in unseren Bibliotheken, Büchern, Filmen, Bildern und Computern, im Erbgut und den Molekülstrukturen der belebten Natur, in den Gesetzen der unbelebten und belebten Natur, in der Struktur des gesamten Universums und die maximal denkbare Information in der Geschichte des gesamten Weltraums.
Die kleinste darstellbare Dateneinheit ist das Bit. Bit ist die Kurzform für Binary digit, dt. Binärziffer. Ein Datenspeicher mit einem Bit Speicherkapazität hat also nur einen Speicherplatz mit 2 Möglichkeiten: zum Beispiel „besetzt oder leer“, „an oder aus“, „Kerbe oder keine Kerbe“. Die Datenmenge, die in einer einzelnen Ja/Nein-Entscheidung steckt, beträgt demnach genau 1 Bit. Für vier mögliche Werte (zum Beispiel rot, gelb, grün, blau) werden zwei Bits benötigt, die sich auf vier verschiedene Weisen kombinieren lassen (00, 01, 10, 11).
Formal bedeutet das, dass die benötigte Datenmenge $ D $ (Anzahl von Bits) das aufgerundete Ergebnis des Logarithmus zur Basis 2 der Zahl $ Z $ der möglichen Werte ist.
$ D=\left\lceil \operatorname {ld} (Z)\right\rceil $
beziehungsweise umgekehrt: Die Anzahl der möglichen Werte ist 2 hoch die Anzahl der Bits:
$ Z=2^{D} $
Also zum Beispiel
Die Summation der Bits von 0 bis 7 (entsprechend 1 Byte) 28-1, können also einen dezimalen Wertebereich von 0 bis 255 abdecken.
…
Für D = 1 KiB ist die Zahl Z der möglichen Werte sehr groß: 21024 ≈ 1,8 · 10308.
Neben dem Bit ist die gängigste Einheit für die Datenmenge das Byte (oder Oktett), das aus 8 Bits besteht. Das hat historische Gründe: Viele Geräte waren so ausgelegt, dass sie 8 Bit gleichzeitig bearbeiten konnten (heute sind das meist 32 oder 64 Bit – siehe dazu Datenwort), 8 Bit wurden also von der Verarbeitungseinheit als eine Zahl angesehen. Des Weiteren werden Buchstaben von den meisten Zeichensätzen, insbesondere von ISO 8859, als ein Byte dargestellt.
In der Geschichte der Computer gab es auch Systeme, die nur 5 Bit zu einem Byte zusammenfassten, und es gab auch Systeme, die 13 Bit zu einem Byte zusammenfassten.
Zur Bezeichnung größerer Datenmengen werden die Einheitszeichen bit für Bit und B für Byte mit den gängigen Vorsätzen für Maßeinheiten versehen, also kilo (kbit/kB), mega (Mbit/MB), giga (Gbit/GB), tera (Tbit/TB) und so weiter. Für auf Zweierpotenzen basierende Datenmengen, wie sie beispielsweise in Halbleiterspeichern auftreten, gibt es spezielle Binärpräfixe.
Bit
Nibble oder Halb-Byte
Byte oder Oktett (8 Bit)
Griechische und italienische Vorsätze für Maßeinheiten werden üblicherweise Bits und Bytes vorangestellt. Im Folgenden werden die SI-Präfixe (k, M, T, G, …) in ihrer dezimalen Bedeutung verwendet. In der IT-Praxis werden für Datenmengen die SI-Präfixe meist als Binärpräfixe (1 kB = 1024 Byte, …) verwendet. Die Akzeptanz der dafür vorgesehenen IEC-Binärpräfixe (Ki, Mi, Gi, …) ist in der IT-Branche gering, auch mit den normalen Namen wird normalerweise die 1024-Byte-Umrechnung impliziert.
Kilobyte (kB) (103 Byte = 1000 Byte),
Kibibyte (KiB) (210 Byte = 1024 Byte), üblicherweise wird jedoch KB zur Unterscheidung von kB geschrieben, weil es geläufiger ist.
Megabyte (MB) (106 Byte = 1.000.000 Byte),
Mebibyte (MiB) (220 Byte = 1.048.576 Byte)
Gigabyte (GB) (109 Byte = 1.000.000.000 Byte),
Gibibyte (GiB) (230 Byte = 1.073.741.824 Byte)
Terabyte (TB) (1012 Byte = 1000 GB),
Tebibyte (TiB) (240 Byte = 1.099.511.627.776 Byte)
Petabyte (PB) (1015 Byte = 1.000.000 GB),
Pebibyte (PiB) (250 Byte = 1.125.899.906.842.624 Byte)
Exabyte (EB) (1018 Byte),
Exbibyte (EiB) (260 Byte = 1.152.921.504.606.846.976 Byte)
Zettabyte (ZB) (1021 Byte),
Zebibyte (ZiB) (270 Byte = 1.180.591.620.717.411.303.424 Byte)
Yottabyte (YB) (1024 Byte),
Yobibyte (YiB) (280 Byte = 1.208.925.819.614.629.174.706.176 Byte)