WAV (PCM) / AU Sounds
Das bei Windows übliche Soundformat heißt WAV (PCM). Beim Mac gibt es ein recht ähnliches Äquivalent das sich AU nennt. Das Problem an den sogenannten WAV-Sounds ist, daß sich dahinter eine ganze Reihe verschiedener Unterformate verstecken können. Deshalb muß zur Bezeichnung WAV noch das Unterformat PCM hinzunehmen. Bei diesem Format handelt es sich um eine ganz simple einfache unkomprimierte Aufzeichnung von Soundsamples.
Das bedeutet, daß die Schwingungskurve eines Geräusches mit ihren einzelnen Werten digitalisiert und abgespeichert wird. Je öfters in der Sekunde man diese Werte erfaßt und abgreift (sampled) umso besser wird der Klang. Bei CD-Qualität wird 44.000 mal in der Sekunde ein solcher Schwingungswert erfaßt und festgehalten. Man spricht vom 44kHz (vierundvierzig Kilo Hertz) Samling. Dieser Wert errechnet sich aus der oberen Hörgrenze die beim Menschen bei etwa 18 bis 22kHz Tönen liegt. Um einen 22kHz Ton auch noch korrekt zu erfassen ist es notwendig mindestens mit der doppelten Frequenz abzutasten, also mit 44kHz (also 44-tausend mal in der Sekunde).
Man erhält also für jede Sekunde die gesampelt wird 44.000 Werte. Dabei spielt es eine wesentliche Rolle wie hochauflösend diese Werte sind. Kann man also zwischen 8, 256 oder 65536 verschiedenen Werten unterscheiden. Je feiner eine Aufteilung ist umso weniger "eckig" wird die Aufzeichnung. Kann man nur 8 verschiedene Werte unterscheiden müssen alle Töne auf diese 8 Grundwerte zurückgerundet werden. Der durchschnittliche Fehler bei jedem Ton ist also relativ hoch und die Sprünge zwischen diesen 8 Grundwerten ist sehr groß. Dies führt zu einer Treppenbildung. Bei einem kontinuierlichen Anstieg der realen Schwingungswerte würde also erst immer der selbe Wert aufgezeichnet werden (da auf ein und den selben Grundwert gerundet werden muß) und dann (wenn plötzlich nach oben gerundet werden muß) würde der Wert hüpfen auf den nächsten Grundwert. Mit nur 8 Grundwerten wird heute praktisch nichtmehr gearbeitet (dies wäre eine 4-Bit Aufzeichnung). Man zeichnet heute mit 8 Bit oder mit 16 Bit auf, wodurch 256 bzw. 65536 Werte möglich werden. (siehe auch: Bits & Bytes)
Ein Sound wird umso besser je feiner seine Schwingungswerte aufgezeichnet werden können. Je höher die Samplinfrequenz (Samplingrate) (in kHz gemessen) ist umso besser ist die Auflösung über den Zeitverlauf hinweg (in x Richtung) und je höher die Bitrate (Aufzeichnungstiefe) (in Bit gemessen) ist umso besser ist die Auflösung in Richtung des Amplitudenausschlages (in y Richtung). Wenn die Auflösung zu gering ist ergeben sich Treppen und Ecken die manchmal als Pfeifen zu hören sind. Gleichzeitig werden manche Töne verschluckt oder verzerrt, da sie nichtmehr richtig abgespeichert werden können.
Eine hohe Aufzeichnungsqualität ist eigentlich immer von Vorteil, verursacht aber auch wesentlich größere Datenmengen. So braucht eine sehr schlechte 4-Bit 8kHz Aufzeichnung etwa 230 KByte pro Minute. Eine Aufzeichnung mit CD Qualität mit 16-Bit und 44kHz braucht hingegen etwa 5200 KByte (5,2 MB). Man wird also versuchen an der Qualität zu sparen, wenn sich dies anbietet oder es notwendig ist. Sprache läßt sich beispielsweise auch in 8-Bit 11kHz noch sehr gut aufzeichnen, vorallem weil hier eine superbe Darstellung nicht notwendig ist und der Tonumfang beim Sprechen sehr klein ist.
Eine weitere Sparmöglichkeit ist die Monoaufzeichnung, statt einer
Stereoaufzeichnung. Obige Beispiele gehen alle von einer Monoaufzeichnung
aus. Stereo bedeutet nun nicht anderes, als daß man statt einem (Mono)
zwei Kanäle aufzeichnet und bei Abspielen einen auf den linken und
den anderen auf den rechten Lautsprecher leitet. Dadurch ergibt sich aber
das doppelte Datenvolumen gegenüber einer Monoaufzeichnung. Eine Minute
CD Qualität braucht somit über 10 MB. Stereoqualität ist
aber praktisch nur bei Musik sinnvoll und selbst da nicht immer.
Bei der einfachen WAV/PCM Aufzeichnung werden die entsprechenden Daten
(Samplingwerte) nun einfach 1:1 abgespeichert und meinem sogenannten Header
versehen in dem unter anderen steht mit welcher Qualität eine Audiodatei
die Daten enthält. Beim Sampeln können die Daten die von der
Soundkarte kommen können somit sofort ohne Rechenaufwand abgespeichert
werden und beim Abspielen können die Daten sofort ohne Rechenaufwand
an die Soundkarte weitergereicht werden.
Die WAV/PCM Aufzeichnung ist somit die simpelste Aufzeichnungsform die
denkbar ist. Sie wird sehr gerne bei Windows-Soundevents oder allen Arten
von kleinen kurzen Geräuschen und Tönen verwendet die auftreten
oder als universelles Zwischenformat. Für die dauerhafte Archivierung
längerer oder hochqualitativer Geräuschesequenzen ist die WAV/PCM
Aufzeichnung aufgrund ihrer riesigen Datenflut aber nicht geeignet. Wenn
man zum Beispiel die Musik einer Audio-CD als WAVs ausliest wird
man etwa 650 MB an Daten bekommen. Um jetzt wieder eine neue CD zu brennen
aus diesen Daten sind die WAVs aufgrund ihrer einfachen Struktur gut zu
verwenden. Die Daten können quasi wieder 1:1 auf die CD geschrieben
werden. Will man die Lieder der Audio CD aber auf dem Computer behalten
wird man sich anderer Aufzeichnungsformen bedienen, welch die Daten komprimiert
abspeichern.
RealAudio
Die großen Datenmengen die bei Audioaufzeichnungen auftreten waren lange Zeit ein Problem. Gerade auch im Bereich des Internet war man darauf angewiesen möglichst kleine Dateien zu haben um diese schnell übermitteln zu können. Um eine Audioaufzeichnung in Realzeit zu Übermitteln und Abzuspielen durfte das Übermitteln nicht länger dauern als das Abspielen. Eine Minute Audiosignal mußte also in höchstens einer Minute sicher zu übertragen sein.
Dieses Ziel verfolgte der Ansatz von Realaudio, der hier exemplarisch stehen soll für eine ganze Palette an ähnlichen Audioformaten die vergleichbares im Bereich des Internets leisten. Realaudio hat sich von allen aber am meisten durchgesetzt (bisher). Das Konzept sieht dabei vor eine Reduzierung der Datenflut durch Qualitätsreduzierung UND Datenkomprimierung zu erreichen (und hat daneben noch spezielle Mechanismen um einen Audiostrom live auch unterbrechungsfrei und korrekt übermitteln und abspielen zu können.)
Das Konzept der Datenkomprimierung ist dabei schon recht alt und wird in allen Bereichen der Aufzeichnung verwendet. Die Methoden und Algorithmen sind sehr vielfältig und fast alle sind mathematisch sehr kompliziert. Der Trick besteht oft darin, daß man häufig auftretende Sequenzen durch Kürzel ersetzen kann. Das ist also so ähnlich wie bei der normalen Sprache mit Abkürzungen, Stenografie und der Vorabdefinition häufig verwendeter Begriffe und Ausdrücke. Für einen eigentlich sehr langen Ausdruck überlegt man sich ein eindeutiges Kürzel. Ein Beispiel sin die Ausdrücke "z.B.", "inkl.", "etc.", "usw.". Diese Ausdrücke müssen aber dann entweder generell formuliert werden oder man muß sie am Anfang jedes Textes definieren. Will man wirklich wieder den ausgeschriebenen Originaltext haben muß man die Ausdürcke quasi wieder zurückübersetzen. Etwas ähnliches passiert beim Komprimieren (Packen) und Dekomprimieren (Entpacken) von Dateien beim Computer. Allerdings sind die Algorithmen hier wesentliche komplexer und können manche Dateien auch gleich auf einen Bruchteil ihrer Originalgröße Zusammenschrumpfen.
Je spezifischer ein Komprimierungsalgorithmus dabei auf die Art der Daten zugeschnitten ist umso besser kann er die Daten komprimieren. Ein speziell für Audiodaten zugeschnittenes Programm kann die Daten besser Packen als ein allgemeines Packprogramm das alle Arten von Daten packen kann.
Ein zweiter Trick besteht nun darin, daß man bestimmte Daten garnicht zwingend mit abspeichern muß. Wenn in einer Audioaufzeichnung zum Beispiel Pausen vorhanden sind muß man dafür nicht viele tausend Einzelwerte abspeichern sondern kann diese beim Packen durch eine Angabe der Pausenlänge ersetzen. Leider hat man aber nicht immer astreine und vollkommen stille Pausen sondern oft ist immer noch ein Grundrauschen oder ein Restgeräusch zu hören. Man muß dann Komprimisse eingehen. Sehr sehr leise Geräusche werden dann vereinfacht zu Pausen. Die Restgeräusche die hier möglicherweise noch vorhanden waren werden somit vernichtet und durch eine absolut stille Pause ersetzt, die sich wesentlich platzsparender abspeichern läßt. Das ist im allgemeinen ein sehr guter Kompromiß, jedoch ist dies auch gleichzeitig ein Beispiel für einen Koprimierungsalgorithmus bei dem Daten verloren gehen. Gerade die hochspezialisierten Komprimierungsalgorithmen verwenden oft solche Tricks bei denen eigentlich Daten verloren gehen, jedoch wissen sie sehr genau welche Daten wegelassen werden können und welche nicht, sodaß keine Entscheidungen Veränderungen für den Menschen zu beobachten sind.
Im Bereich der Audioaufzeichnung war dies lange Zeit sehr problematisch.
Starke Komprimierung bedeutete immer auch einen deutlichen Qualitätsverlust.
Trickreichere Komprimierung konnte lange nicht entwickelt werden. Die Realaudio
Aufzeichnung ist deshalb auch eine mehr oder minder schlechte Notlösung.
Die Audioübertragung klingt oft sehr mäsig, bei entsprechendem
Aufwand (wenn eine ISDN Leitung zur Verfügung steht) klingt sie auch
manchmal annehmbar. Mit einer Audio-CD kann sie aber nicht konkurieren.
MPEG 2 Audio Layer 3 (MP3)
Dieses Aufzeichnungsformat stellt eine absolute Revolution dar, welches endlich hochqualitative Aufzeichnung bei relativer kleiner Dateigrößer erlaubt. Eigentlich ist das MPEG Format gedacht um Videos aufzuzeichnen. Da viele Videos aber auch eine Tonspur haben die man mitaufzeichnen muß, wurde auch dafür ein entsprechend guter Komprimierungsalgorithmus gesucht. Erst bei der Weiterentwicklung ("MPEG 2" und eben der Version "Layer 3") wurde es möglich Audioaufzeichnungen in CD Qualität um den Faktor 10-12 zu verkleinern.
Eine Audio CD braucht somit nichtmehr 650 MB sondern nurnoch etwa 50 bis 65 MB. Das ist zwar auch noch viel, aber schon recht gut zu verwenden (noch besser wird man es wohl kaum noch komprimieren können). Musikstücke sind somit nurmehr etwa 3 MB groß und somit in etwa 6 Minuten über eine ISDN-Leitung aus dem Internet zu laden. Dies lies auch den Boom des Musiktausches über das Internet zu.
Für den Heimgebrauch bedeutet dies, daß die eigene Jukebox endlich Realität wird. Auf einer handelsüblichen 6GB Festplatte finden etwa 2000 Lieder Platz, soviel wie auf gut 100 CDs. Das beste aber ist, daß sich diese Lieder individuell zusammenstellen und verwalten lassen. Der Computer behält alles im Griff und theoretisch sind die Lieder über eine entsprechende Datenbank sofort ansprechbar. Also gibt es auch kein lästiges CD Wechseln und Liedersuchen mehr.
Diesen enormen Vorteil erkauft man sich aber durch wesentlich höhere Rechenzeiten beim Komprimieren und Dekomprimieren. Um 650MB WAV/PCM Daten zu MP3 Daten umzuwandeln braucht ein normaler PC (Pentium 200) etwa 3 bis 5 Stunden, also länger als die Spielzeit dieser Daten ist. Die Dekomprimierung geht jedoch schneller und ist selbst mit einem Pentium 90 noch in Echtzeit (also während des Abspielens möglich). Der Zeitunterschied beim Packen und Entpacken ergibt sich durch das spezielle Konzept. Die Daten werden nicht nur sehr trickreich komprimiert sondern es werden auch sämtliche Töne herausgerechnet die das menschliche Ohr sowieso nicht wahrnehmen kann (zum Beispiel weil sie zu eng an anderen lauteren Tönen liegen). Das Aufwendige Herausrechen der unnötigen Töne findet beim Komprimieren statt, muß jedoch beim Dekomprimieren nichtmehr berücksichtigt werden. Im Gegenteil: Da in der gepackten Version weniger Töne vorhanden sind geht das Entpacken schneller.
Bei der Aufzeichnung gehen also Daten verloren, jedoch spielt dies praktisch keine Rolle. Der Mensch merkt es praktich nicht. Zusätzlich wird die gleichmäßige Wellenbewegung der Daten ausgenutzt. Ein einfach Sinuston besteht ja einfach aus einer gleichförmigen Wellenbewegung. Um einen Sinuston also richtig darzustellen muß man eigentlich garnicht seine ganzen vielen tausend Einzelwerte (Samplings) aufzeichnen sondern es würde genügen den Wert seiner Amplitude, seiner Frequenz und seiner Phase aufzuzeichen (nur 3 einzelne Werte) um ihn später wieder korrekt darstellen zu können. Etwas Ähnliches geschieht beim Packen der MP3s. Dies führt jedoch dazu, daß gleichmäßige sinustonartige Verläufe sehr gut dargestellt werden (daraus besteht ein Großteil jeder Musik), jedoch abprubte Änderungen und Schläge (Schlagzeug) nicht so gut dargestellt werden kann.
Das MP3 Format ist trotz der kleinen Verluste somit als CD-Qualität
zu bezeichnen. Trotzdem kann es auch mit niedrigeren Qualitätsstufen
umgehen. Lange Sprachstücke (Hörspiele, etc.) können dann
z.B. mit 11 kHz, Mono aufgezeichnet werden und verbrauchen damit nochmals
weniger Platz (eben nurnoch etwa ein Achtel).
MOD
Die Komprimierungsrate für Audiofiles ist bei MP3 eigentlich schon so extrem, daß sie kaum noch zu unterbieten ist. Jedoch gibt es andere Möglichkeiten um Musik mit noch kleineren Files darzustellen. Eines ist das alte MOD Format das heute auch gerne als Überbegriff für eine Reihe anderer sehr ähnlicher Formate wie XM oder S3M steht.
Es handelt sich dabei nichtmehr um pure Samplings. Man kann also nicht einfach ein Lied von einer CD auf diese Weise komprimieren. Das MOD Format basiert darauf, daß man mehrere kurze Samplings abspeichert (die Instrumente) und dazu eine ganze Partitur mit Noten. Die Instrumentensamplings werden dann entsprechend den Noten abgespielt und gemischt. Je schneller man ein Sampling wieder abspielt umso höher klingt es. Durch das schneller und langsamer Abspielen kann man somit (obwohl man nur ein einziges Sampling hat) viele verschiedene Töne (Noten) spielen. Um verschiedene Instrumente zur Verfügung zu haben (z.B. Flöte, Piano, Trommel, Becken, ....) braucht man aber verschiedene Samplings da die Klangcharakteristika ganz unterschiedlich sind und eine Wellenformen aufweisen.
Das MOD Format setzt somit einen hohen Produktionsaufwand vorraus. Man muß sich Instrumentensamplings erstellen und dann sehr viele Noten eingeben und immer wieder Testen. Das bedeutet daß Musikstücke entweder direkt als MOD geschrieben werden oder aber daß bestehende Musikstücke ganz neu für die Darstellung als MOD arrangiert und gebaut werden müssen. Ein Radio Hit wird sich als MOD Version somit immer mehr oder weniger anders anhören je nachdem wie gut die Umsetzung ist.
Ein Problem bei den ersten MOD Versionen war zudem daß nur 4 Kanäle (Channels) zur Verfügung standen. Es konnten also nur 4 verschiedene Instrumente gleichzeitig gespielt werden. Wenn man 5 Töne gleichzeitig anschlagen wollte so ging das nichtmehr (nur mit viel viel Tricksen). Moderner MOD Versionen (und andere Formate) unterstützen aber 8, 16, 32 oder sogar noch mehr Kanäle und halten zudem eine breite Palette an eingebauten Effekten bereit. Dadurch sind dem Schaffenstrieb kaum noch Grenzen gesetzt.
Problematisch wird es nur wenn man "Töne" einbauen will die sich verändernde Wellencharakteristika aufweisen. Damit sind zum Beispiel Gesangsstücke gemeint. Während einer einzigen Textzeile ändert sich die Wellenform ständig. Als einziger Ausweg bleibt hier deshalb den gesamten Gesangspart als ein einziges großes Sampling ab zu speichern. Wenn man nun aber sehr viele Gesangspassagen einbauen will (viele Strophen, viel verschiedener Text) wird es problematisch, denn es muß für jede Passage ein Instrumentensampling angelegt werden und es gibt meist eine maximale Zahl möglicher belegbarer Samplings. Zudem steigt der Datenaufwand enorm an und das MOD wird zu Groß.
Gesangsstücke sind somit kaum mit MODs zu produzieren und müssen sich meist auf kurze prägnante sich wiederholende Gesangspassagen beschränken. Das ganze Kling dann oft wie der Club-Mix oder Dance-Remix eines Liedes. In der Tat eignet sich das MOD Format wunderbar um eigene Techno/Rave/Trance/House Songs zu komponieren. Viele Eigenschaften dieser Songtypen kommen dem MOD Format sehr entgegen. Das hat dazu geführt daß eine große Palette an sehr guten MOD Songs verfügbar sind, die es so niemals als echte Songs (auf CD oder im Radio) gab und wohl auch nie geben wird. Die meisten dieser Songs sind im Bereich des Techno/Trance oder ähnlichem.
Aufgrund dieses enormen Musikstückschatzes (die meisten davon sind völlig frei kopierbar) ist das MOD Format auch für den Normalbenutzer wirklich interessant. Oder man kann eben selbst kreativ werden und mit frei erhältlichen Editoren selbst anfangen Musikstücke zu bastelen. Das ist allerdings garnicht so leicht wie man meinen möchte.
Die Größe eines MOD-Liedes beträgt (je nach Zahl und
Größe der Samplings) etwa zwischen 50 KB und 1 MB. Rechenaufwand
zum Komprimieren besteht nicht, da nichts komprimiert werden muß.
Beim Abspielen aber müssen die verschiedenen Samplingstücke in
der richtigen Geschwindigkeit in Echtzeit zusammengemischt werden. Das
kostet wieder etwas Rechenzeit. Je mehr Kanäle (und somit gleichzeitig
zu mischender Samplings) vorhanden sind umso rechenintensiver wird es.
Hinzukommen spezielle Filter, Glättungsfunktionen und andere technischer
Tricks die einige Mankos des MOD Formates ausbügeln helfen. Wenn man
dann ein 22 Channel Mod mit allen Verbesserungen laufen läßt
erhält man fast wieder CD Qualität und braucht dafür auch
wieder einen Pentium 90 (oder einen schnelleren Rechner). Für einfacher
MODs mit weniger Kanälen und ohne aufwendige technische Verbesserungen
braucht man aber lediglich einen mittelschnellen 486er. MODs sind gegenüber
MP3 also noch ein gutes Stück kleiner und leichter abzuspielen.
MIDI
Noch kleiner als das MOD Format ist eigentlich nurnoch das MIDI Format. Die Datein sind nurnoch etwa 5 KB bis 100 KB groß und die Rechenzeit ist minimal. Der Trick besteht darin, daß hier nurnoch Noten und Nummern für Instrumente abgespeichert werden. In einem MIDI File ist keinerlei Information mehr darüber enthalten wie ein Instrument zu klingen hat. Das muß das Gerät oder die Software beim Abspielen des Files bereits wissen. Im MIDI File stehen lediglich Nummern für bestimmte Instrumente oder Instrumenttypen.
Nach einem Standard ist dabei festgelegt daß eine bestimmte Nummer etwa eine tiefe Trommel darstellt und eine andere eine Gitarre oder ein Flöte darstellt. Diese Festlegung sollte dann von allen Autoren und allen Abspielprogrammen auch eingehalten werden. Das Problem dabei ist jedoch, daß die Festlegung einen gewissen Spielraum offen läßt. Wie genau hat zum Beispiel eine Trommel oder eine Flöte zu klingen?
Wie gut sich ein MIDI File beim Abspielen anhört hängt somit extrem stark von der Art der Umsetzung der Instrumente ab. Der häufigste und einfachste Weg geht dabei über die Soundkarte, die meist einen kleinen internen Synthesizer hat der einfache Klänge erzeugen kann. Je einfacher die Soundkarte umso einfacher klingen auch diese Geräusche. Sie sind oft dünn und synthetisch und haben eben einfach keine Power.
Moderner Soundkarten haben deshalb sogenannte Wavetables in denen sich kurze Samplings abspeichern lassen, welche dann als Instrumente für die MIDI Instrumente dienen. Somit kann man auf die Position der Trommel die Wellencharakteristik einer echten Trommel legen und diese dann entsprechend abspielen. Das Verfahren ist also dem der MODs sehr sehr ähnlich. Die Samplings liegen allerdings auf der Soundkarte und müssen aus eigenen Quellen eingespielt werden da sie nicht im MIDI File enthalten sind.
Wenn man keine Wavetable Soundkarte hat muß man dennoch nicht verzagen. Der Einsatz von Samplings kann prinzipiell auch durch eine Abspielsoftware erfolgen, eben genauso wie bei MODs. Die Software mixed dann während der Laufzeit die verschiedenen Samplings und schickt die daraus errechneten Daten an die Soundkarte. Die Soundkarte muß die Daten nurnoch abspielen (und braucht ihren internen Synthesizer also garnicht). Eine Software die auf diese Weise Samplings mixed braucht aber wieder sehr viel Rechenzeit (sehr Vergleichbar mit der Rechenzeit für MODs), was ansonten für MIDIs ja keineswegs üblich ist.
Trotzdem klingen MIDIs nie so 100% toll, was vorallem an dem sehr eingeschränkten Format liegt (eben NUR Noten ohne sonstige Effekte) und damit zusammenhängt daß man nie genau festlegen kann wie ein Instrument eigentlich klingen soll. Eigene Instrumente und Samplings sind garnicht einbaubar. Deshalb klingen alle MIDIs auch irgendwie recht gleich.
Trotzdem ist das MIDI Format ein wunderbares kleines Aufzeichnungsformat
zu dem es viele viel frei kopierbarer Files gibt. Die Verwendung als Hintergrundmusik,
z.B. auf Webseiten bietet sich geradezu an. Die Files laden recht schnell
und verbrauchen beim Abspielen kaum Rechenzeit. Viele klassische und bekannte
Musikstücke gibt es auch in einer MIDI-Version. Dabei handelt es sich
natürlich um eine Umsetzung für MIDI, die dem Original nur mehr
oder weniger nahe kommt. Für Musikstücke bei denen es auf die
Melodie und nicht auf Effekte und Instrumente ankommt, ist das aber völlig
egal.
Noch kleiner als MIDIs geht es eigentlich nichtmehr und somit wollen
wir den Streifzug durch die Sound- und Musikformate jetzt auch beenden.
Wir lernen also: Eine Stunde Musik braucht zwischen 600 MB (WAV/PCM) und
etwa 200 KB (MIDI).