Als Formanten (von lateinisch formare ‚formen‘ [eines Vokals]) bezeichnet man in der Phonetik und Akustik die Konzentration akustischer Energie in einem unveränderlichen (fixen) Frequenzbereich, unabhängig von der Frequenz des erzeugten Grundtons. Aufgrund der Resonanz- und Interferenzeigenschaften des Artikulationsraums bzw. Resonanzkörpers werden diese Frequenzbereiche gegenüber den übrigen Frequenzbereichen verstärkt und die anderen gedämpft, wonach die Formanten als Energiespitzen übrigbleiben. Dieser Prozess spielt sowohl bei der menschlichen Sprache eine Rolle als auch bei Musikinstrumenten.
Einen Oberton (Partial) oder einen zusammenhängenden Bereich von Obertönen (Partialen), die bei charakteristischen Eigenfrequenzen durch Resonanzverstärkung im Pegel angehoben werden, bezeichnet man als Formanten.
Hingegen bezeichnet man den Frequenz-Bereich, der für einen Vokal charakteristisch ist, als einen Formantbereich (auch: Formantstrecke).
Als Phänomen sind ein Phon (im phonetischen Sinne) bzw. „einzelner Ton“ im Musikalischen die kleinsten akustischen Einheiten.
Um eine falsche Vorstellung zu vermeiden, ist grundsätzlich zwischen messbaren Größen und wahrgenommenen Größen zu unterscheiden.
Dabei lassen sich die Schallquellen zunächst in drei Teilkomponenten zerlegen:
Die wichtigste Veränderung der Resonanzeigenschaften erfolgt, als variable Größe, durch eine geänderte Zungenstellung. Die Sprachgrundfrequenz liegt bei ca. 100–150 Hz für Männer und bei ca. 200–300 Hz für Frauen. Im physikalischen Sinne kann ein solcher „einzelner Ton“ weiter in verschiedene Teiltöne bzw. Partial- oder Obertöne, also in unterschiedliche Frequenzbänder, zerlegt werden. Der unterste Partialton ist maßgebend für die empfundene Tonhöhe. Sie wird auch als Grundfrequenz oder Grundton bezeichnet. Insgesamt lassen sich mit den Teil- oder Partialtönen alle Klänge in der Musik ebenso beschreiben wie akustische Sprachproduktion oder allgemeiner jegliche weitere akustische Ereignisse. Fast alle Töne, Klänge und Geräusche sowie die gesprochene Sprache (Lautsprache) setzen sich aus einer ganzen Reihe von Partialtönen zusammen. Alle diese Teiltöne liegen in Form von Sinusschwingungen vor. Ein Gesamtton besteht z. B. aus zehn Partialtönen, das sind dann neun Obertöne und ein Grundton. Welche Frequenzen als Obertöne auftreten, hängt von den physikalischen Eigenschaften des jeweiligen Klangerzeugers ab, also von dessen „Eigenfrequenzen“. Dabei werden Klänge mit „harmonischen“ von denen abgegrenzt, die zu den „nichtharmonischen Obertonreihen“ zählen. Im Bereich der harmonischen Obertonreihen handelt es sich bei den Frequenzen der Obertöne um ganzzahlige Vielfache der Frequenz des Grundtons (Naturtonreihe). Im Bereich der Musikinstrumente zählen hierzu etwa die Saiten- und Blasinstrumente.
Bei „nichtharmonischen Obertonreihen“ bilden die Frequenzen der Partialtöne komplizierte nicht ganzzahlige Verhältnisse zueinander aus. Solche Klänge treten in der Musik bei Instrumenten mit geräuschhaften Tönen auf, etwa bei Schlaginstrumenten wie den Trommeln oder bei den Idiophonen wie den Glocken mit metallenen Klangfarben. Die Anzahl der Obertöne und ihr Verhältnis zueinander beschreibt aber nur einen Teil eines als Gesamtklang wahrgenommenen akustischen Ereignisses. Von Bedeutung ist ferner die Lautstärke der einzelnen Obertöne.
Die menschliche Sprache klingt bei den verschiedenen Sprechern unterschiedlich. Der Grund hierfür ist im Wesentlichen der Stimmklang, der bei gleicher Tonhöhe unterschiedlich sein kann. Denn eigentlich müsste der gleiche Klang entstehen, wenn zwei Personen den gleichen Ton sängen. Bedingt durch die individuelle anatomische Ausformung, also Größe und Form von Mundhöhle, Nasennebenhöhlen, Rachen etc., die beim Menschen die wesentlichen Resonanzräume bilden, werden manche Frequenzen verstärkt, andere abgeschwächt. Für solche sprachbezogenen Resonanzkurven sind die Obertöne verantwortlich. So wird der gleiche Vokal bei verschiedenen Menschen unterschiedliche Resonanzen erzeugen. Aber neben Vokalen bedienen sich die menschlichen Sprachen noch der Konsonanten – den Geräuschlauten, bei denen der Atemluftstrom während der Aussprache gehemmt wird und die somit eine geringe akustische Reichweite haben. Anders bei den Vokalen, die ohne Hemmung des Atemluftstromes ausgesprochen werden und deshalb klarer zu hören sind.[1]
Im Kehlkopf oder z. B. im Mundstück eines Blasinstrumentes wird zunächst ein Grundton mit zahlreichen Obertönen produziert. Erst im Klangkörper eines Musikinstrumentes bzw. auf dem Weg zwischen Kehlkopf und Mundöffnung wird aus diesem Spektrum ein Teil der Harmonischen, also Partial- bzw. Teiltöne oder Obertöne und Rauschanteile, gedämpft, ein anderer Teil durch Resonanz relativ gegenüber der Grundfrequenz und gegenüber anderen Obertönen verstärkt. Die Bereiche, bei denen eine maximale relative Verstärkung stattfindet, sind die Formanten. Stimmen und Instrumente besitzen oft mehrere Formantregionen, die nicht direkt aneinander anschließen.
Die Lage und Ausprägung der Formanten prägen maßgeblich die Klangfarbe (das Timbre) eines Musikinstruments oder einer Stimme. Durch sie lassen sich Stimmen und auch Musikinstrumente voneinander unterscheiden – etwa die Stimmen zweier Frauen oder eine Geige von einer anderen.
Die Lage der Formanten hängt ab
Sprache und damit Sprachlaute bestehen aus Luftdruckwellen, die aus der Mund- und Nasenhöhle ausgestoßen werden. Die Atemluft, die durch die Stimmlippen gepresst wird, führt dazu, dass diese zu vibrieren beginnen. Die Vibrationen werden zu einem Grundton, der durch die oralen und nasalen Kanäle oder andere anatomische Gegebenheiten geformt und verstärkt wird. Je mehr Atemluft durch die Stimmlippen gepresst wird, desto lauter ist der Ton. Durch die unterschiedlichen Positionierungen der Zunge und der Lippen können verschiedene Laute geformt werden. Die sich öffnenden und schließenden Stimmbänder erzeugen eine periodische Schwingung. Die Dauer eines Zyklus hängt von der Länge, der Masse und der Anspannung der Stimmbänder sowie von dem durch die Atemmuskulatur und die Lunge erzeugten Luftdruck ab.
Die vokalische Artikulation ist normalerweise stimmhaft, die relevanten Abwandlungen bestehen in Änderungen der Größe des Rachen- und Mundraumes. Diese werden durch Zunge und Lippen bewirkt, aber auch Kehlkopfhöhe, Rachenenge, Zungenposition und -höhe sowie die Lippenstellung verändern die Resonanzeigenschaften des Ansatzrohres und damit auch die Resonanzfrequenzen des entstehenden Vokals. So erhält jeder Vokal seine für ihn typische spektrale Zusammensetzung mit Energiekonzentrationen in den jeweiligen Resonanzfrequenzen. Diese Energiekonzentrationen, die man im Sonagramm als waagerechte Frequenzbänder erkennen kann, heißen Formanten F1, F2, F3 und F4 etc. Bei der menschlichen Sprache charakterisiert die Lage der Formanten die Bedeutung bestimmter Laute. Vokale unterscheiden sich im Sonagramm von Konsonanten vor allem durch ihre deutliche Formantstruktur. Das liegt daran, dass der Laut, dessen Artikulation zu einem Konsonanten führt, durch eine Verengung des Stimmtraktes entsteht, sodass der Atemluftstrom ganz oder teilweise blockiert wird und es zu hörbaren Turbulenzen (Luftwirbelungen) kommt. Konsonanten sind Hemmnis überwindende Laute, sie können dabei ohne Einsatz der Stimme (stimmlos) oder mit Stimmgebung (stimmhaft) erzeugt werden. In der Tendenz zeigt sich Folgendes: Vokale befinden sich eher in einem tieferen Frequenzbereich, die Konsonanten in einem höheren. Während die Vokale hauptsächlich die Lautstärke von Sprache erzeugen, werden über die Konsonanten die Wortdifferenzierungen (Silben) übermittelt. Ein Vokal kann in unterschiedlichen Tonhöhen artikuliert werden, indem bei unverändertem Mund- und Rachenraum die Periode der Stimmbandbewegung verändert wird.
Als Formant wird in der Akustik und Phonetik die Konzentration akustischer Energie in einem bestimmten Frequenzbereich bezeichnet. Während die Formanten F1, F2 und F3 vokalspezifisch sind, das bedeutet relativ sprecherunabhängig immer annähernd gleiche Frequenzwerte annehmend, sind die Frequenzwerte ab dem F4-Formanten überwiegend für Klangfarbe und Charakteristik der Sprecherstimme verantwortlich. Sie dienen in erster Linie der Identifikation eines Sprechers und nicht eines Vokals. Vokale unterscheiden sich im Sonagramm von Konsonanten in erster Linie durch ihre deutliche Formantstruktur.
Formanten entstehen etwa in den Resonanzspektren von Musikinstrumenten oder auch der menschlichen Stimme. Aufgrund der Resonanzeigenschaften eines Instruments oder des menschlichen Artikulationsraums werden bestimmte Frequenzbereiche im Verhältnis zu anderen Frequenzbereichen verstärkt. Formanten sind dabei diejenigen Frequenzbereiche, bei denen die relative Verstärkung am höchsten ist. Vokale etwa unterscheiden sich artikulatorisch durch drei Parameter:
Anhand der ersten beiden Formanten im Vokaldreieck beziehungsweise im Vokaltrapez lassen sich alle Vokale eines Lautsystems voneinander unterscheiden. Die Vokal-Formantlagen unterscheiden sich von Mensch zu Mensch, besonders zwischen Männern, Frauen und Kindern. Hier folgt eine Tabelle der gemittelten Formantlagen aus dem genannten Vokaldreieck.
deutscher Vokal | IPA | Formant F1 | Formant F2 |
---|---|---|---|
U | Vorlage:IPA-Zeichen | 320 Hz | 800 Hz |
O | Vorlage:IPA-Zeichen | 500 Hz | 1000 Hz |
å | Vorlage:IPA-Zeichen | 700 Hz | 1150 Hz |
A | Vorlage:IPA-Zeichen | 1000 Hz | 1400 Hz |
ö | Vorlage:IPA-Zeichen | 500 Hz | 1500 Hz |
ü | Vorlage:IPA-Zeichen | 320 Hz | 1650 Hz |
ä | Vorlage:IPA-Zeichen | 700 Hz | 1800 Hz |
E | Vorlage:IPA-Zeichen | 500 Hz | 2300 Hz |
I | Vorlage:IPA-Zeichen | 320 Hz | 3200 Hz |
Die ersten beiden Formanten F1 und F2 sind für die Verständlichkeit der Vokale wichtig. Ihre Lage charakterisiert den gesprochenen Vokal, der dritte und der vierte Formant F3 und F4 sind für das Sprachverständnis nicht mehr wesentlich. Sie charakterisieren eher die Anatomie des Sprechers und dessen Artikulationseigenarten sowie das Timbre seiner Sprache und variieren je nach Sprecher.[2] So wird der Charakter einer Stimme durch die Grundfrequenz (100 bis 250 Hz) und die Artikulationseigenarten bestimmt. Die mittlere Sprechstimmlage liegt beim Mann etwa zwischen 100 und 130 Hz und bei der Frau etwa zwischen 200 und 260 Hz.[3]
Formanten, die zwischen 1500 und 2000 Hz liegen, bringen die Wirkung des Näseleffekts hervor, weshalb sie Näselformanten genannt werden. Wird das Velum geöffnet, tritt ein, oft auch ein zweiter Nasalformant hinzu. Hierzu liegen diverse Untersuchungen vor, die unterschiedliche Nasalformanten ergeben haben. Der erste Nasalformant wird mit Werten zwischen 200 und 250 Hz angegeben, der zweite Nasalformant sehr unterschiedlich mit Werten von z. B. 1000, 1200, 2000 oder 2200 Hz.
Formant | Frequenzspektrum männlich |
zugeordneter Resonanzraum |
---|---|---|
F0 | 80– 200 Hz | Stimmlippen, Stimme |
F1 | 220– 780 Hz | Rachen |
F2 | 1200–2000 Hz | Lippenraum |
F3 | 2200–3000 Hz | Mundraum |
F4 | 3350–5100 Hz | Koronalraum (Raum hinter Oberkiefer und Jochbein) |
hoher Pegel bei | Klangempfindung | Bemerkung |
---|---|---|
200 bis 400 Hz | sonor | 1. Formant u |
400 bis 600 Hz | voll | 1. Formant o |
800 bis 1200 Hz | markant | 1. Formant a |
1200 bis 1800 Hz | näselnd | 2. Formant ü |
1800 bis 2600 Hz | hell | 2. Formant e |
2600 bis 4000 Hz | brillant | 2. Formant i |
8000 Hz | spitz | diffuse „Höhen“ |
über 10000 Hz | scharf | Oberton-„Glanz“ |
Grundsätzlich gilt für den Gesang das Gleiche wie für die Sprache. Die o. g. Formanten lassen sich besonders gut für tiefe Töne, z. B. gesungen im Schnarrregister zeigen. Aber bereits im höheren Bereich einer Sopranstimme liegt die Grundfrequenz oberhalb der in Tabelle 1 genannten 1. Formantfrequenzen. Bei Frequenzen von z. B. 700 Hz müssten demnach die Vokale u, e und i unverständlich sein und wegen der starken Dämpfung zwischen den Formanten nur schwache, nicht tragfähige Töne bilden. Allerdings sind nach Sundberg die Formanten nicht unabhängig vom Grundton. Diese unabhängige Variation der Formanten wird beispielsweise beim Obertongesang praktiziert. Wenn der Grundton in den Bereich des 1. Formanten fällt oder darüber liegt, dann steigt mit steigendem Grundton auch der 1. Formant. Das erreicht die Sängerin, indem sie den Mund weiter öffnet. Diese Anpassung des ersten Formanten bezeichnet man als Formanttuning. Es führt beim i, u, e zu einem Anstieg des 1. Formanten, er liegt bei einer Grundfrequenz von 700 Hz ebenfalls bei etwa 700 Hz. Beim a bleibt er weitgehend konstant. Der 2. Formant sinkt dagegen beim e und i und steigt beim u. Der Anstieg des 1. Formanten geht aber nicht „unendlich“ weiter, im Bereich um h2 und darüber kann man mit weiterem Öffnen des Mundes nichts mehr bewirken. Die Vokale sind bei sehr hohen Tönen nicht mehr unterscheidbar, weil nunmehr die Grundfrequenz immer oberhalb des ersten Formanten liegt und somit der Klangeindruck dieses Formanten verschwindet.
Frequenzen um 3 kHz spielen eine entscheidende Rolle für die Tragfähigkeit einer Stimme. Deshalb nennt man diesen Frequenzbereich Sängerformant. Er kann beispielsweise auch durch Training von Heben oder Senken des Kehlkopfs beim Singen verändert werden.[5] Ein Sängerformant ist gut ausgeprägt, wenn in einem gesungenen Ton die Frequenzen in einem breiten Band zwischen 2800 und 3400 Hz eine „relative Stärke“ haben, unabhängig vom Grundton.
Der Begriff Formant wurde 1890 erstmals von Ludimar Hermann in seiner Akustischen Phonetik verwendet, aber erst 1929 von Erich Schumann in seiner Habilitationsschrift in Berlin technisch beschrieben und bildet heute ein breites Forschungsfeld in analytischen, nachrichtentechnischen und klangsynthetischen Domänen.