Formant

Als Formanten (von lateinisch formare ‚formen‘ [eines Vokals]) bezeichnet man in der Phonetik und Akustik die Konzentration akustischer Energie in einem unveränderlichen (fixen) Frequenzbereich, unabhängig von der Frequenz des erzeugten Grundtons. Aufgrund der Resonanz- und Interferenzeigenschaften des Artikulationsraums bzw. Resonanzkörpers werden diese Frequenzbereiche gegenüber den übrigen Frequenzbereichen verstärkt und die anderen gedämpft, wonach die Formanten als Energiespitzen übrigbleiben. Dieser Prozess spielt sowohl bei der menschlichen Sprache eine Rolle als auch bei Musikinstrumenten.

Begriffsabgrenzung

Einen Oberton (Partial) oder einen zusammenhängenden Bereich von Obertönen (Partialen), die bei charakteristischen Eigenfrequenzen durch Resonanzverstärkung im Pegel angehoben werden, bezeichnet man als Formanten.

Hingegen bezeichnet man den Frequenz-Bereich, der für einen Vokal charakteristisch ist, als einen Formantbereich (auch: Formantstrecke).

Beobachtung und Beschreibung

Als Phänomen sind ein Phon (im phonetischen Sinne) bzw. „einzelner Ton“ im Musikalischen die kleinsten akustischen Einheiten.

Um eine falsche Vorstellung zu vermeiden, ist grundsätzlich zwischen messbaren Größen und wahrgenommenen Größen zu unterscheiden.

Dabei lassen sich die Schallquellen zunächst in drei Teilkomponenten zerlegen:

den eigentlichen Oszillator, die Stimmlippen (Plica vocalis), die den ausströmenden Atemluftstrom periodisch unterbrechen,
die Anregung (durch Zupfen, Anblasen, den periodisch unterbrochenen Luftstrom des Atmungsapparates Apparatus respiratorius) und
den Resonanzkörper (also den Korpus des Musikinstrumentes, die Resonanzräume (Vokaltrakt) des menschlichen Körpers).

Die wichtigste Veränderung der Resonanzeigenschaften erfolgt, als variable Größe, durch eine geänderte Zungenstellung. Die Sprachgrundfrequenz liegt bei ca. 100–150 Hz für Männer und bei ca. 200–300 Hz für Frauen. Im physikalischen Sinne kann ein solcher „einzelner Ton“ weiter in verschiedene Teiltöne bzw. Partial- oder Obertöne, also in unterschiedliche Frequenzbänder, zerlegt werden. Der unterste Partialton ist maßgebend für die empfundene Tonhöhe. Sie wird auch als Grundfrequenz oder Grundton bezeichnet. Insgesamt lassen sich mit den Teil- oder Partialtönen alle Klänge in der Musik ebenso beschreiben wie akustische Sprachproduktion oder allgemeiner jegliche weitere akustische Ereignisse. Fast alle Töne, Klänge und Geräusche sowie die gesprochene Sprache (Lautsprache) setzen sich aus einer ganzen Reihe von Partialtönen zusammen. Alle diese Teiltöne liegen in Form von Sinusschwingungen vor. Ein Gesamtton besteht z. B. aus zehn Partialtönen, das sind dann neun Obertöne und ein Grundton. Welche Frequenzen als Obertöne auftreten, hängt von den physikalischen Eigenschaften des jeweiligen Klangerzeugers ab, also von dessen „Eigenfrequenzen“. Dabei werden Klänge mit „harmonischen“ von denen abgegrenzt, die zu den „nichtharmonischen Obertonreihen“ zählen. Im Bereich der harmonischen Obertonreihen handelt es sich bei den Frequenzen der Obertöne um ganzzahlige Vielfache der Frequenz des Grundtons (Naturtonreihe). Im Bereich der Musikinstrumente zählen hierzu etwa die Saiten- und Blasinstrumente.

Bei „nichtharmonischen Obertonreihen“ bilden die Frequenzen der Partialtöne komplizierte nicht ganzzahlige Verhältnisse zueinander aus. Solche Klänge treten in der Musik bei Instrumenten mit geräuschhaften Tönen auf, etwa bei Schlaginstrumenten wie den Trommeln oder bei den Idiophonen wie den Glocken mit metallenen Klangfarben. Die Anzahl der Obertöne und ihr Verhältnis zueinander beschreibt aber nur einen Teil eines als Gesamtklang wahrgenommenen akustischen Ereignisses. Von Bedeutung ist ferner die Lautstärke der einzelnen Obertöne.

Die menschliche Sprache klingt bei den verschiedenen Sprechern unterschiedlich. Der Grund hierfür ist im Wesentlichen der Stimmklang, der bei gleicher Tonhöhe unterschiedlich sein kann. Denn eigentlich müsste der gleiche Klang entstehen, wenn zwei Personen den gleichen Ton sängen. Bedingt durch die individuelle anatomische Ausformung, also Größe und Form von Mundhöhle, Nasennebenhöhlen, Rachen etc., die beim Menschen die wesentlichen Resonanzräume bilden, werden manche Frequenzen verstärkt, andere abgeschwächt. Für solche sprachbezogenen Resonanzkurven sind die Obertöne verantwortlich. So wird der gleiche Vokal bei verschiedenen Menschen unterschiedliche Resonanzen erzeugen. Aber neben Vokalen bedienen sich die menschlichen Sprachen noch der Konsonanten – den Geräuschlauten, bei denen der Atemluftstrom während der Aussprache gehemmt wird und die somit eine geringe akustische Reichweite haben. Anders bei den Vokalen, die ohne Hemmung des Atemluftstromes ausgesprochen werden und deshalb klarer zu hören sind.^[1]

Erläuterungen zur Definition

Im Kehlkopf oder z. B. im Mundstück eines Blasinstrumentes wird zunächst ein Grundton mit zahlreichen Obertönen produziert. Erst im Klangkörper eines Musikinstrumentes bzw. auf dem Weg zwischen Kehlkopf und Mundöffnung wird aus diesem Spektrum ein Teil der Harmonischen, also Partial- bzw. Teiltöne oder Obertöne und Rauschanteile, gedämpft, ein anderer Teil durch Resonanz relativ gegenüber der Grundfrequenz und gegenüber anderen Obertönen verstärkt. Die Bereiche, bei denen eine maximale relative Verstärkung stattfindet, sind die Formanten. Stimmen und Instrumente besitzen oft mehrere Formantregionen, die nicht direkt aneinander anschließen.

Die Lage und Ausprägung der Formanten prägen maßgeblich die Klangfarbe (das Timbre) eines Musikinstruments oder einer Stimme. Durch sie lassen sich Stimmen und auch Musikinstrumente voneinander unterscheiden – etwa die Stimmen zweier Frauen oder eine Geige von einer anderen.

Die Lage der Formanten hängt ab

generell von den charakteristischen Eigenfrequenzen des Instruments oder Klangerzeugers,
bei mechanischen Musikinstrumenten von der Bauform und den verwendeten Materialien, insbesondere von der Gestaltung des Klangkörpers,
bei der menschlichen Stimme von der willkürlich veränderten Form des Vokaltrakts, so wie er zum Artikulieren eines bestimmten Lauts durch Muskelbewegungen eingestellt wird,
bei elektronischen Musikinstrumenten von den eingesetzten Bandpässen und Bandsperren.

Sprache

Spektrogramm der Laute [i, u, ɑ] in amerikanischem Englisch, Formanten F1, F2 rot markiert. Formanten sind die waagerechten Frequenzbänder.

Sprache und damit Sprachlaute bestehen aus Luftdruckwellen, die aus der Mund- und Nasenhöhle ausgestoßen werden. Die Atemluft, die durch die Stimmlippen gepresst wird, führt dazu, dass diese zu vibrieren beginnen. Die Vibrationen werden zu einem Grundton, der durch die oralen und nasalen Kanäle oder andere anatomische Gegebenheiten geformt und verstärkt wird. Je mehr Atemluft durch die Stimmlippen gepresst wird, desto lauter ist der Ton. Durch die unterschiedlichen Positionierungen der Zunge und der Lippen können verschiedene Laute geformt werden. Die sich öffnenden und schließenden Stimmbänder erzeugen eine periodische Schwingung. Die Dauer eines Zyklus hängt von der Länge, der Masse und der Anspannung der Stimmbänder sowie von dem durch die Atemmuskulatur und die Lunge erzeugten Luftdruck ab.

Die vokalische Artikulation ist normalerweise stimmhaft, die relevanten Abwandlungen bestehen in Änderungen der Größe des Rachen- und Mundraumes. Diese werden durch Zunge und Lippen bewirkt, aber auch Kehlkopfhöhe, Rachenenge, Zungenposition und -höhe sowie die Lippenstellung verändern die Resonanzeigenschaften des Ansatzrohres und damit auch die Resonanzfrequenzen des entstehenden Vokals. So erhält jeder Vokal seine für ihn typische spektrale Zusammensetzung mit Energiekonzentrationen in den jeweiligen Resonanzfrequenzen. Diese Energiekonzentrationen, die man im Sonagramm als waagerechte Frequenzbänder erkennen kann, heißen Formanten F1, F2, F3 und F4 etc. Bei der menschlichen Sprache charakterisiert die Lage der Formanten die Bedeutung bestimmter Laute. Vokale unterscheiden sich im Sonagramm von Konsonanten vor allem durch ihre deutliche Formantstruktur. Das liegt daran, dass der Laut, dessen Artikulation zu einem Konsonanten führt, durch eine Verengung des Stimmtraktes entsteht, sodass der Atemluftstrom ganz oder teilweise blockiert wird und es zu hörbaren Turbulenzen (Luftwirbelungen) kommt. Konsonanten sind Hemmnis überwindende Laute, sie können dabei ohne Einsatz der Stimme (stimmlos) oder mit Stimmgebung (stimmhaft) erzeugt werden. In der Tendenz zeigt sich Folgendes: Vokale befinden sich eher in einem tieferen Frequenzbereich, die Konsonanten in einem höheren. Während die Vokale hauptsächlich die Lautstärke von Sprache erzeugen, werden über die Konsonanten die Wortdifferenzierungen (Silben) übermittelt. Ein Vokal kann in unterschiedlichen Tonhöhen artikuliert werden, indem bei unverändertem Mund- und Rachenraum die Periode der Stimmbandbewegung verändert wird.

Als Formant wird in der Akustik und Phonetik die Konzentration akustischer Energie in einem bestimmten Frequenzbereich bezeichnet. Während die Formanten F1, F2 und F3 vokalspezifisch sind, das bedeutet relativ sprecherunabhängig immer annähernd gleiche Frequenzwerte annehmend, sind die Frequenzwerte ab dem F4-Formanten überwiegend für Klangfarbe und Charakteristik der Sprecherstimme verantwortlich. Sie dienen in erster Linie der Identifikation eines Sprechers und nicht eines Vokals. Vokale unterscheiden sich im Sonagramm von Konsonanten in erster Linie durch ihre deutliche Formantstruktur.

Formanten entstehen etwa in den Resonanzspektren von Musikinstrumenten oder auch der menschlichen Stimme. Aufgrund der Resonanzeigenschaften eines Instruments oder des menschlichen Artikulationsraums werden bestimmte Frequenzbereiche im Verhältnis zu anderen Frequenzbereichen verstärkt. Formanten sind dabei diejenigen Frequenzbereiche, bei denen die relative Verstärkung am höchsten ist. Vokale etwa unterscheiden sich artikulatorisch durch drei Parameter:

die vertikale Position des höchsten Zungenpunkts,
die horizontale Position des höchsten Zungenpunkts und
die Rundung der Lippen

Anhand der ersten beiden Formanten im Vokaldreieck beziehungsweise im Vokaltrapez lassen sich alle Vokale eines Lautsystems voneinander unterscheiden. Die Vokal-Formantlagen unterscheiden sich von Mensch zu Mensch, besonders zwischen Männern, Frauen und Kindern. Hier folgt eine Tabelle der gemittelten Formantlagen aus dem genannten Vokaldreieck.

Tab. 1: Gemittelte Formantlagen aus dem Vokaldreieck Vokal-Formant-Zentren
deutscher Vokal	IPA	Formant F1	Formant F2
U	Vorlage:IPA-Zeichen	320 Hz	800 Hz
O	Vorlage:IPA-Zeichen	500 Hz	1000 Hz
å	Vorlage:IPA-Zeichen	700 Hz	1150 Hz
A	Vorlage:IPA-Zeichen	1000 Hz	1400 Hz
ö	Vorlage:IPA-Zeichen	500 Hz	1500 Hz
ü	Vorlage:IPA-Zeichen	320 Hz	1650 Hz
ä	Vorlage:IPA-Zeichen	700 Hz	1800 Hz
E	Vorlage:IPA-Zeichen	500 Hz	2300 Hz
I	Vorlage:IPA-Zeichen	320 Hz	3200 Hz

Die ersten beiden Formanten F1 und F2 sind für die Verständlichkeit der Vokale wichtig. Ihre Lage charakterisiert den gesprochenen Vokal, der dritte und der vierte Formant F3 und F4 sind für das Sprachverständnis nicht mehr wesentlich. Sie charakterisieren eher die Anatomie des Sprechers und dessen Artikulationseigenarten sowie das Timbre seiner Sprache und variieren je nach Sprecher.^[2] So wird der Charakter einer Stimme durch die Grundfrequenz (100 bis 250 Hz) und die Artikulationseigenarten bestimmt. Die mittlere Sprechstimmlage liegt beim Mann etwa zwischen 100 und 130 Hz und bei der Frau etwa zwischen 200 und 260 Hz.^[3]

Formanten, die zwischen 1500 und 2000 Hz liegen, bringen die Wirkung des Näseleffekts hervor, weshalb sie Näselformanten genannt werden. Wird das Velum geöffnet, tritt ein, oft auch ein zweiter Nasalformant hinzu. Hierzu liegen diverse Untersuchungen vor, die unterschiedliche Nasalformanten ergeben haben. Der erste Nasalformant wird mit Werten zwischen 200 und 250 Hz angegeben, der zweite Nasalformant sehr unterschiedlich mit Werten von z. B. 1000, 1200, 2000 oder 2200 Hz.

Formant	Frequenzspektrum männlich	zugeordneter Resonanzraum
F0	00080–0200 Hz	Stimmlippen, Stimme
F1	00220–0780 Hz	Rachen
F2	01200–2000 Hz	Lippenraum
F3	02200–3000 Hz	Mundraum
F4	03350–5100 Hz	Koronalraum (Raum hinter Oberkiefer und Jochbein)

^[4]

Tab 2: Typische spektrale Anhebung (Quint- bis Oktavbreite), die bei der Tonaufnahme von Gesang und Instrumenten gezielt eingesetzt wird. Praktische Pegelanhebungen
hoher Pegel bei	Klangempfindung	Bemerkung
200 bis 400 Hz	sonor	1. Formant u
400 bis 600 Hz	voll	1. Formant o
800 bis 1200 Hz	markant	1. Formant a
1200 bis 1800 Hz	näselnd	2. Formant ü
1800 bis 2600 Hz	hell	2. Formant e
2600 bis 4000 Hz	brillant	2. Formant i
8000 Hz	spitz	diffuse „Höhen“
über 10000 Hz	scharf	Oberton-„Glanz“

Besonderheiten beim Gesang

Klang- und Spektralanalyse verdeutlicht die Vokalformanten als Frequenzbereiche mit erhöhter Intensität

Grundsätzlich gilt für den Gesang das Gleiche wie für die Sprache. Die o. g. Formanten lassen sich besonders gut für tiefe Töne, z. B. gesungen im Schnarrregister zeigen. Aber bereits im höheren Bereich einer Sopranstimme liegt die Grundfrequenz oberhalb der in Tabelle 1 genannten 1. Formantfrequenzen. Bei Frequenzen von z. B. 700 Hz müssten demnach die Vokale u, e und i unverständlich sein und wegen der starken Dämpfung zwischen den Formanten nur schwache, nicht tragfähige Töne bilden. Allerdings sind nach Sundberg die Formanten nicht unabhängig vom Grundton. Diese unabhängige Variation der Formanten wird beispielsweise beim Obertongesang praktiziert. Wenn der Grundton in den Bereich des 1. Formanten fällt oder darüber liegt, dann steigt mit steigendem Grundton auch der 1. Formant. Das erreicht die Sängerin, indem sie den Mund weiter öffnet. Diese Anpassung des ersten Formanten bezeichnet man als Formanttuning. Es führt beim i, u, e zu einem Anstieg des 1. Formanten, er liegt bei einer Grundfrequenz von 700 Hz ebenfalls bei etwa 700 Hz. Beim a bleibt er weitgehend konstant. Der 2. Formant sinkt dagegen beim e und i und steigt beim u. Der Anstieg des 1. Formanten geht aber nicht „unendlich“ weiter, im Bereich um h2 und darüber kann man mit weiterem Öffnen des Mundes nichts mehr bewirken. Die Vokale sind bei sehr hohen Tönen nicht mehr unterscheidbar, weil nunmehr die Grundfrequenz immer oberhalb des ersten Formanten liegt und somit der Klangeindruck dieses Formanten verschwindet.

Frequenzen um 3 kHz spielen eine entscheidende Rolle für die Tragfähigkeit einer Stimme. Deshalb nennt man diesen Frequenzbereich Sängerformant. Er kann beispielsweise auch durch Training von Heben oder Senken des Kehlkopfs beim Singen verändert werden.^[5] Ein Sängerformant ist gut ausgeprägt, wenn in einem gesungenen Ton die Frequenzen in einem breiten Band zwischen 2800 und 3400 Hz eine „relative Stärke“ haben, unabhängig vom Grundton.

Geschichte

Der Begriff Formant wurde 1890 erstmals von Ludimar Hermann in seiner Akustischen Phonetik verwendet, aber erst 1929 von Erich Schumann in seiner Habilitationsschrift in Berlin technisch beschrieben und bildet heute ein breites Forschungsfeld in analytischen, nachrichtentechnischen und klangsynthetischen Domänen.

Siehe auch

Frequenzspektrum
Klirrfaktor
Pitch shifter
Sonagramm
Spracherkennung
Sprachsynthese
Vocoder

Literatur

Franz Brandl: Die Kunst der Stimmbildung auf physiologischer Grundlage. Eigenverlag, München 2001, ISBN 3-00-008593-9.
Michael Dickreiter, Volker Dittel, Wolfgang Hoeg, Martin Wöhr (Hrsg.): Handbuch der Tonstudiotechnik. 8., überarbeitete und erweiterte Auflage, Walter de Gruyter, Berlin/Boston 2014, ISBN 978-3-11-028978-7 oder e-ISBN 978-3-11-031650-6 (2 Bände).
Ludimar Hermann: Beiträge zur Lehre von der Klangwahrnehmung. In: Pflügers Arch. Band 56, 1894, S. 467–499.
Fritz Klingholz: Medizinischer Leitfaden für Sänger. Libri Books on Demand, Seefeld 2000, ISBN 3-8311-0493-X.
Paul-Heinrich Mertens: Die Schumannschen Klangfarbengesetze und ihre Bedeutung für die Übertragung von Sprache und Musik. E. Bochinsky, Frankfurt/M. 1975, ISBN 3-920112-54-7.
Jürgen Meyer: Akustik und musikalische Aufführungspraxis. E. Bochinsky, Frankfurt/M. 2004, ISBN 3-932275-95-0.
Christoph Reuter: Klangfarbe und Instrumentation. Habil. Lang, Frankfurt 2002, ISBN 3-631-50272-9.
Erich Schumann: Physik der Klangfarben. Habilitationsschrift an der Universität Berlin, 1929.
Erich Schumann: Physik der Klangfarben. Breitkopf & Härtel, Leipzig 1940 (Band II).
Johan Sundberg: Die Wissenschaft von der Singstimme. Übers. von Friedemann Pabst, Orpheus, Bonn 1997, ISBN 3-922626-86-6.
Uta Konzelmann: Stimmfeldmessungen bei Chorsängern vor und nach Belastung unter besonderer Berücksichtigung des Sängerformanten. Diss., Erlangen/Nürnberg 1989.
Hannes Raffaseder: Audiodesign. Fachbuchverlag Leipzig, 2002.
Wolfgang Saus: Chorphonetik – wenn Vokale die Intonation steuern. VOX HUMANA 11.1, Februar 2015, S. 22–26 (PDF; 170 kB).
Eglė Alosevičienė: Grundlagen der Phonetik und Phonologie. Universität Vilnius, Geisteswissenschaftliche Fakultät, Kaunas 2009, ISBN 978-9955-33-413-2 (PDF; 929 kB).

DVD-ROM

Bernhard Richter, Matthias Echternach, Louisa Traser, Michael Burdumy, Claudia Spahn: Die Stimme. Einblicke in die physiologischen Vorgänge beim Singen und Sprechen. 2017, Helbling, DVD-ROM.

Weblinks

Wiktionary: Formant – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Vokaldreieck – Frequenzlage der ersten beiden Formanten. (PDF; 178 kB).
Formanten prägen die Klangfarbe. (PDF; 22 kB).
Das Lesen von Sonagrammen – Vokale und Formanten.
On the Importance Of Formants In Pitch Shifting. (Engl.).
Walter F. Sendlmeier, Julia Seebode: Formantkarten des deutschen Vokalsystems. (PDF; 388 kB). TU Berlin, Institut für Sprache und Kommunikation.
Tanja Schultz, Michael Wand: Biosignale und Benutzerschnittstellen. Biosignal: Sprache. Produktion, Perzeption, Eigenschaften. (Memento vom 8. Oktober 2019 im Internet Archive). (PDF; 2,3 MB). Vorlesung WS 2012/2013, Universität Karlsruhe.

Einzelnachweise

↑ Artikulation. Modifikation des Luftstroms. Teil A. Konsonanten, Phonetik. (PDF; 711 kB), Universität München, abgerufen am 6. Mai 2020.
↑ Siehe z. B. Fabian Bross: Grundzüge der Akustischen Phonetik. In: Helikon. A Multidisciplinary Online Journal. Band 1, 2010, S. 101 f. (helikon-online.de [PDF; 1,2 MB; abgerufen am 6. Mai 2020]).
↑ Alexander Berghaus, Gerhard Rettinger, Gerhard Böhme: Hals-Nasen-Ohren-Heilkunde. Hippokrates, Stuttgart 1996, ISBN 3-7773-0944-3, K. Phoniatrie und Pädaudiologie, 1.1.2 Untersuchungsmethoden, S. 649 (archive.org [PDF; abgerufen am 28. Juni 2020]).
↑ Nach Christian Lehmann: Die Sprachlaute I: Vokale. 19. April 2019, abgerufen am 6. Mai 2020.
↑ Bernhard Richter, Matthias Echternach, Louisa Traser, Michael Burdumy, Claudia Spahn: Die Stimme. Einblicke in die physiologischen Vorgänge beim Singen und Sprechen. 2017, Helbling, ROM-DVD.

[1] Artikulation. Modifikation des Luftstroms. Teil A. Konsonanten, Phonetik. (PDF; 711 kB), Universität München, abgerufen am 6. Mai 2020.

[2] Siehe z. B. Fabian Bross: Grundzüge der Akustischen Phonetik. In: Helikon. A Multidisciplinary Online Journal. Band 1, 2010, S. 101 f. (helikon-online.de [PDF; 1,2 MB; abgerufen am 6. Mai 2020]).

[3] Alexander Berghaus, Gerhard Rettinger, Gerhard Böhme: Hals-Nasen-Ohren-Heilkunde. Hippokrates, Stuttgart 1996, ISBN 3-7773-0944-3, K. Phoniatrie und Pädaudiologie, 1.1.2 Untersuchungsmethoden, S. 649 (archive.org [PDF; abgerufen am 28. Juni 2020]).

[4] Nach Christian Lehmann: Die Sprachlaute I: Vokale. 19. April 2019, abgerufen am 6. Mai 2020.

[5] Bernhard Richter, Matthias Echternach, Louisa Traser, Michael Burdumy, Claudia Spahn: Die Stimme. Einblicke in die physiologischen Vorgänge beim Singen und Sprechen. 2017, Helbling, ROM-DVD.

[1]

[2]

[3]

[4]

[5]