1.    De Speech Transmission Index (STI)

De "speech transmission index" STI is de meest gebruikte grootheid om de spraakverstaanbaarheid te karakteriseren. De eerste schetsen werden in de vakpers gegeven in 1973 [[1]] en de bedoeling was in eerste instantie om een maat toe te kennen aan "spraakkanalen". Dat is bijvoorbeeld een telefoonverbinding of een toespreekinstallatie, maar ook een zaal voor spraak kan als een spraakkanaal worden beschouwd. Ondertussen heeft de maat zich verder ontwikkeld; het is thans ook mogelijk om STI te voorspellen met behulp van ray-tracingmodellen als een zaal zich nog op de tekentafel bevindt. Desondanks moet nog steeds worden gesteld dat de kracht van de methode eerder ligt bij de metingen aan een zaal dan bij de berekeningen vooraf; in eenvoudige berekeningen tijdens de ontwerpfase is de methode minder geschikt.

Naar onze ervaring zijn er niet veel (aankomende) architecten die de methode begrijpen; de uitleg in de vakpers is ook meestal gericht tot fysici. Om toch een poging te wagen voor architecten is de huidige webpagina geschreven. In de volgende theoriepagina (B.22.4) zullen de gevorderden worden bediend.

 

2.    Enkele eigenschappen van spraak

Figuur 1 geeft een voorbeeld van de geluiddruk als functie van de tijd. Het gaat om het woord "Thomas" dat ongeveer 0.3 seconde duurt.

Figuur 1:  De jongensnaam "Thomas" gesproken in 0.3 s. De verticale as geeft de geluiddruk [[2]].

 

Het tonale karakter van de letters "o", "m" en "a" is duidelijk te zien tussen 0.05 en 0.20 s. De toon ontstaat door de basistoon van 200 Hz die door de stembanden wordt geproduceerd. Daar bovenop komen de boventonen, veroorzaakt door de mondholte, die de uiteindelijke klank bepalen. De laatste letter "s" heeft een zichtbaar ruisachtig karakter, getuige de geluiddruk tussen 0.2 en 0.3 s.

De klemtoon valt op de eerste lettergreep, hetgeen zich uit in een wat grotere amplitude aan het begin van het woord.

 

In figuur 2 wordt een complete zin gegeven, zodat de tijdsduur stijgt van 0.3 naar 4.9 s. De zin begint met het woord "Thomas", maar de tijdas is dusdanig in elkaar geschoven dat het tonale karakter in dit soort figuren wel aanwezig is, maar door het uitzoomen niet meer te zien. Het meest opvallende aan figuur 2 is nu de "modulatie" van het signaal. Steeds wisselt de sterkte van de spraak. Die modulatie kan uit het signaal worden gedestilleerd door opzettelijk de fijnstructuur van figuur 2 eruit te filteren. Dat effect is te zien in figuur 3.

Figuur 2:  De zin "Thomas en Jasper zijn tweeling. Twee broertjes en allebei vijf jaar. Ze zijn dus een tweeling".

Het tonale karakter gaat verloren, maar als we weer inzoomen naar de tijdas van figuur 1, komt op vele plaatsen het tonale karakter van spraak tevoorschijn.

 

Figuur 3:  De pieken en dalen ("modulatie") van de geluiddruk uit figuur 2. Het tonale karakter is verdwenen [[3]].

 

Zoals te zien is in figuur 3 zit er een zekere regelmaat in spraak. We zien bijna 20 pieken in 5 s, oftewel 4 modulaties per s, dus 4 Hz. Houtgast en Steeneken hebben daar uitgebreid onderzoek naar gedaan en komen tot figuur 4, waarbij de modulatiefrekwenties lopen van 0.3 tot 20 Hz met een piek rond 4 Hz. We dienen ons te realiseren dat het figuurtje "normale" spraak geeft. Mensen kunnen bewust langzamer spreken. Voorbeelden zijn leerkrachten in klassen met jonge kinderen en sprekers in een galmende kerk. De curven schuiven dan naar links in de figuur.

Figuur 4:  De modulatiefrekwenties in menselijke spraak. Gekopieerd uit het oorspronkelijke artikel van Steeneken en Houtgast [[4]].

 

3.    Spraak in ruis

Het voorgaande stukje spraak is opgenomen in een dode kamer met excellente akoestische condities; thans zal hier ruis aan worden toegevoegd. Figuur 5 geeft het beeld van 5 s ruis van een zeer constante ruisbron; ook hier kunnen we weer fijnstructuur zien als we inzoomen [[5]].

Figuur 5:  De geluiddruk van een signaal dat we waarnemen als constante ruis.

Figuur 6:  Sommering van de signalen uit figuur 2 en 5 tot "spraak in ruis".

 

De spraak uit figuur 2 kan worden gesommeerd met de ruis uit figuur 5 tot één signaal "spraak in ruis". Dat signaal wordt getoond in figuur 6. Uiteraard kan ook van dat signaal weer een figuur worden gemaakt die de modulaties laat zien. Het resultaat staat in figuur 7. Daar worden de modulaties van de signalen met ruis (in rood) vergeleken met die van spraak zonder ruis uit figuur 3 (in blauw). De achtergrond van STI is nu dat:

  1. de diepte van de modulaties in het rode geval met ruis veel minder is dan in het ideale blauwe geval,

  2. dat die modulatiediepte correleert met de spraakverstaanbaarheid,

  3. dat daaruit een numerieke maat voor de spraakverstaanbaarheid kan worden afgeleid.

Figuur 7:  Twee spraaksignalen vergeleken. In blauw het signaal zoals reeds gegeven in figuur 3. In rood staat de modulatie van de spraak in ruis zoals getoond in figuur 6.

 

4.    Spraak in nagalm

Ook in een galmende ruimte verandert de modulatie van spraak. Een voorbeeld daarvan wordt gegeven in figuur 8 waar precies hetzelfde zinnetje als boven wordt uitgesproken in een sterk galmende ruimte.

Figuur 8:  De zin "Thomas en Jasper zijn tweeling. Twee broertjes en allebei vijf jaar. Ze zijn dus een tweeling"; geregistreerd in een sterk galmende ruimte. Er is geen ruis toegevoegd.

 

Figuur 9:  De modulatie van het signaal uit figuur 8.

 

Als figuur 9 wordt vergeleken met de rode curve uit figuur 7 zien we wel degelijk verschillen. In figuur 7 zijn vrijwel vlakke minima te zien; in figuur 9 zien we enigszins de afvallende galmcurve terug [[6]]. Maar als wordt aangenomen dat de spraakverstaanbaarheid lijdt onder een verlies aan modulatiediepte, lijken de figuren 7 (rode curve) en figuur 9 sterk op elkaar. Omdat de modulatiediepte in STI maatgevend is worden ruis en nagalm in deze methode daarom hetzelfde behandeld.

 

5.    Een STI-meting in een ruimte

5.1    Het testsignaal

STI is ontwikkeld als een meetinstrument voor de kwaliteit van een transmissiekanaal tussen een spreker en een luisteraar. In deze website wordt STI aangewend om het spraakverstaan in een ruimte te kwantificeren. Maar lopende spraak, als gebruikt in de voorgaande voorbeelden, is uiteraard geen goed meetsignaal: er is te veel variatie binnen spraak en tussen sprekers. Daarom worden in de praktijk goed gedefinieerde meetsignalen toegepast.

Een voorbeeld van een testsignaal staat in figuur 10. De modulatie van het signaal is daar gegeven door een sinus met een periode van 0.1 s (dus 10 Hz) die steeds wordt herhaald. Het "spraaksignaal" dat wordt gemoduleerd bestaat uit een oktaafband ruis rond 500 Hz. De centrale frekwentie van 500 Hz is min of meer in het signaal te zien. In figuur 11 staat een signaal getekend waaraan weer (net als boven) ruis aan het testsignaal is toegevoegd.

Figuur 10:  Een oktaafband ruis rond 500 Hz representeert één deel uit het totale spectrum van de menselijke spraak. Het signaal wordt gemoduleerd met een signaal van 10Hz dat model staat voor de sterktevariaties in menselijke spraak.

 

Figuur 11:  Het testsignaal van figuur 10 als ruis wordt toegevoegd.

 

De signalen uit figuur 10 en 11 zien er nog wat stochastisch uit, maar het is nu zeer goed mogelijk om de modulatie eruit te halen. Dat is te zien in figuur 12. De nauwkeurigheid neemt nog verder toe als het signaal een aantal malen wordt herhaald. De resulterende curve leent zich uiteraard veel beter voor verwerking dan de curven uit de figuren 7 en 9.

Figuur 12:  De modulaties die zijn afgeleid uit de testsignalen van de figuren 10 (rode curve) en 11 (in blauw).

 

5.2    De modulation transfer function (mtf)

De volgende stap in de berekening van STI is om een maat af te leiden uit de curven van figuur 12. Daartoe wordt de "modulation transfer function" m berekend volgens de methode uit figuur 13 [[7]]. De curven moeten dan eerst worden genormaliseerd rond de gemiddelde waarde die per definitie als 1 wordt gekozen.

Figuur 13:  Aan de modulaties uit figuur 12 worden de grootheden m en 1-m toegekend.

 

In de STI-methode wordt vervolgens een logaritmische waarde gekozen. De ontwikkelaars noemden die waarde SNR [[8]], gedefinieerd als:

 

(1)

Als m = 0.5 vinden we dus SNR = 0 dB. Bij ideale overdracht is m gelijk aan 1 en wordt SNR oneindig groot. Als m = 0 ontbreekt iedere modulatie en is SNR gelijk aan minus oneindig. Echter, in de praktijk betekent een waarde van SNR = 15 dB dat ruis of galm onder de lopende spraak vrijwel onhoorbaar is en omgekeerd verdwijnt de spraak geheel in ruis of galm bij een waarde van SNR = -15 dB. Daarom wordt in de STI-methode alleen de range tussen -15 en +15 dB gebruikt om de verstaanbaarheid van spraak te karakteriseren.

 

Per definitie wordt aan STI een getal tussen 0 en 1 toegekend, respectievelijk bij SNR = -15 en +15 dB. De conversieformule is simpelweg lineair. We noemen het resultaat TI:

 

(2)

Overigens wordt in veel gevallen (ook in het oorspronkelijke artikel) de waarde uitgedrukt in procenten door TI met 100 te vermenigvuldigen.

 

5.3    De berekening van of STI

Het voorbeeld in de voorgaande sectie stoelt op twee frekwenties: 500 Hz om de spraakfrekwenties te vast te leggen en 10 Hz voor de modulatie. Maar beide frekwenties zijn slechts een deel van het totale spectrum; de spraakfrekwenties lopen (bij mannen) van 125 tot 8000 Hz; de modulatiefrekwenties volgens figuur 4 van 0.3 tot 20 Hz. Daarom is de grootheid uit formule (2) aangegeven met TI en zou de aanduiding TI(10, 500) vollediger zijn.

Om van een set TI-waarden tot één STI-waarde te komen wordt gebruik gemaakt van een tabel zoals tabel 1 [[9]]. Er zijn 14 × 7 TI-waarden. In verticale richting wordt een lineair gemiddelde berekend over alle modulatiefrekwenties. Echter, horizontaal vindt er een weging plaats om tot één waarde van STI te komen. De oktaafbanden van 2000 en 4000 Hz worden zwaarder geteld omdat die frekwenties belangrijker zijn voor de spraakverstaanbaarheid.

 

Tabel 1:  De verwerking van 98 TI-waarden tot één waarde van STI (onderste rij). In verticale richting worden lineaire gemiddelden berekend. Over de spraakfrekwenties wordt gewogen gemiddeld om te benadrukken dat de belangrijkste oktaafband die van 2000 Hz is.

 

spraakfrekwenties  [Hz]

 

125

250

500

1000

2000

4000

8000

Modulatie-frekwenties

(Hz]

 

 

 

 

 

 

 

0.63

0.58

0.60

0.62

0.63

0.67

0.65

0.65

0.8

0.57

0.59

0.60

0.62

0.66

0.65

0.65

1.0

0.55

0.58

0.59

0.61

0.66

0.64

0.64

1.25

0.53

0.56

0.58

0.59

0.65

0.63

0.63

1.6

0.51

0.54

0.56

0.57

0.63

0.61

0.61

2.0

0.50

0.53

0.54

0.56

0.62

0.60

0.60

2.5

0.49

0.51

0.53

0.54

0.60

0.58

0.58

3.15

0.47

0.50

0.51

0.53

0.59

0.57

0.57

4.0

0.47

0.49

0.50

0.52

0.58

0.56

0.56

5.0

0.46

0.48

0.50

0.51

0.57

0.55

0.55

6.3

0.46

0.48

0.49

0.51

0.56

0.54

0.54

8.0

0.46

0.48

0.49

0.50

0.56

0.54

0.54

10.0

0.45

0.48

0.49

0.50

0.55

0.53

0.53

12.5

0.45

0.47

0.49

0.50

0.55

0.53

0.53

 

 

 

 

 

 

 

 

gemiddelde

0.50

0.52

0.53

0.55

0.60

0.58

0.58

 

 

 

 

 

 

 

 

weegfactoren

0.13

0.14

0.11

0.12

0.19

0.17

0.14

 

 

 

 

 

 

 

 

STI

0.56

 

 

5.4    Goed en slecht in de akoestiek

De ontwikkelaars van STI hebben hun methode gebaseerd op een groot aantal metingen van de spraakverstaanbaarheid met proefpersonen die gesproken woorden of zinnen moesten herkennen . Een paar van de resultaten zijn eigenlijk al genoemd. De relatie tussen spraakverstaanbaarheid en mtf, het lineaire verband tussen SNR en STI en de wegingsfactoren uit tabel 1 steunen allemaal op dit onderzoek.

Maar er is nog een belangrijke stap gezet door langs de STI-schaal ook normatieve uitspraken uit te zetten. Dat staat in tabel 2.

 

Tabel 2:  De waarden van STI onderverdeeld naar waardeoordelen voor de spraakverstaanbaarheid in een ruimte.

STI < 0.30

0.30 < STI < 0.45

0.45 < STI < 0.60

0.60 < STI < 0.75

STI > 0.75

slecht

matig

redelijk

goed

uitstekend

bad

poor

fair

good

excellent

 

 

6.    Hoe verstaat men een preek in een galmende kerk?

Bij galm die afvalt volgens een ideale exponentiële curve kan men de overdracht door een ruimte voorstellen als een "eerste-orde laagdoorlaat-filter". In de volgende webpagina B.22.4 wordt hier veel dieper op ingegaan. Het "kantelpunt" van het filter. waar de verzwakking 3 dB bedraagt ligt bij:

 

(3)

Het filter werkt op de modulaties van spraak. De modulatiefrekwenties onder F-3dB worden ongehinderd doorgelaten, maar naarmate de modulatiefrekwentie toeneemt wordt het doorgelaten signaal steeds zwakker. Indien een nagalmtijd van 0.5 s wordt ingevuld in formule (43, vinden we F-3dB = 4.4 Hz en dus wordt de belangrijkste frekwentie uit figuur 4 al met ca. 3 dB verzwakt. Om die reden zou men dus ook nooit nagalmtijden groter dan 0.5 s in een schoolklas moeten toepassen.

 

Figuur 14 toont de invloed van galm op de curve die in figuur 4 al was gegeven voor de spraakband van 2000 Hz. Indien een nagalmtijd van 0.5 s wordt toegevoegd (blauwe lijn) worden de modulaties bij 4.4 Hz 3 dB verzwakt (de blauwe punt). Onder die frekwentie is het effect gering, daarboven begint het aardig door te tikken. Bij RT = 2 s wordt de modulatiecurve verzwakt vanaf 1.1 Hz; het oorspronkelijke maximum bij 3 à 4 Hz raakt geheel zoek.

Figuur 14:  De invloed van nagalm op de modulaties in spraak. De blauwe en rode punt geven de punten waarbij de verzwakking 3 dB is t.o.v. de zwarte lijn [[10]].

 

Volgens figuur 14 kan het dus ook helpen om de modulatiefrekwenties te verlagen door langzamer te spreken. En dat is nu juist wat een spreker in een kerk al eeuwen doet. De STI-methode voorziet overigens niet in dit soort aanpassingen; de methode is voor "normale" sprekers en "normale" luisteraars [[11]].

 

 

 


[1]     T. Houtgast, H. J. Steeneken, "Modulation Transfer-Function in Room Acoustics as a Predictor of Speech Intelligibility", Acustica, 28 pp. 66-73, 1973.

[2]     De sterkte langs de as komt ongeveer overeen met de werkelijke geluiddruk. Een effectieve geluiddruk van 20 mPa komt overeen met 60 dB; de figuur leidt tot een effectieve geluiddruk die daar wat onder ligt. Maar zoals steeds bij spraakverstaanbaarheidsmaten valt de geluiddruk er uiteindelijk uit zodat een nauwkeurige ijking niet noodzakelijk is.

[3]     Er is eigenlijk nog een tussenstap waarbij de geluiddruk wordt gekwadrateerd; die is verder niet van belang voor de uitleg van de methode.

[4]     Steeneken, H.J.M. & T. Houtgast, "A physical method for measuring speech transmission quality". Journ. Acoust. Soc. Am, 67, pp. 318-326, 1980.

[5]     De frekwentiekarakteristiek van de gebruikte ruis heeft een zwaartepunt bij 500 Hz, net als bij spraak. Meestal vertoont spraak meer fluctuaties, maar als we de achtergrondspraak in een druk restaurant beluisteren, horen we een steeds constanter geluidniveau als het aantal gelijktijdige gesprekken toeneemt.

[6]     Het effect is overigens lang niet zo duidelijk als we zouden verwachten op grond van wat we horen. Het is daarom ook nooit gelukt om de nagalmtijd van een ruimte te meten met behulp van spraak of muziek.

[7]     De modulation transfer function wordt het meest gebruikt in de optica om de kwaliteit van lenzen weer te geven. Zwarte en witte lijnen worden door lenzen als donkergrijs en lichtgrijs weergegeven en het verschil tussen die twee geeft een overeenkomstig verlies van modulatie.  

[8]     Dat heeft nogal ongelukkig uitgepakt. SNR staat meestal voor signal-to-noise-ratio. Dat is het hier ook wel ongeveer, maar later wordt een "echte" signaal-ruis-verhouding gebruikt om de sterkte van spraak in omgevingsruis te definiëren en die wordt dan SN genoemd. Het blijkt in de praktijk niet iedereen gegeven om de begrippen goed uit elkaar te houden.

[9]     Een probleem van STI is dat er nogal wat verschillende tabellen zijn met verschillende grootte en verschillende weegfactoren. Bovendien is er in de loop der jaren ook nog eens aan gesleuteld. Een overzicht staat in het normblad "IEC 60268-16, 2003-05". Het vermoeden bestaat dat dat het meest recente overzicht geeft.

[10]    De methode lijkt dus ook een relatief simpele STI-berekening mogelijk te maken in galmende ruimten. Echter, in werkelijke ruimten speelt heel vaak het directe geluid een rol, waardoor slechts bij uitzondering aan de voorwaarde van de zuiver exponentiële uitklinkcurve wordt voldaan. 

[11]    Kinderen onder 12 jaar zijn geen "normale" luisteraars. Aan de andere kant zijn leerkrachten geen "normale" sprekers; tot leerlingen spreken zij wat trager dan gebruikelijk. Het is nog volstrekt onduidelijk of het ene effect het andere opheft.

 

 

An error has occurred. This application may no longer respond until reloaded. Reload 🗙