1.    De invloed van galm op de spraakverstaanbaarheid

1.1    Het stralenmodel en de theoretische pulsresponsie

In webpagina B.1 is een introductie gegeven van het stralenmodel zoals dat met veel vrucht wordt gebruikt in de zaalakoestiek. Daarbij behoorden de volgende figuren ter verduidelijking.

 

Figuur 1:  De stralengang in een ruimte. Als voorbeeld zijn er links slechts drie getekend. Het aantal mogelijkheden is echter oneindig. Bij de reflectie tegen een wand wordt nog verondersteld dat geen geluidenergie verloren gaat.

Herhaling van figuur 5 uit pagina B.1.

 

Het directe geluid tussen de geluidbron en de mikrofoon is in dit model onafhankelijk van de ruimte. In de rechter figuur staat het (theoretische) mikrofoonsignaal als de geluidbron een "puls" laat horen; een klap in de handen of een schot met een alarmpistool zijn voorbeelden van zo'n puls. Eerst arriveert het directe geluid (het heeft de kortste afstand, dus de kortste looptijd), daarna komen (in groen) successievelijk de geluidpulsen die hebben gereflecteerd tegen één of meer wanden. De amplitude van de pulsen wordt steeds kleiner, enerzijds omdat de afgelegde afstand steeds groter wordt, anderzijds omdat absorptie optreedt bij reflectie tegen een wand.

 

In webpagina B.6 is zeer kort iets verteld over de spraakverstaanbaarheid in relatie tot de pulsresponsie als gegeven in figuur 1-rechts. Ons gehoor kan de pulsen uit figuur 1 niet afzonderlijk horen. Naburige pulsen worden energetisch gesommeerd en we horen een puls met galm. Die sommering is van nut bij het verstaan van spraak. De "vroege" pulsen worden bij het directe geluid gevoegd, verhogen het vermogen en worden beschouwd als "nuttige" energie. De "latere" pulsen storen de spraakverstaanbaarheid; de spreker is al aan een volgende klank bezig als de voorgaande nog door de ruimte galmt. De grens tussen nuttig en storend ligt in de orde van de hoogste frekwentie in de spraakmodulatie. Wij kunnen met tien klanken per seconde spreken; de bovengrens van de spraakmodulaties wordt gelegd bij ca. 20 Hz. Omgekeerd betekent dat dat de grens voor de spraakverstaanbaarheid meestal bij 1/20-ste seconde wordt gelegd, of in jargon: 50 ms (milliseconde) [[1]].

 

1.2    De invloed van geluidabsorberende materialen in de ruimte

Figuur 2: Voor de spraakverstaanbaarheid wordt onderscheid gemaakt tussen "nuttige energie", die binnen 0.05 s arriveert bij de luisteraar en "storende energie" die na die tijd binnen komt. De rode plus de blauwe pulsen horen bij een galmende ruimte; de groene pulsen gelden wanneer absorptie is toegevoegd; de rode puls blijft dan ongewijzigd.

Gedeeltelijke herhaling van figuur 2 uit pagina B.6 [[2]], [[3]]

 

Figuur 2 laat zien welke invloed de aanwezigheid van absorptie in de ruimte heeft op de pulsresponsie. In het groene geval is meer absorptie in de ruimte aanwezig dan in het blauwe geval.

We zien dus de volgende effecten:

  • Het directe geluid is onafhankelijk van de absorptie in de ruimte. Alleen als een spreker zachter of harder gaat praten verandert het direct in sterkte. We zullen het directe spraakvermogen aanduiden met D.

  • Het vroege vermogen, arriverend binnen 50 ms, duiden we aan met V. Die waarde daalt als er absorptie wordt toegevoegd.

  • Het late vermogen noemen we L. Ook dat daalt bij toevoeging van absorptie (en dus afname van de nagalm), maar die daling groter is dan bij V. De verhouding tussen V en L bepaalt in hoge mate de spraakverstaanbaarheid en die stijgt bij toevoeging van absorptie.

  • Het totale vermogen van vroeg plus laat zullen we T noemen. Er geldt dat T gelijk is aan de som van V en L.

 

1.3    De afstand tussen bron en waarnemer

Als geluidbron en/of mikrofoon worden verplaatst, verandert het beeld van de pulsresponsie. De theorie voorspelt dat de waarde van het direct D verandert met de afstand. Het beeld van de pulsen verandert wel, maar de waarden van V, L en T blijven volgens de Sabine_Franklin-Jaeger-theorie gelijk [[4]].

Echter, V, L en T veranderen juist weer wel als de absorptie van de ruimte wordt gewijzigd. Het totale effect wordt getoond in figuur 3 voor een ruimte ter grootte van een klaslokaal. Daarin staat het direct D uitgezet plus de totale energie T. De grootheden V en L ontbreken, maar zullen in latere figuren nog aan de orde komen.

Figuur 3:  Het directe geluid (in rood) plus de totale energie (in groen) als functie van de afstand door de ruimte. Het direct varieert wel met de afstand, de totale energie niet. De afmetingen van de ruimte zijn 8.00 × 6.25 × 3.20 m3; dat is ongeveer de grootte van een klaslokaal. De gemiddelde absorptiecoëfficiënt is gegeven als parameter; die heeft juist weer wel invloed op de totale energie, maar niet op het direct.

 

2.    Vroeg en laat geluid

2.1    De vroeg-laat-verhouding en de invloed van de nagalmtijd

Een deel van de spraakverstaanbaarheid wordt bepaald door de verhouding tussen het vroege vermogen V en het late vermogen L. Die verhouding is vrij nauwkeurig te schatten uit de nagalmtijd [[5]]. Tabel 1 geeft daarvan een voorbeeld.

 

Tabel 1:  De totale energie in het diffuse veld kan worden onderverdeeld in vroeg en laat vermogen. Kolommen 2 en 3 geven het percentage van de totale energie (dus samen 100%). De enige grootheid die daar invloed op heeft is de nagalmtijd (kolom 1) [[6]]. De verhouding tussen vroeg en laat vermogen kan worden uitgedrukt in dB's volgens de gebruikelijke berekening (kolom 4).

De meest rechtse kolom geeft de absorptiecoëfficiënt alfa berekend uit de nagalmtijd. Daartoe moeten da afmetingen van de ruimte bekend zijn; hier is gerekend met 8.00 × 6.25 × 3.20 m3. Twee waarden van alfa worden in het vervolg van dit verhaal meerdere malen gebruikt en zijn hier in rood gemarkeerd.

Nagalmtijd  [s]

vroeg
vermogen  [%]

laat
vermogen  [%]

verhouding
vroeg-laat  [dB]

alfa  [%]
in schoollokaal

8

8

92

-10.5

1.7

4

16

84

-7.3

3.3

2

29

71

-3.9

6.6

1.65

34

66

-2.9

8.0

1

50

50

0.0

13.2

0.7

63

37

2.3

18.9

0.5

75

25

4.7

26.5

0.4

82

18

6.6

33.1

0.41

81

19

6.3

32.0

0.3

90

10

9.5

44.1

0.2

97

3

14.8

66.2

 

In figuur 4 wordt een voorbeeld uitgewerkt voor het eerder genoemde klaslokaal van 8.00 × 6.25 × 3.20 m3 als dat een absorptiecoëfficiënt heeft van 8%. Dat komt dus overeen met een nagalmtijd van 1.65 s. Volgens de berekening is het vroege vermogen 2.9 dB zachter dan het late geluid.

Figuur 4:  Een voorbeeld van de onderverdeling van D (direct geluid), T (totaal diffuus geluid), V (vroeg geluid) en L (laat geluid) in een ruimte met afmetingen 8.00 × 6.25 × 3.20 m3; dat is ongeveer een klaslokaal. De gemiddelde absorptiecoëfficiënt bedraagt 8%, hetgeen zeer laag is voor een klaslokaal. De bijbehorende nagalmtijd is 1.6 s.

 

Later zullen we nader ingaan op de eisen voor goede spraakverstaanbaarheid, maar hier wordt reeds gesteld dat de situatie uit figuur 4 model staat voor een zeer matige tot slechte spraakverstaanbaarheid.

 

Figuur 5 geeft een iets andere presentatie van de grootheden. Het directe deel D en de vroege energie V zijn samengevoegd. De totale energie T is weggelaten, want die speelt voor de berekening van de spraakverstaanbaarheid geen rol. Er komen dan mogelijkheden naar voren om de spraakverstaanbaarheid op te voeren:

 

  • Het nuttig spraakvermogen bestaat uit de som van het directe vermogen en het vroege geluid. Binnen een straal van ca. 1 m (linker figuur) is de som van het directe plus het vroege vermogen groter dan het late vermogen. Dan is de spraakverstaanbaarheid niet echt goed, maar het is wel acceptabel. Het naderen van een geluidbron voor een betere spraakverstaanbaarheid is dan ook een zeer veel gebruikte truc in de praktijk van alledag.

  • Zoals zo vaak helpt het ook hier om de hoeveelheid absorptie drastisch op te hogen. Dat toont de rechter figuur waar de gemiddelde absorptiecoëfficiënt is opgevoerd tot 32%. Overal in het klaslokaal is het verschil nu groter dan 6 dB. Dat is ongeveer de grens tussen "goede" en "uitstekende" spraakverstaanbaarheid. Terugrekenend betekent dat een nagalmtijd van 0.41 s.

 

 

Figuur 5:  De verdeling van nuttige en storende energie in een tamelijk galmend klaslokaal (links) en in een goed gedempte ruimte (rechts). De afmetingen van de ruimte zijn 8.00 × 6.25 × 3.20 m3.

 

2.2    C50 als maat voor de spraakverstaanbaarheid

Er zijn velerlei maten voor de spraakverstaanbaarheid, waarvan er maar een paar zullen worden behandeld. De eerste die we nu kunnen afleiden uit figuur 5 is C50. Die geeft het verschil tussen "direct + vroeg" enerzijds en "laat geluid" anderzijds. Figuur 6 toont het in een voorbeeld.

Figuur 6:  De grootheid C50 voor de spraakverstaanbaarheid afgeleid uit de curven van figuur 5-rechts.

 

De grootheid C50 is afgeleid van een oudere Duitse waarde D50, hetgeen staat voor "Deutlichkeit". Die geeft de verhouding van het totale vroege vermogen (direct + vroeg) ten opzichte van het totale vermogen van direct plus diffuus. Daarmee is D50 automatisch een getal tussen 0 en 1. Er wordt daarop geen logaritmisering toegepast zoals dat wel bij C50 het geval is. In de praktijk werkt C50 net wat handiger en om die reden wordt die waarde in de praktijk ook vaker gevonden.

 

2.3    De absolute waarden spelen geen rol?

Indien een spreker luider gaat spreken verandert er niets aan C50 en D50. Alle waarden in de voorgaande figuren 4, 5 en 6 gaan nl. met hetzelfde aantal dB's omhoog en het verschil, zoals getoond in figuur 6 blijft dus onveranderd.

Deze conclusie lijkt strijdig met de dagelijkse ervaring; indien iemand steeds zachter gaat praten ervaren we immers een afnemende spraakverstaanbaarheid. De reden is dat er op heel lage geluidniveaus altijd wel wat ruis aanwezig is. Verder naderen we dan de gehoordrempel, die in dit model ook als een soort ruisbron mag worden beschouwd. Maar als we erin slagen een zeer laag achtergrondniveau te verwezenlijken (een lege sporthal in de nacht) blijkt C50 wel degelijk constant.

 

3.    De invloed van stoorbronnen

3.1    De introductie van U50

Tot nu toe werd ervan uitgegaan dat de "eigen" galm van de spreker de spraakverstaanbaarheid stoort. Maar er is een tweede fenomeen dat roet in het eten gooit: ruis/stoorgeluid. Er zijn uiteraard velerlei soorten ruis. Een zacht zoemende ventilatie in een schoollokaal stoort meestal nauwelijks, maar de nabijheid van een autoweg of een vliegveld kan tot grote problemen leiden.

In aanwezigheid van ruis is het gebruikelijk om over te gaan van C50 naar U50 door het vermogen van de ruis op te tellen bij het vermogen van het late geluid van de spreker. Figuur 7 toont de werkwijze voor de eerder gegeven ruimte met een absorptiecoëfficiënt van 32%. Stel nu dat er door de gehele ruimte een ruisniveau heerst van 48 dB [[7]]. Dan is de logaritmische som van 48 en 49.7 (het late geluid uit de figuren 5-rechts en 6) gelijk aan 51.9 dB. Dat wordt in de figuur "ruis+laat geluid 32%" genoemd. Ten opzichte van deze waarde wordt nu U50 berekend en die is dus altijd kleiner dan C50.

Figuur 7:  Het verschil tussen C50 en U50. De eerste geldt in een ruimte zonder ruis, de tweede geldt als ruis wordt toegevoegd.

De toevoeging 32% voor de absorptiecoëfficiënt is essentieel, ook voor het ruissignaal. We zagen in figuur 5 al dat de spraakverstaanbaarheid in een ruimte met 8% een stuk slechter is. Maar meestal gaat dan ook het ruisniveau omhoog. Als de ruis wordt veroorzaakt door een ventilatiesysteem gaat het geluidniveau van 48 naar 54 dB bij de overgang van 32 naar 8% [[8]].

 

3.2    Nu doet het niveau van de spreker wel ter zake

In hoofdstuk 2, waar alleen de galm als storend werd beschouwd, deed het absolute geluidniveau van de spraak niet ter zake, omdat het slechts om de onderlinge verhouding van de vermogens ging. Nu echter zijn de sterkte van de spraak en de sterkte van de ruis onafhankelijk. Als er dus veel ruis is, kan de spreker luider spreken om U50 op te voeren. Een spreker kan zelfs gaan schreeuwen. Problemen doemen dan op wanneer een spreker zijn/haar stem veelvuldig moet verheffen. Dat kan zeer vermoeiend zijn en is dus vaak een belangrijke reden om het ruisniveau te beperken.

 

4.    Andere maten voor de spraakverstaanbaarheid

4.1    Voor- en nadelen; lood om oud ijzer?

Er zijn nog ander maten dan U50 in omloop voor de spraakverstaanbaarheid, waarvan er hier een paar worden genoemd. Alle maten hebben hun voor- en nadelen, maar in de praktijk blijkt het allemaal niet zo belangrijk welke wordt gekozen. Bij het vergelijken van meetuitkomsten blijkt de correlatie tussen de verschillende maten altijd buitengewoon hoog en het is dan vaak een kwestie van "gewoonte" welke maat het meest in aanmerking komt [[9]].

 

4.2    STI

De "speech transmission index" STI is waarschijnlijk de belangrijkste maat voor de spraakverstaanbaarheid. Er ligt veel onderzoek aan ten grondslag en de hele akoestische wereld kent de maat. Bovendien is er een koppeling tussen de waarde die uit een STI-meting rolt en de "kwaliteit" van de spraakverstaanbaarheid. In een volgende webpagina (B.22.1) wordt die koppeling nader toegelicht. Verder is er een aparte webpagina "B.22.3 STI voor beginners" om de achtergronden uiteen te zetten. Om in voorkomende gevallen toch een voorspelling van STI te kunnen doen als de nagalmtijd bekend is, is webpagina  "B.22.4 STI voor gevorderden" geschreven.

Als de pulsresponsie bekend is (figuur 1-rechts), is de numerieke bepaling van STI goed te doen. Dat gebeurt automatisch in sommige meetprogramma's, maar ook een ray-tracing-programma levert betrouwbare STI-waarden.

Zodra we in deze website resultaten publiceren van een ray-tracing-programma gebruiken we vrijwel altijd STI. Als het wat simpeler kan, hebben C50 en U50 onze voorkeur. In webpagina B.22.1 wordt de zeer hoge correlatie tussen STI en U50 nader toegelicht, zodat het er ook eigenlijk niet zo veel toe doet welke grootheid wordt gekozen.

 

4.3    Alcons

In 1971 publiceerden Peutz en Klein hun methode "Articulation Loss of Consonants" [[10]]. Die methode was bedoeld om een berekening te kunnen maken voor een zaal in het tekentafelstadium [[11]]. De methode wijkt eigenlijk nauwelijks af van de methode voor C50 zoals die boven is gegeven, maar de bijbehorende getallen worden anders berekend. Een getal tussen 0 en 3% betekent  bijvoorbeeld dat er nauwelijks verlies van consonanten is waardoor de spraakverstaanbaarheid uitstekend is.

Alcons wordt in de praktijk redelijk vaak gebruikt, merkwaardigerwijs in Amerika meer dan in Europa; men komt het nogal eens tegen bij diegenen die in een zaal een versterkerinstallatie moeten adviseren en/of installeren.

 

4.4    AI

De "Articulation Index" is in Amerika ontwikkeld [[12]]. Deze maat houdt echter alleen rekening met de signaal-ruis-verhouding, de (niet geringe) invloed van nagalm blijft onbesproken. De maat lijkt dus het meest op de simpele maat DS die we later in de webpagina's B.24 en B.25 zullen behandelen. Maar AI werkt in frekwentiebanden en is daarom nauwkeuriger dan DS.

Aangezien in een flink aantal praktijksituaties (restaurant-achtige ruimten, kantoren, enz.) juist de signaal-ruisverhouding maatgevend is, mag AI zich toch in een grote Amerikaanse populariteit verheugen.

 

4.5    Speech privacy

"Speech privacy" is de mogelijkheid om een vertrouwelijk gesprek te voeren. Er is geen aparte maat voor; meestal gebruikt men STI of AI. Een lage waarde van STI staat dan voor een slechte spraakverstaanbaarheid en een hoge speech privacy [[13]].

 

5.    "Goede" en "slechte"  spraakverstaanbaarheid

De ontwikkeling van STI als maat voor de spraakverstaanbaarheid ging gepaard met een grote hoeveelheid luisterproeven met proefpersonen. Daarbij bleken mensen ook bij veel galm nog informatie uit het zinsverband te kunnen halen; de "zinsverstaanbaarheid" is veel hoger dan de verstaanbaarheid van losse woorden die worden aangeboden [[14]].

Als resultaat van alle metingen kan thans de kwaliteit van de spraakverstaanbaarheid worden gekoppeld aan de numerieke waarde die volgt uit de meting van een ruimte of een akoestisch transmissiekanaal. Tabel 2 geeft de uitkomsten die wereldwijd worden gebruikt.

 

Tabel 2:  Officiële kwaliteitsaanduidingen voor STI.

 STI < 0.30

0.30 < STI < 0.45

0.45 < STI < 0.60

0.60 < STI < 0.75

STI > 0.75

'slecht’

'matig’

'redelijk’

'goed’

'uitstekend’

'bad'

'poor'

'fair'

'good'

'excellent'

 

 

In de subpagina B.22.1 wordt het sterke verband tussen U50 en STI aangetoond. Daardoor is het mogelijk om ook voor U50 genoemde kwaliteitsaanduidingen te gebruiken. Het resultaat staat in tabel 3.

 

Tabel 3:  Officiële kwaliteitsaanduidingen voor STI en voor U50 die kunnen worden opgesteld door de sterke correlatie tussen beide grootheden.

 STI < 0.30

0.30 < STI < 0.45

0.45 < STI < 0.60

0.60 < STI < 0.75

STI > 0.75

'slecht’

'matig’

'redelijk’

'goed’

'uitstekend’

U50 < -8.5

-8.5 < U50 < -3.5

-3.5 < U50 < 1.5

1.5 < U50 < 6.5

6.5 < U50 < 11.5

 

 

 

 


[1]     De grens van 50 ms is allereerst niet erg nauwkeurig en ten tweede niet scherp. In de allereerste publicatie over het effect uit 1935 ging men uit van 1/16-de seconde.  In de vijftiger jaren van de twintigste eeuw kwamen Duitse onderzoekers uit op 50 ms. Die waarde is daarna verankerd in de akoestiek.
Bovendien is het uiteraard niet zo dat een reflectie na 49 ms nuttig is en een reflectie na 51 ms stoort. Er wordt daarom in de praktijk vaak een glijdende overgang gebruikt.

F. Aigner, M. J. O. Strutt: On a Physiological Effect of Several Sources of Sound on the Ear and its Consequences in Architectural Acoustics. Journal of the Acoustical Society of America 6 (1935) 155-159.

H. Haas: Über den Einfluss des einfachen Hörsamkeit von Sprache. Acustica 1 (1951) 49-58.

R. Thiele: Richtungsverteilung und Zeitfolge der Schallrückwürfe in Räumen. Acustica 3 (1953) 291-302.

[2]     Het zal de aandachtige lezer opvallen dat ditmaal langs de verticale as het geluidvermogen uitstaat. De geluidenergie bij pulsbronnen is de integraal van het vermogen.  In dit geval wordt het lastig omdat de responsie op een puls zal worden gecombineerd met min of meer continue ruis. Dat is allemaal netjes op te schrijven, maar dat kan alleen met een stel wiskundige formules en introductie van het correlatiebegrip..

[3]     Zoals het hier is getekend is in de praktijk onmogelijk. Helaas tellen de pulsen en de ruis logaritmisch op en in sommige gevallen wordt het daardoor lastig te onderscheiden wat nu signaal is en wat ruis.

[4]     Meerdere malen is al betoogd dat dat een zwakheid is in de SFJ theorie en dat Barrons theorie het in dit opzicht beter doet. In deze webpagina zullen we ons echter aan de SFJ-theorie conformeren. Het maakt voor de spraakverstaanbaarheid niet zoveel uit. 

[5]     Althans volgens de SFJ-theorie. De berekening wordt nauwkeuriger indien een ray-tracing model wordt gebruikt. In deze webpagina beperken we ons tot SFJ.

[6]     In de vakliteratuur kan men soms lezen dat maten als D50 en C50 ongevoelig zijn voor de nagalmtijd. Deze tabel bewijst het tegendeel.

[7]     In de praktijk kan er door een ruimte een vrij constant niveau heersen, maar zo constant als hier in het rekenvoorbeeld is het uiteraard zelden.

[8]     Dit is vanzelfsprekend een ventilatiesysteem dat akoestisch zo slecht is dat het zeker in een schoollokaal moet worden vermeden. Men kan ze in de praktijk wel degelijk tegenkomen, ook in ruimten waar dat niet zou moeten.

[9]     Celsius, Reamur en Fahrenheit hebben bijvoorbeeld drie maten ontwikkeld voor de temperatuur die alleen verschillen in grootte en rechtstreeks in elkaar kunnen worden omgerekend. Celsius is daarvan bij ons het meest ingeburgerd, zodat iedereen wel kan aanvoelen waar 20° celsius voor staat. Echter, de Amerikanen snappen weer meer van Fahrenheit en weten precies waar 80° F voor staat. Het maakt in theorie dus niet uit welke maat wordt gekozen, maar het "lezen" en "interpreteren" van de thermometer blijkt een essentieel onderdeel.

[10]   Consonants wordt vertaald door "medeklinkers", vowels door "klinkers". het verstaan van medeklinkers is veel maatgevender voor de spraakverstaanbaarheid dan het verstaan van klinkers.

[11]   Als introductie moge dienen:

Johan van der Werff, Dick de Leeuw, "What you specify is what you get", presented at the 114th Convention of the Audio Engineering Society,  Amsterdam, 2003. De paper bevat een verwijzing naar het oorspronkelijke artikel van Peutz en Klein.

Overigens stellen de auteurs dat C50 "blind is voor ruis en voor de nagalmtijd". De blindheid voor ruis klopt; daarom is U50 geïntroduceerd die wel ruis incorporeert. Maar dat C50 blind zou zijn voor de nagalmtijd is onzin. Bovenstaande tabel 1 plus de figuren 5 en 6 tonen het tegendeel aan.

[12]   Kryter heeft de methode beschreven in artikelen uit 1962, mede gebaseerd op onderzoek van French & Steinberg.  De meest toegankelijke publicatie is waarschijnlijk Kryter's zeer lezenswaardige boek:

Karl D. Kryter, :The effects of noise on man", NewYork, 1970.

[13]   Het ideale open kantoor heeft STI = 1 binnen 1 m afstand van de bron en STI = 0 voor afstanden groter dan 2 m. Omdat dat technisch niet te verwezenlijken is, mag het open kantoor een groot akoestisch zorgenkind worden genoemd. Een dichte deur is een simpele oplossing om de STI-voorwaarden wel te verwezenlijken, maar dan is het dus geen open kantoor meer. 

[14]   In het jargon heten die "logatomen". Dat zijn woorden bestaande uit de combinatie medeklinker-klinker-medeklinker, maar verder zonder betekenis ("sup" of "bog" zijn twee voorbeelden).

 

 

An error has occurred. This application may no longer respond until reloaded. Reload 🗙