1. Van beginner tot gevorderde
Op een paar plaatsen in deze site is benadrukt dat de speech transmission index STI vooral bedoeld is als een meetmethode om de kwaliteit te bepalen van een "spraakkanaal". Daar wordt dan bijvoorbeeld een telefoonverbinding mee bedoeld, maar ook een ruimte waarin wordt gesproken kan als een overdrachtskanaal worden beschouwd.
In veel gevallen zal men een rekenmethode willen gebruiken om STI te voorspellen in een ruimte die zich nog op de tekentafel bevindt. Daarom is al vrij snel na de introductie van STI een methode gepubliceerd waarmee de invloed van galm op de spraakoverdracht kan worden berekend, aannemende dat die galm de ideale exponentiële curve volgt die in de theorie van Sabine wordt afgeleid. Echter, de methode beperkte zich tot spraak in het diffuse veld en spraak in een ruimte is nu juist vaak een subtiel samenstel van direct geluid en galm. Vooral in de publicaties van Duquesnoy werd die zwakte in de oorspronkelijke methode opgelost door het directe geluid aan de berekening toe te voegen [[1]].
Op een paar plaatsen in deze site is een STI-berekening vooraf lastig genoemd. Maar als wordt uitgegaan van een ideale nagalmcurve is het zeker mogelijk om STI in formules te vangen. Met wat volharding is dat zelfs in een Excel-file te programmeren [[2]]. In de huidige webpagina zal de opzet van de berekening vooraf worden verduidelijkt.
2. De combinatie van direct en galmend geluid
In deel B.10 plus onderliggende theorie zijn formules afgeleid voor het geluiddrukniveau Lp in een ruimte als een stationaire bron continu geluid produceert. Er waren drie verschillende formules en bij alle drie hoorde een "pulsresponsie" waarin het directe geluid en het nagalmveld worden gecombineerd. Zo'n pulsresponsie kunnen we ongeveer horen als in een zaal een alarmpistool wordt afgeschoten. We horen dan een direct plus uitklinkende nagalm. Links staan de drie formules, rechts de bijbehorende pulsresponsies. Het directe geluid wordt gegeven door de rode puls; het blauwe deel representeert de nagalm.
|
|||
|
|||
|
Figuur 1: Drie modellen om het directe geluid en het galmveld te combineren. Zie tekst voor uitleg.
De variabelen zijn:
LW |
= |
akoestisch vermogenniveau van de gebruikte geluidbron |
Q |
= |
richtingscoëfficiënt van de bron |
r |
= |
afstand tussen bron en ontvanger |
α |
= |
gemiddelde absorptiecoëfficiënt van de ruimte |
A |
= |
totaal absorberend oppervlak van de ruimte |
mfp |
= |
gemiddelde vrije weglengte |
Het bovenste geval (1a) is het meest gebruikt en het minst realistisch. Het geeft aan dat de nagalm bij een toehoorder begint te klinken vóórdat het directe geluid arriveert, en dat kan natuurlijk niet.
In het tweede geval (1b) wordt aangenomen dat het galmveld begint (op t = tgalm) als een afstand is afgelegd die gelijk is aan de gemiddelde vrije weglengte, dus na één reflectie. tgalm hangt alleen af van de geometrische gegevens van de ruimte en is dus constant, waar men zich ook in de ruimte bevindt. De aankomsttijd tdir van het directe geluid varieert wel met de afstand tussen bron en waarnemer en er zijn wel degelijk posities in de ruimte waar het direct ná de galm arriveert.
Het derde geval stoelt op de theorie van Barron, waarbij de galm tegelijk begint met de binnenkomst van het directe geluid. Ook dit idee dekt de werkelijkheid niet geheel maar deze benadering is zeker de nauwkeurigste van de drie. Het tweede en derde geval zijn gelijk indien de afstand r gelijk is aan mfp.
De pulsresponsie van het kwadraat van de geluiddruk (p2) zullen we schrijven als:
|
(2) |
Vergeleken met de drie eerder gegeven figuren is de tijdas verschoven (zie ook figuur 2). Het tijdstip t = 0 wordt nu gekozen zodra het direct arriveert bij de mikrofoon. Er komt ter hoogte van de mikrofoon dus allereerst (op t = 0) een puls δ langs ten gevolge van het directe geluid. Het direct heeft een sterkte D.
Tegelijkertijd start het galmveld met sterkte G× β. De factor βvoor de e-macht wordt ingevoerd om later de integraal in orde te krijgen. De energie van een galmveld gedraagt zich volgens de Sabine-Franklin-Jaeger-theorie als een zuivere e-macht.
De grootheid β vertegenwoordigt de snelheid waarmee het galmveld uitklinkt. In pagina B.10.1 was al uitgelegd dat daartoe het beste de theorie van Eyring kan worden aangeroepen. Er geldt dan:
|
(3) |
De sterkte van het directe geluid wordt voorlopig D genoemd [[3]].; de sterkte van het galmveld noemen we G. In Pagina B.6.1 zijn de grootheden D en G netjes afgeleid. Dat is hier niet nodig omdat het om de verhouding tussen D en G zal gaan.
Beide grootheden D en G variëren in Barrons theorie met de afstand r, maar voor D geldt dat veel sterker dan voor G. Figuur 2 geeft twee voorbeelden. Links bevindt zich de mikrofoon vrij dicht bij de bron; rechts zien we de pulsresponsie achter in een zaal.
Figuur 2: De pulsresponsie volgens formule 2. Links zien we een punt dicht bij de bron; rechts representeert een mikrofoon op grotere afstand van de bron. De puls van het direct (in rood) wordt veel sterker verzwakt dan de nagalm (in blauw).
De hedendaagse akoestiek biedt de mogelijkheid om de gegeven "pulsresponsie" van de ruimte te "convolueren" met droge spraak die bijvoorbeeld in een geluiddode kamer is opgenomen. Op meerdere plaatsen in deze site staan geluidfragmenten die op deze manier tot stand zijn gebracht. De pulsresponsie is dan berekend met een ray-tracing-model of gemeten in een bestaande situatie.
In de voorgaande webpagina (B.22.3, figuur 10) is echter uiteengezet dat spraak niet zo geschikt is als meetsignaal. Daarom wordt in de STI-methode gewerkt met een kunstmatig signaal bestaande uit een serie cosinus-modulaties, variërend van 0.63 tot 12.5 Hz.
Zoals ook al eerder uitgelegd kan de pulsresponsie worden omgezet naar het stationaire geval door de pulsresponsie te integreren. Dat betekent dus dat de integraal van formule (2) moet leiden tot formule (1c), zodat D en G kunnen worden becijferd.
De integrand van een deltapuls is gelijk aan 1, zodat voor het directe veld uit formule (1) kan worden afgeleid dat de volgende evenredigheid geldt:
|
(4) |
Voor het galmveld vinden we allereerst:
|
(5) |
zodat geldt voor de evenredigheid:
|
(6) |
Voor de verhouding D/G geldt dan:
|
(7) |
hetgeen in het STI-jargon vaak wordt geschreven als:
|
(8) |
met dus:
|
(9) |
In andere STI-afleidingen ziet men meestal:
|
(10) |
in onze site wordt vaak gebruik gemaakt van:
|
(11) |
De formules (10) en (11) gelden indien de integrand wordt vergeleken met de formules (1a), respectievelijk (1b).
In het vervolg zullen we voor de totale pulsresponsie (formule 2) schrijven:
|
(12) |
Hierin is de exacte sterkte van het signaal dus weggelaten, maar dat mag omdat de ideale (droge) spraak wordt vergeleken met het signaal van de zaal. De sterkte van het signaal valt er dan uit. In de STI-berekening en STI-meting zit geen signaalsterkte.
3. Convolutie en fouriertransformatie
3.1 Covolueren in het tijddomein is vermenigvuldigen in het frekwentiedomein
Als we spreken in een ruimte wordt droge spraak geconvolueerd met de pulsresponsie van de ruimte. De ontwerpers van de STI-methode hebben spraak vervangen door testsignalen (zie de voorgaande webpagina) waarvan de amplitude wordt gegeven door:
|
(13) |
De variabele F0 geeft dus de modulatiefrekwentie van de spraak. In de voorgaande webpagina zijn daarvoor de waarden gegeven tussen 0.63 en 12.5 Hz [[4]]. In figuur 3 staat (in rood) een voorbeeld met F0 = 10 Hz.
Het doel van de STI-methode is nu om het verlies aan modulatiediepte te becijferen (zie de voorgaande webpagina), zodat een "modulation transfer function" kan worden bepaald die in formulevorm wordt geschreven als:
|
(14) |
In figuur 3 staat in rood het uitgezonden signaal; in blauw zien we het signaal dat door de mikrofoon wordt geregistreerd en dat dus minder diep is door de toevoeging van galm.
De grootheid m(F0) is afhankelijk van de modulatiefrekwentie en het doel is nu om juist m(F0) te berekenen door convolutie van formule (12) voor de zaal en formule (13) voor het signaal.
Figuur 3: De formules 14 (in rood) en 15 (in blauw) vertegenwoordigen het aangeboden signaal van een luidspreker en het signaal dat resteert indien een ruimte galm heeft toegevoegd. De hier gebruikte modulatiefrekwentie F0 is gelijk aan 10 Hz.
Kopie van figuur 13e uit de voorgaande webpagina.
Convolutie van twee tijdsignalen kan worden vervangen door een vermenigvuldiging van de fourier-getransfomeerden, of in jargon: van het tijddomein naar het frekwentiedomein. Een tweede regel uit de theorie zegt dat de som van twee tijdsignalen leidt tot de som van beide fourrier-getransformeerden. We maken daar dus gebruik van door twee tijdsignalen naar het frekwentiedomein te brengen: formules (12) en (14).
3.2 De fouriertransformatie van de zaal
Om het tik- en leeswerk te vergemakkelijken voeren we allereerst de cirkelfrekwentie omega in:
|
(15) |
De waarde van f beslaat een spectrum dat bij numerieke verwerking veel breder kan zijn dan het gebied van 0.63 tot 12.5 Hz. Wel wordt later telkens één specifieke modulatiefrekwentie F0 gebruikt waarvoor we zullen schrijven:
|
(16) |
De eerste term uit formule (12) vertegenwoordigt een puls. Fouriertransformatie geeft:
tijddomein |
frekwentiedomein |
De puls heeft een oppervlak gelijk aan 1. In numerieke programma's wordt dat gesimuleerd met een breedte van δt en een hoogte van 1/δt.
Evenzo kunnen we de tweede term behandelen:
tijddomein |
frekwentiedomein |
Om de totale formule (13) te kunnen transformeren schrijven we eerst:
|
(17) |
zodat geschreven kan worden:
tijddomein |
frekwentiedomein |
|
De twee termen in het tijddomein worden gesommeerd, waarna ook de twee getransformeerden kunnen worden gesommeerd. Echter, de tweede term is complex en om nu de absolute waarde te vinden mogen de twee amplitudes niet worden gesommeerd. De formule voor |G(ω)| is daarom net wat ingewikkelder dan gehoopt.
De linkerformule in het tijddomein representeert geval 1c, dus waar het begin van de e-macht samenvalt met de puls van het direct. Indien de gevallen 1a of 1b worden gebruikt ontstaat een tijdverschil dat we terugzien in de formule én in de formule in het frekwentiedomein. Deze laatste formule wordt er een stuk ingewikkelder van, maar een numerieke complexe berekening blijft relatief simpel. Evaluatie leert dat (in geval 1b) de spraakverstaanbaarheid minder wordt. Dat is ook logisch. Als de e-macht naar een later tijdstip wordt verschoven, is de galm langer hoorbaar en zal de spraakverstaanbaarheid dalen.
3.3 De fouriertransformatie van het meetsignaal
De transformatie van formule 13 gaat op een overeenkomstige wijze. Allereerst passen we de transformatie toe op de eerste term:
tijddomein |
frekwentiedomein |
Een "gelijkspanning" in het tijddomein leidt tot één puls in het frekwentiedomein op ω = 0. Deze puls heeft een breedte δf en een hoogte 1/δf. Maar er geldt ook:
|
(18) |
waarin T de totaal ingelezen tijd is van het signaal uit formule (13). Die totale tijd T wordt opgesplitst in N kleine tijdstapjes. SR is de "sample rate" of in het Nederlands: de bemonsterfrekwentie [[5]].
De berekening van het cosinussignaal is wat ingewikkelder. Het kan worden opgebouwd door te starten met Nper perioden van de cosinus. De rest van het signaal is dan gelijk aan 0. De totaal ingelezen tijd is weer T. We baseren ons op Verhagen [[6]].
tijddomein |
frekwentiedomein | ||||||
|
In figuur 4 wordt het geval geschetst als Nper gelijk is aan resp. 3 en 7.
Figuur 4: Het spectrum van een aantal perioden van een cosinus. De frekwentie van het tijdsignaal is 10 Hz. Bij de rode curve is het aantal perioden gelijk aan 3; bij de blauwe curve is het aantal gelijk aan 7. Het aantal "zijlobben" neemt toe met het aantal perioden, waardoor de piek rond 10 Hz steeds smaller wordt. Ook de amplitude van de piek neemt toe. De curve gaat steeds meer op een deltapuls lijken als het aantal perioden nog verder toeneemt.
Bij nauwkeurige beschouwing van de rode curve is te zien dat het maximum juist rechts van 10 Hz ligt. Bij een cosinus moet dat ook; bij een sinus niet.
Belangrijk is de amplitude als ω = ω0. Er geldt:
|
(19) |
Dat is bij een sinus ook de piekwaarde; bij een cosinus is het maximum net wat verschoven en ook een tikkeltje hoger. Dat is hier weinig van belang.
De piek wordt dus steeds hoger naarmate het aantal perioden toeneemt. In het uiterste geval vullen de perioden de gehele meettijd T. Er geldt dan:
|
(20) |
maar dat betekent voor de amplitude:
|
(21) |
zodat voor de transformatie kan worden geschreven:
tijddomein |
frekwentiedomein | |||
|
waarbij de pulsbreedte en pulshoogte al zijn behandeld in formule (18).
Voor het totale meetsignaal geldt nu:
tijddomein |
frekwentiedomein | ||
|
3.4 De berekening van de modulation transfer function
De berekening van de modulation transfer function m is het uiteindelijke doel van dit hoofdstuk. Allereerst worden F(ω) en G(ω) vermenigvuldigd. Dan staat er dus:
|
(22) |
Via een inverse fouriertransformatie kan nu m worden bepaald.
|
(23) |
waarin dus m de gezochte modulation transfer function is. Die is te vinden door combinatie van de formules (22) en (23). Daarbij is ook nog een normering nodig door de factor C + 1 eruit te delen:
|
(24) |
Omzetting van de cirkelfrekwentie ω naar de modulatiefrekwentie F0 en de uitklinkgrootheid β naar de nagalmtijd RT levert dan nog:
|
(25) |
 
Indien C = 0 wordt gekozen ontbreekt het directe geluid en vinden we dus:
|
(26) |
Deze laatste formule komt men nogal eens tegen in de akoestiscche vakpers, maar de formule geldt alleen in het diffuse veld waar de invloed van het directe geluid mag worden verwaarloosd. Dat is bijvoorbeeld geoorloofd op de achterste rijen in een zaal, maar niet dicht bij de spreker.
3.5 De toevoeging van ruis in het diffuse veld
Duquesnoy heeft ook de invloed van ruis verdisconteerd. Daartoe introduceert hij een eventueel gerichte bron op een bepaalde afstand. Zover zullen we hier niet gaan; er wordt verondersteld dat de bron zich in het diffuse veld bevindt en dat die bron in alle richtingen even luid straalt.
Er geldt dan voor de ruisbron:
|
(27) |
Als nu gebruik gemaakt wordt van de integraties in formules (4) en (6) en ruis wordt toegevoegd zien we voor het totale vermogen P:
|
(28) |
en na wat omzettingen:
|
(29) |
Als dan de signaal-ruisverhouding SN wordt geïntroduceerd, gedefinieerd als:
|
(30) |
gaat formule (29) dus over in:
|
(31) |
De factor kunnen we gevoegelijk weglaten. Het betekent dat P afhangt van de plaats in de ruimte, maar dat geeft maar schijnnauwkeurigheid. Het niveau van de ruis was nl. constant aangenomen door de ruimte, maar dat is heel onwaarschijnlijk [[8]]. We schrijven daarom liever:
|
(32) |
Door de toevoeging van ruis stijgt de amplitude en formule (23) gaat over in:
|
(33) |
en dus vinden we voor formule (24):
|
(34) |
4. Enkele rekenvoorbeelden
Om de formules uit het voorgaande hoofdstuk wat meer tot leven te laten komen, worden thans een paar voorbeelden doorgerekend. De modulation transfer function staat telkens uitgezet tegen de modulatiefrekwentie. Dat is dus niet de grootheid TI of STI, daarvoor is nog een kleine extra rekenslag nodig. Dat is hier echter niet van belang om de invloed op de spraakverstaanbaarheid in kwalitatieve zin uiteen te zetten.
Het eerste voorbeeld behelst de invloed van de nagalmtijd. Daarbij wordt alleen het diffuse veld doorgerekend. Dus geldt de berekening voor de achterste rijen in, bijvoorbeeld, een spreekzaal. Het resultaat staat in figuur 5.
Figuur 5: De berekening van de modulation transfer function indien het directe geluid ontbreekt (C = 0), dus volgens formule 26.
Zoals bekend neemt de spraakverstaanbaarheid af met toenemende nagalmtijd. Dat wordt hier weer eens bevestigd. Maar het zijn vooral de hogere modulatiefrekwenties die worden beïnvloed. En ook dat is al eeuwen bekend. In domineesland worden de hogere frekwenties vermeden door langzamer te spreken.
Figuur 6: De berekening van de modulation transfer function bij variërende direct-galmverhoudingen, dus C uit formule 25. De waarde van RT is steeds gelijk aan 2 s, zodat de onderste lijn uit de figuur gelijk is aan die in figuur 5.
Figuur 6 toont de invloed van de variatie van de grootheid C uit formule (25) . Alle curven zijn berekend bij RT = 2 s. Indien een waarde C = 0 wordt gekozen ontstaat de onderste curve die al in figuur 5 was getekend. Te constateren valt dat de spraakverstaanbaarheid toeneemt als de spreker dichter wordt genaderd. C = 1 representeert een spreker op de galmstraal; op de halve galmstraal is C = 4.
Veel optimisme kan daaruit overigens niet worden geput, want de galmstraal is vaak klein. Dat kan als volgt worden gezien.
De galmstraal rc is in zijn simpelste vorm gelijk aan:
|
(35) |
Verder geldt (als we Sabine aanhouden):
|
(36) |
zodat we kunnen schrijven:
|
(37) |
Stel nu dat RT = 2, zoals in figuur 6 en dat de bron gericht is volgens Q = 2.5. Dan geldt dus . Bij een schoolklas met V = 160 m3 staat er dus slechts: rc = 0.80 m. Men kan dus voor een goede spraakverstaanbaarheid maar beter de nagalmtijd beperken.
Figuur 7: De berekening van de modulation transfer function bij toevoeging van ruis, links als RT = 0.5, rechts voor RT = 2 s. In dit geval is het direct weggelaten, dus C = 0.
Figuur 7 geeft de invloed van de signaal-ruisverhouding, maar alleen voor grotere afstanden, dus waar C = 0 kan worden aangenomen. Te constateren valt dat de ruis de sterkste invloed heeft in een ruimte die qua galm beter is (links). Een galmende ruimte wordt nog verder bedorven door het toevoegen van ruis, maar de lijnen liggen dichter bij elkaar. Bij SR = -6 dB is er slechts een klein verschil tussen links en rechts. De spraakverstaanbaarheid wordt dan vooral bepaald door de ruis en slechts een beetje door de galm in de ruimte.
[1] Van de drie hier gegeven bronnen is het proefschrift het moeilijkst te vinden; het geeft echter wel de meeste informatie over de methode.
Duquesnoy AJ, Plomp R, "Effect of Reverberation and Noise on the Intelligibility of Sentences in Cases of Presbyacusis", J. Acoust. Soc. Am, 1980, 68, pp. 537-544.
Duquesnoy AJ, "Speech intelligibility of the hearing impaired", Proefschrift Vrije Universiteit Amsterdam, 1982.
Duquesnoy AJ, "The intelligibility of sentences in quiet and in noise in aged listeners", J. Acoust. Soc. Am, 1983, 74, pp. 1136-1144.
[2] Ook andere maten voor de spraakverstaanbaarheid (U50 en Alcons bivoorbeeld) gaan uit van een ideale nagalmcurve en falen dus ook indien dat niet het geval is. De formules zijn wel een stuk simpeler.
[3] Het lijkt alsof de dimensies niet kloppen. Sterker nog: dat is ook zo, want β heeft de dimensie s-1. Dat komt omdat de dimensies ook al niet deugen in de alom gebruikte formule (1). In webpagina B.10.1 is uitgelegd dat er een grootheid is geëlimineerd die weliswaar vrijwel gelijk is aan 1, maar wel degelijk een dimensie heeft.
[4] Althans, die waarden zijn aangehouden in de voorgaande webpagina. De grenzen kunnen iets verschillen per STI-methode.
[5] De bemonsterfrekwentie SR en het aantal punten N moeten in de praktijk zorgvuldig worden gekozen om het uiteindelijke frekwentiegebied vast te leggen en aliasing te voorkomen. We gaan daar verder niet op in.
[6] Er is waarschijnlijk wel een modernere versie, maar deze verwijzing doet het nog prima:
C.D.J.M. Verhagen, "Metingen 2, collegediktaat", Delft, Technische Hogeschool,1965.
Overigens is er verschil tussen de daar behandelde sinus en de hier gegeven cosinus. Dat uit zich in ω in plaats van ω0 in de teller van de formule.
[7] Eigenlijk zijn er twee pulsen op ω0 en -ω0. Dat verklaart ook de factor 2 in de noemer: de energie is over beide pulsen verdeeld.
[8] Nogmaals: Duquesnoy heeft, indien gewenst, een methode gegeven waarin wordt gerekend met een ruisbron op een bepaalde afstand van de mikrofoon.