DrPagel-FavIcon « »

Verfasst am 20.08.2006 14:40:16 Uhr
Synthetische Sprache im Weblog - Teil 3
Fortsetzung v.19.8.2006

Soeben habe ich eine weitere Testseite bei linguatec.net gefunden, in welcher man seinen Wunschtext (bis zu 250Buchstaben) in einigen Sprachen vorreden lassen kann. Am lustigsten ist es, Lateinischen oder Lëtzebuergeschen (Luxemburgischen) Text in Sprachen zu hören, die nicht Landessprache sind, da sie dort in der Liste fehlen.
Erstaunt bin ich aber über die Größe der WAV-Dateien relativ zu den SWF-Dateien. Bei meinem deutschsprachigen Vergleichstext ist die WAV-Datei 5,4 mal so groß wie die SWF-Datei.
byteARTTextSilben
386152WAVdeutscher Text42
6445SWFUntersuchungen5
4348SWFzu1
7027SWFReaktionen4 bis 5
3766SWFvon1
7144SWFDehydroascorbin-6
3766SWFund1
7260SWFDiketogulonsäure7
3533SWFmit1
4581SWFHilfe2
4581SWFRechner2
6911SWFunterstützter4
5746SWFInfrarot3
6445SWFspektroskopie4
71553SWFSumme, deutscher Text42
422218WAVenglischer Text (GB)
416436WAVenglischer Text (US)
MW.(byte)ARTSt.Abw.(byte)Silbe(n)
3853SWF(±347)1
4581SWF2
5746SWF3
6670SWF4
6750SWF(±443)5
7144SWF6
7260SWF7
mein"TR"streikt!
22.8.: "TR"wiedero.k.!

Aus den Werten ergibt sich durch Best-Fit (PWR-Regression mit r²=0.969) eine liegende Parabel (ähnlich zur Wurzelparabel) und man vermutet, dass sie sich für große Silbenlängen einer Geraden anschmiegen könnte:

y[Byte]=3818,27 · x[Silben]0.3515

Power-Plott

Tolle Sache, falls mein TR mal wieder defekt ist, und diese Schulphysik-Webseite dann noch existiert!
Nimmt man nur die 4 bis 7-silbigen Worte (mind.4Wertepaare), ergäbe sich durch Linear-Fit (r²=0.929) eine Gerade mit der Steigung 216 Byte/Silbe und ein Offset von 5765Byte. Wünschenswert wäre eine noch genauere Funktion. Vielleicht sieht die Funktion so aus ...:

f(x) = y[Byte] = (Offset[Byte] + m[Byte/Silbe] · x[Silben]) · exp-g(1/x)

...oder so aus:

f(x) = y[Byte] = (Offset[Byte] + m[Byte/Silbe] · x[Silben]) · arctan(h(x))

Synthetische Sprachproben

Bei Portugiesisch muss sogar ich mehrmals hinhören, um die Aussprache mit dem Text vergleichen zu können, so dass ich den Verdacht habe, dass hier brasilianisches Portugiesisch gesprochen wird. Das Lateinisch von einer spanischen Stimme gesprochen klingt noch besser als von der deutschen donna synthetica. Letztere kommt mit der lateinischen Silbenbetonung nicht klar. Luxemburgisch auf deutsch hört sich fast dänisch an. Einen Vorteil haben die mit Voice Reader von www.linguatec.net erzeugten WAV-Dateien gegenüber den SWF-Dateien: man kann sie extern über das Bedienfeld steuern. Wenn es zu Tonunterbrechungen während des ersten Abspielens kommt, ist die Datei noch nicht fertig herunter in den PC-Cache geladen, während sie bereits abgespielt wird (gegebenenfalls ist die Abspielung zu wiederholen).:
Achtung, Vorsicht! Attention (caution) please! Attention rappel s.v.p.! Attenzione prego! CAVTIO cautio! Achting opgepast! Atenção! Uwaga! ¡Atención! Prosim Pozor!

Behindertengerechte Links!

Die Dateien sollen durch Berühren mit der Maus (ohne Klick!) starten (s.Nachtrag_2); Javscript ist erforderlich!
  • deutsch
  • englisch(UK)
  • englisch(US)
  • französisch
  • französisch(CDN)
  • neu seit Mai2009:
    griechisch (Text und Hinweis s.unten: klick!)
  • italienisch
  • lateinisch (dts.Stimme)
  • lateinisch (span.Stimme)
  • luxemburgisch (dts.Stimme)
  • luxemburgisch (ndl.Stimme)
  • niederländisch
  • portugiesisch
  • spanisch
  • spanisch(Mex)
Die linguatec.net-online-Testseite bietet noch folgende lobenswerte Möglichkeiten:
  • sprachlich nicht so Versierte hören Texte langsamer bis zur halben Geschwindigkeit vorgesprochen
  • erstmals kann man auch einen Text in einer slawischen Sprache sich vorsprechen lassen. Bis ich aber einen solchen Vergleichstext fertig habe, können noch Monate bis Jahre vergehen.
Malzeit! Herrlicher Sonnenschein draussen, kenn ich garnicht mehr bei dieser Stubenhockerarbeit. (dp)

Nachtrag_1 am 20.8.2006 um 26.20Uhr:
Ich habe fertig!

Linksammler (weitere 'Text nach Sprache' (TTS) Formulare): (Leider bin ich aus Versehen zu schnell über die oben gelisteten behindertengerechten onMouseOver-Links gekommen und der Browser ist dadurch abgestürzt. Diesmal hatte ich die griechischen Akzentzeichen nicht in einer Wordpad-Datei gespeichert, da ich den Unicode dort nicht erkennen kann. Also beginne ich wieder von vorne mit der google-Suche. Mensch ärgere Dich nicht!)

Google hat Probleme, wenn im Wort das große Sigma "Σ" steht und kann nicht entscheiden, dass bei Kleinschrift daraus ein kleines normales Sigma "σ" oder am Wortende ein Schluss-Sigma "ς" wird. Genauso fallen ungekehrt einige Suchergebnisse durch das grobe Raster. Die akzentuierten Großbuchstaben sind ein eigener Unicode, weswegen sie nur von google gefunden werden, wenn ich Worte eingebe, welche alternativ mit akzentuiertem Kleinbuchstaben beginnen. Vielfach lassen die Griechen bei BLOCKSCHRIFT alle Akzente weg; zu diesen Worten ergibt sich bei google auch nur eine Auswahl an Fundworten mit Kleinbuchstaben. Nun steht bei mir im Lehrbuch Ypsilon mit einem akzentuierten "Y"; nur leider suche ich schon länger nach einem google-Wort mit Buchstaben "psi"; zudem entdecke ich auch eine andere "υψηλών"-Schreibweise (eventuell sogar mit anderer Bedeutung, falls es kein Tippfehler ist?); erstens mit einer anderen Betonung und anderem "i" und anderem "o" (in Griechenland gibt es derer zwei!): "ύψιλον". Zum Schluss stelle ich mal die akzentuierten und nichtakzentuierten Buchstaben in einer Übersicht zusammen. In Klammern habe ich die orthografisch ungewöhnlichen nichtakzentuierten griechischen Namen dazugeschrieben, da im Internet auch nichtakzentuierte Wörter existieren. Manchmal findet man im Internet auch die aus Unkenntnis über die Akzentgroßbuchstaben konstruierten Schriftzeichenpaare aus Akzent und nichtakzentuiertem Großbuchstaben (z.B. anstelle von Ά auch ´Α oder oder in Lateinbuchstaben ´A oder 'A):

ohnemitName
Akzent
αάalpha άλφα {αλφα}
ΑΆAlpha ΆΛΦΑ {ΑΛΦΑ}
εέepsilon έψιλον {εψιλον}
ΕΈEpsilon ΈΨΙΛΟΝ {ΕΨΙΛΟΝ}
ηήita ήτα {ητα}
ΗΉIta ΉΤΑ {ΗΤΑ}
ιίjota γιώτα {γιωτα}
ΙΊJota ΓΙΏΤΑ {ΓΙΩΤΑ}
οόomikron όμικρον {ομικρον}
ΟΌOmikron ΌΜΙΚΡΟΝ {ΟΜΙΚΡΟΝ}
υύypsilon ύψιλον {υψιλον}
ΥΎYpsilon ΎΨΙΛΟΝ {ΥΨΙΛΟΝ}
ωώomega ωμέγα {ωμεγα}
ΩΏOmega ΩΜΈΓΑ {ΩΜΕΓΑ}

In meiner soeben durchlebten Wachtraumphase fällt mir auf, dass man die beiden griechischen "O"-Buchstaben auch mit O-Klein (o-mikron) und O-Groß (o-mega) übersetzen könnte. Vielleicht haben die Namens-Erfinder sich damals gedacht, dass das O-Klein wegen seiner Leichtigkeit in der Tonlage höher schwebt und das schwere O-Groß in der Tonlage tiefer klingt? Der Esel geht nun schlafen. Kali nichta! I-A, I-A! (dp)

Nachtrag_2 am 07.05.2009 um 11.57Uhr:
Vor drei Jahren war mir eine automatische HTML-Validierung unbekannt. Auch heute noch wird das html-invalide EMBED-Tag für eingebettete Objekte verwendet und funktioniert im Firefox3.0.10. Aber irgendwann ist "Schluss mit lustig". Daher habe ich mich jetzt abgemüht, den alten Code durch einen html-validen zu ersetzen.

Alter Code mit EMBED-Tag

Dieser Code erzeugte bei älteren Mozilla- oder Firefox-Versionen nur den Ton meiner Audio-Datei, beim F.F.3.0.10 jedoch zusätzlich ein Miniatur-Abspielkonsole des WindowsMediaPlayers links neben den obigen (Pseudo)Links und sollte nicht mehr verwendet werden.
<object classid="CLSID:22D6F312-B0F6-11D0-94AB-0080C74C7E95" STANDBY="Loading Windows Media Player components..." TYPE="application/x-oleobject" width="144" height="40" class="player" ID="objMediaPlayer">
<param name="FileName" value="meine_AudioDatei">
<param name="hidden" value="false">
<embed type="application/x-mplayer2" AUTOREWIND="0" SHOWCAPTIONING="0" src="meine_AudioDatei" SHOWGOTOBAR="0" AUTOSIZE="1" SHOWPOSITIONCONTROLS="0" SHOWDISPLAY="0" SHOWTRACKER="1" SHOWCONTROLS="1" SHOWSTATUSBAR="0" AUTOSTART="true" windowlessvideo="false" showfullscreencontrols="false" width=160 height=40 name="player" hidden="false">
</embed>
</object>

Neuer Code ohne EMBED-Tag

Im Gegensatz zur Einbettung von FlashPlayer-Anwendungen (SWF-Dateien), welche beim F.F.3.0.10 mit nur einem OBJECT-Tag nebst PARAM-Tags eingebunden werden können, wird hier ein alternatives Object-Tag (ehemals EMBED-Tag) im ersten OBJECT-Tag integriert. Dieser Code erzeugte beim Firefox3.0.10 als auch beim InternetExplorer7 nur den Ton meiner Audio-Datei. Eine zusätzliche Miniatur-Abspielkonsole des WindowsMediaPlayers links neben den obigen (Pseudo)Links wurde nicht mehr entdeckt (evtl. ist der Code noch unvollständig oder fehlerhaft?).
<OBJECT classid="CLSID:22D6F312-B0F6-11D0-94AB-0080C74C7E95" codebase="http://activex.microsoft.com/activex/controls/mplayer/en/nsmp2inf.cab#Version=6,4,7,1112" STANDBY="Loading Windows Media Player components..." type="application/x-oleobject" width="144" height="40" class="player" ID="objMediaPlayer" data="meine_AudioDatei">
<param name="FileName" value="meine_AudioDatei">
<param name="hidden" value="false">
<object type="application/x-mplayer2" data="meine_AudioDatei">
<param name="autoStart" value="True">
<param name="AUTOREWIND" value="0">
<param name="SHOWCAPTIONING" value="0">
<param name="SHOWGOTOBAR" value="0">
<param name="AUTOSIZE" value="1">
<param name="SHOWPOSITIONCONTROLS" value="0">
<param name="SHOWDISPLAY" value="0">
<param name="SHOWTRACKER" value="1">
<param name="SHOWCONTROLS" value="1">
<param name="SHOWSTATUSBAR" value="0">
<param name="windowlessvideo" value="false">
<param name="showfullscreencontrols" value="false">
<param name="width" value=144>
<param name="height" value=40>
</object>
</OBJECT>
Prinzipiell geht es also ohne EMBED-Tag, wie auf einer lobenswerten Testseite von joliclic.free.fr (Lit.1»(engl.); Lit.2»(frz.)) zur Einbindung verschiedener Arten von Inhalten in gültiges strenges HTML4.01 mit OBJECT-Tag gezeigt wird. (dp)(1,35h)

Fortsetzung folgt

ANMERKUNG: (validome sei Dank!)
archiviert (tbid889.167): (dp) 22.02.2009 (+0,15h (+flagcounter +home.icon +w3c_LiCh +4navi)), 22.4.2009 (+0,9h (+html-korr.)), 7.5.2009 (+5,5h (+html-korr. +Link-korr. +WAV-korr.)),03.8.2010(+0,03h(-validome.org+w3c_HTMLch))
Haftungsausschluss
free counters
© drpagel.de Alle Rechte vorbehalten.