Soeben habe ich eine weitere Testseite bei linguatec.net gefunden, in welcher man seinen Wunschtext (bis zu 250Buchstaben) in einigen Sprachen vorreden lassen kann. Am lustigsten ist es, Lateinischen oder Lëtzebuergeschen (Luxemburgischen) Text in Sprachen zu hören, die nicht Landessprache sind, da sie dort in der Liste fehlen. Erstaunt bin ich aber über die Größe der WAV-Dateien relativ zu den SWF-Dateien. Bei meinem deutschsprachigen Vergleichstext ist die WAV-Datei 5,4 mal so groß wie die SWF-Datei.
byte
ART
Text
Silben
386152
WAV
deutscher Text
42
6445
SWF
Untersuchungen
5
4348
SWF
zu
1
7027
SWF
Reaktionen
4 bis 5
3766
SWF
von
1
7144
SWF
Dehydroascorbin-
6
3766
SWF
und
1
7260
SWF
Diketogulonsäure
7
3533
SWF
mit
1
4581
SWF
Hilfe
2
4581
SWF
Rechner
2
6911
SWF
unterstützter
4
5746
SWF
Infrarot
3
6445
SWF
spektroskopie
4
71553
SWF
Summe, deutscher Text
42
422218
WAV
englischer Text (GB)
416436
WAV
englischer Text (US)
MW.(byte)
ART
St.Abw.(byte)
Silbe(n)
3853
SWF
(±347)
1
4581
SWF
2
5746
SWF
3
6670
SWF
4
6750
SWF
(±443)
5
7144
SWF
6
7260
SWF
7
mein
"TR"
streikt
!
22.8.:
"TR"
wieder
o.k.!
Aus den Werten ergibt sich durch Best-Fit (PWR-Regression mit r²=0.969) eine liegende Parabel (ähnlich zur Wurzelparabel) und man vermutet, dass sie sich für große Silbenlängen einer Geraden anschmiegen könnte:
y[Byte]=3818,27 · x[Silben]0.3515
Tolle Sache, falls mein TR mal wieder defekt ist, und diese Schulphysik-Webseite dann noch existiert! Nimmt man nur die 4 bis 7-silbigen Worte (mind.4Wertepaare), ergäbe sich durch Linear-Fit (r²=0.929) eine Gerade mit der Steigung 216 Byte/Silbe und ein Offset von 5765Byte. Wünschenswert wäre eine noch genauere Funktion. Vielleicht sieht die Funktion so aus ...:
Bei Portugiesisch muss sogar ich mehrmals hinhören, um die Aussprache mit dem Text vergleichen zu können, so dass ich den Verdacht habe, dass hier brasilianisches Portugiesisch gesprochen wird. Das Lateinisch von einer spanischen Stimme gesprochen klingt noch besser als von der deutschen donna synthetica. Letztere kommt mit der lateinischen Silbenbetonung nicht klar. Luxemburgisch auf deutsch hört sich fast dänisch an. Einen Vorteil haben die mit Voice Reader von www.linguatec.net erzeugten WAV-Dateien gegenüber den SWF-Dateien: man kann sie extern über das Bedienfeld steuern. Wenn es zu Tonunterbrechungen während des ersten Abspielens kommt, ist die Datei noch nicht fertig herunter in den PC-Cache geladen, während sie bereits abgespielt wird (gegebenenfalls ist die Abspielung zu wiederholen).:
Die linguatec.net-online-Testseite bietet noch folgende lobenswerte Möglichkeiten:
sprachlich nicht so Versierte hören Texte langsamer bis zur halben Geschwindigkeit vorgesprochen
erstmals kann man auch einen Text in einer slawischen Sprache sich vorsprechen lassen. Bis ich aber einen solchen Vergleichstext fertig habe, können noch Monate bis Jahre vergehen.
Malzeit! Herrlicher Sonnenschein draussen, kenn ich garnicht mehr bei dieser Stubenhockerarbeit. (dp)
Nachtrag_1 am 20.8.2006 um 26.20Uhr: Ich habe fertig!
Linksammler (weitere 'Text nach Sprache' (TTS) Formulare):
TTS-Synthese "GraPho" (graphischer Lauteditor). Hier lernt man, dass aus dem Text erst ein Laut (Phonem) gebidet und daraus die synthetische Sprache zusammengesetzt wird: deutsch, englisch; hierzu Anleitung: deutsch, englsch; hierzu mein Beispiel: (Lit.»)
Test 1: portugiesisch, result: No! Dear friends! US-Miss Heather speaks my and your own demonstration text in US-english and not Portuguese. Back to the roots! Durchgefallen, hört sich nicht nur an wie US-amerikanisch, ist auch welches!
Test 2: US-englisch gescheitert, evtl. nur 1 Test pro Sitzung frei ist und mir das Programm nun ein Plugin verkaufen wollte. Danke!
Proser-TCTS: deutsch, englisch, "türkischer Akzent": türkisch ist das aber nicht? Ein Original-Türkisch-Text von der Türkischen Botschaft mit einem Großbuchstaben am Satzanfang und einem kurz vor dem Satzende und sonst Kleinbuchstaben incl. türkischer Sonderzeichen hörte sich an, als wenn die Unicode-Werte z.B. "... 1,3,1-Prozent ..." usw. vorgelesen wurden. Folgender Code
http://www.atip.de/cgi-bin/proser2.pl?f0="100"&voice="tr1"&format=".wav"&tempo="60"&val="Yabancı ülkelerde kendi ülkelerinin kanunlarına göre kurulan tüzel kişiliğe sahip ticari şirketler ancak özel kanun hükümleri çerçevesinde Türkiyede taşınmaz edinebilirler"
in die Browser-URL-Zeile gestellt: hört sich schon türkischer an. (Ich verstehe aber nix von alledem!) çalışma! çalışma! (Arbeit! Arbeit!)
Διάλογος Dialogos (speech.gr, TTS): griechisch (englisches Menü , griechisches Menü (beide im Mai2009 inexistenten Links wurden deaktiviert). Mein Testresultat: das hört sich echt gut griechisch an! Super!
Im Mai2009 wird eine analoge Testseite bei www.nuance.com/realspeak/demo/ gefunden, auf der jeder selber seinen Wunschtext (gegebenenfalls unterteilt in mehreren Sequenzen) eingeben kann; max.Textlänge(Mai2009) = 100Zeichen; (vormals: max.Textlänge(Aug.2006) = 250Zeichen; mögliche weitere Hilfsmittel: Programm Audacity)
z.B. kann nachfolgender Text ins dortseitige Testformular kopiert werden: meinen Mustertextvon hier:
ΟΙ ΈΡΕΥΝΕΣ ΓΙΑ ΤΙΣ ΑΝΤΊΔΡΆΣΕΙΣ ΑΠΌ ΤΟ ΔΕΫΔΡΟ-ΑΣΚΟΡΒΙΚΌ ΟΞΎ ΚΑΙ ΔΙΚΕΤΟΓΟΥΛΟΝΙΚΌ ΟΞΎ ΜΕ ΤΗ ΒΟΉΘΕΙΑ ΤΗΝ ΥΠΈΡΥΘΡΗ ΦΑΣΜΑΤΟΣΚΟΠΊΑ ΥΠΟΣΤΗΡΙΧΞΕΊ ΑΠΟ ΤΟΝ ΥΠΟΛΟΓΙΣΤΉ
Οι έρευνες για τις αντίδράσεις από το δεϋδρο-ασκορβικό οξύ και δικετο-γουλονικό οξύ με τη βοήθεια την υπέρυθρη φασματοσκοπία υποστηριχθεί από τον υπολογιστή
Im Mai2009 gibt es nur noch eine männliche Beispielstimme; (im Mai2009 veraltet:) evtl. muss man erst die männliche und dann die weibliche griechische Stimme aufrufen, da zumindest bei Freund Reinhard und mir sonst eine Fehlermeldung wegen fehlender *.WAV-Datei auf dem Screen erschien.
Da die TTS-Programme oft Probleme mit der BLOCKSCHRIFT haben, habe ich eben innerhalb einer Stunde auch die Groß- und Kleinschrift zu Vergleichszwecken, ferner die in der BLOCKSCHRIFT je nach Font sehr schwer zu erkennenden Akzentzeichen, die in meinem Eintrag vom 9.8.2006 noch fehlen, dazugesetzt.
(Leider bin ich aus Versehen zu schnell über die oben gelisteten behindertengerechten onMouseOver-Links gekommen und der Browser ist dadurch abgestürzt. Diesmal hatte ich die griechischen Akzentzeichen nicht in einer Wordpad-Datei gespeichert, da ich den Unicode dort nicht erkennen kann. Also beginne ich wieder von vorne mit der google-Suche. Mensch ärgere Dich nicht!)
Google hat Probleme, wenn im Wort das große Sigma "Σ" steht und kann nicht entscheiden, dass bei Kleinschrift daraus ein kleines normales Sigma "σ" oder am Wortende ein Schluss-Sigma "ς" wird. Genauso fallen ungekehrt einige Suchergebnisse durch das grobe Raster. Die akzentuierten Großbuchstaben sind ein eigener Unicode, weswegen sie nur von google gefunden werden, wenn ich Worte eingebe, welche alternativ mit akzentuiertem Kleinbuchstaben beginnen. Vielfach lassen die Griechen bei BLOCKSCHRIFT alle Akzente weg; zu diesen Worten ergibt sich bei google auch nur eine Auswahl an Fundworten mit Kleinbuchstaben. Nun steht bei mir im Lehrbuch Ypsilon mit einem akzentuierten "Y"; nur leider suche ich schon länger nach einem google-Wort mit Buchstaben "psi"; zudem entdecke ich auch eine andere "υψηλών"-Schreibweise (eventuell sogar mit anderer Bedeutung, falls es kein Tippfehler ist?); erstens mit einer anderen Betonung und anderem "i" und anderem "o" (in Griechenland gibt es derer zwei!): "ύψιλον". Zum Schluss stelle ich mal die akzentuierten und nichtakzentuierten Buchstaben in einer Übersicht zusammen. In Klammern habe ich die orthografisch ungewöhnlichen nichtakzentuierten griechischen Namen dazugeschrieben, da im Internet auch nichtakzentuierte Wörter existieren. Manchmal findet man im Internet auch die aus Unkenntnis über die Akzentgroßbuchstaben konstruierten Schriftzeichenpaare aus Akzent und nichtakzentuiertem Großbuchstaben (z.B. anstelle von Ά auch ´Α oder 'Α oder in Lateinbuchstaben ´A oder 'A):
ohne
mit
Name
Akzent
α
ά
alpha άλφα {αλφα}
Α
Ά
Alpha ΆΛΦΑ {ΑΛΦΑ}
ε
έ
epsilon έψιλον {εψιλον}
Ε
Έ
Epsilon ΈΨΙΛΟΝ {ΕΨΙΛΟΝ}
η
ή
ita ήτα {ητα}
Η
Ή
Ita ΉΤΑ {ΗΤΑ}
ι
ί
jota γιώτα {γιωτα}
Ι
Ί
Jota ΓΙΏΤΑ {ΓΙΩΤΑ}
ο
ό
omikron όμικρον {ομικρον}
Ο
Ό
Omikron ΌΜΙΚΡΟΝ {ΟΜΙΚΡΟΝ}
υ
ύ
ypsilon ύψιλον {υψιλον}
Υ
Ύ
Ypsilon ΎΨΙΛΟΝ {ΥΨΙΛΟΝ}
ω
ώ
omega ωμέγα {ωμεγα}
Ω
Ώ
Omega ΩΜΈΓΑ {ΩΜΕΓΑ}
In meiner soeben durchlebten Wachtraumphase fällt mir auf, dass man die beiden griechischen "O"-Buchstaben auch mit O-Klein (o-mikron) und O-Groß (o-mega) übersetzen könnte. Vielleicht haben die Namens-Erfinder sich damals gedacht, dass das O-Klein wegen seiner Leichtigkeit in der Tonlage höher schwebt und das schwere O-Groß in der Tonlage tiefer klingt? Der Esel geht nun schlafen. Kali nichta! I-A, I-A! (dp)
Nachtrag_2 am 07.05.2009 um 11.57Uhr: Vor drei Jahren war mir eine automatische HTML-Validierung unbekannt. Auch heute noch wird das html-invalide EMBED-Tag für eingebettete Objekte verwendet und funktioniert im Firefox3.0.10. Aber irgendwann ist "Schluss mit lustig". Daher habe ich mich jetzt abgemüht, den alten Code durch einen html-validen zu ersetzen.
Alter Code mit EMBED-Tag
Dieser Code erzeugte bei älteren Mozilla- oder Firefox-Versionen nur den Ton meiner Audio-Datei, beim F.F.3.0.10 jedoch zusätzlich ein Miniatur-Abspielkonsole des WindowsMediaPlayers links neben den obigen (Pseudo)Links und sollte nicht mehr verwendet werden.
<object classid="CLSID:22D6F312-B0F6-11D0-94AB-0080C74C7E95" STANDBY="Loading Windows Media Player components..." TYPE="application/x-oleobject" width="144" height="40" class="player" ID="objMediaPlayer"> <param name="FileName" value="meine_AudioDatei"> <param name="hidden" value="false">
Im Gegensatz zur Einbettung von FlashPlayer-Anwendungen (SWF-Dateien), welche beim F.F.3.0.10 mit nur einem OBJECT-Tag nebst PARAM-Tags eingebunden werden können, wird hier ein alternatives Object-Tag (ehemals EMBED-Tag) im ersten OBJECT-Tag integriert.
Dieser Code erzeugte beim Firefox3.0.10 als auch beim InternetExplorer7 nur den Ton meiner Audio-Datei. Eine zusätzliche Miniatur-Abspielkonsole des WindowsMediaPlayers links neben den obigen (Pseudo)Links wurde nicht mehr entdeckt (evtl. ist der Code noch unvollständig oder fehlerhaft?).
<OBJECT classid="CLSID:22D6F312-B0F6-11D0-94AB-0080C74C7E95" codebase="http://activex.microsoft.com/activex/controls/mplayer/en/nsmp2inf.cab#Version=6,4,7,1112" STANDBY="Loading Windows Media Player components..." type="application/x-oleobject" width="144" height="40" class="player" ID="objMediaPlayer" data="meine_AudioDatei"> <param name="FileName" value="meine_AudioDatei"> <param name="hidden" value="false">
Prinzipiell geht es also ohne EMBED-Tag, wie auf einer lobenswerten Testseite von joliclic.free.fr (Lit.1»(engl.); Lit.2»(frz.)) zur Einbindung verschiedener Arten von Inhalten in gültiges strenges HTML4.01 mit OBJECT-Tag gezeigt wird. (dp)(1,35h)