Sida 1 av 98

Talsyntes:____"För Folk I Tiden"

Postat: 23 sep 2008, 16:20
av Hans Linde
2014 Juli 02 lördag:
Idag finns tillägg till Chorme (Google Chrome) some heter SpeakIT. Funkar ganska bra för Svenska o Engelska, även i högre hastigheter.
Jag har inte anledning att testa det andra språken.
https://chrome.google.com/webstore/deta ... hehgnkkbak

Intro o Status o Download



För de som är intresserade ska jag försöka hålla er uppdaterade om framgångar (o motgångar) och förväntningar.

Du som vill ladda ner och prova Talsyntesen kan göra det här (r31): http://ubuntu-se.org/phpBB3/download/file.php?id=3109
Packad upp filen och "kör" den. Snart öppnar ett fönster där du väljer vilka röster som du vill ha installerade.
Slutligen väljer du rösten du vill använda för att lyssna/läsa text nu.
Nu är du klar!
Markera texten och tryck F3 (för rev31 och läge-right).

Ditt bidrag är välkommet. Underrätta oss gärna om upptäckta fel, brister eller önskemål.
I läge-adjust kan du trimma fram den version av rösten du själv föredrar.

rev 29 har provats fungerat fint på X/K/Ubuntu8.10 PCs med i386
o AMD64-version med Compiz grafik utan problem.

rev 31 har testas ok på följande:
amd64x2m-u8.04
amd64x2m-u8.10
amd64x2m-k8.04
amd64x2m-x8.04
amd64x2m-x8.10
amd64x2m-lm5k
amd64c-u8.04
amd64c-x8.04
amd64c-k8.04
amd64c-lm5k
amd64c-lm5x
förklaring: amd64=>i386 alt amd64, x2=> dual core, m=>metacity alt compiz, x/k/ubuntu, 8.04 alt 8.10
lp-i386c-x8.04
lp-i386c-x8.10
lp-i386c-u8.10
lp-i386c-lm5x
förklaring: lp=>laptop, lm5=>Linux Mint5, X=>xfce
P2-i386-cbl
amd64c-cbl
förklaring: P2=Pentium2 450MHz o 250Mram, cbl=Crunchbang Linux Lite

amd64x2m-k8.10 hade vi problem med. Kanske pga låg prestanda i PCn, men försiktighet rekommenderas! :'(

Öppnar du filen och läser texten så finner du Revisionsläget i början av texten och det finns en list över Tangentbindningarna i slutet. Det du ser i fönstret "F1".
Innehåller 10talet språk/röster, höger o vänster hänt koppling, obegränst med justeringar.

Tips: sätt en tape på tangentborde och skriv ner det tangenter du avser använda. (revisionerna är olika)

-------

Några redigera inlägg som kan bidra till förståelse om målsättning och förhoppning om att du vill delta.

Jag har inte hängt med vad ni sysslar med just nu, har det övergått från att få talsyntes att fungera till något annat? :)

Nej, vi har bara förlängt ambitionen. ;D ;D ;D
Men det kan nog kort förklaras med, att talsyntes för "vanlig" profitionell tillämpning är inriktad på god återgivning och likhet med en mänsklig röst.
För talsyntes som ett hjälpmeddel att läsa olika typer av dokumentation, både studie, fritid och professionellt......
Ja, då är det andra krav. (Betydligt annorlunda för att bli högprestanda inom den "vetenskapen".)
Mycket sannolikt är det här ett hjälpmeddel som skulle "öka prestations förmångan" för ca 50% av befolkning ( Hmmm.. vi kommer att få stipendier :)
Utöver talsyntesens direkta egenskaper finns det också ett antal områden som ökar användbarheten.
Det är dels användargränssnittet som vi tittat lite på, men ett stort området som vi endast har nämnt är inteligent (adaptiv..är det fortfarande en klyscha?) avläsning.
Kort uttryckt det finns utrymme för flera ......
Annars har vi fikat.

..

Sedan för "fördjupade" insatser har vi ämnet tal-till-text.

http://ubuntu-se.org/phpBB3/viewtopic.php?f=208&t=33497

...

Vad har vi gjort de 1400 första inläggen: ;D ;D ;D

Jo, vi har plockat samman och testat och justerat div funktionsblock.
-Ett stort antal röster/språk.
-Provat olika tangentbindningar
-Testar olika spelare och kompatibla justerings moduler
-Utvärderat maximal läshastighet.
-Kontroll av grafiskt gränsnitt för de olika platformarna.
-Sökt kombabilitet med alla Ubuntu derivat men även tex Linux Mint
- Snubblat över hinder med i386 vs AMD64 o 8.04 vs 8.10


.................................

Jag ber om ursäkt för att det här och mina övriga inlägg är så illa skrivna , :'(
men det är ett resultat av dysleksi och en wiplasch-skada som gör att jag oftast
är kraftigt medicinerad när jag håller på med detta. ??? ::)
Annars skulle jag göra mitt ordinare jobb. ;)
................

Några förlösande Termina kommandon när du "kört i väggen":
which Xdialog zenity xbindkeys espeak xsel xclip mplayer
gksudo nautilus
gksudo thunar
kdesu kate /etc/fstab
gksudo mousepad /etc/fstab
sudo apt-get install libc6-i386
speaker-test -l1 -c2 -twav
lspci
lshw
ctl C ...för att stopp process i terminal

Re: var finns programmen?

Postat: 23 sep 2008, 16:36
av Konservburk
Just espeak har nog inget grafiskt gränssnitt. Du får köra det från kommandoraden. Eller om det finns något annat program som använder sig av espeak-biblioteket så skulle du kunna köra med det programmet istället. Har för mig att kde har något som kallas KTtS integrerat.

Re: var finns programmen?

Postat: 23 sep 2008, 16:49
av Hans Linde
Vad innebär att "köra från Kommadoraden"?
Hur går det till?

Re: var finns programmen?

Postat: 23 sep 2008, 17:15
av Konservburk
Eftersom vi är i nybörjardelen så valde jag att inte gå in närmare på den saken. Men eftesom du nu frågar...

Att köra från kommandoraden innebär att man styr saker genom att skriva textkommandon. Allting fungerade på det sättet innan man hittade på grafiska gränssnitt med peka och klicka.

Själva kommandoraden kommer du åt från ett program som kallas terminalen (tillbehör -> terminal). Där skriver man sitt kommando, och när man trycker enter så körs kommandot.

Man kan t.ex. få espeak att säga "hejsan hoppsan" med följande kommando:

Kod: Markera allt

espeak -v sv "hejsan hoppsan"
eller möjligtvis så här:

Kod: Markera allt

espeak -v sv "hejsan hoppsan" --stdout | aplay
Men nu är det ju inte meningen att man ska sitta och skriva uppsatser varje gång man vill använda espeak. Säg t.ex. att du vill ordna så att espeak läser upp allt som finns i utklippet när du trycker på en viss tangent på tangentbordet (eller knapp på musen).

Då kan du smidigt markera en text och sedan få den uppläst genom en simpel knapptryckning. Men hur gör man då för att få till det på det sättet?

Först måste man veta vilket kommando som får espeak att läsa upp vad som finns i utklippet:

Kod: Markera allt

xclip -o | espeak -v sv
eller möjligtvis så här:

Kod: Markera allt

xclip -o | espeak -v sv --stdout | aplay
Sedan gäller det att ta reda på hur man binder ett sådant kommando till en musknapp eller tangentkombination (det finns trådar om den biten om du söker i forumet).

Re: var finns programmen?

Postat: 23 sep 2008, 17:38
av Hans Linde
Uups.
Terminalen har jag använt en hel del, men med instruktion från detta
förträffliga forum. (antog att det var att "köra kommadorad")
Men tyvär faller jag på första raden om jag ska hacka själv
eftersom jag inte hittar det "vertikala strecket" på mitt tangentbord.
På tråden " Text till tal och tvärt om " så togs det upp en del som
behövdes för en som jag tror var synskada. Själv är jag dyslektisk
och hade haft stor hjälp av talsyntes. Inte minst för att lära mig mera
om just det här (dvs Ubuntu o Linux).
Om jag förstår dig rätt så kommer jag inte idag att med
enstaka kommadon att kunna starta någon av de alternativen till
"eSpeak", och ha det "up and running" för tex läsa Firefox.
Det blir den dagen som det finns en "grafisklösning".

Rätta mig om jag har fel. Jag läser det du skriv som om det kräveds några
"drag" till för att får det att "flytta på" som behövs.

Re: var finns programmen?

Postat: 23 sep 2008, 17:58
av Cadryc
Vertikalt streck | finn spå knappen till vänster om z, håll nere Alt Gr (till höger om mellanslag) samtidigt som du trycker.

Minns jag rätt kallas | för pipe

Re: var finns programmen?

Postat: 23 sep 2008, 18:05
av Konservburk
Hans Linde skrev:Men tyvär faller jag på första raden om jag ska hacka själv
eftersom jag inte hittar det "vertikala strecket" på mitt tangentbord.
Du kan ju kopiera "sträcket" och klistra in. Exakt var det ligger på tangentbordet beror ju lite på vad du har för tangentbordslayout. Med ett vanligt svenskt tangentbord:

Bild
Hans Linde skrev:Om jag förstår dig rätt så kommer jag inte idag att med
enstaka kommadon att kunna starta någon av de alternativen till
"eSpeak", och ha det "up and running" för tex läsa Firefox.
Det blir den dagen som det finns en "grafisklösning".
Det finns i dagsläget (vad jag känner till) inget grafiskt gränssnitt som på ett intuitivt sätt hjälper dig att få igång det hela. Jag har iofs för mig att kde har någonting inbyggt, men jag är osäker.

Det är dock inte speciellt komplicerat att få till något vettigt så att du kan använda ihop med firefox.
Hans Linde skrev:Rätta mig om jag har fel. Jag läser det du skriv som om det kräveds några
"drag" till för att får det att "flytta på" som behövs.
Kommandot som får espeak att läsa upp det som finns i utklippet är egentligen det enda som behövs. I princip så markerar du då en text, vilken som helst (t.ex. i firefox). Sedan är det bara att köra det där kommandot och espeak läser upp markering.

Men om det hela ska bli smidigt så vill du ju inte skriva in kommandot i en terminal varje gång, utan istället kunna köra det på ett något enklare sätt. Att jag är lite vag här beror på att jag inte vill styra dig alltför mycket. Det är ju i slutändan bara du som kan avgöra vad som är smidigast. Jag föreslog att du kunde binda kommandot till en musknapp eller en tangentkombination. Men du kan ju t.ex. vilja ha en fil på skrivbordet som du klickar på istället.

Re: var finns programmen?

Postat: 23 sep 2008, 18:40
av Hans Linde
Hmmm det första man blir blind på är ögonen. Där är den "|" mycket riktigt. Att man kan titta i över en vecka
utan framgång. Jag ska inte säga något till min chef.

Det verder tagna sättet för talsyntes som funnits i Windowsmiljö de senaste 15-20åren
är "ctl C" (dvs copy kommando) för att talsyntesen ska läsa upp det som markerats.
Wordread Plus är det förhärskande och är bra talsyntes men lite taffligt interface.

Mao om jag kan skriva ett kommando i terminalen, då PCn startar eller Firefox startar,
och därefter kommer "eSpeak" att läsa makerad text efter ett "ctl C" tryck (eller någon
"funktionstangent" , om det underlättar)..... Ja, då skulle jag vara mycket hjälpt och
tacksam för att få vet vad som ska skrivas.
(Dysleksi är som att läsa en text som delvis och ibland tätts med grässtrån eller annan text,
tur att vi utvecklat andra talanger.)

Re: var finns programmen?

Postat: 23 sep 2008, 19:04
av Christian Johansson
Testade precis. Rätt roligt tycker jag men hur reglerar man volymen. Den vanliga volymkontrollen verkar inte fungera för detta kommando. Jag får jättehög volym oavsett vad jag sätter volymen till.

Re: var finns programmen?

Postat: 23 sep 2008, 19:06
av Christian Johansson
Aha, man använder option "-a" för att reglera volymen såg jag nu.

Re: var finns programmen?

Postat: 23 sep 2008, 21:59
av Konservburk
Hans Linde skrev:Mao om jag kan skriva ett kommando i terminalen, då PCn startar eller Firefox startar,
och därefter kommer "eSpeak" att läsa makerad text efter ett "ctl C" tryck (eller någon
"funktionstangent" , om det underlättar)..... Ja, då skulle jag vara mycket hjälpt och
tacksam för att få vet vad som ska skrivas.
När du väl har fixat till detta så kommer det att fungera automatiskt även om du startar om. Du behöver inte använda terminalen mer än för att få det att fungera från första början.

En punktlista över vad du måste göra:

1) Testa först kommandot (i terminalen) som ska kunna läsa upp text från utklippet.

Kod: Markera allt

xclip -o | espeak -v sv
eller om det första varianten inte fungerar:

Kod: Markera allt

xclip -o | espeak -v sv --stdout | aplay
2) När du är nöjd och har ett fungerande kommando så är det dags att göra ett skript av det. Det hela går ut på att du skapar en vanlig textfil (använd en texteditor, t.ex. gedit). I textfilen skriver du in:

Kod: Markera allt

#!/bin/sh
xclip -o | espeak -v sv
Sista raden ska vara det kommando som fungerade bra när du provade i terminalen.

3) Spara textfilen någonstans, förslagsvis ~/bin/espeak.sh

4) Nu ska du göra skriptet körbart. Jag har för mig att man kan högerklicka på det och välja egenskaper eller något liknande. Annars kan man göra det med ett kommando i terminalen:

Kod: Markera allt

chmod +x ~/bin/espeak.sh
5) Nu ska det gå att dubbelklicka på skriptfilen för att få utklippet uppläst. Då återstår det bara att koppla skriptet till en tangentbordsgenväg. Jag har för mig att de inställningarna ligger under System > Inställningar > Tangentbordsgenvägar. Välj en tangentbordsgenväg du känner dig bekväm med och peka den på skriptet.

Re: var finns programmen?

Postat: 23 sep 2008, 22:14
av Tesla
Nu har jag bara orkat läsa första inlägget, men de allra flesta program du installerar lägger sig i /usr/bin... Sen såg jag något om att öppna program i terminalen, jag vet inte vad det programet du skriver om är för något men de flesta program för terminalen brukar starta bara man skrivet namnet på dem i just terminalen.

Re: var finns programmen?

Postat: 24 sep 2008, 17:26
av Hans Linde
Ni är ett "Guldgäng".
Det där blir morgonpasset runt frukost imorgon.

Re: var finns programmen?

Postat: 24 sep 2008, 20:12
av Hans Linde
Då har jag gjort en närmare studie av detta och det blir lite mitt åt.
Båda kommandon resulterar i "tal". Men rösten är undermålig. Tyvärr har jag inte haft
möjlighet att höra den på annat sätt.
Jag har var ute på "nätet" för att se vad som "duger".
Det är endast Festival som har demo, vad jag har funnit.
Den Engelska rösten Nick i HMM HTS är bra och Alan i några utföranden.
http://www.cstr.ed.ac.uk/projects/festi ... oices.html
Festival finns i Synaptic, men det går inte att se ( jag har inte sett)
vilka röster som finns. Jag är mest hjälp av en Engelsk röst (det hade jag utelämnat sist),
om jag måste välj. Eftersom det är frågan om att "sluga" information, behöver ( det bör)
vara en röst som talar "fort". Det här med hastighet på röst är vanligen justerbart,
men det är kanske för mycket att be om. Jag förstår att det här är som att
"peka mot stjärnorna", men fråga går ju.

Angående förslaget med "eSpeak.sh", var det något som felade. Föreslagna texteditor "dök inte
upp", utan en annan användes (textredigerare gedit 2.22.3). Det gick inte att lägga filen i "bin"!?
Prova den hel del annat men, ja.........

Re: var finns programmen?

Postat: 24 sep 2008, 20:30
av Hans Linde
Försökte vara "duktig" och installerade Festival med Synaptic.
Därefter läser jag länken "in till" namn: Hur gör jag en programstartare ?
Jag letar rätt på filerna med namn "festval-något", högerklicka.
Nix, inget alternativ.

Re: var finns programmen?

Postat: 24 sep 2008, 20:46
av Cadryc
Det finns ju ett text-till-tal program i Ubuntu som standard, har du kollat på Orca? Det är dolt i menyerna, plocka fram det genom att högerklicka på Program → Redigera menyer → Allmän åtkomst → bocka i Orca

Men tyvärr kan jag inte påstå att jag förstå hur det fungerar, hittade en sida
http://live.gnome.org/Orca#head-7456497 ... 5c48cea596 där det bla finns ett ljudklipp so mska förklara en del verkar det som, men jag orkade inte lyssna. Länk direkt till ljudklippet http://www.digitaldarragh.com/linux/ins ... h-orca.mp3

Re: var finns programmen?

Postat: 24 sep 2008, 21:17
av Konservburk
Hans Linde skrev:Då har jag gjort en närmare studie av detta och det blir lite mitt åt.
Båda kommandon resulterar i "tal". Men rösten är undermålig. Tyvärr har jag inte haft
möjlighet att höra den på annat sätt.
Jag har var ute på "nätet" för att se vad som "duger".
Det är endast Festival som har demo, vad jag har funnit.
Den Engelska rösten Nick i HMM HTS är bra och Alan i några utföranden.
http://www.cstr.ed.ac.uk/projects/festi ... oices.html
Festival finns i Synaptic, men det går inte att se ( jag har inte sett)
vilka röster som finns. Jag är mest hjälp av en Engelsk röst (det hade jag utelämnat sist),
om jag måste välj.
Att läsa upp engelsk text med den svenka rösten ger nog inga bra resultat. Plocka bort -v sv för att se om du gillar den engelska rösten bättre. Du kan dessutom justera hur djup rösten ska vara med flaggan -p, vilket nog kan hjälpa en hel del.
Hans Linde skrev:Eftersom det är frågan om att "sluga" information, behöver ( det bör)
vara en röst som talar "fort". Det här med hastighet på röst är vanligen justerbart,
men det är kanske för mycket att be om. Jag förstår att det här är som att
"peka mot stjärnorna", men fråga går ju.
Flaggan -s avgör hastigheten, t.ex:

Kod: Markera allt

espeak -s 300 "i told you so"
Hans Linde skrev:Angående förslaget med "eSpeak.sh", var det något som felade. Föreslagna texteditor "dök inte
upp", utan en annan användes (textredigerare gedit 2.22.3). Det gick inte att lägga filen i "bin"!?
Prova den hel del annat men, ja.........
Du kan lägga filen precis var du vill... ~/bin var bara ett försag från min sida. Har du ingen sådan katalog så måste du först skapa den om du vill kunna lägga filen där.

Re: Talsyntes: var finns programmen?

Postat: 24 sep 2008, 21:30
av Tesla
Testa att skriva "espeak --help" eller "man espeak" i terminalen så kan du annars läsa vad alla flaggor och så gör.

Re: Talsyntes: var finns programmen?

Postat: 24 sep 2008, 22:21
av Hans Linde
Med kommandon.... espeak -s 300 "i told you so"... och versioner
på det så får jag det att tala.
Tyvärr måste jag dömma ut eSpeak om det nu inte finns andra röster att
tillgå. Men det verkar vara en lång resa att utreda det.

Orca är ännu ett alternativ. Jag lyssna en 10min på förevisad länk.
Det är möjligen något, men framgår inte "raskt".
Var inte framgångrik med att ändra Program osv...

Efter att ha lyssnat på Festival, känns det som rätt spår.
Jag har installerat det som är tillgängligt via synaptic.
I terminal försöker jag som med eSpeak dvs
festival "some text that can be spoken"
men får då följande besked (nice try...)
WARNING
No default voice found in ("/usr/share/festival/voices/")
either no voices unpacked or voice-path is wrong
Scheme interpreter will work, but there is no voice to speak with.
WARNING

SIOD ERROR: could not open file merges both the default behaviors and key

Re: Talsyntes: var finns programmen?

Postat: 24 sep 2008, 22:27
av Hans Linde
festival --help skrivet i Terminal ger följande (men hur tyda..):
@festival --help
Usage: festival Usage:
festival <options> <file0> <file1> ...
In evaluation mode "filenames" starting with ( are evaluated inline
Festival Speech Synthesis System: 1.96:beta July 2004
-q Load no default setup files
--datadir <string>
Set data directory pathname
--libdir <string>
Set library directory pathname
-b Run in batch mode (no interaction)
--batch Run in batch mode (no interaction)
--tts Synthesize text in files as speech
no files means read from stdin
(implies no interaction by default)
-i Run in interactive mode (default)
--interactive
Run in interactive mode (default)
--pipe Run in pipe mode, reading commands from
stdin, but no prompt or return values
are printed (default if stdin not a tty)
--language <string>
Run in named language, default is
english, spanish and welsh are available
--server Run in server mode waiting for clients
of server_port (1314)
--script <ifile>
Used in #! scripts, runs in batch mode on
file and passes all other args to Scheme
--heap <int> {1000000}
Set size of Lisp heap, should not normally need
to be changed from its default
-v Display version number and exit
--version Display version number and exit