Sida 1 av 1

Kommando för att radera dubletter i text

Postat: 16 aug 2016, 10:19
av Ainigma
Vet något ett bra kommando för att radera dubletter av ord, epostadresser etc i en textfil? :)

Re: Kommando för att radera dubletter i text

Postat: 16 aug 2016, 13:16
av johanre
Hhhmm, det beror lite på vad du vill åstadkomma och hur innehållet i texten ser ut.... Men, om du t.ex. har en lista med ord i en fil kallad "textfil" skulle du kunna:

Kod: Markera allt

cat textfil | uniq | sort 


Det ger dig endast unikt förekommande ord i textfilen, och dessutom alfanumeriskt sorterade. Vill du dessutom ha resultatet sparat i en annan fil kan du:

Kod: Markera allt

cat textfil | uniq | sort  > resultatfil 
Det här var bara lite grundläggande exempel, det finns såklart tonvis med varianter.

Re: Kommando för att radera dubletter i text

Postat: 16 aug 2016, 20:59
av Ainigma
Nej det funkade inte. Epostlistan har fortfarande dubletterna kvar. Är osäker på om och vad kommandona gjorde. :P

Re: Kommando för att radera dubletter i text

Postat: 16 aug 2016, 23:16
av johanre
Som sagt, mitt exempel utgick från en lista. Du måste vara lite mer beskrivande gällande innehållet i texten annars blir det svårt att lösa.

Sent from my Redmi 3 using Tapatalk

Re: Kommando för att radera dubletter i text

Postat: 17 aug 2016, 10:36
av Ainigma
Kommandot ser ut att ta bort vissa dubletter men inte andra. T.e.x i textfilen ser har bl a. dessa adresser på rad:
QQQ@hotmail.se
....
....
....
zzzz.www@Yry.se
.....
.....
och resultatfilen har bara en av dessa vilket är som det ska. Med hos andra dubletter är det ingen skillnad. Tex. så har resultatfilen detta:
YYY.KKK@TTT.se
.....
.....


vilket inte borde vara fallet.

Re: Kommando för att radera dubletter i text

Postat: 17 aug 2016, 10:58
av a_jonsson
Ainigma skrev:Kommandot ser ut att ta bort vissa dubletter men inte andra.
uniq tar bara bort intill varandra liggande dubbletter. Pröva med att ändra ordningen till

Kod: Markera allt

cat textfil | sort | uniq 
så att sorteringen utförs först.

(möjligen även med flaggan -i efter uniq för att även ta bort dubbletter oavsett skiftläge)

Re: Kommando för att radera dubletter i text

Postat: 17 aug 2016, 11:17
av Ainigma
Ja det blev bättre! Tack så mycket. :)

Re: Kommando för att radera dubletter i text

Postat: 17 aug 2016, 11:34
av JoWa
Är det bra att posta dessa (eller andra) e-postadresser här? :-\

Re: Kommando för att radera dubletter i text

Postat: 17 aug 2016, 12:56
av Ainigma
Epostadresserna är offentliga adresser till organisationer så det ska väl inte vara ett problem. :P

Re: Kommando för att radera dubletter i text

Postat: 17 aug 2016, 15:06
av JoWa
De tar nog med glädje emot mer spam. :P

Re: Kommando för att radera dubletter i text

Postat: 17 aug 2016, 15:51
av Ainigma
Förstår piken fast den var fin ;) . . tror dock inte att spamprogram hittar epostadresserna lättare här än på de webbsidor där epostadresser ursprungligen hämtats så jag vidhåller att det inte borde vara ett problem. Men om admin tror att det kan bli ett problem eller att det är olämpligt så får han/hon gärna ta bort tråden. Jag har ju fått mitt problem löst så det spelar ju ingen roll för mig om det tas bort. Såvitt jag förstår så kan inte jag ta bort inlägget. :)

Re: Kommando för att radera dubletter i text

Postat: 17 aug 2016, 16:01
av JoWa
Du kan redigera dina inlägg. :idea:

Re: Kommando för att radera dubletter i text

Postat: 17 aug 2016, 16:09
av Ainigma
aha, var det så enkelt . . det är alltså redigera knappen vid varje inlägg . . :O , okej då fixar jag det. :!: