WICHTIG: Der Betrieb von goMatlab.de wird privat finanziert fortgesetzt. - Mehr Infos...

Mein MATLAB Forum - goMatlab.de

Mein MATLAB Forum

 
Gast > Registrieren       Autologin?   

Partner:




Forum
      Option
[Erweitert]
  • Diese Seite per Mail weiterempfehlen
     


Gehe zu:  
Neues Thema eröffnen Neue Antwort erstellen

[Gescheitert] Textread durch textscan ersetzen

 

Gast



Beiträge: ---
Anmeldedatum: ---
Wohnort: ---
Version: ---
     Beitrag Verfasst am: 29.12.2013, 01:53     Titel: [Gescheitert] Textread durch textscan ersetzen
  Antworten mit Zitat      
Hi Leute,

ich möchte sehr viele Informationen einlesen (die Files haben bis zu 2 GB).

Zunächst bin ich folgendermaßen Vorgegangen:
Code:
b=textread('52-SD024.KEW','%s','delimiter','\n');
b(1:18)=[];

data=zeros(length(b),24);

j=['%*s %*s %*s ',repmat('%f ', 1, 24),repmat('%*f ',1,126-24)];

for k=1:length(b)
x=textscan(b{k},j,'delimiter',',');
data(k,1:24)=cell2mat(x);    
end


Das funktioniert auch tadellos nur benötigt es recht lange und MATLAB hat ja anscheinend etwas gegen "textread". Also hab ich mich an textscan versucht bin aber schlichtweg gescheitert. Schaffe es nur, dass Textscan Zeile für Zeile einliest aber dann würde ich eine extra while-schleife benötigen was sicherlich Zeit kostet.

Wie muss ich denn den textscan Befehle aufbauen, dass auf einen Schlag das komplette File eingelesen wird? Die ersten 18 Zeilen sind irrelevant. Je "Datenzeile" die ersten 3 Strings ebenfalls. Dann folgen 24 Zahlen die relevant sind - der Rest wieder irrelevant.

Über Input würde ich mich sehr freuen! Smile

Beispieldatensatz.txt
 Beschreibung:

Download
 Dateiname:  Beispieldatensatz.txt
 Dateigröße:  20.94 KB
 Heruntergeladen:  381 mal


Sirius3
Forum-Guru

Forum-Guru


Beiträge: 441
Anmeldedatum: 12.11.11
Wohnort: ---
Version: ---
     Beitrag Verfasst am: 29.12.2013, 13:49     Titel:
  Antworten mit Zitat      
Hi Gast,
was soll denn mit den Zeilen passieren, in denen keine Zahlen sondern Wörter stehen?
Wenn Du ein paar GB Arbeitsspeicher hast, dürfte das die schnellste Methode sein:
Code:
content=fileread('datei.txt');
content = regexprep(content,'^(?:(?:[^,\n]+,){3})?((?:[-+.eE0-9]+,){24})?.*$','$1','lineanchors','dotexceptnewline');
values = sscanf(content,'%f,',[24,inf])';
Private Nachricht senden Benutzer-Profile anzeigen
 
Gast



Beiträge: ---
Anmeldedatum: ---
Wohnort: ---
Version: ---
     Beitrag Verfasst am: 29.12.2013, 14:27     Titel:
  Antworten mit Zitat      
Ohne deinen Code verstanden zu haben, habe ich ihn einfach mal angewendet. Allerdings lag die Auslastung bei 14 GB RAM - ist inakzeptabel.

Ich verstehe nicht wieso das Einlesen aller Zeilen folgendermaßen funktioniert (dauert übrigens knapp 80 Sekunden):
Code:
b=textread('52-SD024.KEW','%s','delimiter','\n');

Denn zwar sind es wohl zu Beginn des Files mehrere Zeilen aber gegen später gibt es doch keine Umbrüche sondern die "Zeilen" werden durch Kommas getrennt (siehe Beispieldatei im Ausgangspost).

Es muss doch eine Konstellation von Textscan geben durch die alles ohne eine Schleife eingelesen wird? Textscan ist ja in der Lage Files komplett einzulesen ohne den Befehl Zeile für Zeile aufrufen zu müssen.

Für mich sind letztlich diese Daten interessant:
Code:
2013/09/03,12:15:26,00000:00:01,5.812E+01,5.808E+01,5.861E+01,3.893E-01,4.119E-01,3.943E-01,+1.365E+00,-1.380E+00,+2.074E+01,-1.799E+01,+0.020,-0.061,+0.867,+0.779,+6.966E+01,+2.262E+01,+2.392E+01,+2.311E+01,+3.841E+00,-2.258E+01,+1.192E+01,+1.450E+01,50.0,4.108E-02,----     ,----     ,----     ,----     ,----     ,----     ,----      ,----      ,----      ,----      ,----  ,----  ,----  ,----  ,----      ,----      ,----      ,----      ,----      ,----      ,----      ,----      ,----,----     ,----     ,----     ,----     ,----     ,----     ,----     ,----      ,----      ,----      ,----      ,----  ,----  ,----  ,----  ,----      ,----      ,----      ,----      ,----      ,----      ,----      ,----      ,----,----     ,----     ,----     ,----     ,----     ,----     ,----     ,----      ,----      ,----      ,----      ,----  ,----  ,----  ,----  ,----      ,----      ,----      ,----      ,----      ,----      ,----      ,----      ,----,----     ,+3.00000E-04,+0.00000E+00,+5.70000E-03,+0.00000E+00,+0.00000E+00,-3.00000E-04,+0.00000E+00,-4.90000E-03,+3.00000E-04,-3.00000E-04,+5.70000E-03,-4.90000E-03,+1.93000E-02,+6.20000E-03,+6.60000E-03,+6.40000E-03,+0.00000E+00,+0.00000E+00,+0.00000E+00,+0.00000E+00,+1.93000E-02,+6.20000E-03,+6.60000E-03,+6.40000E-03,+1.00000E-04,+6.000E-04,+0.000E+00,+1.140E-02,+0.000E+00,+1.000E+05,

(wiederholt sich)

Ich brauche die ersten beiden Strings (Datum, Uhrzeit = Zeitstempel), den nachfolgenden String nicht aber dann die nächsten 24 Zahlen.

Ich schaff es einfach nicht den Textscan Befehle so aufzubauen, dass er sich komplett durch das File "wühlt" und die ersten 18 Zeilen überspringt.
 
Gast



Beiträge: ---
Anmeldedatum: ---
Wohnort: ---
Version: ---
     Beitrag Verfasst am: 29.12.2013, 17:15     Titel:
  Antworten mit Zitat      
Surprised

So hat's funktioniert:
Code:
fid=fopen('52-SD024.KEW'); tic; b=textscan(fid,j,'delimiter',',','Headerlines',18); toc

Elapsed time is 179.053273 seconds.

mit j:
Code:
j=['%s %s %*s ',repmat('%f ', 1, 24),'%*[^\n]'];


Scheint wohl so als er erkenne er eine neue "Zeile" von selbst (wobei ich nach wie vor Dachte, dass eine neue Zeile durch ein Komma eingeleitet wird).
 
Neues Thema eröffnen Neue Antwort erstellen



Einstellungen und Berechtigungen
Beiträge der letzten Zeit anzeigen:

Du kannst Beiträge in dieses Forum schreiben.
Du kannst auf Beiträge in diesem Forum antworten.
Du kannst deine Beiträge in diesem Forum nicht bearbeiten.
Du kannst deine Beiträge in diesem Forum nicht löschen.
Du kannst an Umfragen in diesem Forum nicht mitmachen.
Du kannst Dateien in diesem Forum posten
Du kannst Dateien in diesem Forum herunterladen
.





 Impressum  | Nutzungsbedingungen  | Datenschutz | FAQ | goMatlab RSS Button RSS

Hosted by:


Copyright © 2007 - 2025 goMatlab.de | Dies ist keine offizielle Website der Firma The Mathworks

MATLAB, Simulink, Stateflow, Handle Graphics, Real-Time Workshop, SimBiology, SimHydraulics, SimEvents, and xPC TargetBox are registered trademarks and The MathWorks, the L-shaped membrane logo, and Embedded MATLAB are trademarks of The MathWorks, Inc.