WICHTIG: Der Betrieb von goMatlab.de wird privat finanziert fortgesetzt. - Mehr Infos...

Mein MATLAB Forum - goMatlab.de

Mein MATLAB Forum

 
Gast > Registrieren       Autologin?   

Partner:




Forum
      Option
[Erweitert]
  • Diese Seite per Mail weiterempfehlen
     


Gehe zu:  
Neues Thema eröffnen Neue Antwort erstellen

Arbeiten mit großen Dateien

 

Dunlab
Forum-Newbie

Forum-Newbie


Beiträge: 4
Anmeldedatum: 03.04.09
Wohnort: ---
Version: ---
     Beitrag Verfasst am: 03.04.2009, 14:46     Titel: Arbeiten mit großen Dateien
  Antworten mit Zitat      
Guten Tag,

ich habe derzeit mit großen Textdateien zu arbeiten, die ich in Matlab importieren möchte.

Es handelt sich um 40 MB große textfiles, die 2 000 000 Zeilen beinhalten, die Zeilen sind derzeit folgendermaßen formatiert:
1,111\t2,222\n
zu beachten hierbei ist, dass die Zahlen mit Komma und nicht mit Punkt formatiert sind.

Zuerst wollte ich in Matlab eine find&replace methode schreiben, damit ich danach die Datein mit import relativ einfach einlesen kann. Hier weiß ich aber nicht wie das geht, ich dachte an zeilenweißes auslesen und umwandeln sprich:
zeile lesen, findreplace(, .), in die gleiche datei schreiben, nächste datei lesen usw.

Hier weiß ich aber nicht, wie ich mit dem schreiben und lesen gleichzeitig zurecht komme.

Zweite Variante ist, dass ich gleich beim Einlesen die Datei die Zahlen lesen und in eine Matrix schreibe, die ich dann als .mat file speichere.

Code:

    find = ',';
    replace = '.';

    [Filename,Pathname] = uigetfile('*.txt');
   
    fr = fopen(fullfile(Pathname, Filename),'r');
    line = fgetl(fr);
    linecount = 1;
   
    while(line>0)
       
       found = strfind(line,find);
       for k = 1:length(found)
           line(found(k)) = replace;
       end
       data(linecount,:) = sscanf(line,'%f')';
       
       linecount = linecount+1
       line = fgets(fr);
    end
 


Hierbei ist das Problem, dass mein Algorithmus ab ca 25000 Zeilen einbricht und deutlich langsamer wird. Hier eine Graphic, die natürlich dadruch verfälscht ist, weil ich zusätzlich noch die Zeiten gespeichert habe.

Wie kann ich das ganze effizienter gestalten?

Danke

Aufwand1.png
 Beschreibung:
Dauer bezogen auf Zeilenanzahl

Download
 Dateiname:  Aufwand1.png
 Dateigröße:  7.25 KB
 Heruntergeladen:  557 mal
Private Nachricht senden Benutzer-Profile anzeigen


Lloewe
Forum-Anfänger

Forum-Anfänger


Beiträge: 11
Anmeldedatum: 17.03.09
Wohnort: Göttingen
Version: ---
     Beitrag Verfasst am: 05.04.2009, 10:42     Titel:
  Antworten mit Zitat      
hallo,
wie wäre es wenn du dir ein Programm in C/C++ schreibst, welches deine ursprüngliche Datei gleich zu Anfang in Teildateien zerlegt. Also z.b. immer 25000 Zeilen ausliest und sie in andere Dateien mit fortlaufendem Namen schreibt.
Danach könnte man Matlab die Anzahl der Dateien (und damit die Dateinamen) übergeben udn könnte so das Ausgangsproblem in Teilprobleme zerlegen.
C ist meines Wissens nach bei solchen Anwendungen auch relativ zügig.

Gruß
Leander
Private Nachricht senden Benutzer-Profile anzeigen
 
Gast



Beiträge: ---
Anmeldedatum: ---
Wohnort: ---
Version: ---
     Beitrag Verfasst am: 05.04.2009, 21:26     Titel:
  Antworten mit Zitat      
Hi,
wg. des Problems mit Zahlen mit Komma als Dezimaltrennzeichen - hast Du's mal mit txt2mat vom Mathworks File Exchange probiert
http://www.mathworks.com/matlabcentral/fileexchange/18430 ?
Wenn Du mit \t und \n Tab bzw. Newline meinst, also Deine Datei einfach so aussieht

1,23 4,56
7 8,9
0,1 2,34
...

sollte so etwas
Code:
x = txt2mat('Datei.txt');

funktionieren (40MB sind auch nicht so viel).
Viel Erfolg!
 
Gast



Beiträge: ---
Anmeldedatum: ---
Wohnort: ---
Version: ---
     Beitrag Verfasst am: 05.04.2009, 21:28     Titel:
  Antworten mit Zitat      
Anonymous hat Folgendes geschrieben:

[..]
1,23 4,56
7 8,9
0,1 2,34
...


Sorry, die Tabs funktionieren hier nicht.
 
Neues Thema eröffnen Neue Antwort erstellen



Einstellungen und Berechtigungen
Beiträge der letzten Zeit anzeigen:

Du kannst Beiträge in dieses Forum schreiben.
Du kannst auf Beiträge in diesem Forum antworten.
Du kannst deine Beiträge in diesem Forum nicht bearbeiten.
Du kannst deine Beiträge in diesem Forum nicht löschen.
Du kannst an Umfragen in diesem Forum nicht mitmachen.
Du kannst Dateien in diesem Forum posten
Du kannst Dateien in diesem Forum herunterladen
.





 Impressum  | Nutzungsbedingungen  | Datenschutz | FAQ | goMatlab RSS Button RSS

Hosted by:


Copyright © 2007 - 2024 goMatlab.de | Dies ist keine offizielle Website der Firma The Mathworks

MATLAB, Simulink, Stateflow, Handle Graphics, Real-Time Workshop, SimBiology, SimHydraulics, SimEvents, and xPC TargetBox are registered trademarks and The MathWorks, the L-shaped membrane logo, and Embedded MATLAB are trademarks of The MathWorks, Inc.