Come analizzare il testo da un documento MS Word stringa

Sto cercando di trovare un modo per analizzare un documento di word del testo in una stringa nel mio progetto.Ho più di 600 word(.doc), i file che ho bisogno di ottenere il contenuto del testo(con le nuove linee e le schede, se possibile) e assegnare una stringa per ogni uno.

Ho letto cose su Open XML SDK ma sembra abbastanza complicato per qualcosa che sembra così semplice.

  • .doc o .docx? .doc è MS Word formato 2003 e precedenti – non credo che essi sono documenti XML come .docx
  • tutti i file sono in .formato doc

 

2 Replies
  1. 4

    Open XML SDK è solo per il 2007 e versioni più recenti formati e non è banale da usare.

    Se le prestazioni non è un problema si potrebbe utilizzare l’Automazione di Word e Word di fare questo per voi.
    Un qualcosa di simile a questo:

    var app = new Application();
    var doc = app.Documents.Open(documentLocation);
    
    string rangeText = doc.Range().Text;
    
    doc.Save();
    doc.Close();
    
    Marshal.ReleaseComObject(doc);    
    Marshal.ReleaseComObject(app);

    Dare un’occhiata a http://www.codeproject.com/Articles/18703/Word-2007-Automation o http://www.codeproject.com/Articles/21247/Word-Automation per ulteriori esempi e istruzioni. Si noti che questo può diventare un po ‘ più difficile se i tuoi documenti sono spostare complessa (note a piè di pagina, caselle di testo, tabelle…).

    Un’altra opzione è di avere word salvare il documento come testo e quindi leggere il file di testo. Date un’occhiata a questo – http://msdn.microsoft.com/en-us/library/microsoft.office.tools.word.document.saveas(v=vs. 80).aspx

  2. 0

    Si potrebbe dare un’occhiata a NPOI:

    Questo progetto è l’ .NET versione di PDI progetto Java a
    http://poi.apache.org/. Poi è un progetto open source che può aiutare a
    lettura/scrittura xls, doc, ppt file. Ha una vasta applicazione.

    Dare un’occhiata a questo precedente COSÌ thread per ulteriori informazioni.

    • Come faccio esattamente di riferimento di questo progetto la mia Soluzione ?
    • Di solito a scaricare i file DLL necessari e li includono nei riferimenti. In alternativa, è possibile ottenere un addon per visual studio (NuGet) di farlo per voi, assumendo che tali DLL sono nel suo repository.
    • Non mi kno quali scegliere e come utilizzarli in un secondo momento(Instatiate classi, usando i loro metodi e così via).
    • Di solito basta scaricare la DLL e creare un riferimento per il progetto. Questo, a sua volta, rendere visual studio importare il codice specificato nel tuo DLL, in modo che si può utilizzare. Si dovrebbe essere in grado di trovare un sacco di tutorial online su come fare questo.
    • Sì, so che il modo in cui si suppone essere fatto, ma stavo parlando in particolare su questo NPOI progetto su GitHub.
    • Ho appena scaricato la versione Beta e sembra che oltre la DLL, ci sono anche alcuni esempi. Se si verificano ancora problemi con questo, quindi vi consigliamo di contattare le persone a NPOI.

Lascia un commento