Importáljon adatokat PDF-ből Excelbe a Power Query segítségével

Az a feladat, hogy egy PDF-fájlban lévő táblázatból egy Microsoft Excel-lapra vigyük át az adatokat, mindig „szórakoztató”. Főleg, ha nincs drága felismerő szoftvere, mint a FineReader vagy valami hasonló. A közvetlen másolás általában nem vezet semmi jóra, mert. a kimásolt adatok lapra történő beillesztése után nagy valószínűséggel „összeragadnak” egy oszlopba. Így aztán gondosan szét kell választani őket egy szerszám segítségével Szöveg oszloponként a lapról dátum (Adatok – szöveg oszlopokba).

És persze a másolás csak azoknál a PDF-fájloknál lehetséges, ahol van szövegréteg, azaz egy papírról PDF-be éppen beolvasott dokumentummal ez elvileg nem fog működni.

De ez nem olyan szomorú, tényleg 🙂

Ha van Office 2013 vagy 2016, akkor néhány percen belül, további programok nélkül, teljesen lehetséges az adatok átvitele PDF-ből Microsoft Excelbe. A Word és a Power Query pedig segítségünkre lesz ebben.

Vegyük például ezt a PDF-jelentést egy csomó szöveggel, képletekkel és táblázatokkal az Európai Gazdasági Bizottság webhelyéről:

Importáljon adatokat PDF-ből Excelbe a Power Query segítségével

… és próbáljon kihúzni belőle Excelben, mondjuk az első táblázatot:

Importáljon adatokat PDF-ből Excelbe a Power Query segítségével

Menjünk!

1. lépés Nyissa meg a PDF-fájlt a Wordben

Valamiért kevesen tudják, de 2013 óta a Microsoft Word megtanulta megnyitni és felismerni a PDF-fájlokat (még a szkennelteket is, vagyis szövegréteg nélkül!). Ez teljesen szabványos módon történik: nyissa meg a Word-t, kattintson rá Fájl – Megnyitás (Fájl – Megnyitás) és az ablak jobb alsó sarkában található legördülő listában adja meg a PDF formátumot.

Ezután válassza ki a szükséges PDF fájlt, és kattintson Nyisd ki (Nyisd ki). A Word azt mondja, hogy OCR-t fog futtatni ezen a dokumentumon, hogy szöveget küldjön:

Importáljon adatokat PDF-ből Excelbe a Power Query segítségével

Egyetértünk, és néhány másodpercen belül látni fogjuk, hogy PDF-ünk már Wordben szerkeszthető:

Importáljon adatokat PDF-ből Excelbe a Power Query segítségével

Természetesen a dizájn, a stílusok, a betűtípusok, a fej- és láblécek stb. részben lerepülnek a dokumentumról, de ez számunkra nem fontos – csak táblázatokból kell adatok. Elvileg ebben a szakaszban már nagy a kísértés, hogy egyszerűen átmásoljuk a táblázatot a felismert dokumentumból a Wordbe, és egyszerűen beillesztjük az Excelbe. Néha működik, de gyakrabban mindenféle adattorzuláshoz vezet – például a számok dátummá változhatnak, vagy szöveg maradhatnak, mint esetünkben, mert. A PDF nem elválasztókat használ:

Importáljon adatokat PDF-ből Excelbe a Power Query segítségével

Szóval ne vágjunk le, hanem csináljunk mindent egy kicsit bonyolultabbá, de helyesen.

2. lépés: Mentse el a dokumentumot weblapként

A kapott adatok Excelbe való betöltéséhez (Power Queryn keresztül) a Word-ben lévő dokumentumunkat weblap formátumban kell elmenteni – ez a formátum jelen esetben egyfajta közös nevező a Word és az Excel között.

Ehhez lépjen a menübe Fájl – Mentés másként (Fájl – Mentés másként) vagy nyomja meg a gombot F12 a billentyűzeten és a megnyíló ablakban válassza ki a fájltípust Weboldal egy fájlban (Weboldal – egyetlen fájl):

Importáljon adatokat PDF-ből Excelbe a Power Query segítségével

Mentés után egy mhtml kiterjesztésű fájlt kell kapnia (ha az Explorerben fájlkiterjesztéseket lát).

3. lépés: A fájl feltöltése Excelbe a Power Query segítségével

A létrehozott MHTML fájlt közvetlenül Excelben is megnyithatja, de ekkor először is megkapjuk a PDF teljes tartalmát, szöveggel és egy csomó felesleges táblázattal együtt, másodszor pedig ismét elveszítjük az adatokat a hibás hibák miatt. elválasztók. Ezért az Excelbe való importálást a Power Query bővítményen keresztül fogjuk elvégezni. Ez egy teljesen ingyenes kiegészítő, amellyel szinte bármilyen forrásból (fájlok, mappák, adatbázisok, ERP-rendszerek) feltölthetünk adatokat az Excelbe, majd a kapott adatokat minden lehetséges módon átalakíthatjuk, a kívánt formát adva.

Ha Excel 2010-2013 verziója van, akkor letöltheti a Power Query-t a Microsoft hivatalos webhelyéről – a telepítés után megjelenik egy lap Teljesítmény lekérdezés. Ha Excel 2016 vagy újabb verziója van, akkor nem kell letöltenie semmit – az összes funkció alapértelmezés szerint már be van építve az Excelbe, és a lapon található. dátum (Dátum) csoportban Letöltés és konvertálás (Get & Transform).

Tehát vagy a lapra lépünk dátum, vagy a lapon Teljesítmény lekérdezés és válassz egy csapatot Adatok beszerzéséhez or Lekérdezés létrehozása – Fájlból – XML-ből. Ha nem csak XML-fájlokat szeretne látni, módosítsa az ablak jobb alsó sarkában található legördülő listában a szűrőket a következőre: Minden fájl (Minden fájl) és adja meg az MHTML fájlunkat:

Importáljon adatokat PDF-ből Excelbe a Power Query segítségével

Felhívjuk figyelmét, hogy az importálás nem fejeződik be sikeresen, mert. A Power Query XML-t vár el tőlünk, de valójában van egy HTML formátumunk. Ezért a következő megjelenő ablakban jobb gombbal kell kattintania a Power Query számára értelmezhetetlen fájlra, és meg kell adnia a formátumát:

Importáljon adatokat PDF-ből Excelbe a Power Query segítségével

Ezt követően a fájl megfelelően felismerésre kerül, és látni fogjuk a benne lévő összes tábla listáját:

Importáljon adatokat PDF-ből Excelbe a Power Query segítségével

A táblázatok tartalmát az Adat oszlop celláinak fehér hátterében (nem a Táblázat szóban!) bal egérgombbal kattintva tekintheti meg.

Ha a kívánt táblázat definiált, kattintson a zöld szóra Táblázat – és „beleesik” a tartalmába:

Importáljon adatokat PDF-ből Excelbe a Power Query segítségével

Még néhány egyszerű lépést kell megtennie a tartalmának „fésüléséhez”, nevezetesen:

  1. törölje a felesleges oszlopokat (jobb gombbal kattintson az oszlop fejlécére – eltávolít)
  2. cserélje ki a pontokat vesszőkre (jelölje ki az oszlopokat, kattintson a jobb gombbal - Értékek cseréje)
  3. távolítsa el az egyenlőségjeleket a fejlécből (jelölje ki az oszlopokat, kattintson a jobb gombbal - Értékek cseréje)
  4. távolítsa el a felső sort (Kezdőlap – Sorok törlése – Felső sorok törlése)
  5. távolítsa el az üres sorokat (Kezdőlap – Sorok törlése – Üres sorok törlése)
  6. emelje fel az első sort a táblázat fejlécére (Kezdőlap – Az első sort használja címsorként)
  7. szűrő segítségével kiszűrheti a szükségtelen adatokat

Amikor a táblázat normál formájába kerül, a paranccsal kirakható a lapra zárja be és töltse le (Bezárás és betöltés) on A fő lapon. És olyan szépséget kapunk, amivel már dolgozhatunk:

Importáljon adatokat PDF-ből Excelbe a Power Query segítségével

  • Oszlop átalakítása táblázattá Power Query segítségével
  • Ragadós szöveg felosztása oszlopokra

Hagy egy Válaszol