tartalom
Az a feladat, hogy egy PDF-fájlban lévő táblázatból egy Microsoft Excel-lapra vigyük át az adatokat, mindig „szórakoztató”. Főleg, ha nincs drága felismerő szoftvere, mint a FineReader vagy valami hasonló. A közvetlen másolás általában nem vezet semmi jóra, mert. a kimásolt adatok lapra történő beillesztése után nagy valószínűséggel „összeragadnak” egy oszlopba. Így aztán gondosan szét kell választani őket egy szerszám segítségével Szöveg oszloponként a lapról dátum (Adatok – szöveg oszlopokba).
És persze a másolás csak azoknál a PDF-fájloknál lehetséges, ahol van szövegréteg, azaz egy papírról PDF-be éppen beolvasott dokumentummal ez elvileg nem fog működni.
De ez nem olyan szomorú, tényleg 🙂
Ha van Office 2013 vagy 2016, akkor néhány percen belül, további programok nélkül, teljesen lehetséges az adatok átvitele PDF-ből Microsoft Excelbe. A Word és a Power Query pedig segítségünkre lesz ebben.
Vegyük például ezt a PDF-jelentést egy csomó szöveggel, képletekkel és táblázatokkal az Európai Gazdasági Bizottság webhelyéről:
… és próbáljon kihúzni belőle Excelben, mondjuk az első táblázatot:
Menjünk!
1. lépés Nyissa meg a PDF-fájlt a Wordben
Valamiért kevesen tudják, de 2013 óta a Microsoft Word megtanulta megnyitni és felismerni a PDF-fájlokat (még a szkennelteket is, vagyis szövegréteg nélkül!). Ez teljesen szabványos módon történik: nyissa meg a Word-t, kattintson rá Fájl – Megnyitás (Fájl – Megnyitás) és az ablak jobb alsó sarkában található legördülő listában adja meg a PDF formátumot.
Ezután válassza ki a szükséges PDF fájlt, és kattintson Nyisd ki (Nyisd ki). A Word azt mondja, hogy OCR-t fog futtatni ezen a dokumentumon, hogy szöveget küldjön:
Egyetértünk, és néhány másodpercen belül látni fogjuk, hogy PDF-ünk már Wordben szerkeszthető:
Természetesen a dizájn, a stílusok, a betűtípusok, a fej- és láblécek stb. részben lerepülnek a dokumentumról, de ez számunkra nem fontos – csak táblázatokból kell adatok. Elvileg ebben a szakaszban már nagy a kísértés, hogy egyszerűen átmásoljuk a táblázatot a felismert dokumentumból a Wordbe, és egyszerűen beillesztjük az Excelbe. Néha működik, de gyakrabban mindenféle adattorzuláshoz vezet – például a számok dátummá változhatnak, vagy szöveg maradhatnak, mint esetünkben, mert. A PDF nem elválasztókat használ:
Szóval ne vágjunk le, hanem csináljunk mindent egy kicsit bonyolultabbá, de helyesen.
2. lépés: Mentse el a dokumentumot weblapként
A kapott adatok Excelbe való betöltéséhez (Power Queryn keresztül) a Word-ben lévő dokumentumunkat weblap formátumban kell elmenteni – ez a formátum jelen esetben egyfajta közös nevező a Word és az Excel között.
Ehhez lépjen a menübe Fájl – Mentés másként (Fájl – Mentés másként) vagy nyomja meg a gombot F12 a billentyűzeten és a megnyíló ablakban válassza ki a fájltípust Weboldal egy fájlban (Weboldal – egyetlen fájl):
Mentés után egy mhtml kiterjesztésű fájlt kell kapnia (ha az Explorerben fájlkiterjesztéseket lát).
3. lépés: A fájl feltöltése Excelbe a Power Query segítségével
A létrehozott MHTML fájlt közvetlenül Excelben is megnyithatja, de ekkor először is megkapjuk a PDF teljes tartalmát, szöveggel és egy csomó felesleges táblázattal együtt, másodszor pedig ismét elveszítjük az adatokat a hibás hibák miatt. elválasztók. Ezért az Excelbe való importálást a Power Query bővítményen keresztül fogjuk elvégezni. Ez egy teljesen ingyenes kiegészítő, amellyel szinte bármilyen forrásból (fájlok, mappák, adatbázisok, ERP-rendszerek) feltölthetünk adatokat az Excelbe, majd a kapott adatokat minden lehetséges módon átalakíthatjuk, a kívánt formát adva.
Ha Excel 2010-2013 verziója van, akkor letöltheti a Power Query-t a Microsoft hivatalos webhelyéről – a telepítés után megjelenik egy lap Teljesítmény lekérdezés. Ha Excel 2016 vagy újabb verziója van, akkor nem kell letöltenie semmit – az összes funkció alapértelmezés szerint már be van építve az Excelbe, és a lapon található. dátum (Dátum) csoportban Letöltés és konvertálás (Get & Transform).
Tehát vagy a lapra lépünk dátum, vagy a lapon Teljesítmény lekérdezés és válassz egy csapatot Adatok beszerzéséhez or Lekérdezés létrehozása – Fájlból – XML-ből. Ha nem csak XML-fájlokat szeretne látni, módosítsa az ablak jobb alsó sarkában található legördülő listában a szűrőket a következőre: Minden fájl (Minden fájl) és adja meg az MHTML fájlunkat:
Felhívjuk figyelmét, hogy az importálás nem fejeződik be sikeresen, mert. A Power Query XML-t vár el tőlünk, de valójában van egy HTML formátumunk. Ezért a következő megjelenő ablakban jobb gombbal kell kattintania a Power Query számára értelmezhetetlen fájlra, és meg kell adnia a formátumát:
Ezt követően a fájl megfelelően felismerésre kerül, és látni fogjuk a benne lévő összes tábla listáját:
A táblázatok tartalmát az Adat oszlop celláinak fehér hátterében (nem a Táblázat szóban!) bal egérgombbal kattintva tekintheti meg.
Ha a kívánt táblázat definiált, kattintson a zöld szóra Táblázat – és „beleesik” a tartalmába:
Még néhány egyszerű lépést kell megtennie a tartalmának „fésüléséhez”, nevezetesen:
- törölje a felesleges oszlopokat (jobb gombbal kattintson az oszlop fejlécére – eltávolít)
- cserélje ki a pontokat vesszőkre (jelölje ki az oszlopokat, kattintson a jobb gombbal - Értékek cseréje)
- távolítsa el az egyenlőségjeleket a fejlécből (jelölje ki az oszlopokat, kattintson a jobb gombbal - Értékek cseréje)
- távolítsa el a felső sort (Kezdőlap – Sorok törlése – Felső sorok törlése)
- távolítsa el az üres sorokat (Kezdőlap – Sorok törlése – Üres sorok törlése)
- emelje fel az első sort a táblázat fejlécére (Kezdőlap – Az első sort használja címsorként)
- szűrő segítségével kiszűrheti a szükségtelen adatokat
Amikor a táblázat normál formájába kerül, a paranccsal kirakható a lapra zárja be és töltse le (Bezárás és betöltés) on A fő lapon. És olyan szépséget kapunk, amivel már dolgozhatunk:
- Oszlop átalakítása táblázattá Power Query segítségével
- Ragadós szöveg felosztása oszlopokra