Jak wyodrębnić liczby z tekstu – praktyczny przewodnik

Masz raport, opis produktu, treść e-maila lub zeskanowany dokument, z którego chcesz wyciągnąć same liczby. Przeglądanie ręczne jest mozolne i błędogenne, szczególnie przy dużych ilościach tekstu. Narzędzie do wyodrębniania liczb z tekstu robi to automatycznie – skanuje cały wklejony tekst i zwraca listę znalezionych wartości liczbowych.

Kiedy pojawia się potrzeba wyciągania liczb z tekstu

To zadanie jest częstsze niż mogłoby się wydawać. Pojawia się zawsze gdy dane liczbowe nie są przechowywane w ustrukturyzowanej formie (arkusz, baza danych), ale wmieszane w tekst narracyjny:

  • Raporty i dokumenty Word/PDF: "W marcu sprzedano 1 247 sztuk w cenie 89,99 zł, co dało przychód 112 150,53 zł" – chcesz wyciągnąć: 1247, 89,99, 112150,53
  • Opisy produktów i oferty: wyciąganie cen, wymiarów, wag ze stron produktowych lub cenników
  • Treść e-maili i komunikatorów: wyodrębnienie numerów zamówień, kodów, kwot z korespondencji
  • Dane ze starych systemów: eksport z legacy systemów często zwraca dane jako tekst z numerami wmieszanymi w opisy
  • Wyniki wyszukiwania i scraping: pobrany HTML zawiera liczby otoczone tagami i opisami
  • Ankiety i formularze tekstowe: respondenci podają liczby w polu "Inne" lub w komentarzach

Jak działa wyodrębnianie liczb

Algorytm skanuje tekst w poszukiwaniu sekwencji cyfr, opcjonalnie poprzedzonych znakiem minus (liczby ujemne) i zawierających separatory dziesiętne lub tysięcy. Każda znaleziona sekwencja jest wyodrębniana jako osobna liczba.

Tekst wejściowy:
"Temperatura wynosi -3,5°C, ciśnienie 1013,25 hPa, prędkość wiatru 47 km/h."

Wyodrębnione liczby:
-3,5
1013,25
47

Co wyodrębnić, a czego nie – kwestia kontekstu

Wyodrębnianie liczb wymaga pewnych decyzji projektowych. Czy "3.14" to jedna liczba (π) czy dwie (3 i 14)? Zależy od ustawień separatora dziesiętnego. Czy rok "2024" w zdaniu "raport za rok 2024" powinien być wyodrębniony? Tak. A numer ulicy w "ul. Kwiatowa 15"? Zapewne też tak.

Typowe opcje konfiguracji

  • Separator dziesiętny: kropka lub przecinek – decyduje jak interpretowane są liczby z jednym separatorem wewnątrz
  • Liczby ujemne: czy znak minus przed cyfrą tworzy liczbę ujemną
  • Liczby całkowite vs dziesiętne: czy chcemy tylko całkowite, czy też z częścią ułamkową
  • Format wyjściowy: jedna liczba w wierszu, lista CSV, tabela

Zastosowania w Excelu i arkuszach

Wyodrębnione liczby najczęściej lądują w arkuszu kalkulacyjnym. Oto kilka typowych scenariuszy:

Scenariusz 1: Czyszczenie importu

Problem: Importowany plik zawiera kolumnę "Cena" w postaci:
"PLN 299,00", "99.90 zł", "Cena: 1 599,-"

Rozwiązanie: Wyodrębnij liczby → otrzymujesz czystą kolumnę:
299,00
99,90
1599

Scenariusz 2: Analiza komentarzy klientów

Klienci w recenzjach piszą: "czekałem 3 tygodnie", "dostarczono po 8 dniach", "ekspresowa dostawa w 2 dni". Wyodrębnienie liczb i ich uśrednienie daje realny czas dostawy postrzegany przez klientów – bez żmudnego ręcznego przepisywania.

Scenariusz 3: Monitoring cenowy

Pobierasz treść strony konkurencji lub dostawcy i chcesz wyciągnąć aktualne ceny. Strony HTML zawierają ceny wplecione w tagi i opisy – wyodrębnienie liczb z pobranego tekstu to prosty krok w procesie automatycznego monitoringu cen.

Formuła Excela do wyciągania liczb z komórki

Jeśli Twój problem dotyczy jednej lub kilku komórek w Excelu (a nie całego bloku tekstu), możesz użyć formuły tablicowej. W nowoczesnych wersjach Excela z obsługą TEXTSPLIT i LAMBDA jest to prostsze, ale starsze wersje wymagają bardziej rozbudowanych formuł:

Stara metoda (Excel 2016 i starszy):
Wyciąganie pierwszej liczby z tekstu:
=WARTOŚĆ(LEWY(MID(A1,MIN(ZNAJDŹ({0,1,2,3,4,5,6,7,8,9},A1&"0123456789")),100),ZNAJDŹ(" ",MID(A1,MIN(ZNAJDŹ({0,1,2,3,4,5,6,7,8,9},A1&"0123456789")),100)&" ")-1))

Jak widać – formuła jest długa i nieczytelna. Dla większych zbiorów danych narzędzie online jest wygodniejsze i bezpieczniejsze.

Uwaga na liczby w datach: Tekst "faktura z 15.03.2024" zawiera liczby 15, 03 i 2024. Jeśli zależy Ci na wyodrębnieniu tylko "wartościowych" liczb, a nie składowych dat, warto przejrzeć wyniki i odfiltrować niechciane wpisy.

Masz tekst z wmieszanymi liczbami i chcesz je szybko wyciągnąć do listy?

Otwórz narzędzie do wyodrębniania liczb →

Podsumowanie

Wyodrębnianie liczb z tekstu jest przydatne przy czyszczeniu danych importowanych z różnych źródeł, analizie dokumentów, opisów produktów i komentarzy. Algorytm skanuje tekst w poszukiwaniu sekwencji cyfr z opcjonalnym znakiem minus i separatorem dziesiętnym, zwracając listę znalezionych wartości. Każda liczba trafia do osobnej linii, gotowa do wklejenia do arkusza lub dalszego przetwarzania. Alternatywne rozwiązanie – skomplikowane formuły Excela – jest mniej przejrzyste i trudne do utrzymania.