liczenie słów za pomocą re - v2

19e067d2 · Patryk Czarnik · 4af6312d · 19e067d2
Commit 19e067d2 authored Nov 29, 2023 by Patryk Czarnik
Hide whitespace changes
Inline Side-by-side

Showing with 19 additions and 0 deletions

wypisz_slowa2.py dzien4/pliki/wypisz_slowa2.py +19 -0

No files found.
--- a/dzien4/pliki/wypisz_slowa2.py
+++ b/dzien4/pliki/wypisz_slowa2.py
+# W tej wersji do podziału każdej linii na słowa wykorzystamy wyrażenia regularne.
+# Teoretycznie można by wczytać całuy plik za pomocą read() i dopiero podzielić na słowa,
+# ale zwn wydajność prefereujemy przetwarzanie linia za linią, stąd dwupoziomowa pętla.
+# Również zwn na wydajność lepiej jest najpierw "skompilować" wyrażenie regularne, a później używać wersji skompilowanje, tzw. "patternu".
+# Dotyczy to sytuacji, gdy to samo wyrażneie jest używane wielokrotnie, np. w pętli.
+
+import re
+
+# znaczenie wzorca: nieputy ciąg znaków typu 'w', co obejmuje litery (wszelkich alfabetów), cyfry i znak _
+pattern = re.compile(r'\w+')
+
+nr = 0
+with open('pan_tadeusz.txt', mode='r', encoding='utf-8') as plik:
+    for linia in plik:
+        for slowo in re.findall(pattern, linia): # albo: for slowo in pattern.findall(linia):
+            nr += 1
+            print(slowo)
+
+print('Liczba wszystkich słów:', nr)