Regular Expressions in Python

Regular Expressions in Python

String

  • Python nhận dạng bất kỳ chuỗi ký tự nào bên trong dấu ngoặc kép hoặc đơn là một đối tượng

      my_string = "This is string"
      my_string_2 = 'this is string'
      my_string_3 = """It's the string"""
    
  • Length

      my_string = "String python"
      len(my_string)
      ### output: 13
    
  • Convert to string

      str(123)
    
  • Concatenation: +

      my_string1 = "Introduction to"
      my_string2 = "string manipulation"
      print(my_string1 + " " + my_string2)
      ### Introduction to string manipulation
    
  • Indexing & slicing, stride : giống như các ngôn ngữ khác

      my_string = "Introduction to"
      my_string[3] ### r
      my_string[-1] ### 0
      my_string[0:3] ### Int
      my_string[:5] ### Intro
      my_string[5:] ### ion to
      my_string[0:6:2] ### Ito
      my_string[::-1] ###  ot noitcudortnI
    

String Operations

  • Adjusting cases

      my_string = "ThiS iS a NicE StrIng"
      my_string.lower()
      my_string.upper()
      my_string.capitalize()
    
  • Splitting

      my_string = "This string will be split"
      my_string.split(sep=" ", maxsplit=2)
      ### ['this', 'string', 'will be split']
      my_string.rsplit(sep=" ", maxsplit=2)
      ### ['this string will', 'be', 'split']
      my_string_1 = "This string will be split\nin two"
      my_string_1.splitlines()
      ### ['This string will be split', 'in two']
    
  • Joining

      ### sep.join(iterable)
      my_list = ["this", "would", "be", "a", "string"]
      " ".join(my_list)
      ### this would be a string
    
  • Stripping

      my_string = " this string will be stripped\n"
      my_string.strip()
      my_string.rstrip()
      my_string.lstrip()
    

Finding and replacing

  • Finding substrings

      ##               string.find(substring,start,end)
      my_string = "where's waldo"
      my_string.find("waldo")  ### 8
      my_string.find("hehe")  ### -1
      my_string.find("waldo", 0, 6)  ### -1
    
      ##               string.(substring,start,end)
      my_string.index("waldo")  ### 8
      my_string.index("hehe")  ### Exception error
    
  • Counting occurrences

      ##               string.count(substring,start,end)
    
      my_string = "How many fruits do you have in your fruit basket?"
      my_string.count("fruit") ###  2
      my_string.count("fruit", 0, 16) ###  1
    
  • Replace

      ###               string.replace(old, new, count) 
      my_string = "The red house is between the blue house and the old house" 
      print(my_string.replace("house", "car"))
      ### The red car is between the blue car and the old car
      print(my_string.replace("house", "car", 2))
    

RegEx Python

  • Regular Expression trong Python được thể hiện qua module re, nên việc đầu tiên khi các bạn muốn sử dụng regular expression thì cần phải import module re vào chương trình.

  • Các biểu thức chính quy sẽ tương tự như ở các ngôn ngữ khác, mình chỉ list những pattern thú vị ở dưới đây và các phương thức có trong module re

    Example:

      pattern = '^a...s$' # Chuỗi có 5 chữ cái, bắt đầu bằng a và kết thúc là 
      test_string = 'abyss'
      result = re.match(pattern, test_string)
    
      ### Dấu chấm .
      pattern = '..' # Khớp với bất kỳ đơn vị thông thường nào, trừ `\n`
                     #có 2 ký tự trở lên
    
      pattern = 'ma*n' 
      # xuất hiện đầy đủ ký tự, chữ a có thể có nhiều hoặc không.
      pattern = 'ma+n' 
      # xuất hiện đầy đủ ký tự, chữ a có thể có một hoặc nhiều.
      pattern = 'ma?n' 
      # xuất hiện đầy đủ ký tự, chữ a chỉ có thể có một hoặc không.
      pattern = 'a{2,3}' #xuất hiện 2 và 3 ký tự
    
      ## pattern đi với \
      # \A - Khớp với các ký tự theo sau nó nằm ở đầu chuỗi.
      pattern = '\Athe' #the nằm ở đầu chuỗi
      # \b - Khớp với các ký tự được chỉ định nằm ở đầu hoặc cuối của từ.
      pattern = '\bfoo' #foo nằm ở đầu chuỗi hoặc đầu của từ
      pattern = '\bfoo' #foo nằm ở cuỗi chuỗi hoặc cuối của từ
      # \B - Trái ngược với \b, khớp với các ký tự được chỉ định 
      # không nằm ở đầu hoặc cuối của từ.
    
  • Các Phương thức:

      # Phương thức re.findall()
      string = 'cmon 13 man 89. hehe 34'
      pattern = '\d+'
      re.findall(pattern, string)  # ['13', '89', '34']
    
      # Phương thức re.split()
      string = 'U can tell.'
      pattern = '\s'
      re.split(pattern, string)  ## ['U', 'can', 'tell']
      ## Phương thức re.sub(pattern, replace, string, count)
      string = 'phong 11\
      python 22 \n today'
      pattern = '\s+'
      replace = ''
      re.sub(pattern, replace, string)  ## phong11python22today
    
  • Another:

      ## Phương thức re.search()
      string = "Regex in python"
      re.search('\ARegex', string)
    
      # Đối tượng match
      string = '39801 356, 2102 1111'
      pattern = '(\d{3}) (\d{2})'
      ret = re.search(pattern, string)
      ret.group() ## Full group
      ret.group(1) ##  801
      ret.group(2) ##
    
      ## ret.re và ret.string
      ret.re ## re.compile('(\\d{3}) (\\d{2})')
      ret.string ### 23213 111 
    
      ## tiền tố r trước RegEx
      string = "\n and \r are escape sequences."
      # re.findall(r"[\n\r]", string)  # Output: ["\n", "\r"]
    

WTF, BUG?

End

Note

p.