regular expression in python

Regular Expression

  • 특정한 문서 안에서 표현을 찾고자 할 때 정규 표현식을 사용.
    1
    2
    3
    import re
    re.findall(정규표현식으로 찾을 대상 (object that you want to find as the regular expression), document or variable name)
    re.sub(regular expression, the letters that you would replace, document or variable name)
  1. 어떤 문자 하나 찾기: x. (마침표 등의 점이 아닌 정규표현식에서 문자 한 개를 의미)
  2. 특정 문자(x) 1개 미만 (예. abacbabacb 중에서 c가 등장한 횟수가 1회 미만인 경우): x?
  3. 특정 문자(x) 1회 이상 등장한 경우: x+
  4. 특정 문자(x) 0회 이상 등장한 경우: x*
  5. 원하는 것들중 하나를 선택: [원하는 문자들] (단, 나열할 때 구분자는 생략)
  6. 원하지 않는 것들을 제외한 나머지 중에서 하나: [^원하지 않는 문자들]
  7. 하나의 묶음을 표시할 때 혹은 묶음 안에 있는 것만을 나타낼 때: (대상 문자)
  8. 회피 용법:
    1) 찾고자 하는 대상이 특수 기호인 경우:

    • 해당 글 안에서 ‘?, +’등의 문자를 찾고 싶은 경우 – re.findall('\(특수문자)', docs)
      2) space, tab, enter를 찾고 싶은 경우: \s, \t, \n
  9. 어떤 문자열을 찾고 싶은 경우 (길이 제한이 없음)

    • 최대한 길게 찾고 싶을 때: .+
  10. 최대한 짧게 여러 번 찾고 싶을 때: .+?