15장 정규 표현식 업데이트

2023.06.16

15.1 플래그 속성

ES2015에서 정규 표현식은 표현식에 대한 플래그가 포함된 문자열을 반환하는 flags 접근자 속성을 갖는다.
flags 속성 이전에는 RegExp 객체에 어떤 플래그가 있는지 알 수 있는 유일한 방법은 개별 플래그(rex.global, rex.multiline 등)를 반영하는 개별 속성을 보거나 toString 메서드를 사용하여 문자열의 끝을 봐야 했다.
flags 속성을 사용하면 문자열로 직접 사용할 수 있다.

const rex = /example/gi;
console.log(rex.flags); // "gi"

사양에서는 gimsuy 표현식이 생성될 때 플래그가 어떻게 지정되었는지에 관계없이 알파벳 순서로 플래그가 제공되도록 정의되어 있다.

15.2 새로운 플래그

ES2015 ES2018에서 TC39는 새로운 정규 표현식 모드 플래그를 추가했다.
- y: 고정(sticky) 플래그(ES2015)는 정규 표현식이 문자열에서 정규 표현식 객체의 마지막 인덱스(lastIndex)에서 시작하는 것과만 일치함을 의미한다
- U: 유니코드(Unicode) 플래그(ES2015)는 기본적으로 비활성화되어 있는 다양한 유니코드 기능을 활성화한다.
- s: 만능 점(dot all) 플래그(ES2018)는 "어느 문자" 토큰(.)도 줄 바꿈 문자에 일치시킨다.

15.2.1 스티키 플래그

y플래그는 문자열에 대해 정규 표현식을 평가할 때 자바스크립트 엔진이 문자열 전체를 검색하지 않고 정규 표현식 객체의 마지막 인덱스(lastIndex)에서 시작하는 문자열의 일치 엔트리만 확인한다는 것을 의미한다.

function tryRex(rex, str) {
  console.log(`lastIndex: ${rex.lastIndex}`);
  const match = rex.exec(str);
  if (match) {
    console.log(`Match:     ${match[0]}`);
    console.log(`At:        ${match.index}`);
  } else {
    console.log('No match');
  }
}

const str = 'this is a test';

// 스티키가 아닐 때, 전체 문자열을 검색한다.
tryRex(/test/, str);
// lastIndex: 0
// Match:     test
// At:        10

// 스티키, 검색하지 못함. lastIndex에서 일치해야만 한다.
const rex1 = /test/y; // `rex.lastIndex` defaults to 0
tryRex(rex1, str);
// lastIndex: 0
// No match

const rex2 = /test/y;
rex2.lastIndex = 10; // 일치시키기 원하는 곳으로 설정한다.
tryRex(rex2, str);
// lastIndex: 10
// Match:     test
// At:        10

이는 토큰별로 문자열 토큰을 이동하고 구문 분석과 같이 가능한 토큰 패턴(정규 표현식) 집합과 일치하는지 확인할 때 편리하다.
스티키 플래그가 추가되기 전에 이를 수행하려면 표현식 시작 부분에 (입력 시작) 앵커를 사용하고 일치를 수행하기 전에 문자열의 시작 부분에 있도록 문자열에서 이미 처리한 문자를 잘라야 했다.
스티키 플래그는 더 간단하고 잘린 문자열을 생성하지 않도록 하여 프로세스를 더 효율적으로 만든다.
flags를 살펴보거나 플래그가 설정된 경우 true인 표현식의 sticky 속성을 확인하여 스티키 플래그가 설정되었는지 확인할 수 있다.

15.2.2 유니코드 플래그(u)

ES2015는 정규 표현식을 포함하여 많은 영역에서 자바스크립트의 유니코드 지원을 개선했다.
기존 코드에 대한 문제를 방지하기 위해 정규 표현식의 새로운 유니코드 기능은 기본적으로 비활성화되고 u 플래그로 활성화된다.
flags를 살펴보거나 표현식의 unicode 속성을 확이니하여 유니코드 플래그가 설정되었는지 확인할 수 있다.

15.2.3 “만능 점” 플래그(s)

ES2018은 자바스크립트의 정규 표현식에 s 플래그("dotAll")를 추가했다.
많은 종류의 정규 표현식(자바스크립트 포함)으로 인해 "어느 문자" 토큰(.)이 \r와 \n을 일치시키지 않는다.
"만능 점"은 이 동작을 수정하는 일반적인 해결책이다.
ES2018 이전에는 자바스크립트가 지원하지 않았기 때문에 사람들이 [\s\s](공백이 있거나 없는 모든 것), [\w\W](단어이거나 아닌 모든 것)와 같은 해결 방법을 사용해야 했다.
또는 자바스크립트에 특화된 [^](빈 부정 문자 클래스, "아무것도 아님"이 "아무것"과 동일함) 등이 있다.

const str = 'Testing\nAlpha\nBravo\nCharlie\nJavaScript';
console.log(str.match(/.[A-Z]/g)); // ["aS"]
console.log(str.match(/.[A-Z]/gs)); // ["\nA", "\nB", "\nC", "aS"]

예에서 s 플래그가 없으면 "JavaScript"의 "as"만 일치하는 것을 볼 수 있다.
플래그를 사용하여 "Alpha"의 "A", "Bravo"의 "B", "Charlie"의 "C" 앞에 있는 줄 바꿈 문자도 일치했다.
flags를 살펴보거나 플래그가 설정될 때 tru인 dotAll 속성을 확인하여 표현식에 "만능 점” 플래그가 설정되었는지 확인할 수 있다.

15.3 명명된 캡처 그룹

ES2018은 명명된 캡처 그룹을 자바스크립트의 정규 표현식에 추가하여 기존의 익명 캡처 그룹에 합류시켰다.
명명된 캡처 그룹은 다음 양식으로 작성된다.

(?<name>pattern)

그를 시작 부분에 있는 물음표(?) 바로 뒤에 그룹 이름을 꺽쇠 괄호로 묶는다.
명명된 캡처 그룹은 익명 캡처
그들과 똑같이 작동하므로 일치 결과(result[1] 등)에서, 나중에 식(\1등)에서 역참조로, replace($1 등) 사용 시 대체 토큰에서 접근할 수 있다.

15.3.1 기본 기능

명명된 캡처 그룹은 일치 결과의 일반적인 위치와 결과의 새 그룹 객체에 그룹 이름을 사용하는 속성으로 나타난다.

// Not a "new toy," just sets up the example for the next snippet using a named capture group
const rex = /testing (\d+)/g;
const result = rex.exec('This is a test: testing 123 testing');
console.log(result[0]); // testing 123
console.log(result[1]); // 123
console.log(result.index); // 16
console.log(result.input); // This is a test: testing 123 testing

일치가 성공했기 때문에 결과는 인덱스 0에 전체 일치 텍스트, 인덱스 1에 캡처 그룹, 인덱스 속성에 있는 일치 인덱스와 input 속성으로 일치 작업에 대한 입력이 있는 기능이 더해진 배열이다.
캡처 그룹의 값은 여전히 인덱스 1에 표시되지만 이름이 지정된 각 캡처 그룹(이 경우에는 하나 number)에 대한 속성이 있는 객체인 새 속성 groups에 주목하자.
아래는 number라는 명명된 캡처 그룹을 사용한 예시이다.

const rex = /testing (?<number>\d+)/g;
const result = rex.exec('This is a test: testing 123 testing');
console.log(result[0]); // testing 123
console.log(result[1]); // 123
console.log(result.index); // 16
console.log(result.input); // This is a test: testing 123 testing
console.log(result.groups); // {"number": "123"}

새 groups 객체에는 Object.create(null)로 생성된 것처럼 프로토타입이 없다. 그래서 대부분의 객체가 toString과 hasOwnProperty와 같은 Object.prototype에서 상속하는 속성을 포함하여 속성이 전혀 없다.
명명된 캡처 그룹의 이름과 Object.prototype에 의해 정의된 속성 간의 충돌 가능성에 대해 걱정할 필요가 없다.

15.3.2 역참조

명명된 그룹을 사용하면 역참조(backreference)를 더 명확하고 쉽게 유지 관리할 수 있다.
표현식은 선행 따옴표에 캡처 그룹(([”’]))을 사용하고 후행 따옴표에 역분 조(\1)를 사용하여 큰 따옴표 또는 작은 따옴표로 묶인 텍스트를 찾는다.

// Not a new toy, this snippet shows the anonymous version of the named backreference
// shown by the next snippet
const rex = /(["']).+?\1/g;
const str = "testing 'a one', \"and'a two\", and'a three";
console.log(str.match(rex)); // ["'a one'", "\"and'a two\""]

역참조가 첫 번째 엔트리의 양쪽에 작은따옴표가 있고 두 번째 엔트리의 양쪽에 큰따음표가 있다는 사실을 확인하자.
명명된 캡처 그룹을 사용하면 다시 언급하는 내용을 더 명확하게 알 수 있다. 명명된 역참조는 \k<name> 양식이다.

const rex = /(?<quote>["']).+?\k<quote>/g;
const str = "testing 'a one', \"and'a two\", and'a three";
console.log(str.match(rex)); // ["'a one'", "\"and'a two\""]

이제 역참조가 참조하는 내용을 알기 위해 캡처 그룹을 계산할 필요가 없다. 이름이 쉽게 만들어 준다.
마지막으로, 명확성을 위해 명명된 캡처 그룹과 함께 명명된 역참조를 사용하는 것이 가장 좋지만, 명명된 캡처 그룹은 익명의 캡처 그룹에 더불어 추가적인 이름 기능이 있으므로 이전 익명 양식(예: \1)으로 명명된 캡처 그룹을 참조할 수 있다.

15.3.3 대체 토큰

정규 표현식으로 대체할 때(일반적으로 String.prototype.replace를 통해) $1, $2 등과 같은 토큰을 통해 캡처 그룹을 참조하는 익숙한 방법 외에도 $<name> 양식의 명명된 토큰을 사용할 수 있 다.
예를 들어 문자열의 날짜를 yyyy-mm-dd 양식에서 일반적인 유럽 dd/mm/yyyy 양식으로 변환하려는 경우 다음과 같다.

const rex = /^(?<year>\d{2}|\d{4})[-\/](?<month>\d{1,2})[-\/](?<day>\d{1,2})$/;
const str = '2019-02-14'.replace(rex, '$<day>/$<month>/$<year>');
console.log(str); // "14/02/2019"

역참조와 일치 결과와 마찬가지로 원하는 경우 명명된 그룹과 함께 익명 양식($1 등)을 사용할 수도 있다.

15.4 후방 탐색 지정

ES2018은 정규 표현식에 후방 탐색 지정(lookbehind assertion)을 추가했다.
긍정 후방 탐색(positive lookbehind, Y가 일치하지 않는 경우에만 X와 일치)와 부정 후방 탐색(negative lookbehind, Y를 따르지 않는 경우에만 X와 일치하고 Y가 없는 곳은 일치하지 않음)이 있다.
이것은 자바스크립트가 수년 동안 가지고 있던 전방 탐색 지정(lookahead assertion)과 균형을 이룬다.
후방 탐색에서 자바스크립트 정규 표현식의 모든 기능을 사용할 수 있다.

15.4.1 긍정 후방 탐색

긍정 후방 탐색 양식은 (?<=Y)이며, 여기서 Y는 찾을 엔트리다.
예를 들어, 파운드 기호, 영국에 서 사용되는 통화)와 일치하지 않고 파운드 기호 뒤에 오는 숫자를 일치시키려면 긍정 후방 탐색 을 사용하여 반드시 거기에 있어야 한다고 지정할 수 있다.

const str1 = 'We sold 10 cases for £20 each, and 5 cases for £12.99 each';
const rex1 = /(?<=£)[\d.]+/g;
console.log(str1.match(rex1));
// => ["20", "12.99"]

10과 5파운드 기호가 없기 때문에 어떻게 일치하지 않는지에 주목하자.
일치를 수행하기 위해 개념적으로 엔진은 지정이 아닌 부분 ([\d.]+)에 대한 일치를 찾은 다음 후방 탐색에서 표현식의 각 부분을 가져와서 앞의 텍스트에 대해 테스트하여 후방 탐색 적용한다.
부분별로 일치하며 오른쪽에서 왼쪽으로 이동한다.

15.4.2 부정 후방 탐색

부정 후방 탐색은 (?<IY) 양식을 가진다. 여기서 Y는 존재해서는 안 되는 것이다. 따라서 파운드 기호 뒤의 숫자를 일치시키는 대신 이전 예의 10과 5를 일치시키려면 첫 번째 생각은 아마도 (?<= )를 (?<! )로 변경하는 것이다.

const str3 = 'We sold 10 cases for £20 each, and 5 cases for £12.99 each';
const rex3 = /(?<!£)[\d.]+/g;
console.log(str3.match(rex3));
// ['10', '0', '5', '2.99']

20의 0이 일치하는 이유를 잠시 생각해 보자.
20의 0은 바로 앞에 ㅤ가 없고(바로 앞의 문자는 2임) 12.99의 2.99도 없다(2.99 바로 앞의 문자는 1이다). 따라서 부정 후방 탐색에 숫자와 소수를 추가해야 한다.
긍정 후방 탐색과 마찬가지로 부저어 후방 탐색도 부분별로 오른쪽에서 왼쪽으로 처리된다.
수량자를 상용하지 않는 후방 탐색 내에서 분배 순서는 일반적으로 왼쪽에서 오른쪽이 아니라 오른쪽에서 왼쪽이다. 후방 탐색 내에 하나 이상의 캡처 그룹이 있는 경우 이를 관찰할 수 있다.

const behind = /(?<=(?<left>\w+)(?<right>\w+))\d$/;
const behindMatch = "ABCD1".match(behind);
console.log(behindMatch.groups.left);
// => "A"
console.log(behindMatch.groups.right);
// => "BCD"

후방 탐색의 오른쪽에서 외니쪽 처리 동작에도 불구하고 내부 캡처 그룹의 번호는 동일하게 유지된다. 분배 순서는 오른쪽에서 왼쪽이었지만 그룹 번호는 여전히 왼쪽쪽에서 오른쪽로 할당된다.

const behindAgain = /(?<=(\w+)(\w+))\d$/;
const behindMatchAgain = 'ABCD1'.match(behindAgain);
console.log(behindMatchAgain[1]);
// => "A"
console.log(behindMatchAgain[2]);
// => "BCD"

15.5 유니코드 기능

15.5.1 코드 포인트 이스케이프

이전 유니코드 이스케이프 시퀀스인 \uNNNN은 단일 UTF-16 코드 단위를 정의한다. 그러나 코드 단위는 대리 쌍의 절반에 불과할 수 있다.
예를 들어, 이스케이프 시퀀스스를 사용하여 "웃는 눈에 웃는 얼굴" 이모지(U+1F60A)를 일치시키려면 두 개의 UTF-16 단위(0xD83D와 0xDEOA)를 나타내는 두 개의 기본 유니코드 이스케이프 시퀀스가 필요하다.

// Note: This file is encoded in UTF-8. Your system may or may not have a different default encoding.

// These are code UNIT escapes; the next snippet has code POINT escapes
const rex = /\uD83D\uDE0A/;
const str = 'Testing: 😊 ';
console.log(rex.test(str)); // true

ES2015 플래그를 사용하는 정규 표현식은 코드 포인트 이스케이프 시퀀스(\u 뒤의 중괄호({) 다음에 16진수로 표시된 코드 포인트 값과 닫는 중괄호(})를 대신 사용할 수 있다.

// Note: This file is encoded in UTF-8. Your system may or may not have a different default encoding.

const rex = /\u{1F60A}/u;
const str = 'Testing: 😊 ';
console.log(rex.test(str)); // true

코드 포인트 이스케이프는 단독으로 작동하지 않는다. 문자 클래스에서 이를 사용하여 코드 포인트 범위와 일치시킬 수 있다. 다음은 "이모티콘” 유니코드 블록(/[\u{1F600}-\u{1F64F}])의 모든 포인트와 일치한다.

15.5.2 유니코드 속성 이스케이프

유니코드 표준은 문자에 숫자 값을 할당할 뿐만 아니라 문자 자체에 대한 엄청난 양의 정보도 제공한다.
예를 들어, 유니코드 표준은 (무엇보다도) 문자 í가 라틴 문자이고 알파벳이며 숫자가 아니며 구두점이 아님을 알려줄 수 있다. 이러한 다양한 것을 유니코드 속성이라고 한다.
ES2018부터 u 플래그를 사용하는 정규 표현식은 유니코드 속성으로 문자를 일치시키기 위해 유니코드 속성 이스케이프를 포함할 수 있다.
속성에는 여러 유형이 있다. 자바스크립트의 정규 표현식과 관련된 두 가지는 true 또는 false인 이진 속성과 가능한 값 목록이 있는 열거 속성이다. 예를 들어 \p{Alphabetic} 표현식은 이진 속성 Alphabetic을 사용하여 유니코드 표준에서 알파벳으로 간주 되는 모든 문자와 일치시킨다.
이스케이프는 \p{로 시작하고} 로 끝난다. 속성은 중괄호 내부와 일치한다.
\p 는 긍정 유니코드 속성 일치를 위한 것이다. 부정의 경우 소문자 대신 대문자 P를 사용한다.

// Match alphabetic properties:
const rex1 = /\p{Alphabetic}/gu;
const s1 = "Hello, I'm James.";
console.log(s1.match(rex1));
// => ["H", "e", "l", "l", "o", "I", "m", "J", "a", "m", "e", "s"]

// Match non-alphabetic properties:
const rex2 = /\P{Alphabetic}/gu;
const s2 = "Hello, I'm James.";
console.log(s2.match(rex2));
// => [",", " ", "\"", " ", "."]

사용할 수 있는 속성의 종류는 세 가지다.
- General_Category(별칭: gc): 가장 기본적인 전체 문자 속성, 유니코드 문자를 문자, 구두 사용할 수 있는 속성의 종류는 세 가지다. 점. 기호, 기호, 숫자, 구분 기호 및 기타(다양한 하위 범주 포함)로 분류한다.
- Script (별칭: sc): 단일 스크립트 범주를 Latin (라틴어), Greek(그리스어), Cyrillic(키릴 자모) 등과 같은 문자에 할당한다.
- Script_Extensions (별칭: scx): 문자가 발생하는 스크립트를 보다 정확하게 지정하기 위해 스크립트 범주 세트를 문자에 할당한다.

// Match characters in Greek script:
const rex3 = /\p{Script_Extensions=Greek}/gu;
const s3 = 'The greek letters alpha (α), beta (β), and gamma (γ) are used...';
console.log(s3.match(rex3));
// => ["α", "β", "γ"]

// Find punctuation, both listing General_Category explicitly and using
// the shorthand form leaving it off:
const rex4a = /\p{General_Category=Punctuation}/gu;
const rex4b = /\p{Punctuation}/gu;
const s4 = 'Hello, my name is Pranay. It means "romance" in Hindi.';
console.log(s4.match(rex4a));
// => [",", "'", ".", "\"", "\"", "."]
console.log(s4.match(rex4b));
// => [",", "'", ".", "\"", "\"", "."]

15.6 과거 습관을 새롭게

15.6.1 부분 문자열을 생성하고 구문 분석할 때 ^를 사용하는 대신 스티키 플래그(y)를 사용하자

문자열을 분할하지 않고 ^ 없이 스티키플래그(y)를 대신 사용하자.

15.6.2 대안을 사용하여 모든 문자(줄 바꿈 포함)를 일치시키는 대신 만능 점 플래그를 사용하자

“만능 점 ” 플래그와 . 을 대신 사용하자.

15.6.3 익명 그룹 대신 명명된 캡처 그룹 사용

명명된 캡처 그룹을 사용하고 그룹 객체의 명명된 속성 또는 정규 표현식의 명명된 참조를 사용하자.

15.6.4 다양한 해결 방법 대신 후방 탐색 사용

필요한 경우, 자바스트립트의 강력한 후방 탐색을 대신 사용안다.

15.6.5 정규 표현식에서 대리 쌍 대신 코드 포인트 이스케이프 사용

코드 포인트 이스케이프를 사용하자.

// 이모지 유니코드 블록과 딩뱃 블록을 모두 일치키려면..
// ASIS
const rex = /(?:\uD83D[\uDE00-\uDE4F]|[\u2700-\u27BF])/;

// TOBE
const rex = /[\u{1F600}-\u{1F64F}\u{1F680}-\u{1F6FF}]/u;

15.6.6 대안 대신 유니코드 패턴 사용

일치시킬 유니코드 범위를 선택하는 유지 관리가 어려운 방식 대신 유니코드 속성 이스케이프를 사용하자.

← Prev14장 리플렉션-리플렉트과 프록시 Next →16장 공유 메모리

@kimcoder

15장 정규 표현식 업데이트

15.1 플래그 속성

15.2 새로운 플래그

15.2.1 스티키 플래그

15.2.2 유니코드 플래그(u)

15.2.3 “만능 점” 플래그(s)

15.3 명명된 캡처 그룹

15.3.1 기본 기능

15.3.2 역참조

15.3.3 대체 토큰

15.4 후방 탐색 지정

15.4.1 긍정 후방 탐색

15.4.2 부정 후방 탐색

15.5 유니코드 기능

15.5.1 코드 포인트 이스케이프

15.5.2 유니코드 속성 이스케이프

15.6 과거 습관을 새롭게

15.6.1 부분 문자열을 생성하고 구문 분석할 때 ^를 사용하는 대신 스티키 플래그(y)를 사용하자

15.6.2 대안을 사용하여 모든 문자(줄 바꿈 포함)를 일치시키는 대신 만능 점 플래그를 사용하자

15.6.3 익명 그룹 대신 명명된 캡처 그룹 사용

15.6.4 다양한 해결 방법 대신 후방 탐색 사용

15.6.5 정규 표현식에서 대리 쌍 대신 코드 포인트 이스케이프 사용

15.6.6 대안 대신 유니코드 패턴 사용

On this page