Ghidra P-Code 알아보기 5

자세한 취약점 코드 분석 먼저 해당 취약점이 왜 발생했는지 소스코드를 좀 더 자세히 분석했다. 해당 취약점은 tls1_process_heartbeat 함수에서 발생하였으며, 인자로 들어온 s는 연결 하나? 정도로 보면 될 것 같다. s -> s3 -> rrec 안에 패킷이 들어있으며, 구조는 SSL └── s3 └── rrec ├── data ← 패킷 데이터 └── length ← 패킷 길이 와 같다. 함수 시작점을 보자. unsigned char *p = &s->s3->rrec.data[0], *pl; unsigned short hbtype; unsigned int payload; unsigned int padding = 16; /* Use minimum padding */ /* Read type and payload length first */ hbtype = *p++; n2s(p, payload); pl = p; 위 코드를 통해 데이터 첫 바이트 값을 읽어와 p 변수에 저장한 것을 볼 수 있고, 이 때 첫 바이트는 responce인지, request인지를 나타낸다. 그리고 hbtype에 *p값을 저장하고 다음 바이트로 ++해 주었으며, n2s(network to short, 2바이트) 매크로를 통해 Length 2바이트를 payload 변수에 넣어주었다. pl은 payload 시작 주소를 가리킨다. 이후 if 분기가 나오게 되는데, 분기는 hbtype이 request인지, responce인지에 따라 분기가 발생한다. 우리는 Request에서 해당 문제가 발생한 것임을 알고 있으므로 Request를 보자. unsigned char *buffer, *bp; int r; buffer = OPENSSL_malloc(1 + 2 + payload + padding); bp = buffer; *bp++ = TLS1_HB_RESPONSE; s2n(payload, bp); memcpy(bp, pl, payload); bp += payload; 먼저 응답을 위한 버퍼를 만들어준다. 버퍼 크기는 1바이트(타입) + 2바이트(페이로드 길이) + 페이로드 + 패딩(16바이트)만큼 할당이 이뤄지고, bp 변수에 버퍼 시작점 주소를 둔다. 이후 1바이트에 Responce 값을 주고, 그 다음 2바이트는 s2n 매크로를 통해 페이로드 길이를 2바이트만큼 채운다. 그 다음 memcpy가 문제인데, bp에 payload 길이만큼 받은 데이터인 pl을 채우는 memcpy까지는 좋다. 이 때 buffer는 payload 크기에 맞게 할당까지는 했지만, 그래서 저 실제 페이로드인 pl의 길이가 페이로드의 길이와 일치하는지 확인 없이 그대로 집어넣는 것을 볼 수 있다. 예를 들어 실제로 받은 데이터인 pl이 가리키는 실제 데이터의 크기가 1이지만, 패킷에 적힌 payload가 1000이라면, memcpy(bp, pl, payload)를 통해 값을 읽어올 때 memcpy(bp, pl(크기 1), 1000), 즉 pl이 가리키는 데이터 1 크기만큼을 읽고, 그 뒤에 999만큼 데이터를 더 읽어서 bp에 복사되는 것이다. 탐지 계획 수립 우선 Source와 Sink를 구분해보자. 해당 취약점은 공격자가 payload 길이를 조작하여 문제를 일으키는 만큼 먼저 Source는 프로그램 변수로 바꾸는 지점인 n2s(p, payload), 변수는 payload가 될 것이다. 또한 Sink는 memcpy가 될 것이다. 이 때 n2s는 매크로의 형태라 P-Code 상에서 CALL을 하는 등의 형태로 보이지 않아서 memcpy의 3번째 인자로부터 역으로 쫒아가기로 했다. memcpy를 CALL 하는 지점을 조사하고, Ghidra의 getDef() 함수를 통해 타고 올라가보려 한다. 그리고 추가적으로 여력이 된다면 Use-Def Tree 정도까지 그냥 공부할 겸 해볼까도…생각중이다.

졸업프로젝트 · 2026-07-27

Ghidra P-Code 알아보기 4

뭐하지 지금까지 분석 기법이랑 P-Code를 살펴봤고, 이제 뭘 해볼까 고민하다가 나는 CVE 하나를 파보기로 했다. 분석할 취약점을 찾는 과정에서 내 스스로 내건 조건은 다음과 같다. 특정 CVE가 들어있는 버전의 무언가를 쉽게 다운받을 수 있었음 한다(UEFI…). 그 프로그램을 직접 실행해볼 수 있었으면 한다. 해당 프로그램의 소스코드를 볼 수 있었음 한다. (추가적) 빌드가 쉬우며, 내가 코드를 패치해서 다시 빌드해볼 수 있었으면 좋겠다. 그래서 목표로 한 취약점은 CVE-2014-0160, 하트블리드이다. 하트블리드는 2014년에 발견된 취약점으로, 대칭/비대칭 암호화 프로토콜이 구현된 오픈소스 라이브러리인 OpenSSL에서 발견된 취약점이다. 하트블리드 취약점이 어떻게 이뤄지는지에 대한 짤이다. 문제는 OpenSSL의 TLS(Transport Layer Security)에서 발생했다. TLS는 HTTPS처럼 인터넷 통신 과정에서 내용을 암호화하는 프로토콜으로, 한번 연결에 비용이 비싼 이유로 연결을 계속 유지하고자 한다. 이 과정에서 연결이 살아있는지를 확인하기 위해 주기적으로 살아있는지 요청을 클라이언트가 보내게 되는데, 이를 Heartbeat라고 한다. 서버는 이를 통해 연결이 살아있는지 확인한다. 이 Heartbeat 패킷은 Request인지 Responce인지를 담은 Type, 문자열 길이인 Length, 그리고 문자열 이렇게 세 가지를 담는다. 클라이언트가 Request, 5, HELLO를 묶은 패킷을 보내면 서버는 Responce, 5, HELLO 이렇게 Request로 받은 문자열을 그대로 돌려주게 된다. 여기서 문제가 발생하는데, 당시 취약 버전의 OpenSSL은 Heartbeat에 memcpy(버퍼, 요청 payload 시작 주소, 클라이언트가 적은 Length 값)을 사용했는데, 여기서 클라이언트가 보낸 문자열 길이를 검사하는 수식이 들어가지 않은 것이다. 이 과정에서 입력받은 문자열을 넘어서 유출되면 안되는 서버 내부 값들이 클라이언트가 서버에 악의적으로 Request, 5000, HELLO를 보내고, 서버측이 취약 버전의 OpenSSL을 쓰고 있다면 HELLO에 서버 메모리 HELLO 뒤 4995바이트를 붙여서 보내버린 것이다. 직접 예제를 돌려봤다. 취약 버전 OpenSSL을 github에서 clone한 뒤 OpenSSL 내에 있는 테스트용 더미 진단 서버를 웹서버 모드(-www)로 열었다. 웹서버 모드로 연 것은 curl 등으로도 접속할 수 있도록 하기 위함이다. 다음으로 python을 켜서 서버에 보낼 Request를 보낼 간단한 코드를 만들어줬다. 18 03 02 00 03은 헤더를 뜻하고, 01 40 00이 Heartbeat 본문이다. 총 3바이트고, 01은 Request, 40 00은 length로 0x4000, 즉 16384바이트를 보냈다고 이야기한다. 그리고 보다시피 뒤에 추가로 보낸 payload는 없다. 그리고 curl을 통해 무언가 값을 보냈고, 이것이 내가 연 서버에 누군가 로그인을 수행해 이런 데이터라고 하자. 이후 다른 누군가가 방금 본 패킷을 서버에 전송한다면? 공격자는 아무 문자열도 보내지 않았지만 서버로부터 16KB짜리 서버 메모리 내부를 그대로 받고, 그 중에 다른 사람이 보낸 데이터를 훔쳐 읽은 것을 볼 수 있다. 목표는 다음과 같다. 먼저 취약 버전 다운로드 및 빌드, PoC까지 확인했으며, 빌드한 바이너리를 Ghidra에 올려 눈으로 확인하기 정적 분석 탐지 스크립트 제작 취약 지점 패치 후 문제 해결해보기 패치 후 빌드한 뒤 Ghidra에 올려 탐지 스크립트에 탐지되지 않는지 확인하기 정도가 될 것 같다.

졸업프로젝트 · 2026-07-20

Ghidra P-Code 알아보기 3

Slicing 프로그램 슬라이싱이란 특정 변수를 기준으로 그 변수의 영향 아래에 있거나 변수에 영향을 주는 코드를 전부 찾아내는 기법이다. 슬라이싱은 크게 Forward Slicing과 Backward Slicing으로 구분된다. Forward Slicing은 이 지점의 변수가 앞으로 미래의 어떤 코드들에 영향을 미치는지, Backward Slicing은 이 지점의 변수에 영향을 준 코드들이 뭔지 찾아내는 것을 뜻한다. 컴파일러는 일반적으로 Forward Slicing을 가지고 Const Propagation 최적화를, Backward Slicing을 통해 Dead Code 제거 최적화를 수행할 수 있다. 간단한 예를 들어보자.(여기서는 정적 슬라이싱을 기준으로 한다.) int w = 1; int x = 2; int y = 3; int z = 4; if (w > 0) { x = x + y; } else { x = z; } y = 5; int total = x; printf("%d\n", y); 이런 가상의 C 코드가 있다고 해보자. 위 total이란 변수를 기준으로 Backward 및 Forward Slicing을 수행해보면 먼저 Backward Slicing을 수행하면 저 total에 영향을 준 코드를 남겨두고 그 외의 코드들을 쳐낼 수 있을 것이다. int w = 1; // if문 조건에 사용되므로 삭제 X int x = 2; // total 결과값에 영향을 주므로 삭제 X int y = 3; // if문 내부에서 사용되므로 삭제 X int z = 4; // if문 내부에서 사용되므로 삭제 X if (w > 0) { // if 분기 내에서 어떤 x를 실행할지 결정하므로 삭제 X x = x + y; } else { x = z; } // y = 5; 삭제 int total = x; // 여기가 기준! // printf문은 total 이후에 사용되는 무관한 코드이므로 식제 이렇게 제거해볼 수 있을 것이다. 이번엔 Forward Slicing을 수행해보자. 이번엔 3번 줄의 y 변수를 기준으로 해서 이 값이 미래 어디에 사용되는지 추적한다. int y = 3; // 기준 if (w > 0) { // if문 안 y값이 x 쪽에 영향을 주므로 삭제 X x = x + y; } else { x = z; } // y = 5;는 기존 y를 덮어쓰는 별개 대입이므로 삭제 int total = x; // printf문은 덮어쓴 y를 쓰는 부분이므로 삭제 이렇게 제거해볼 수 있을 것이다. PDG PDG는 Program Dependence Graph의 약자로, 프로그램 의존성 그래프를 뜻한다고 한다. 프로그램 내부 코드들이 어떤 의존 관계를 맺고 있는지를 표현한 그래프로, 기존 CFG에 데이터 의존성과 제어 의존성, 이 두 가지 의존성이 추가적으로 들어간다고 한다. 데이터 의존성은 A 코드가 계산한 값을 B 코드가 사용하는 것을, 제어 의존성은 A 조건문의 참 거짓 여부에 따라 B 코드가 실행될지 말지가 결정되는 것을 뜻한다. 다시 한번 간단한 예를 들어보자. (1) int w = 1; (2) int x = 2; (3) int y = 3; (4) int z = 4; (5) if (w > 0) { (6) x = x + y; } else { (7) x = z; } (8) y = 5; (9) int total = x; (10) printf("%d\n", y); 위에서 본 예제 코드고, 편의상 노드 번호를 붙였다. 여기서 먼저 데이터 의존성을 계산해본다면 1번 값을 5번에서 사용 2번 값을 6번에서 사용 3번 값을 6번에서 사용 4번 값을 7번에서 사용 6번 값을 9번에서 사용 7번 값을 9번에서 사용 8번 값을 10번에서 사용 이렇게 정의할 수 있다. 이 때 찾는 방법은 Reaching Definition때 사용했던 GEN-KILL 등을 사용한다고 한다. 다음으로 제어 의존성은 5번 결과가 참이면 6번으로 5번 결과가 거짓이면 7번으로 갈 수 있을 것이다. 제어 의존성은 Dominance 개념을 사용한다고 한다. Dominance 개념은(이전 사람이 잘 설명해줬겠지만) CFG에서 시작 지점에서 다른 지점까지 가는 모든 경로가 어떤 지점을 지난다면 지배한다고 표현한다. 예를 들어 Entry 지점부터 B까지 가는 모든 경로에 A가 끼어있다면 A는 B를 지배(Dominance)한다 라고 표현한다. 반대로 역지배(Post-Dominance)란 B에서 Exit 지점까지 가는 모든 경로에 A가 끼어있다면 A가 B를 역지배한다고 표현한다. (5) if (w > 0) { (6) x = x + y; } else { (7) x = z; } (8) y = 5; 아까 이 코드를 다시 보자. 8번은 5, 6, 7번을 역지배한다. 6번 7번을 시작하고 나면 8번을 거처야하며, 5번 조건문이 참이듯 거짓이든 결국 갈라졌다 8번에서 만나게 된다. 그리고 이를 기반으로 제어 의존성을 계산하게 된다. 알고리즘은 다음과 같다. 모든 CFG 간선 X -> Y에 대하여: Y가 X를 역지배하지 않으면: 현재 탐색 노드 = Y 현재 탐색 노드가 X의 역지배자가 아닌 동안: 제어 의존성 집합 = 제어 의존성 집합 + X -> 현재 탐색 노드 현재 탐색 노드 = 현재 탐색 노드의 부모 노드 예제 코드로 보자. 먼저 5->6번 화살표를 본다. 6번은 5번을 역지배하지 않으므로 루프를 돈다. 5번의 직속 역지배자는 8번이므로 6과 8이 같은지 확인한 뒤, 아니므로 제어 의존성 집합에 5->6번을 넣는다. 이후 6번의 부모 노드인 8번 노드로 간다(역지배자 트리이므로 거꾸로). 8번의 경우 5번의 직속 역지배자와 같으므로 반복문을 종료한다. 이렇게 하면 이제 5->6번 간선 하나가 끝난거고 이제 5->7번, 6->8번, 7->8번 전부 다 수행해주면 되는 것이다. 그래서 이게 슬라이싱이랑 무슨 관계냐? PDG를 만들었으면 슬라이싱을 바로 끝낼 수 있는 것이다. Backward Slicing을 통해 Dead Code를 지운다면 관심있는 변수 노드 하나를 찍고 PDG에서 역순으로 올라가며 그래프를 돌리게 되는데, 데이터 의존과 제어 의존이 모두 없는 노드를 전부 쳐내면서 Dead Code를 지울 수 있는 것이다. 반대로 Forward Slicing을 수행할 때 역시 순방향 그래프 탐색을 하고, 데이터 의존 및 제어 의존이 없는 모든 값들을 잘라버릴 수 있다. 상수 전파를 할 때는 데이터 의존성을 보면서 변수를 상수로 바꿔쳐버리고, 이 때 어떤걸 바꿔치기할지 결정을 제어 의존성이 결정해준다. P-Code로는 어떻게 해? 결론적으로 Ghidra가 CFG까진 구해주지만 PDG를 구해주는 무언가는 없다. 데이터 의존성은 High P-Code로 바꾸는 과정에서 SSA로 바뀌고, 그걸 통해 쉽게 구할 수 있다. 하지만 제어 의존성은 따로 주는 건 없고 위 알고리즘을 통해 구현해야 하는 것이다.

졸업프로젝트 · 2026-07-03

Ghidra P-Code 알아보기 2

실전 Raw P-Code 분석(using Java) 지난 주에 Raw P-Code가 뭔지 등 이론은 배웠으니 여기서는 바로 실전으로 들어가보자. import ghidra.app.script.GhidraScript; import ghidra.program.model.listing.*; import ghidra.program.model.lang.*; import ghidra.program.model.pcode.PcodeOp; import ghidra.program.model.pcode.Varnode; public class RawPcodeAnalyzer extends GhidraScript { @Override public void run() throws Exception { // currentProgram.getFunctionManager()를 통해 현재 커서 주소(currentAddress)를 포함하는 함수 취득 FunctionManager fm = currentProgram.getFunctionManager(); Function func = fm.getFunctionContaining(currentAddress); if (func == null) { println("커서를 함수 내부에 위치시켜주세요."); return; } Listing listing = currentProgram.getListing(); // 1. 현재 함수의 모든 어셈블리 명령어 순회 for (Instruction instr : listing.getInstructions(func.getBody(), true)) { PcodeOp[] ops = instr.getPcode(); if (ops == null) continue; for (PcodeOp op : ops) { // 2. 관심 있는 Opcode 필터링 (간접 호출 및 일반 호출) int opcode = op.getOpcode(); if (opcode == PcodeOp.CALL || opcode == PcodeOp.CALLIND) { Varnode target = op.getInput(0); String targetName = getVarnodeName(target); println(String.format("[0x%s] %s -> 타겟: %s", instr.getAddress(), op.getMnemonic(), targetName)); } } } } // 3. Raw Varnode를 사람이 읽을 수 있는 레지스터/상수로 변환하는 헬퍼 함수 private String getVarnodeName(Varnode vn) { if (vn == null) return "null"; if (vn.isConstant()) { return String.format("0x%x", vn.getOffset()); } else if (vn.isRegister()) { Register reg = currentProgram.getRegister(vn); return (reg != null) ? reg.getName() : "Reg(0x" + Long.toHexString(vn.getOffset()) + ")"; } return vn.toString(); } } 이번 시간에 분석해볼 코드다. 해당 코드를 실행해보면 Listing 창에 커서를 올린 함수 구역 내 Raw P-Code에서 Call 및 Callind를 호출한 모든 P-Code를 잡아낸 것을 볼 수 있다. 이 코드를 알아보자. 일반적 자바 프로그래밍과의 차이점 해당 스크립트가 자바로 작성되긴 하지만, 일반적인 자바 프로그래밍이 아닌 프레임워크 위에서 동작하는 플러그인의 형태를 띄는 만큼 약간 다른 점들이 존재한다. 먼저 자바 프로그램은 main 함수에서 시작되지만, 기드라 스크립트는 독립적인 프로그램이 아니므로 GhidraScript를 상속받아 run() 메서드를 오버라이드 해야한다. 또한 System.out.println()을 호출해 디버깅하지 않고 GhidraScript()에서 자체 제공하는 println(), printf() 함수 등을 사용하여 기드라 화면에 출력하게 된다. 분석 FunctionManager fm = currentProgram.getFunctionManager(); Function func = fm.getFunctionContaining(currentAddress); if (func == null) { println("커서를 함수 내부에 위치시켜주세요."); return; } Listing listing = currentProgram.getListing(); 먼저 실행하는 순간 currentProgram.getFunctionManager()를 통해 FunctionManager형 변수를 하나 만든 것을 볼 수 있다. 이는 현재 분석중인 프로그램 내 모든 함수 명부(?)를 관리하는 객체인 FunctionManager를 불러오는 역할을 수행한다. 쉽게 생각하면 내가 해당 스크립트에서 함수 단위로 무언가를 하고 싶으면 일단 이 함수를 호출하면 된다. 이 객체를 통해 특정 함수를 찾거나, 바이너리 내 전체 함수를 순회하거나, 또는 새로운 함수를 만들어낼 수도 있다. 이 객체에서 getFunctionContaning(currentAddress)를 통해 무언갈 가져온 것을 볼 수 있는데, currentAddress를 통해 Listing 창에서 내가 커서를 올린 현재 메모리 지점 함수 주소를 가지고 있는 함수를 가져오라는 명령으로 이해하면 된다. 그리고 가져온 함수가 없을 때 예외처리를 수행했다. 그리고 동일하게 현재 프로그램에서 getListing()을 통해서 Listing을 가져오는 것을 볼 수 있다. 이는 가져온 함수는 이 함수가 0x@@부터 0x##까지다 라는 값만 가지고 있어 어셈블리 및 p-code를 가져오고 싶다면 Listing이란 객체를 가져와서 해당 영역에 내에 있는 Instruction들을 가져오기 위함이다. // 1. 현재 함수의 모든 어셈블리 명령어 순회 for (Instruction instr : listing.getInstructions(func.getBody(), true)) { PcodeOp[] ops = instr.getPcode(); if (ops == null) continue; for (PcodeOp op : ops) { // 2. 관심 있는 Opcode 필터링 (간접 호출 및 일반 호출) int opcode = op.getOpcode(); if (opcode == PcodeOp.CALL || opcode == PcodeOp.CALLIND) { Varnode target = op.getInput(0); String targetName = getVarnodeName(target); println(String.format("[0x%s] %s -> 타겟: %s", instr.getAddress(), op.getMnemonic(), targetName)); } } } 바로 for문을 통해 어떻게 순회하는지를 보여준다. listing.getInstruction()을 통해 InstructionIterator라는 이터레이터가 반환이 된다. 괄호 안에는 처음에는 어떤 범위 내의 instruction을 가져올건지를, 두번쨰로는 순방향, 역방향 탐색 여부를 넣는다. true일 경우 순반향 순회이다. 여기선 커서가 가리키는 함수 범위 내의 Instruction을 가져온다 정도로 인지하면 된다. 이후 getPcode()를 통해 해당 instruction이 어떤 P-Code들로 이뤄져있는지 배열을 담는다. 이는 하나의 Instruction이 여러 P-Code로 분해될 수 있기 떄문이다. 이후 해당 P-Code들을 대상으로 순회를 다시 수행한다. 먼저 해당 P-Code의 opcode를 getOpcode()를 통해 가져온다. 이 때 가져온 opcode가 정수형인 것을 알 수 있다. 이는 빠른 처리가 필요할 시 사용되며, String 형태로 반환을 원한다면 getMnemonic()을 사용하면 된다. 이제 if문을 보면 받은 opcode가 CALL이거나 CALLIND인 경우 첫 번째 인자 Varnode를 가져오고, getVarnodeName()이란 함수를 통해 타겟 Varnode를 가져온 것을 볼 수 있다. private String getVarnodeName(Varnode vn) { if (vn == null) return "null"; if (vn.isConstant()) { return String.format("0x%x", vn.getOffset()); } else if (vn.isRegister()) { Register reg = currentProgram.getRegister(vn); return (reg != null) ? reg.getName() : "Reg(0x" + Long.toHexString(vn.getOffset()) + ")"; } return vn.toString(); } 이는 따로 만든 헬퍼 함수로, 해당 Varnode의 타입이 상수인지, 레지스터에 들어가는지, 메모리에 들어가는지 등에 따라 사람이 읽기 쉽도록 처리해준 함수다. Varnode에서 값을 가져올 땐 getOffset()을 통해 가져올 수 있으며, 지난 시간에 이야기했듯 레지스터가 한 줄로 길게 매핑이 되어있으므로 레지스터의 경우 currentProgram 내 getRegister 함수를 통해 이 Varnode가 매핑된 실제 레지스터 객체를 가져온 뒤 해당 레지스터명을 getName()을 통해 가져오고, 예쁜 형태로 반환해주었다. 아무것도 해당되지 않을 경우 기드라 자체 제공 기본 문자열 형태열로 반환한다. 그렇게 CALL 또는 CALLIND에 해당하는 Raw P-Code를 문자열 형태로 변환한 뒤 출력해줌으로써 스크립트를 마무리한다.

졸업프로젝트 · 2026-05-29

Ghidra P-Code 알아보기 1

P-Code (사실 P-Code는 다들 너무 잘 알고 있을 것이라 생각한다…) P-Code는 Ghidra가 사용하는 IR로, 다양한 프로그래밍 언어들을 통일하기 위한 목적인 컴파일러 레벨의 IR들과 달리 P-Code는 MIPS, x86, ARM 등의 CPU 아키텍쳐 단의 통일을 위해 만들어진 IR로 볼 수 있다. 매우 간단한 예시로, 기존 어셈블리어로 표현되던 ADD RAX, RBX 와 같은 연산을 내부적으로 variable_1 = RAX + RBX RAX = variable_1 과 같은 느낌의 연산으로 변경되어 표현된다고 볼 수 있다. Varnode? PcodeOp? Varnode와 PcodeOp를 프로젝트를 하는 동안 한번씩은 봤을 것이라고 생각한다. 쉽게 생각해 Varnode는 값, PcodeOp는 연산자라고 생각하면 된다. Varnode Varnode는 레지스터든, 메모리든, 상수든 모든 데이터들의 위치를 추상화한 튜플이다. 튜플의 형태는 (주소 공간, 오프셋, 사이즈) 의 형태로 구성된다. 주소 공간은 register, ram, const, unique 등이 존재한다. register : 아키텍쳐의 레지스터 ram : 메모리 const : 상수값 unique : 임시 변수 unique는 P-Code의 전용 임시 변수로, 위 덧셈 예제처럼 어셈블리 코드를 원자적인 연산으로 쪼개는 과정에서 중간 연산 결과가 필요할 수 있는데, 이를 실제 레지스터나 메모리 등에 쓴다면 side-effect가 발생할 수 있으므로 분석기만 볼 수 있는 별도 주소 공간 정도로 이해하면 좋을 것 같다. 사이즈는 해당 Varnode가 몇바이트짜리인지 정도로 보면 된다. 오프셋은 바이트 단위로, ram이라면 메모리의 절대 주소를, const라면 상수값 그 자체를, unique라면 임시변수 내 바이트 오프셋을 의미한다. 그리고 register 역시 레지스터 공간의 바이트 오프셋을 담는다고 하는데, 이는 Ghidra가 레지스터 역시 메모리처럼 주소 공간으로 지정하기 위해 하나의 가상 주소 공간으로 모델링하기 때문이다. Ghidra는 레지스터들을 묶은 가상 레지스터 배열을 하나 만들고, 그 안에서 이 레지스터는 이 오프셋에서부터 몇바이트야!라는 매핑을 부여하게 된다. 실제로 Ghidra 내에서 스크립트를 돌려보면 각 레지스터가 어떻게 매핑되어있는지 확인할 수 있다. (TMI. 이 형태는 High P-Code, Low P-Code 모두 사용하는 형태. 하지만 SSA 형태로 변환해주는건 High P-Code로 변환되는 과정에서 SSA 정의 한번에 별개 Varnode 객체가 생성되어 객체가 자신을 정의한 OP 및 사용하는 곳을 들고다닌다. 그러므로 getDef()나 getDescendants() 등은 High P-Code에서만 의미있다. 자세한건 뒤에서…) 출처 PcodeOp PcodeOp는 P-Code 연산 하나하나의 원자적 의미 연산들로써, output = OPCODE(inputs) 의 형태로 표현된다. 이때 output은 0~1개의 Varnode(분기 연산은 0개), input으로는 0개 이상의 Varnode가 들어온다. opcode 리스트는 뒤에서 잘 설명해줄 것이다. 그리고 추가적으로 여기에서 주요 Ghidra 자바 스크립트에서 사용되는 api들이 모여있으니 참고하면 좋을 듯 하다. 지난 프로젝트 때는 저 문서의 PcodeOp, Varnode 부분에 자주 사용했던 함수들이 많았다.

졸업프로젝트 · 2026-05-16

UEFI DXE 바이너리 취약점 분석기 프로젝트_12

논문 끝! 다들 고생많으셨습니다! 그래서 한 주 동안 무엇을 했냐 논문의 레퍼런스를 위해 SMM Callout 관련 자료를 열심히 뒤져본 결과, gBS뿐 아니라 gRT의 침범 역시 SMM Callout의 문제 대상인 것 같았다. gBS만 잡고 gRT를 탐지 대상에서 배제했던 이유로 먼저 gBS는 매우 직관적으로, OS 부팅 이후에는 실행 권한이 OS에 넘어가므로 언제 덮어썼을지 모르는 영역이다. 그러므로 당연히 gBS는 탐지 대상이다. 하지만 gBS는 부팅 이후에도 펌웨어가 사용하는 영역이다. 그래서 이 부분을 탐지하지 않았는데, 알고 보니까 이 부분이 펌웨어”만” 사용하는 영역이 아니라 펌웨어와 OS “모두” 사용되는 영역이라 SMRAM 내부가 아닌 DATA 영역 등에 위치한다고 한다. 즉, gRT를 무심코 사용하는 패턴(흔히 보던 getVariable, setVariable 등) 역시 SMM Callout으로 볼 수 있는 것이다! 출처 그래서 추가를 해보자 추가 자체는 간단하다. 기존에는 gBS를 담을 전역변수를 하나 만들고 trackSystemTableGBS 함수 하나를 main에서 호출한 뒤, 이 함수가 checkIfStoredToGlobal(포인터가 어디서 메모리로 가는가), trackValueToMemory(메모리 정확히 어떤 지점으로 가는가) 등의 함수를 통해 전역변수, 메모리 등으로 진입하는지를 종합하여 gBS의 주소를 찾았다. 그리고 노드를 인자로 받아서 추적해서 노드를 역추적한 뒤 gBS의 주소와 같은지 확인하는 isTaintByGBS 함수를 가지고 scanForSmmCallouts 함수 내에서 분석을 진행했다. 여기서 gRT 역시 잡을 수 있도록 전역변수와 trackSystemTableGRT 함수를 하나 더 만들어서 얘 역시 checkIfStoredToGlobal, trackValueToMemory 등의 함수를 가지고 gRT의 주소를 추적하도록 하였다. 여기서 gBS는 SystemTable에서 0x60만큼 떨어져있었지만 gRT는 0x58만큼 떨어져 있으므로 함수 구조는 동일하지만 0x60을 더하는 지점을 찾는 것이 아닌 0x58을 더하는 지점을 찾도록 했다. 이후 이 두 함수가 gRT인지 gBS인지 판단할 수 있도록 두 함수의 인자로 boolean isGBS를 추가하였다. 그리고 isTaintByGBS를 좀 더 범용적으로 쓸 수 있도록 인자에 노드를 추가한 isTaintBy 함수로 교체한 뒤, scanForSmmCallouts 내에서 각 노드에 대해 gBS와 gRT를 한번씩 검색하도록 해서 gRT까지 잡을 수 있도록 했다. 위 코드와 같이 gRT를 사용하는 코드를 추가하였고, 빌드 이후 해당 efi 파일을 기드라에 넣어 잘 작동하는지 확인했다. 잘 작동했다! 이걸 어떻게 정제하지 일단 결론적으로, gRT를 쓰는 영역은 전부 취약점으로 보기로 했다. 이 과정에서 json 등을 마구마구 바꿔서 결과 리포트를 바꿔야할 것으로 생각되지만… 이 부분은 당장은 졸업프로젝트를 위해 근시일에 해결 가능한 Future work 정도로 남겨두고, gRT를 호출하는 영역을 성공적으로 잘 잡아내어 취약점 리포트에 담은 것까지 나름 괜찮은 성과로 생각하려 한다..

졸업프로젝트 · 2026-04-28

UEFI DXE 바이너리 취약점 분석기 프로젝트_11

원하는 드라이버만 가지고 빌드해보자 이번에는 지난 시간에 이어서 .fd 파일 내에 다른 딸려오는 드라이버들을 전부 쫙 빼버리고 내가 원하는 드라이버만 선택하여 빌드해보았다. 우선 fdf, dsc 파일의 변경이 필요하여 복구 과정의 귀찮은 일들을 피하기 위해 기존에 clone을 떠온 폴더를 복제한 새 폴더를 만들고 진행하였다. 먼저 최상위 폴더에 빌드에 집어넣을 폴더를 만든다. 폴더를 만들고 그 폴더 안에 만들 드라이버들의 폴더들을, 그리고 그 안에 .dsc 파일과 .fdf 파일을 만든다. 여기서 .dsc 파일과 .fdf 파일은 C의 Makefile에 대응된다고 보면 생각하면 좋다. 대신 역할의 분리가 좀 있긴 한데, .dsc 파일은 소스 코드들을 가져와서 어떻게 .efi 실행 파일로 만들지에 대한 명세를 담고 있고, .fdf 파일은 .dsc를 통해 만든 .efi 드라이버 파일들을 모아서 어떻게 최종 펌웨어로 올릴지에 대한 명세를 담고 있다. [Defines] PLATFORM_NAME = DepexTestPkg PLATFORM_GUID = 11111111-2222-3333-4444-555555555555 PLATFORM_VERSION = 1.0 DSC_SPECIFICATION = 0x00010005 OUTPUT_DIRECTORY = Build/DepexTest SUPPORTED_ARCHITECTURES = X64 BUILD_TARGETS = DEBUG|RELEASE SKUID_IDENTIFIER = DEFAULT FLASH_DEFINITION = DepexTestPkg/DepexTestPkg.fdf [LibraryClasses] UefiDriverEntryPoint|MdePkg/Library/UefiDriverEntryPoint/UefiDriverEntryPoint.inf UefiBootServicesTableLib|MdePkg/Library/UefiBootServicesTableLib/UefiBootServicesTableLib.inf DebugLib|MdePkg/Library/BaseDebugLibNull/BaseDebugLibNull.inf BaseLib|MdePkg/Library/BaseLib/BaseLib.inf PcdLib|MdePkg/Library/BasePcdLibNull/BasePcdLibNull.inf BaseMemoryLib|MdePkg/Library/BaseMemoryLib/BaseMemoryLib.inf PrintLib|MdePkg/Library/BasePrintLib/BasePrintLib.inf [Components] DepexTestPkg/VulnMissingSmm/VulnMissingSmmDxe.inf DepexTestPkg/TestCycleA/TestCycleADxe.inf DepexTestPkg/TestCycleB/TestCycleBDxe.inf DepexTestPkg 아래 .dsc 파일이다. 여기서 볼 것은 [Defines] 아래 PLATFORM_NAME, OUTPUT_DIRECTORY, FLASH_DEFINITION, 그리고 [Components]다. PLATFORM_NAME은 해당 패키지 플랫폼 이름을, OUTPUT_DIRECTORY는 저장될 경로를, 그리고 FLASH_DEFINITION의 .fdf 위치를 통해 파일을 읽어 펌웨어로 패키징까지 수행하게 된다. 그리고 [Components] 아래에 내가 만들 드라이버들의 .inf 파일들을 담게 된다. [FD.DepexTestROM] BaseAddress = 0x0 Size = 0x00100000 ErasePolarity = 1 BlockSize = 0x1000 NumBlocks = 0x100 0x00000000|0x00100000 FV = DXEFV [FV.DXEFV] # 오직 펌웨어 볼륨을 구성하는 필수 뼈대 3개만 남깁니다. BlockSize = 0x1000 FvAlignment = 16 ERASE_POLARITY = 1 INF DepexTestPkg/VulnMissingSmm/VulnMissingSmmDxe.inf INF DepexTestPkg/TestCycleA/TestCycleADxe.inf INF DepexTestPkg/TestCycleB/TestCycleBDxe.inf [Rule.Common.DXE_DRIVER] FILE DRIVER = $(NAMED_GUID) { DXE_DEPEX DXE_DEPEX Optional |.depex PE32 PE32 |.efi UI STRING="$(MODULE_NAME)" Optional } 동일 경로의 .fdf 파일의 [FV.DXEFV] 안에 필수 드라이버들의 inf 파일들을 적어주면 된다. 이 때 .inf란 파일도 나왔는데, 이건 각 드라이버들의 명세라고 볼 수 있다. 각 드라이버 폴더 내에는 C 코드와 .inf 파일를 만든다. [Defines] INF_VERSION = 0x00010005 BASE_NAME = VulnMissingSmmDxe FILE_GUID = AAAAAAAA-1111-2222-3333-444444444444 MODULE_TYPE = DXE_DRIVER VERSION_STRING = 1.0 ENTRY_POINT = VulnMissingSmmEntryPoint [Sources] VulnMissingSmmDxe.c [Packages] MdePkg/MdePkg.dec [LibraryClasses] UefiDriverEntryPoint [Depex] gEfiSmmBase2ProtocolGuid .inf 파일 내에는 드라이버명, GUID, 컴파일 과정 중 C 파일 내에서 처음 읽을 진입점 함수명, C 파일의 위치, 필요한 의존성(Depex)들 등이 담겨있다. #include <Uefi.h> EFI_STATUS EFIAPI VulnMissingSmmEntryPoint ( IN EFI_HANDLE ImageHandle, IN EFI_SYSTEM_TABLE *SystemTable ) { return EFI_SUCCESS; } C 코드는 잘 작성하면 되고(…), .inf 파일의 시작점 함수를 잘 포함해주면 된다. 이후 빌드는 build -p DepexTestPkg/DepexTestPkg.dsc -a X64 -t XCODE5 위 명령어처럼 패키지의 .dsc 파일을 기준으로 하여 빌드를 수행하면 빌드가 잘 저장된 것을 볼 수 있고, FV/DEPEXTESTROM.fd 파일을 UEFITool을 통해 열어보면 전부 다 펼쳐봐도 드라이버가 딱 세 개만 들어있는 것을 볼 수 있다. 현재 전체 파이프라인 처리를 위한 데이터셋(Depex, Logofail, Smm 취약점 전부 넣어서 하나의 fd 파일로 빌드) 생성 방법에 대한 고민중… 자동화 수정 방법 지금까지는 .efi 파일을 뽑아내지 못하는 문제로 인해 7zip을 통해 .efi 파일을, UEFIExtract를 통해 Depex를 위한 dump directory를 뽑아내는 방식을 취했다. 이 과정에서 뽑아진 드라이버 개수가 7zip과 UEFIExtract 둘에서 서로 다른 문제, 추후 확장성 측면에서의 불편함 등이 있었다. 위에서 만들었던 테스트 fd파일을 테스트를 위해 자동화 담당 팀원에게 보내줬는데 7zip과 UEFIExtract와 서로 뽑는 방식이 달라 사용할 수 없다고 했다. 그래서 이 부분을 제미나이에게 물어봤더니 굳이 7zip를 쓰지 않고도 .efi 파일을 뽑아낼 수 있다고 했다! 좀 더 알아보니 드라이버명으로 이뤄진 폴더 내 DXE dependency section 폴더 아래에 Depex 코드가, PE32 image section 폴더 아래에 .efi 파일이 있었다. 이 떄 여기서 둘 다 같은 body.bin이란 이름으로 되어있어서 .efi를 찾지 못했던 것이였고, PE32 image section 아래의 body.bin의 확장자를 .efi로 변경했더니 실제로 우리가 원했던 efi 파일이 나온 것을 확인할 수 있었다. (자세한 것은 자동화 쪽 발표에서….) 수정된 파이프라인 이미지이지만언제또바뀔지모르겠는…

졸업프로젝트 · 2026-03-24

UEFI DXE 바이너리 취약점 분석기 프로젝트_10

추가 수정 로직 회의 이후 방식을 다시 바꿨다. 기존 방식의 문제점으로는 XREF를 타고 올라가는 과정에서 주소 + 0xd0 이런 식으로 타고 가는 것들이 존재하기 때문에 Ghidra는 이게 그냥 숫자 덧셈인지, 포인터인지 전혀 알 수 없다. 그러므로 Ghidra는 이를 단순 상수라고 생각하므로 XREF가 끊기게 되고, 찾지 못하게 되는 것이였다. 그리고 그렇다고 모든 함수를 다 타겟으로 넣었던 기존 방식으로 돌아가기엔 gBS를 호출 가능한 entry 영역까지 같이 찾아버리게 되는 문제가 있다. 그래서 생각한 방식은 옛날 방식과 이번 방식을 섞어서 만들어냈다. 먼저 Ghidra의 모든 함수들을 타겟으로 하여 무작정 전부 다 가져온다. 여기까지는 옛날 방식과 동일하다. 그리고 이 함수들을 가지고 한번, 두번 더 걸러내는데, 해당 함수 내에서 간접 호출을 하는 경우, 즉 CALLIND 라는 P-Code를 호출하는 경우를 찾는다. 또 이 함수들을 가지고 한번 더 걸러내는데, 만약 0xE0을 꺼내온 지점이 있다면 Root Handler로, 그렇지 않은 것들 중 EFI_SMM_SW_DISPATCH2_PROTOCOL의 GUID를 호출하는 지점이 있다면 Child Handler로 간주하여 해당 함수들을 타고 들어가 핸들러 주소만 가지고 나와서 타겟으로 등록한다. 핸들러를 호출하는 함수를 잡는 것이 아닌 핸들러 자체를 잡았을 때 장점이 존재하는데, 바로 이 과정에서 “더 이상 부팅 시점에서 gBS를 맘대로 사용해도 된다.”란 조건을 생각하지 않아도 된다. 해당 핸들러를 호출하는 지점이 어디인지 판단할 필요 없이 해당 핸들러 안에 gBS가 있는지 없는지만 확인하면 되는 것이다. SmmCalloutHunter_v4_0_1 코드 (3.18일 수정. JSON 저장 위치 수정) SmmCalloutHunter_v4_0_2 코드 지난 번 탐지하지 못했던 드라이버 분석 결과 지난 주에는 탐지하지 못했던 팀원이 생성한 드라이버에 대해 잘 잡는 것을 확인할 수 있었다! 추가 변경사항 아래는 지난 주 회의에서 나왔던 변경사항 및 회의 결과 리스트다. timestamp는 스크립트를 돌린 날짜 시분초가 아닌 스크립트를 돌리는 데 걸린 시간으로 한다. 파일명은 (잡고 있는 취약점)Hunter_v(버전)으로 하며, 이름은 파스칼 케이스로, 버전 숫자는 0_0_0의 형태로 표기한다. 팀원간 깃허브 레포지토리를 하나 개설하였다. 테스트 데이터 생성 일단 잠시 코드 로직은 미뤄두고, 지금까지 만든 내 분석 스크립트를 평가해보고자 싶었다. 레드팀 역할을 너무나도 잘 해주는 형의 일손을 약간(?)은 덜어주고자… 생성형 AI를 사용해 테스트 데이터 총 20개를 뽑았다. 10개는 정상, 10개는 취약 코드로 하여 만들었다. 각 데이터에 대한 설명은 위 표와 같고, 데이터는 여기에 만들어 올려두었다. 빌드를 수행하는 방법은 다음과 같다. 먼저 만들고 싶은 드라이버의 수만큼 폴더를 생성한다. 본인은 edk2/Ovmfpkg/ 아래에 저장해두었다. 각 폴더 하위에는 .inf 파일과 취약점 드라이버 소스인 .c가 하나씩 들어간다. ## @file # Test Driver: test_1 ## [Defines] INF_VERSION = 0x00010005 BASE_NAME = test_1 FILE_GUID = 22334455-6677-4889-9AAB-BCCDDEEFF011 MODULE_TYPE = DXE_SMM_DRIVER PI_SPECIFICATION_VERSION = 0x0001000A VERSION_STRING = 1.0 ENTRY_POINT = test_1EntryPoint [Sources] test_1.c [Packages] MdePkg/MdePkg.dec [LibraryClasses] UefiDriverEntryPoint SmmServicesTableLib # UefiBootServicesTableLib DebugLib [Protocols] gEfiSmmSwDispatch2ProtocolGuid [Depex] gEfiSmmSwDispatch2ProtocolGuid .inf 파일은 다음과 비슷한 형태로 구성되며, 본인은 드라이버명, BASE_NAME, ENTRY_POINT, SOURCE, 그리고 FILE_GUID를 수정해주었다. 특히 GUID는 다른 파일과 겹치면 안된다. 이후 드라이버 C 코드를 짜준다. #include <PiSmm.h> #include <Library/UefiDriverEntryPoint.h> #include <Library/SmmServicesTableLib.h> #include <Library/DebugLib.h> #include <Protocol/SmmSwDispatch2.h> EFI_STATUS EFIAPI test1Handler ( IN EFI_HANDLE DispatchHandle, IN CONST VOID *Context, // 선택사항 (SMI 번호 등의 정보) IN OUT VOID *CommBuffer, // 벙커 밖(OS)과 통신하는 메모리 버퍼 IN OUT UINTN *CommBufferSize // 통신 버퍼의 크기 ) { VOID *Protocol; gSmst->SmmLocateProtocol (&gEfiSmmSwDispatch2ProtocolGuid, NULL, &Protocol); return EFI_SUCCESS; } EFI_STATUS EFIAPI test_1EntryPoint ( IN EFI_HANDLE ImageHandle, IN EFI_SYSTEM_TABLE *SystemTable ) { EFI_STATUS Status; EFI_SMM_SW_DISPATCH2_PROTOCOL *SwDispatch; EFI_SMM_SW_REGISTER_CONTEXT SwContext; EFI_HANDLE DispatchHandle; Status = gSmst->SmmLocateProtocol (&gEfiSmmSwDispatch2ProtocolGuid, NULL, (VOID **)&SwDispatch); if (EFI_ERROR (Status)) return Status; SwContext.SwSmiInputValue = 0x01; Status = SwDispatch->Register (SwDispatch, test1Handler, &SwContext, &DispatchHandle); return Status; } (여기서 SwSmiInputValue는 전부 다 다른 값을 넣어주라고 했는데 이유는 잘 모르겠다…) 그렇게 다 코드를 짜줬다면 다음으로 OvmfPkg 내 OvmfPkgX64.dsc, OvmfPkgX64.fdf 파일 두 개를 수정해준다. OvmfPkgX64.dsc 파일 맨 아래에 위 이미지처럼 만든 드라이버의 inf 파일 경로를 입력해주고, OvmfPkgX64.fdf 파일의 [FV.DXEFV] 아래에 위 이미지처럼 INF + 만든 드라이버의 inf 파일 경로를 입력해준다. (이 때 fdf 파일 작성한 부분 위에 보면 같은 문법으로 설치할 드라이버들의 리스트가 적혀있는데, 이것들을 주석, 또는 제거하거나 추가하는 등의 방식으로 원하는 드라이버만 설치하여 입맛대로 OVMF.fd 파일을 만들 수 있다.) 이후 항상 빌드하듯이 source edksetup.sh build -p OvmfPkg/OvmfPkgX64.dsc -a X64 -t XCODE5 -D SMM_REQUIRE=TRUE -D SECURE_BOOT_ENABLE=TRUE 를 입력해주면 빌드가 진행이 되고, 만들어진 드라이버는 Build/OvmfX64/DEBUG_XCODE5/X64 아래에 만든 드라이버들이 .efi 파일로 예쁘게 잘 만들어진 것을 볼 수 있을 것이다! (이 때 경로와 빌드 명령어는 사용 OS 및 컴파일러에 따라 달라진다. 본인은 M4 pro Mac + XCODE5를 통해 빌드하였다.) 테스트 결과 만든 20개 데이터를 Ghidra에 올린 뒤 각각 전부 테스트 해보았고, 결과는 20개중 19개를 잘 맞췄다. 틀린 하나는 test_10_bad였다. test_10_bad는 전역변수를 하나 만든 뒤 entry에서 전역 변수에 gBS의 주소를 담고, 런타임 핸들러에서 해당 전역변수를 불러와 사용한다. 이때 우리가 만든 스크립트는 전역변수를 만났을 때 전역변수의 주소와 gBS 주소를 비교하고, 둘은 당연히 다르므로 안전하다고 판단하고 넘어가게 되는 것이다. 다음 주 부터는 일단 잠시 SMM 단 취약점 로직 작성은 멈추고, Depex 쪽 취약점을 연구하는 조원을 도와줘야 할 것 같다.

졸업프로젝트 · 2026-03-17

UEFI DXE 바이너리 취약점 분석기 프로젝트_9

추가 문제점 저번에 찾은 스크립트를 다른 팀원이 테스트를 해봤고, 해당 스크립트에 약간의 추가 문제점을 찾을 수 있었다. 먼저 SMI는 접근 방식이 하드웨어적 접근과 소프트웨어적 접근으로 발생한다. 하드웨어적 인터럽트 : CPU 온도 상승, 노트북 뚜껑 닫히고 열림 센서 작동 등 하드웨어에서 직접적으로 발생하는 인터럽트 소프트웨어적 인터럽트 : OS가 요청하여 SMM 모드로 들어갈 때 OS가 소프트웨어적으로 요청하는 인터럽트 하지만 SMI를 알리기 위한 핀은 CPU에 단 하나만 연결되어 있으므로, CPU에 SMI 신호가 왔을 때 해당 신호가 하드웨어 신호인지, 소프트웨어 신호인지 알 수 없다. 그래서 이 때 SmmBase2가 나와서 하드웨어와 연결된 레지스터들을 다 찾아서 전기 신호가 들어왔는지 아닌지 여부를 판단한다. 그 중 전기 신호가 들어온 레지스터가 있다면 하드웨어가 요청한 인터럽트로 판단, 그렇지 않다면 소프트웨어 인터럽트로 판단을 진행한다. 이 과정이 바로 Root SMI Handler가 되는 것이다. 그리고 판단한 결과가 하드웨어 인터럽트면 각각 하드웨어에 맞는 디스패처로, 소프트웨어 인터럽트라면 다른 특정 디스패처(EFI_SMM_SW_DISPATCH2_PROTOCOL) 등을 호출하게 되는데 이것들이 Child SMI Handler가 된다. 하지만 이렇게만 봤을 땐 결국 SmmBase2를 거칠텐데 왜 얘를 거치지 않고 넘어가냐는 궁금증이 생겼다. 이 부분이 바로 처음 분석할 때 이야기하던 Autogen.c라는 파일이다. 이는 코드를 다 짜고 빌드를 하면 컴파일러가 자동으로 삽입하는 코드인데, 이 안에 SmmServicesTableLibConstructor라는 함수가 존재한다. 이 함수가 바로 SmmBase2를 찾아서 InSmm을 호출한 뒤 gSmst의 주소를 찾아서 전역 변수로 올리는 과정을 거치게 되고, 해당 핸들러들은 gSmst를 사용하기 위해 굳이 gBS->LocateProtocol을 통해 SmmBase2를 찾고, InSmm을 통해 SMRAM 내 영역인지 판단한 뒤 GetSmstLocation을 통해 gSmst를 받아오는, 매번 불편한 일을 하지 않아도 되는 것이다. 그리고 우리의 코드는 바로 이 부분을 놓친 것이라 생각했다. SmmCalloutHunter_v3 SmmCalloutHunter_v3.java 링크 추적 로직은 가볍게 작성했다. 기존 gSmst->SmiHandlerRegister에서 Smi 핸들러 함수를 찾은 것과 더불어 EFI_SMM_SW_DISPATCH2_PROTOCOL의 guid를 호출하는 곳들을 전부 찾은 뒤 XREF를 따라 올라가 함수들을 만나면 등록하는 로직을 추가했다. 그런데… 왜 잡지 못한지에 대해선 뒤에서 잘 설명해줄 것이다…

졸업프로젝트 · 2026-03-11

UEFI DXE 바이너리 취약점 분석기 프로젝트_8

코드 개선사항 이전에 짰던 gBS 탐지 스크립트는 아래와 같은 문제를 가지고 있었다. ghidra가 SMM 런타임 함수를 찾지 못한다. 이는 entry부터 찾아들어가는 ghidra의 특성과 달리 SMI를 통해 강제로 점프하여 들어오는 곳이라 참조가 끊겨 생기는 문제로 추측한다. 부팅 중에는 gBS가 실행되어도 된다. 하지만 기존 코드는 모든 함수를 다 돌아버리면서 부팅용 함수든 런타임용 함수든 전부 다 검사해버려 오탐(False Positive)가 발생한다. 나중에 자동화 과정에서 이게 SMM 단에서 실행되는지, 일반 DXE 드라이버인지 알 수 없다. 추후 자동화 통합 과정에서 검사를 수행할 드라이버엔 SMM 드라이버도, DXE 드라이버도 모두 존재한다. 그러므로 gBS를 사용해도 되는 일반 DXE 드라이버들과 구별을 하기 위해 초반 처리 로직이 필요하다. 개선 로직 개선 로직은 다음과 같이 개선했다. 먼저 검사 로직을 수행하기 전에 프로그램 내에 gSmmBase2ProtocolGuid가 있는지 확인한다. 만약 없다면 이는 SMM 드라이버가 아닌 것으로 간주, 검사를 수행하지 않고 스크립트를 종료한다. SMM 드라이버라면 검사 시작 전 해당 프로그램의 모든 바이너리를 순회한다. 순회한 각 코드의 P-Code를 뽑아내고, 뽑아낸 P-Code에 간접 호출(CALLIND)가 있는지 찾는다. 만약 간접 호출이 있고, 0xE0 오프셋을 더한다면 SMM 핸들러를 등록하는 것으로 간주한다. 만약 해당 함수가 등록되어있지 않으면 등록을 해준다. 이후 gBS 주소 찾기 및 Taint Analysis를 수행한다. 이 때 모든 함수를 찾던 기존 Taint Analysis가 아닌 찾아낸 핸들러들을 대상으로 한다. SmmCalloutHunter_v2.java 링크 왜? (굉장히 휴리스틱한 접근들로 로직을 잡고 있다…) 먼저 어떻게 함수들을 찾았는지다. SMI이 울렸을 때 실행되는 함수들은 gSmst->SmmHandlerRegister에 저장되어 있다. 이 때 이는 gSmst에서 0xE0만큼 떨어져 있다. 원래라면 추적을 두번, 세번, 네번 이어 가야 gSmst를 찾아낼 수 있지만, 일단 빠르게 결과부터 보기 위해 0xE0을 더해서 호출하는 로직만 찾아서 찾는, 일종의 찍기를 한 것이다.(……) 다음으로 런타임 함수들만 잡는 방법이였다. 바이너리 자체에는 어떤게 부팅 중 실행되는지, 어떤게 런타임에 실행되는지 알 수 없다. 하지만 부팅 중에 실행되지 않는 함수들은 entry에 연결되지 않는다는 점을 생각했다. 그러면 어디에 저장되는가. 사실 이 저장되는 위치가 바로 gSmst->SmmHandlerRegister다! 이 안에 있는 모든 CALL들을 가져와 리스트, 또는 이터레이터 형태로 저장 후 순회하는 방식으로 바꾸면 된다. 마지막으로 SMM 드라이버인지 판단하여 SMM 드라이버가 아닌 일반 DXE 드라이버라면 로직을 나가는 경우에 대한 처리다. SMM 드라이버는 gEfiSmmBase2ProtocolGuid를 코드 내에 반드시 가지고 있다. 이는 EFI 전역 환경 내에서 SMM 환경에서 제공하는 서비스들을 담은 프로토콜의 GUID로, SMM 드라이버는 gEfiSmmBase2ProtocolGuid를 통해 SmmBase2라는 프로토콜에 접근이 가능하다. 이 프로토콜에 특정 SMM 함수를 요청하면 프로토콜은 InSmm() 함수를 통해 해당 코드가 SMRAM에 들어있는지를 확인하게 된다. 이 InSmm()이 TRUE로 나오면 프로토콜은 GetSmstLocation()을 통해 gSmst의 실제 주소를 넘겨주게 되고, SMM 드라이버는 gSmst에 있는 함수를 간접 호출함으로써 SMM 코드를 실행하게 된다. 이 때 gSmst의 위치를 찾는 것이 아닌 gEfiSmmBase2ProtocolGuid를 찾는 이유는 다음과 같다. gSmst는 펌웨어가 실행된 뒤 주소가 결정이 되는, 즉 매번 주소값이 바뀌는 값이다. 이 값을 찾기 위해선 스크립트를 실행할 때 마다 코드를 역추적해가며 값을 찾아야 한다. 하지만 gEfiSmmBase2ProtocolGuid는 전 세계 모든 펌웨어가 공통적으로 가지는 고유값이므로 코드를 디컴파일할 필요도 없이 프로그램 내에 해당 GUID가 존재하는지 아닌지만 찾으면 된다. 수정 후 각 함수별 코드 요약 함수명 역할 trackSystemTable() Def-Use Chain을 타면서 gBS를 찾는 함수 checkIfStoredToGlobal() Def-Use Chain을 타다가 전역 변수로 넘어가는지 여부를 추적하는 함수 trackValueToMemory() 메모리에서 읽은 값(LOAD)이 gBS 전역 변수로 이어지는지 확인하는 함수 scanForSmmCallouts() 찾은 SMI 핸들러들의 주소 리스트를 받아 Call-Graph를 수집하여 gBS를 호출하는지 파악한 뒤 JSON으로 결과를 출력하는 함수 buildRuntimeCallGraph() 핸들러들이 호출하는 모든 런타임 함수들을 수집하는 함수 isTaintedByGBS() 인자로 받은 node에서부터 역추적을 해나가며 끝이 gBS인지 확인하는 함수 findAndCreateSmiHandlers() 코드 전체를 순회하며 SMI 핸들러를 찾고, 발견 즉시 기드라에 함수로 등록하는 함수 hasOffsetE0() 0xE0을 더하는 연산이 존재하는지 확인하는 함수 getParameterVarnode() 특정 함수의 몇 번째 인자가 가지는 노드를 반환하는 함수 saveJsonToFile() 결과를 JSON으로 변환하는 함수 saveJsonToFileIfError() 오류가 발생한 분기의 에러를 JSON으로 반환하는 함수 아마 다음 주? 이번 주? 부터는 지금까지 너무 코드 짜는 것에 치중을 해서 짰던 것 같아서 잠시 이론적인 정리를 해두고, 취약점 코드를 만들고 검증하는 팀원들을 조금 도와줘야 할 것 같다.

졸업프로젝트 · 2026-02-28

UEFI DXE 바이너리 취약점 분석기 프로젝트_7

GCM쪽 취약점 추정부 자세히 분석하기 저번에 찾았던 GCM 암호화 과정에서 진짜 취약점이 발생할 수 있는지를 좀 더 분석해봤다. 해당 부분이 현재 의심을 하고 있는 코드이다. 이때 FUN_003d71 옆 XREF를 보면 총 4군데에서 해당 함수를 호출하는 것을 볼 수 있다. 우선 제일 처음 호출하는 부분을 보았다. (이 부분부터 각 부분이 어떤 함수인지 이해하는 과정에서 애를 좀 먹었다..) OpenSSL의 구조는 다음과 같다. 최상위에 OpenSSL의 초기화 및 세팅을 담당하는 함수가 존재한다. 해당 함수는 시스템 부팅 시점에 호출되어 대칭 키 알고리즘, 비대칭 키 알고리즘, 해싱 알고리즘 등 큰 범주들의 알고리즘 단위로 등록을 하는 함수를 호출한다. 각 알고리즘 단위로 등록하는 함수들은 부모 함수의 지시를 받아 라이브러리가 가진 각 알고리즘에 해당하는 알고리즘들의 구조체 주소를 가져와 해시 테이블에 매핑을 한다. 각 알고리즘들의 구조체에는 해당 알고리즘의 초기화 함수, 실행 함수, 복호화 함수 등의 포인터 주소들이 들어있다. 이 함수들은 각 알고리즘을 실제 수행하는 파이프라인을 실행하는 함수다. 그 안에 실제 연산을 수행하는 함수들이 존재한다. 이러한 구조는 OpenSSL 라이브러리 내의 수많은 암호화 API들을 하나로 묶어주기 위한 구조로써, 이때 이런 구조를 EVP(EnVeloPe)라고 한다. 내용은 이 블로그 및 OpenSSL 깃허브에서 참고하였다. 다시 본론으로 돌아가면 우린 거꾸로 올라가고 있는 중이므로 의심을 한 부분이 실제 연산을 수행하는 함수임을, 방금 본 함수는 해당 함수를 호출하여 파이프라인을 수행하는 상태 머신 정도로 볼 수 있을 것이다. 그리고 예상이 맞다면 해당 함수를 호출하는 부분은 구조체가 될 것이다. 해당 함수를 호출하는 첫 번째 부분으로 들어가보자. 역시나 구조체가 있는 것을 확인할 수 있었다. 초기 의심을 하던 함수들 역시 해당 구조체로 이어져 있었다. 그리고 해당 구조체를 사용하는 함수는 하나였고, 해당 함수는 OpenSSL 초기화 과정에서 큰 분류의 알고리즘 내에 속하는 알고리즘들을 해싱 테이블에 등록하는 함수였다. 이 함수를 호출하는 부분 역시 하나였으며, 그 함수는 바로 OpenSSL의 초기화 함수였다. 초기화 함수의 디컴파일된 코드와 edk2 안에 있는 OpenSSL의 init.c 코드와 비교해보면 동일한 형태를 띄고 있는 것을 확인할 수 있었다. 구조 파악은 얼추 끝났고, 이제 남은 건 그래서 실제로 해당 부분에 접근이 가능한가일 것이다. 여기서 나올 수 있는 경우는 세 가지라고 생각하였다. SMI 핸들러에서 함수 포인터가 담긴 구조체를 호출하는 뭔가가 있다. SMI 핸들러가 해당 상태 머신으로 데이터를 보내는 무언가가 있다. SMI 핸들러가 런타임에 OpenSSL의 초기화 루틴 함수를 호출한다. 여기서 1번, 2번은 위에서 확인한 바와 같이 통하는 길이 초기화 루틴 함수 외에는 존재하지 않았다. 그리고 3번의 경우 설령 초기화 함수를 실행한다 하더라도 해당 초기화 함수는 파싱 테이블에 함수 주소들을 등록만 하는 역할을 수행할 뿐 실제 해당 포인터를 실행시키는 부분은 존재하지 않았다. 이에 따라 지금까지의 결론을 아래와 같이 내렸다. 2021년 2월에 릴리즈된 edk2의 VariableSmm 내에서 OpenSSL의 GCM 암호화 부분에서 SMM Callout 취약점이 발생할 수 있는 바이너리가 존재하였다. 하지만 런타임에 SMI 핸들러 중 해당 알고리즘을 사용하기 위해 호출을 하는 부분은 보이지 않았고, OpenSSL의 초기화 함수가 트리거될 수는 있어 보이나 이는 테이블에 등록만 하는 역할을 수행하고 실제 해당 암호화 로직을 실행하지는 않았다. 결론적으로 SMM Callout 취약점을 일으킬 수 있는 로직은 물리적으로 존재해 보이나 런타임에 이를 악용하기 위해 접근할 수 있는 지점이 존재하지 않는, 즉 죽은 코드(Dead Code)로 추측하며, 이의 원인으로 OpenSSL의 암호화 API들을 하나로 묶어주기 위한 구조인 EVP에서 기인된 문제라 생각한다. 하지만 제조사 내부자, 또는 펌웨어 공급망을 가진 누군가가 핸들러 내부에 악의적으로 해당 부분을 호출하는 코드를 작성한다면 위험할 수도 있지 않을까…생각된다. 특권 레벨(Privilege Level) 다시 살펴보기 참고 1 참고 2 자료를 찾아보기도 하고 Ring -2 단계인 SMM 쪽을 파다 보니 특권 레벨 링 간의 규칙(?)을 정리해두는게 좋을 것 같아 서술한다. 특권 레벨에 대해 지난 번보다 좀 더 자세하게 적어보려 한다. 먼저 특권 레벨을 소유하는 주체이다. 특권 레벨을 소유하는 주체는 고정된 어떤 프로그램이 아닌 해당 코드를 실행하는 CPU와 메모리가 주체가 된다. CPU 내의 해당 CPU의 상태를 기록하는 레지스터 중 CPL(Current Privilege Level)이라는 값이 기록이 된다. 이 때 CPU가 실행하는 instruction이 Ring 3이라면 CPL == 3, Ring 0이라면 CPL == 0이 되는 것이다. 그리고 CPU가 접근하려는 대상은 결국 메모리가 되는데, 이 메모리 내의 세그먼트, 또는 페이지마다 DPL(Descriptor Privilege Level)이란 값이 존재한다. 이는 해당 공간이 해당 특권 레벨까지 접근이 가능하다라는 정보를 알려주는 것으로, 명령이 들어오면 CPL과 DPL을 비교하여 접근 가능한 특권 레벨인지 비교하여 접근 가능한지를 판단한다. 그리고 만약 User Mode에서 커널에 부탁함으로써 Ring 3이 Ring 0에 해당하는 메모리를 읽으면서 발생하는 문제를 막기 위해 RPL(Requested Previlege Level)을 도입하였다. 이는 부탁을 한 주체의 특권 레벨로써, DPL과 RPL, CPL을 모두 비교하여 접근 가능 여부를 결정한다. 또한 특권 레벨 링 간에도 규칙이 존재했다. 호출 기본적으로 낮은 권한을 가진 코드는 높은 권한을 가진 함수(또는 메모리 주소)를 절대 CALL 또는 JMP할 수 없다. 만약 호출하고 싶다면 다음 방법을 사용해야 한다. Ring 3 -> Ring 0 : SYSCALL, SYSENTER, 또는 interrupt Ring 0 -> Ring -1 : VMCALL Ring 0 -> Ring -2 : SMI 신호 접근 상위 권한을 가진 레벨은 자기보다 낮은 레벨의 메모리 공간을 마음대로 읽고 쓸 수 있다. 예를 들어 Ring 0은 Ring 3의 모든 공간을 접근할 수 있으며, 지금 하고 있는 SMM 역시 Ring 0 ~ Ring 3 까지의 모든 공간에 접근할 수 있으며, 반대는 불가능하다. 실행 상위 권한은 하위 권한 메모리를 읽을 순 있지만, 하위 권한의 코드를 실행할 순 없다. 이는 낮은 영역에 악성 코드를 심고, 상위 권한에서 실행하도록 시킴으로써 상위 권한으로 코드를 실행시키는 것을 막게 하기 위함이다. gBS와 SMM과의 관계 UEFI 펌웨어는 gBS(global Boot Service)와 gRT(global Runtime Service) 로 크게 두 가지 서비스로 나눌 수 있다고 했다. gBS는 부팅 단계에서만 사용되고 부팅이 끝나면 OS가 해당 서비스가 있던 공간을 마음대로 사용할 수 있다. gRT는 시간 읽기, 변수 쓰기 등 컴퓨터 생애주기 전 과정에서 사용되는 서비스들이다. OS가 메모리에 다 올라가고 나면 OS가 ExitBootServices()라는 함수를 호출한다. 이 순간부터 gBS가 점유하던 메모리 공간은 OS가 사용할 수 있게 된다. 즉, 해당 공간은 Ring 0, 또는 그보다 더 낮은 권한을 가지는 것이다. 여기서 문제가 발생하는데, SMM 핸들러(SMI)는 부팅이 끝난 뒤에도 컴퓨터 내에서 역할을 수행하는데, 이에 따라 당연히 SMM은 gBS를 호출하면 안되는 것이다. 하지만 개발자들이 무심코 편의를 위해 gBS를 사용하는 경우가 가끔 있는데, 이 코드가 런타임에 실행된다면 SMM은 값이 변경된 gBS가 가졌던 메모리 주소에 CALL을 날리게 되는 것이다. gBS는 SystemTable 내에 위치하며, X64 기준 0x60(10진수 96)만큼 떨어져 있다. typedef struct { /// /// The table header for the EFI System Table. /// EFI_TABLE_HEADER Hdr; /// /// A pointer to a null terminated string that identifies the vendor /// that produces the system firmware for the platform. /// CHAR16 *FirmwareVendor; /// /// A firmware vendor specific value that identifies the revision /// of the system firmware for the platform. /// UINT32 FirmwareRevision; /// /// The handle for the active console input device. This handle must support /// EFI_SIMPLE_TEXT_INPUT_PROTOCOL and EFI_SIMPLE_TEXT_INPUT_EX_PROTOCOL. /// EFI_HANDLE ConsoleInHandle; /// /// A pointer to the EFI_SIMPLE_TEXT_INPUT_PROTOCOL interface that is /// associated with ConsoleInHandle. /// EFI_SIMPLE_TEXT_INPUT_PROTOCOL *ConIn; /// /// The handle for the active console output device. /// EFI_HANDLE ConsoleOutHandle; /// /// A pointer to the EFI_SIMPLE_TEXT_OUTPUT_PROTOCOL interface /// that is associated with ConsoleOutHandle. /// EFI_SIMPLE_TEXT_OUTPUT_PROTOCOL *ConOut; /// /// The handle for the active standard error console device. /// This handle must support the EFI_SIMPLE_TEXT_OUTPUT_PROTOCOL. /// EFI_HANDLE StandardErrorHandle; /// /// A pointer to the EFI_SIMPLE_TEXT_OUTPUT_PROTOCOL interface /// that is associated with StandardErrorHandle. /// EFI_SIMPLE_TEXT_OUTPUT_PROTOCOL *StdErr; /// /// A pointer to the EFI Runtime Services Table. /// EFI_RUNTIME_SERVICES *RuntimeServices; /// /// A pointer to the EFI Boot Services Table. /// EFI_BOOT_SERVICES *BootServices; /// /// The number of system configuration tables in the buffer ConfigurationTable. /// UINTN NumberOfTableEntries; /// /// A pointer to the system configuration tables. /// The number of entries in the table is NumberOfTableEntries. /// EFI_CONFIGURATION_TABLE *ConfigurationTable; } EFI_SYSTEM_TABLE; 해당 위치는 MdePkg/Include/Uefi/UefiSpec.h에 있음을 볼 수 있다. 취약점 탐색 로직 계획 취약점 탐색 방법은 다음과 같이 계획했다. Reaching Definition을 통해 SystemTable이 어디까지 도달하는지를 분석한다. 이 때 SystemTable은 entry의 두 번째 인자를 가지고 찾는다. 또한 reaching Definition은 P-Code를 통해 순회하며, 이는 별도 로직 작성 필요 없이 Ghidra가 제공하는 getDescendants() 함수를 사용하면 조금 더 편하게 분석할 수 있다. (단, getDescedants() 함수는 해당 함수 스코프 내에서만 유효하며, 만약 CALL 등을 통해 다른 함수로 넘어갔다면 해당 함수로 넘어가서 다시 재귀적으로 확인해야 한다. 또한 정확히 말하면 getDescendants() 함수가 Reaching Definition을 구현하는 함수는 아니지만, Ghidra가 자체적으로 SSA 형태로 저장함으로써 각 use가 유일한 def에 연결되므로 해당 함수를 통해 Reaching Definition을 나타낸다 볼 수 있다.) Reaching Definition을 통해 SystemTable이 gBS까지 도달하는지, 그리고 gBS가 어디에 저장되는지 등의 일종의 Def-Use Chain을 얻어낸다. SMM이 런타임에 CALL을 호출할 경우, 이 Use가 Def, 즉 gBS에 도달하는지를 보는 Use-Def Chain을 수행한다. 이 과정에서 Taint Analysis를 수행한다. 이 때는 getDef() 함수를 사용하면 조금 더 편하게 분석할 수 있다. (참고) Def-Use Chain과 Use-Def Chain Def-Use Chain과 Use-Def Chain은 모두 Data Flow 표현으로써, 값이 어떻게 흘러가는지를 어떤 관점으로 보느냐에 대한 차이 정도로 해석할 수 있을 것이다. 둘은 모두 어떤 변수를 사용한다면 그 변수는 정의되어 있을 것이라는 사실을 기반으로 사용된다. Def는 “정의”로써, 변수에 값이 할당되는 지점을, Use는 “사용”으로써 해당 변수가 읽히는 지점을 나타낸다. Def-Use Chain은 어떤 정의가 어디에서 사용이 되는가?를 연결한 것으로, 정의 생성 지점에서 순방향으로 내려가면서 파악하는 것이다. 즉 정의가 영향을 미치는 범위를 알고 싶을 때 사용한다. Use-Def Chain은 반대로 특정 사용이 어떤 정의에서 온 것인가?를 연결한 것으로, 사용 지점에서 역방향으로 올라가며 파악하는 것이다. 사용 값의 출처를 알고 싶을 때 사용된다. Ghidra 유용 함수 정리 함수 인자 반환타입 설명 DecompInterface.openProgram() program boolean 현재 분석할 프로그램을 디컴파일러에 연결하는 초기화 함수 Program.getSymbolTable() X SymbolTable 해당 프로그램에 속한 심볼 테이블 객체를 반환하는 함수 SymbolTable.getExternalEntryPointIterator() X AddressIterator EntryPoint 주소만 순회하는 이터레이터를 반환하는 함수 getFunctionAt() Address Function 해당 주소에서 시작하는 함수 객체를 가져오는 함수 Varnode.getDescendants() X Iterator<PcodeOp> 해당 Varnode 값을 입력으로 사용하는 모든 P-Code를 가져오는 함수 PcodeOp.getOpcode() X int 해당 P-Code의 Opcode를 반환하는 함수 PcodeOp.getOutput() X Varnode P-Code가 생성하는 결과값 Varnode를 반환하는 함수 PcodeOp.getNumInputs() X int 해당 P-Code의 피연산자의 개수 Program.getAddressFactory() X AddressFactory 해당 프로그램의 모든 주소 공간을 가져오는 함수 AddressFactory.getDefaultAddressSpace() X AddressSpace 기본 주소 공간을 반환하는 함수 AddressSpace.getAddress() long Address Offset 숫자를 Address 객체로 반환하는 함수 Varnode.getOffset() X long 해당 Varnode가 가리키는 Offset 값을 반환하는 함수 DecompInterface.decompileFunction() Function, int, TaskMonitor DecomefileResults Function을 디컴파일한 결과를 얻는 함수 Program.getFunctionManager() X FunctionManager() 프로그램 함수 목록을 관리하는 객체인 FunctionManager를 반환하는 함수 getFunction() boolean FunctionIterator 프로그램을 순회 가능한 Iterator로 반환. true면 오름차순, false면 내림차순. 기본은 true DecompileResults.getHighFunction() X HighFunction 디컴파일을 통해 생성된 IR을 가져오는 함수 HighFunction.getPcodeOps() X Iterator<PcodeOpAST> P-Code를 순회하기 위한 Iterator를 반환하는 함수 Varnode.getDef() X PcodeOp 해당 Varnode를 정의한 P-Code 연산을 반환하는 함수 탐지 스크립트 구현 이를 기반으로 위 로직을 가지고 프로토타입 형태의 코드를 짰다. 다운로드 링크 (코드가 너무 길어 다운로드 링크로 대체한다.) (기본적인 Ghidra 스크립트 문법 및 구성은 여기를 참고하였다.) VariableSmm.efi 파일에 스크립트를 돌려본 결과 gBS 주소를 잘 찾아준 것을 확인할 수 있었고 여기서는 취약점이 발생하지 않는다 감지하였다. 다음 주에는 해당 코드를 가지고 실제 취약한 임시 드라이버를 하나 만들고 빌드한 후, 넣었을 때 감지를 잘 하는지를 확인해보고, LLM의 도움을 일부 받아 작성한 코드기도 하고 아직 검증을 하지 않은 코드인 만큼 해당 스크립트를 리팩토링 및 더 나은 아이디어가 있다면 수정을 해볼 예정이다.

졸업프로젝트 · 2026-02-20

UEFI DXE 바이너리 취약점 분석기 프로젝트_6

프로젝트 최종 분배 프로젝트 최종 인원 분배는 다음과 같이 결정했다. Ring -2 취약점 분석 및 스크립트 작성, 최종 문서화 DXE Dispatcher 취약점 분석 및 스크립트 작성 Ring 0 취약점 분석 및 스크립트 작성 취약점 코드 생성 및 테스트 스크립트 자동화 및 최종 문서화 이렇게 나눴고 난 1번 역할을 담당하기로 하였다. Intellij Ghidra 설정 방법 스크립트를 담당할 조원들끼리는 Ghidra가 Java로 쓰인 만큼 Java로 스크립트를 작성하기로 이야기를 나눴다. 사실 Jython으로 스크립트를 짜다가 Java로 넘어가는 바람에 설정에서 삽질을 조금 했다… 설정은 다음과 같다. Intellij 설치 및 프로젝트 생성 파일 -> 프로젝트 구조 -> 모듈 + 클릭 -> JAR 또는 디렉토리 아래 디렉토리 내부 JAR 파일들을 전부 임포트하기 (Mac Homebrew 설치 기준(opt/homebrew/Cellar/Ghidra/12.02/libexec/Ghidra)를 기준으로 한다.) (아마 윈도우 역시 비슷한 경로에 있을 것으로 생각된다…) (본인이 일단 다 받고 본 부분도 없지 않아 있어 어떤건 필요하지 않을 수도 있고, 더 필요한게 있을 수도 있다.) Features/Base/lib Framework/SoftwareModeling/lib Framework/Generic/lib Framework/Docking/lib Framework/Project/lib Features/Decompiler/lib Framework/Utility/lib 위와 같이 잘 진행했다면 위 이미지와 같이 Ghidra 문법에 자동완성이 잘 잡힌다! 간단한 탐지 스크립트 작성 @Override public void run() throws Exception { println("=== SMM Indirect Call 검증기 (Safety Check 탐지) 시작 ==="); InstructionIterator instructions = currentProgram.getListing().getInstructions(true); int suspiciousCount = 0; int highRiskCount = 0; while (instructions.hasNext()) { if (monitor.isCancelled()) break; Instruction instr = instructions.next(); // 1. CALL 명령어 찾기 if (!instr.getMnemonicString().equalsIgnoreCase("CALL")) continue; // 2. 오퍼랜드 분석 (RAX, RBX 등 레지스터 호출인지?) String opString = instr.getDefaultOperandRepresentation(0); // "0x..." 고정 주소 호출이나 "[...]" 메모리 참조는 일단 패스 (복잡하니까) // 오직 "CALL RAX", "CALL R12" 같은 순수 레지스터 호출만 집중 타격! boolean isRegisterCall = !opString.contains("[") && !opString.startsWith("0x"); if (isRegisterCall) { // 호출에 사용된 레지스터 가져오기 (예: RAX) Register callReg = instr.getRegister(0); if (callReg != null) { //핵심: 뒤로 15줄 검색해서 CMP나 TEST가 있는지 확인! boolean isChecked = hasSafetyCheck(instr, callReg, 15); if (!isChecked) { println(String.format("🚨 [초위험/No-Check] 주소: %s | 코드: %s | (검증 로직 발견 못함)", instr.getAddress(), instr.toString())); highRiskCount++; } else { println(String.format("✅ [안전 추정] 주소: %s | 코드: %s | (검증 로직 있음)", instr.getAddress(), instr.toString())); } suspiciousCount++; } } } println("=========================================="); println("분석 완료: 총 " + suspiciousCount + "개 중 " + highRiskCount + "개가 '검증 없는 위험 호출'로 보입니다."); } // 뒤로 걸어가면서 검사 로직(CMP, TEST) 찾는 함수 private boolean hasSafetyCheck(Instruction startInstr, Register targetReg, int maxSteps) { Instruction current = startInstr.getPrevious(); // 바로 윗줄부터 시작 int steps = 0; while (current != null && steps < maxSteps) { String mnemonic = current.getMnemonicString(); // 1. 비교(CMP)나 테스트(TEST) 명령어를 찾음 if (mnemonic.equalsIgnoreCase("CMP") || mnemonic.equalsIgnoreCase("TEST")) { // 2. 그 명령어가 우리가 의심하는 레지스터(targetReg)를 쓰는지 확인 Object[] opObjects = current.getOpObjects(0); // 첫 번째 오퍼랜드 for (Object op : opObjects) { if (op instanceof Register && ((Register) op).equals(targetReg)) { return true; // 안전장치 발견! } } } // 만약 레지스터 값이 여기서 덮어씌워졌다면(MOV RAX, ...), 그 위는 볼 필요 없음 (추적 끊김) if (mnemonic.equalsIgnoreCase("MOV") || mnemonic.equalsIgnoreCase("LEA")) { Object[] resultObjects = current.getResultObjects(); for (Object res : resultObjects) { if (res instanceof Register && ((Register) res).equals(targetReg)) { return false; // 값을 막 대입하고 바로 호출함 -> 위험! } } } current = current.getPrevious(); // 한 줄 더 위로 steps++; } return false; // 끝까지 검사 로직 못 찾음 } 일단 감이라도 좀 잡아보기 위해 제미나이와 함께 스크립트를 하나 짜봤다. 코드 아이디어는 일단 P-Code 없이 매우 단순한 형태로, instruction 중 CALL을, 그 중에서도 레지스터를 호출하는 부분을 발견한다면 해당 instruction 위로 15개 instruction을 확인해서, 그 중 TEST나 CMP가 있는지 확인을 하고 검사를 하는 부분이 없다면 안전하지 않다고 판단을 하거나, 또는 그 사이에 해당 레지스터 값이 덮어씌워지는지 여부를 확인한다. 대상은 edk2-stable202102버전을 빌드한 뒤 OVMF.md 파일을 만들었고, 그 중에서 VariableSmm DXE 드라이버를 UEFITool로 추출한 다음 Ghidra로 켜서 해당 스크립트를 작성하였다. 그런데.. 여기부터는 제 개인적인 생각과 추측들을 작성했습니다! 또한 만약 추측이 잘못되었다고 생각하시면 언제든 이야기해주시면 감사하겠습니다. 또한 자료를 찾고 추측하는 과정에서 수시로 글을 수정해서 내용이 중구난방일 수 있습니다…ㅠㅠ 일단 아래 내용을 설명하기 전에 SMM Callout이 뭔지, VariableSmm이 어떤 역할을 수행하는지 짚고 넘어가보자. SMM Callout 취약점은 SMM 코드가 SMRAM 밖의 영역에 있는 코드를 실행하며 발생하는 취약점이다. 해커가 악의적 payload를 메모리에 심고, SMM에게 해당 코드를 실행하도록 했을 때, SMM이 해당 코드를 검증 없이 실행한다면, 공격자는 SMM의 높은 권한을 이용해 시스템을 완전히 장악할 수 있다. VariableSmm은 UEFI 펌웨어에서 시스템 변수 관리를 담당하는 드라이버로, SMM 모드에서 실행되며 시스템 변수에 대한 접근과 관리를 수행한다. 이 드라이버가 SMM Callout 취약점에 노출된다면, 공격자는 VariableSmm이 호출하는 외부 코드를 악용하여 SMM 권한으로 악성 코드를 실행할 수 있다. Ghidra 스크립트와 친해지기 위해 일단 제미나이와 함께 짠 위 스크립트를 실행하였다. 스크립트를 돌린 뒤의 결과다. 결과 중 유독 CALL R13에서 반복적으로 위험 로직이 잡힌 것이 이상하게 보여서 해당 주소를 타고 들어가보았다. 여기서 CALL R13 코드에서 8칸 위로 가보면 MOV R13, qword ptr [param_1 + 0x28] 을 통해 R13에 첫 번째 인자의 일부 값이 담기고, 이후로 TEST나 CMP 등 별도 로직 없이 그대로 CALL이 이뤄진 것을 볼 수 있다! 일단 우리는 오픈소스로 공개되어 있는 edk2를 분석하고 있으므로 ghidra가 만들어준 디컴파일 코드를 가지고 제미나이와 함께 해당 코드가 edk2의 어떤 코드인지 찾아보았고, 해당 코드가 암호화 코드인 CryptoPkg/Library/OpensslLib/openssl/crypto/modes/gcm128.c라 추측하였다. int CRYPTO_gcm128_encrypt(GCM128_CONTEXT *ctx, const unsigned char *in, unsigned char *out, size_t len) { const union { long one; char little; } is_endian = { 1 }; unsigned int n, ctr, mres; size_t i; u64 mlen = ctx->len.u[1]; block128_f block = ctx->block; //여기!! void *key = ctx->key; ... (*block) (ctx->Yi.c, ctx->EKi.c, key); //펑!!!! ... } 해당 부분이 문제의 부분으로, block128_f block = ctx->block; 코드에서 block 변수에 ctx->block 값을 별도 검사 로직 없이 가져오고, 이후 별도 검사 로직 없이 (*block) (ctx->Yi.c, ctx->EKi.c, key);를 통해 실행을 하게 된다고 추측하였다. 해당 코드가 VariableSmm에 왜 들어있는지 생각해보았는데, 우선 OpenSSL은 오픈소스 보안 라이브러리로, 다양한 암호화 알고리즘, 프로토콜 등을 제공하고 있다. 그리고 VariableSmm은 시스템 변수를 관리하는 드라이버로써, 보안과 밀접하게 관련된 변수, 예를 들어 Secure Boot 키 등을 다루게 된다. 이 과정에서 안전한 데이터 저장을 위해 암호화를 사용한다고 생각하였다. 이 때 위 OpenSSL 라이브러리 코드를 일반적인 상황에서 사용한다면 상관없지만 VariableSmm은 Ring -2 단계에서 실행되므로 공격자가 악의적으로 조작된 payload를 통해 ctx->block에 악성 코드를 심을 수 있다면, 해당 코드가 검증 없이 실행될 수 있기 때문에 SMM Callout 취약점이 발생할 수 있다고 생각하였다. 하지만 결론부터 말하면 해당 부분이 취약점이 되진 않을 것이라 생각한다. When the attribute EFI_VARIABLE_AUTHENTICATED_WRITE_ACCESS is set, but the EFI_VARIABLE_TIME_BASED_AUTHENTICATED_WRITE_ACCESS is not set (i.e. when the EFI_VARIABLE_AUTHENTICATION descriptor s used), then the* Data buffer shall begin with an instance of the authentication descriptor AuthInfo prior to the data payload and DataSize should reflect the data and descriptor size. The authentication descriptor is not part of the variable data and is not returned by the subsequent calls to GetVariable. The caller shall digest the Monotonic Count value and the associated data for the variable update using the SHA-256 1-way hash algorithm. The ensuing the 32-byte digest will be signed using the private key associated w/ the public 2048-bit RSA key PublicKey described in the EFI_CERT_BLOCK_RSA_2048_SHA256 structure. UEFI Specification 2.10 Variable Authentication 위 글은 UEFI.org의 Variable Authentication 부분 내용 중 일부로, 공개 키 방식인 RSA, 그리고 해시(SHA)를 사용하도록 명세하고 있다. 즉 비밀 키 방식인 GCM은 표준이 아닌 것이다. 따라서 찾았던 코드는 아마 링커가 SHA 및 RSA를 가져오기 위해 OpensslLib 라이브러리를 가져오는 과정에서 딸려들어온 코드가 아닐까 생각하고 있다. 아마 다음으로는 이번 스크립트를 조금 더 발전시켜 보거나 SMM 실행 중 gBS(global Boot Service) 실행 여부를 찾는 로직 쪽으로 가볼지를 고민해볼 것 같다.

졸업프로젝트 · 2026-02-12

UEFI DXE 바이너리 취약점 분석기 프로젝트_5

edk2 맥북 빌드 정리 결과 Linux와 동일하되 컴파일 옵션을 gcc가 아닌 XCODE5 정도로 수정해주면 되어 이전 게시글을 참조하면 좋을 것 같다. Ghidra UEFI DXE 드라이버를 바이너리 단에서 P-Code로 올려서 취약점 분석을 하겠다는 계획에 Ghidra 공부는 필수적이였다. Ghidra는 미국 국가안보국(NSA)이 개발한 역어셈블러 프레임워크로, 위키리크스에 의해 정체가 공개되어 2019년에 오픈소스로 공개되었다. 비슷한 역할로 IDA Pro가 있고 일반적으로 IDA Pro가 업계 표준으로 꼽히지만, IDA Pro는 매우 비싼 가격을 가진 반면 Ghidra는 오픈 소스이면서 디스어셈블 및 디컴파일러 기능, 또한 java, python 등을 통한 스크립트 기능을 지원하여 분석 기능을 자동화할 수 있다. P-Code Ghidra에서 P-Code 설정을 켠 뒤 OVMF의 아무 DXE 드라이버를 열어본 화면이다. 다른 디스어셈블러와 달리 어셈블리 아래에 파란 글씨로 뭔가 잔뜩 있는 것을 볼 수 있다. 저 파란 코드들이 해당 어셈블리에 대한 P-Code다. Ghidra 공식 사이트에선 P-Code를 리버싱을 위해 디자인된 레지스터 전이 언어(출처)라고 설명하고 있다. 쉽게 설명하면 LLVM IR과 같이 고수준 언어와 기계어 사이 다리 역할을 하는 언어라고 볼 수 있다. 다만 차이점으로 P-Code는 다른 IR과 달리 기계어를 고수준 언어로 “올리는” 과정에서의 중간 언어로, 기계어가 가지는 복잡함을 걷어내고 추상화된 논리로 복원하는 것에 의의를 가진다. 사실 위 이미지만 보면 그냥 어셈블리어보다 복잡해 보이지만, 이는 해당 어셈블리어가 어떤 행동을 하는지 등을 풀어서 설명하는 것이다. 예를 들어 Call 명령어는 스택 주소를 8만큼 줄여라(INT_SUB) 돌아올 주소를 스택 메모리에 저장해라(STORE) 해당 함수로 가라(CALL) 이 세 가지 과정이 이뤄지는 것이다. 그리고 P-Code는 이를 풀어서 보여주는 것이다. 아마 우리는 여기서 실제로 오염된 데이터들을 전파시킬 수 있는 명령어들인 CALL, COPY, LOAD, STORE 등을 중점적으로 봐야하지 않을까…싶다. P-Code를 보면 (register, 0x20, 8), (const, 0x0, 1), (unique, 0x2c180, 1)과 같은 방식으로 값들이 표현이 되는 것을 볼 수 있다. 이는 (저장 방식, 오프셋, 크기)로 해석할 수 있으며, 각각 (register, 0x20, 8) : 레지스터 0x20번째 칸부터 8바이트 크기 (const, 0x0, 1) : 숫자 0(상수의 offset은 곧 값이다.) (unique, 0x2c180, 1) : Ghidra가 만든 임시변수 0x2c180번에 있는 1바이트짜리 임시 값 으로 해석할 수 있다. 그러므로 지금까지 정리한 내용 및 P-Code가 3-Address 기반의 IR을 따르고 있다는 점을 합쳐서 P-Code 몇 개를 해석해보면 (register, 0x20b, 1) = COPY (const, 0x0, 1) =>0x20b번째 레지스터에 숫자 0을 1바이트만큼 복사해라 (unique, 0x2c180, 8) = INT_AND (unique, 0x70280, 8), (const, 0xff, 8) => 0x70280번 임시변수와 0xff를 AND 연산한 결과를 0x2c180에 담아라 정도로 해석할 수 있을 것이다. 그래서 뭘 하지… 개인적으로 공부하며 5인 팀을 어떻게 나눠야할지 고민을 했다. 개인적으로 했던 생각은 취약점 분석 스크립트 개발(Using Ghidra Script)(2인) 탐지 검증을 위한 취약한 코드 생성 탐지 오판 여부 검증 결과 문서화 담당 의 역할 분담이 어떨까… 조심스레 생각해 보고 있고, 만약 이러한 형태라면 취약점 분석 로직을 스크립트화 하는 1번 역할을 담당해보고 싶다는 생각을 하고 있다. 분석 방법 고민 취약점 분석에 어떤 방법을 도입할지 고민하고 있다. 당장 생각나는 것들은 Pattern Matching, Taint Analysis, Symbolic Execution 정도가 생각나고, 해커가 공격의 진입점이 될 수 있는 부분(GetVariable() 함수를 통한 NVRAM 버퍼 오버플로우, CommBuffer 등)에 오염을 걸고 P-Code의 CALL, COPY, LOAD, STORE 등의 전파가 될 수 있는 부분들을 추적해나가며 찾아나가는 형식의 Taint Analysis를 통한 분석을 해보는 것으로 시작하는 것이 좋지 않을까 생각하고 있다. 하지만 CommBuffer 구조체가 드라이버 별로 다르게 생긴 것으로 알고 있어서 이 부분에 대한 파싱 부분에 고민을 하고 있다. 부가적으로는 WSMT가 있다 하더라도 SmmIsBufferOutsideSmmValid() 함수를 호출하는지 여부를 확인하기 위한 Pattern Matching 기능 정도를 부가적으로 가져갈 수 있지 않을까 라는 생각을 하고 있다. GetVariable() 함수 찾기 Ghidra와 친해질 겸과 동시에 실제로 Buffer Overflow를 일으킬 가능성이 높은 함수인 GetVariable() 함수의 빌드 후 올라간 주소를 직접 하나씩 들어가보며 찾아보았다. 해당 부분은 취약점 분석기 스크립트 제작에 있어 중요한 부분이 되지 않을까 싶다.. GetVariable() 함수는 NVRAM(비휘발성 메모리) 내의 원하는 데이터를 읽어 인자로 넣어준 메모리 버퍼에 값을 채워주는 함수다. 이는 gRT(Global Runtime Services Table) 내에 구현되어있는 함수로, DXE 드라이버들이 메모리 내 상태를 읽을 때 해당 함수를 호출해 사용하는 중요한 함수지만, 함수 구현 코드를 보면 EFI_STATUS EFIAPI VariableServiceGetVariable ( IN CHAR16 *VariableName, IN EFI_GUID *VendorGuid, OUT UINT32 *Attributes OPTIONAL, IN OUT UINTN *DataSize, OUT VOID *Data OPTIONAL ) { ... if (*DataSize >= VarDataSize) { if (Data == NULL) { Status = EFI_INVALID_PARAMETER; goto Done; } CopyMem (Data, GetVariableDataPtr (Variable.CurrPtr, mVariableModuleGlobal->VariableGlobal.AuthFormat), VarDataSize); ... } ... } 이 부분에서 CopyMem 함수가 문제가 된다. 해당 함수의 Data는 값을 써넣을 목적지 역할을 수행하지만 해당 목적지가 안전한 영역인지에 대한 처리를 수행하는 로직은 없는데, 예를 들어 해커가 특정 변수 크기를 키우고 그 곳에 Payload를 집어넣은 뒤 검증 절차를 밟지 않은 SMM 핸들러를 실행시켜 GetVariable() 함수를 통해 해당 Payload를 읽어오면 Payload가 리턴 주소 등을 덮어씌워버리면서 Ring -2 권한으로 실행되는 것이다. 그러므로 해당 함수를 호출하는 SMM 핸들러에 이를 처리하는 SmmIsBufferOutsideSmmValid() 함수가 없다면 문제가 발생할 수 있을 것이다. 한번 Ghidra에서 VariableSmm이란 파일에서 GetVariable() 함수를 찾아보았다. 먼저 해당 파일을 UEFITool을 통해 추출하고, 이 파일을 Ghidra를 통해 열어보았다. 잘 모르겠지만 entry라고 적혀있는 것으로 보았을 떄 시작 지점임을 알 수 있었다. 시작 지점은 edk2/MdePkg/Library/UefiApplicationEntryPoint/ApplicationEntryPoint.c 파일에 적혀 있었으며, 구조는 EFI_STATUS EFIAPI _ModuleEntryPoint ( IN EFI_HANDLE ImageHandle, IN EFI_SYSTEM_TABLE *SystemTable ) { EFI_STATUS Status; if (_gUefiDriverRevision != 0) { if (SystemTable->Hdr.Revision < _gUefiDriverRevision) { return EFI_INCOMPATIBLE_VERSION; } } ProcessLibraryConstructorList (ImageHandle, SystemTable); Status = ProcessModuleEntryPointList (ImageHandle, SystemTable); ProcessLibraryDestructorList (ImageHandle, SystemTable); return Status; } 다음과 같았다. 그러므로 ProcessModuleEntryPointList() 함수에 들어가보기로 했다. 위 함수에 해당하는 FUN_00008f6f 함수로 가보자. 해당 함수 역시 굉장히 단순한 구조로 이뤄져있었고, 그 외 특이점으로 “AutoGen.c” 라는 인자를 넣은 에러 처리 함수를 호출하는 것을 볼 수 있는데, 해당 링크에 보면 빌드 시스템이 자동으로 Wrapper로 감싼 것을 볼 수 있었다. 다시 한번 FUN_0000565d 함수로 이동해보자. FUN_0000565d 함수 역시 껍질만 있는 함수였고, 해당 함수가 FUN_000065d8을 호출하는 것을 보고 들어갔더니 드디어 무언가 코드가 잔뜩 나온 것을 볼 수 있었다. 여기부턴 Gemini의 도움을 받아서 해결해보았다. DAT_00090650이 SMM 모드 전용 시스템 테이블인 gMmst(Global SMM System Table)라 하여 Ghidra에 ghidra-firmware-utils라는 플러그인을 설치한 뒤 DAT_00090650의 이름을 gMmst, 타입을 EFI_SMM_SYSTEM_TABLE2 *로 변경한 결과 VariableSmm.c 파일의 MmVariableServiceInitialize() 함수와 동일함을 알 수 있었다. 해당 C 코드를 보면 gMmst의 SmmInstallProtocolInterface 함수의 네번째 인자가 gSmmVariable을 받는 것을 볼 수 있고, 해당 gSmmVariable의 첫 번째 인자가 GetVariable()임을 알 수 있었고, 두 번째 인자가 GUID임을 알 수 있다. 해당 논리를 따라 타고 들어가 확인해본 결과 해당 함수의 위치 및 GUID를 알아낼 수 있었다! 다음으로는 Gemini가 위 분석을 Ghidra 스크립트화도 가능하다는 이야기를 해서 한번 시도해보지 않을까…싶다

졸업프로젝트 · 2026-01-28

UEFI DXE 바이너리 취약점 분석기 프로젝트_4

WSMT 중첩된 포인터에 따른 SMRAM 오염을 설명하기 전 WSMT에 대해 공부를 할 필요가 있었다. WSMT는 Windows SMM Security Mitigation Table의 줄임말로써 지난 시간에 이야기했던 ACPI 테이블 중 하나다. 이는 시스템 펌웨어가 SMM 소프트웨어에서 보안이 잘 지켜졌는지를 확인하도록 OS에게 이야기하는 역할이라고 볼 수 있다. WSMT의 구조로, 총 3가지 Flag가 있는 것을 확인할 수 있고, 각 플래그들은 FIXED_COMM_BUFFERS : OS가 지정한 고정 CommBuffer만 사용하는가 COMM_BUFFER_NESTED_PTR_PROTECTION : CommBuffer의 중첩 포인터까지 검증하는가 SYSTEM_RESOURCE_PROTECTION : 시스템 주요 설정들을 잘 보호하는가 세 가지를 담고 있다. 여기서 큰 문제가 발생하는데, WSMT는 위 세가지 문제에 대해 “검증”을 하는 것이 아닌 각 제조사가 해당 플래그를 켰는지 “확인”만 한다. 즉 제조사들은 이를 준수하지 않았더라도 Flag를 True로 뒀다면 OS는 그것을 믿고 별도 검증 기능 없이 바로 해당 핸들러를 수행하게 된다. SMRAM Corruption using Nested Pointer 중첩된 포인터를 이용한 SMRAM 오염은 CommBuffer를 통해 값을 받고, 또 CommBuffer에 값을 저장할 때 이중(또는 그 이상) 포인터를 사용하는 과정에서 생기는 문제를 의미한다. 아래 예제는 CVE-2023-5058 사례로, 후지쯔 펌웨어, 또는 레노버 Yoga Slim 7 Pro에 들어간 UEFI에 발생한 취약점이다. EFI_STATUS __fastcall ChildSwSmiHandler( EFI_HANDLE DispatchHandle, const void *Context, _QWORD *CommBuffer, UINTN *CommBufferSize) { ... Ptr2 = (CommBuffer[22] + 8); for ( i = *Ptr2; i != Ptr2; i = *i ) { i[24] = 0; // unchecked write (SMRAM corruption) i[4] = 0; // unchecked write (SMRAM corruption) i[6] = 0; // unchecked write (SMRAM corruption) } ... } 코드의 일부다. 위 코드를 보면 Ptr2에 CommBuffer가, 그리고 그 안에 있는 값들을 별도 검사 없이 사용하는 모습을 볼 수 있다. 물론 CommBuffer가 SMRAM에 침범하는지 검사가 이뤄졌을 것이고, 통과가 되어 CommBuffer를 사용했을 것이다. 하지만 만약 해커가 CommBuffer 내부 24, 4, 6번 등에 악의적인 Payload를 심었다면 해당 핸들러는 CommBuffer만 검사하고 내부 요소들은 검사하지 않았으므로 해당 Payload들이 SMM 권한을 얻은 채 실행될 것이다. 본격 UEFI 개발 환경 테스트해보기 아직 앞으로 어떻게 연구가 이뤄질지 모르지만 인터넷과 제미나이 등과 함께 UEFI 개발 환경을 만들어보았다. 환경은 노트북 : MacBook M4 Pro 16 가상환경 : VirtualBox, Ubuntu 24.04.02 LTS UEFI : Tianocore edk2 기존 계획은 상대적 구형 버전으로 다운받으려고 했지만 오류가 너무나도 많이 터지는 바람에….. 일단은 최신 버전으로 만들어 보았다. (자료 참고는 여기와 여기를 참고했습니다.) 먼저 터미널에서 의존성 패키지를 설치해준다. sudo apt install build-essential uuid-dev acpica-tools git nasm python3-setuptools gcc-x86-64-linux-gnu build-essential : 빌드 도구(make 등) 모음 uuid-dev : GUID 식별 라이브러리 acpica-tools : ACPI 컴파일러 nasm : 어셈블리 컴파일러 gcc-x86-64-linux-gnu : ARM 환경에서 x86-64 버전으로 컴파일하기 위해 설치 이후 폴더를 하나 만들고 해당 폴더 안에서 edk2 파일을 clone 해준다. mkdir uefi_test cd uefi_test git clone https://github.com/tianocore/edk2.git cd edk2 이후 서브모듈을 최신화해주고 빌드 툴을 컴파일해준다. git submodule --init --recursive make -C BaseTools 이후 환경설정 파일을 생성한 뒤 빌드를 진행한다. source edksetup.sh build -p OvmfPkg/OvmfPkgX64.dsc -a X64 -t GCC5 (이 과정에서 ARM 기반이라 그런지 오류가 매우 많이 발생했습니다. 이 때 저는 Conf/target.txt를 열어 다운받았던 gcc-x86-64-linux-gnu로 사용 컴파일러들을 바꾸는 등의 작업을 통해 설치할 수 있었습니다.) 이후 빌드가 성공하면 Build/OvmfX64/DEBUG_GCC5/FV 내에 Ovmf.fd라는 파일이 생기게 된다. 이 파일을 QEMU를 통해 실행할 수 있다. qemu-system-x86_64 \ -bios Build/OvmfX64/DEBUG_GCC5/FV/OVMF.fd \ -net none 실행에 성공하면 다음과 같은 화면이 나오는 것을 볼 수 있다! 한 가지 아쉬운 점으론 취약점 분석을 할 예정인 만큼 최신 버전이 아닌 구버전을 다운받아 보려 했는데 오류가 매우 많이 발생하여 아쉬웠다. 아마 다음 주 목표는 구버전 다운로드를 목표로 하지 않을까 싶다. (2026.01.26 11시 45분. 가상환경 없이 맥 환경에서 2021년 2월 버전 EDK2 빌드 성공!) 내 UEFI에 간단한 파일 올려보기 이제 여기서 UEFI Shell 부분에 코드를 추가해서 내 맘대로 일부 수정을 해보고 빌드를 해보자. 내가 수정을 해볼 부분은 ShellPkg/Application/Shell 내의 Shell.c 파일로, 해당 파일은 UEFI의 SHell을 담당하고 있는 파일이라고 볼 수 있다. 이 파일 내의 UefiMain() 함수를 찾아준다. UefiMain 함수는 마치 C나 Rust의 main() 처럼 해당 UEFI 파일의 시작점이 되는 부분이라고 볼 수 있다. 이 부분에 Print() 함수를 통해 내가 원하는 것을 출력시킬 것이다. (Print() 함수는 C의 printf()와 비슷한 EDK2에서 제공하는 출력 함수다. 출력할 땐 L을 붙여 글자당 2바이트임을 알려준다.) 위와 같이 UefiMain 함수 내에 다음과 같이 입력한 뒤 저장하고 다시 빌드를 한 뒤 QEMU로 UEFI를 실행해보자. build -p OvmfPkg/OvmfPkgX64.dsc -a X64 -t GCC5 qemu-system-x86_64 -bios Build/OvmfX64/DEBUG_GCC5/FV/OVMF.fd -net none Shell이 시작될 때 내가 입력한 내용이 출력되는 것을 볼 수 있다!

졸업프로젝트 · 2026-01-22

러스트 표준 입출력 방법 정리

최근에 러스트를 공부하기 시작하면서 러스트로 백준을 풀어보려 하고 있다. 이 과정에서 러스트의 입출력은 다른 언어보다 조금 더 복잡하다고 느끼고 있다. 그래서 개인적인 기록 용도로 입출력 방법을 정리해두고자 한다. 입력 한 줄 입력 use std::io::{self, Read}; fn main() { let mut input = String::new(); io::stdin().read_line(&mut input).unwrap(); } String 변수를 하나 만든 뒤 해당 변수 값을 받아서 read_line으로 받은 뒤 unwrap()으로 푼다. 여러 줄 입력 use::std::io::{self, Read}; fn main() { let mut input = String::new(); io::stdin().read_line(&mut input).unwrap(); let n = input.trim().parse::<usize>().unwrap(); for _ in 0..n { input.clear(); io::stdin().read_line(&mut input).unwrap(); } } 처음에는 몇 개의 줄을 입력받을 것인지 숫자를 입력하고, 반복문으로 그 숫자만큼 줄을 입력받는 방식으로 구현했다. 여러 숫자 입력 use std::io::{stdin, Read}; fn main() { let mut input = String::new(); stdin().read_line(&mut input).unwrap(); let mut input = input.split_ascii_whitespace().flat_map(str::parse::<usize>); let n = input.next().unwrap(); } 숫자를 공백 단위(1 3 4 5 6…)과 같이 입력받았을 때 사용하는 방식이다. 여기서 usize로 파싱하는 부분만 빠지면 문자열을 공백으로 입력받을 수도 있다. 출력 한 줄 출력 fn main() { let x = 3; println!("{x}"); }

Rust · 2026-01-22

UEFI DXE 바이너리 취약점 분석기 프로젝트_3

Memory Map 메모리 맵은 시스템의 RAM과 특정 영역의 분포를 나타낸 표로, OS가 메모리를 정상적으로 사용할 수 있도록 UEFI는 이 정보를 커널에 전달한다. 쉽게 생각해서 여기부터 여기까지는 중요한 부분이야!, 여기부터 여기까지는 사용해도 돼! 를 OS에게 알려주는 부분이라고 볼 수 있다. 흔히 생각하는 버퍼 오버플로우나 Null-Pointer 역참조, 또는 지난 시간에 공부했던 Callout 공격이나 CommBuffer 공격들은 대부분 결국 엉뚱한 메모리를 건들면서 생기는 문제들이라 볼 수 있다. Windows에서 vmware를 통해 직접 EFI Shell을 실행한 뒤 memmap 명령어를 통해 메모리를 관찰한 결과다. 뭔가 정말 많이 떠있어 읽기 힘든 것을 볼 수 있다. UEFI.org에서 가져온 각 영역에 대한 설명이다. 내용들이 매우 많아보이지만 차근차근 보자. 가장 먼저 Mnemonic 부분이다. 이 부분은 각 영역이 무엇인지에 대한 이름 정도라고 볼 수 있다. Type 이름 설명 0 EfiReservedMemoryType 아무튼 예약된 메모리 1 EfiLoaderCode OS 로더 코드가 올라갔던 곳 2 EfiLoaderData OS 로더가 실행중에 쓴 데이터 영역 3 EfiBootServicesCode 부팅 단계에서만 필요한 드라이버들의 코드 4 EfiBootServicesData 부팅 단계에서만 필요한 드라이버들의 데이터 5 EfiRuntimeServicesCode OS 실행 중에도 불려야하는 서비스들의 코드 6 EfiRuntimeServicesData OS 실행 중에도 불려야하는 서비스들의 데이터 7 EfiConventionalMemory 여유 공간 8 EfiUnusableMemory 메모리 테스트 중 오류가 발견된 공간 9 EfiACPIReclaimMemory ACPI 테이블의 공간 10 EfiACPIMemoryNVS ACPI NVS 메모리 11 EfiMemoryMappedIO 하드웨어 장치의 레지스터와 연결된 주소 12 EfiMemoryMappedIOPortSpace I/O 포트의 번역기 13 EfiPalCode 서버용 CPU의 펌웨어 코드 14 EfiPersistentMemory 영구 메모리 구역 (출처) 오른쪽 ACPI Address Range Type 부분은 일명 OS가 이 구간은 써도 되는지에 대해 UEFI가 OS에 알려주는 부분이다. AddressRangeReserved : UEFI가 사용하고 있는 메모리. 맘대로 수정하면 안된다 AddressRangeMemory : 부팅이 끝난 뒤 초기화되는 메모리. 마음대로 사용 가능 AddressRangeACPI : ACPI 테이블(하드웨어 정보 등에 관한 테이블). 정보를 다 가져간 뒤엔 OS 사용 가능 AddressRangeNVS : ACPI NVS 메모리(시스템 전원 관리 및 절전 모드 작동 등에 사용). 맘대로 수정 불가 AddressRangePersistentMemory : 비휘발성. 컴퓨터를 껐다 켜도 데이터가 남아있는 구역 (출처) 지난 주차에서 공부했던 내용을 생각하며 우리가 여기서 봐야 하는건 SMM 코드가 드라이버가 외부에 있는 주소를 사용하려 하는가 정도가 될 것이라 생각한다. 지난 시간에 공부했든 SMM 코드는 SMRAM 내 코드가 아니면 실행하면 안된다. 하지만 이 SMM이 BS_Code나 RT_Code를 실행한다면? 만약 해커가 악의적으로 Ring 0 권한을 탈취 후 RT_Code의 쓰기 방지를 풀고 Payload를 심었거나, 무방비 구역인 BS_Code구역에 Payload를 심었고, 이 부분을 SMM이 Call을 한다면? 이게 바로 SMM Callouts 공격이 되는 것이다. 이 링크는 AMD의 SMM Callout에 대한 실제 CVE로, 입력 버퍼에 유효성 검사가 존재하지 않아 SMM Callout 취약점이 발생할 수도 있다는 것을 의미한다. Save State 지난 시간 SMM에 대해 공부했을 때 Save State에 대한 부분을 작성하지 않았던 것 같아 추가적으로 작성하기로 하였다. Save State는 SMRAM의 일부분으로, SMRAM의 어떤 부분을 덮어쓰면 위험한데? 라는 질문의 대답이 될 수 있을 것이다. (출처) SMRAM의 구조이다. Save State는 SMI가 걸려 SMM 모드로 들어가는 순간의 레지스터 값 등을 Save State라는 곳에 저장하고, 일을 마치면 저장한 값을 다시 불러오는 데에 사용한다. Low SMRAM Corruption (출처) 지난 시간 공부했던 CommBuffer 공격이 SMM이 있는 SMRAM을 침범하는 공격이라고 하였다. 물론 CommBuffer를 SMRAM에 할당받지 못하도록 방어하는 다양한 보호 기법들이 있다. SmmIsBufferOutsideSmmValid 함수가 바로 이런 보호 기법 중 하나다. SmmIsBufferOutsideSmmValid 함수는 인텔의 표준 UEFI 레퍼런스 구현체인 EDK2에 구현되어있는 함수로, CommBuffer가 SMRAM을 침범했는지 여부를 확인해주는 함수다. 가끔 SmmIsBufferOutsideSmmValid 함수를 개발 과정에서 까먹고 넣지 않는 경우가 있거나, 또는 CommBuffer 크기를 넘겨주지 않는 경우, 또는 핸들러 자체가 너무 허술할 경우 등이 있는데, 이런 경우 공격 대상이 될 수 있다. 대표적 사례로 Low SMRAM Corruption 공격이 있다. 위 함수와 같은 핸들러가 취약한 SMI 핸들러의 예시가 될 수 있는데, 빨간 박스를 보면 CommBuffer의 범위에 따른 유효성 검사 없이 그냥 채워져만 있으면 통과를 시켜준다. 또한 노란 박스를 통해 CommBuffer의 시작 주소에 64비트, 즉 8바이트를 냅다 주는 것을 알 수 있다! 이 핸들러에 Low SMRAM 공격을 할 수 있다. 간략하게 순서는 다음과 같다. CommBuffer를 SMRAM 바로 밑에 위치시킨다.(SMRAM - 1) CommBuffer의 크기를 1바이트와 같이 작은 숫자로 설정한다. 취약한 SMI 핸들러를 작동시킨다. 그렇게 되면 위 그림과 같이 겉으로 보기엔 아무 이상 없는 것처럼 보이므로 SmmIsBufferOutsideSmmValid 함수도 통과하여 SMI 핸들러로 들어오게 될 것이다. 그런데 이 핸들러가 SMRAM 한 칸 밑에 있는 CommBuffer를 8바이트로 늘려버린다면? 위와 같이 SMRAM을 CommBuffer가 침범하게 된다. Nested Pointer를 통한 SMRAM 침범 공격 문제 공부중…

졸업프로젝트 · 2026-01-13

UEFI DXE 바이너리 취약점 분석기 프로젝트_2

SMM SMM(System Management Mode)는 x86 및 x86-64 프로세서의 작동 모드로, 해당 모드는 OS가 실행되는 동안 OS의 아래에서 저수준 시스템 관리 작업을 수행하는 데 사용된다. 초기엔 부팅 관련 Phase에서만 사용되었지만 요즘에는 하드웨어 보호 및 제어, 각 제조사별 하드웨어 기능(키보드 백라이트 조절, 배터리 수명 모드 등)과 같은 곳에서도 사용된다. SMM의 설계도를 보면 SMM은 내부에서만 사용되는 것이 아닌 일반 모드들과도 연결이 되는데, 이 일반 모드와 SMM을 연결해주는 것이 바로 SMI(System Management Interrupt)이다. SMI가 발생하면 SMRAM이라는 SMM이 있는 전용 메모리 공간으로 들어가 SMM을 불러오는 것이다. 이 때 SMM에게 이 정보를 같이 처리해주세요! 라는 정보를 함께 넘기게 되는데 이를 CommBuffer라고 한다. SMM이 이번 프로젝트에서 왜 중요하다고 생각한지 설명하기 전 CPU의 특권 레벨(Privilege Level)에 대해 설명할 필요가 있다. 특권 레벨이란 어떤 시점에서의 CPU의 권한 상태를 나타내는지, 다시 말해 CPU가 어떤 명령을 실행할 수 있는지, 메모리 어느 범위까지 도달할 수 있는지의 정도를 말한다. 특권 레벨은 Ring 0~3까지 구성되며, 더 낮은 숫자로 내려갈수록 할 수 있는 것들이 많아진다. Ring 3은 우리가 흔히 사용하는 카카오톡과 같은 응용 프로그램이 해당되며, 여기선 하드웨어 조작, 타 프로그렘 메모리 읽기 등이 금지된다. Ring 0은 커널 모드로, OS, 하드웨어 드라이버 등이 이 단계에 해당된다. 여기선 모든 메모리의 접근, 하드웨어 직접 접근, Ring 3 프로그램의 강제 종료 등의 컴퓨터 내에서의 대부분의 것들을 수행할 수 있다. (카카오톡이나 줌 등에서 웹캠 키고 마이크 킬 수 있잖아요! : 그것은 Ring 3이 Ring 0에게 켜달라고 요청을 하는 것이다.) 근데 여기서 SMM은 Ring 0인 커널보다도 더 낮은 숫자인 Ring -2에 위치한다. (Ring -1은 OS를 담당하는 가상화 하이퍼바이저를 의미한다고 한다.) Ring -2에 해당하는 SMM이 실행되면 OS 마저도 멈추고 SMM에 해당하는 작업을 처리하게 된다. 이는 메모리 및 장치 리소스에 대한 제한 없는 접근 권한을 가지므로 이 부분이 악성 코드들의 공격 경로로 자주 사용된다. (출처) CommBuffer 공격 다시 SMM으로 돌아와보자. SMM이 존재하는 SMRAM은 물리적으론 RAM에 존재하지만 논리적으로는 격리가 되어 만약 이 공간에 Ring -2보다 높은 숫자를 가진 레벨으로 접근하려 하면 쓰레기 값만 보여주거나 칩셋에서 자체 차단을 하게 된다. 그런데 만약 해커가 악의적 목적으로 CommBuffer에 덮어씌울 주소로 SMRAM 내부 주소를 입력한다면? 그리고 SMM이 해당 주소에 대한 검사를 하지 않고 바로 받아드린다면? 외부 오염된 데이터가 SMRAM으로 들어오면서 해커가 Ring -2의 권한을 탈취할 수도 있는 것이다. SMM Callouts SMM Callouts 공격은 위 CommBuffer 공격과 반대로 SMM Code가 SMRAM 경계 밖에 있는 함수를 호출할 때 발생한다. 원래 SMM Code는 SMRAM 내에서만 실행이 되어야 한다. 하지만 SMM Code가 외부에 있는 함수를 호출한다면? 그리고 그 외부 함수 주소를 타고 가보니 해커가 심어둔 악성코드의 주소라면? 악성 코드가 Ring -2라는 최상위 권한으로 실행되게 되는 것이다. 악성코드가 Ring -2로 실행되게 된다면 OS보다 더 높은 권한으로 실행됨으로써 해당 악성코드는 OS를 아무리 포맷해도 하드디스크가 아닌 메인보드 펌웨어 칩에 실리게 되어 치료가 불가능해질 수도 있다. 또한 악성코드를 탐지하는 백신들 역시 Ring 0에서 실행되므로 Ring -2에 실린 악성코드를 탐지할 수도 없게 된다. 그리고 이를 방지하기 위해 우리가 만들 분석기의 역할은 두가지. 1. 들어온 CommBuffer에 대한 검사를 수행하는가? 2. SMM Code가 외부 함수를 호출하려고 하는가? 를 감지할 수 있다면 훌륭한 분석기가 되지 않을까 생각하고 있다. PE UEFI의 분석을 위해서는 PE에 대한 공부가 필수적이라 생각한다. 지난번에 뜯어본 .efi 파일의 맨 처음 부분을 보면 MZ라는 것이 적혀있는 것을 볼 수 있는데, MZ가 바로 PE파일임을 나타내는 signature이다. 이를 통해 UEFI의 DXE 드라이버들이나 SMM 모듈들은 PE의 구조를 따르는 것을 알 수 있다. PE를 통해서 알 수 있는 정보들이 매우 많은데, 1. 섹션의 구분을 알 수 있다. 몇번지부터 code인지, 몇번지부터 data인지 등을 여기서 알 수 있다. 2. 해당 코드의 진짜 시작점(AddressOfEntryPoint)을 알아낼 수 있다. 3. 주소 재배치 계산 정보가 여기에 담겨있다. 이 부분이 틀리면 메모리 번지수 계산이 전부 망가지게 된다. PE 헤더에 어떤 내용들이 담겨있는지를 여기서 전부 다 다루진 않지만, UEFI뿐 아니라 PE 전반적으로 중요한 부분들을 위주로 다뤄보겠다. IMAGE_DOS_HEADER 이곳은 DOS 파일과의 하위 호환성을 위한 공간이다. Signature(e_magic) : “MZ”가 아닐 경우 해당 파일을 실행하지 않는다. Offset to New EXE Header : 실제 PE 헤더의 시작 Offset이 담겨있다. IMAGE_FILE_HEADER 여기엔 해당 PE 파일의 기본적인 정보들이 담겨있다. Machine : 컴퓨터 아키텍처의 유형이 적혀있다. x64인지, x86인지, ARM인지 등이 담겨있다. Number Of Sections : .text, .data, .reloc와 같은 섹션이 몇 개 있는지를 알려준다. Size of Optional Header : 다음에 나올 IMAGE_OPTIONAL_HEADER의 크기를 나타낸다. Characterstics : 해당 파일의 속성값이 담겨있다. IMAGE_OPTIONAL_HEADER 여기엔 해당 PE 파일의 부가적이지만 분석에 필수적인 정보들이 담겨있다. Magic : 32비트인지(0x10B), 64비트인지(0x20B)가 적혀있다. Size of Code : 코드의 크기를 나타낸다. AddressOfEntryPoint : 실제 파일이 메모리에서 시작되는 지점을 나타낸다. BaseOfCode : 실제 코드가 시작되는 번지수를 나타낸다. ImageBase : 실제 가상 메모리에 올라가는 번지수를 나타낸다. Section Alignment : 섹션 및 파일의 정렬을 위한 최소 단위를 나타낸다. Size of Image : 해당 파일이 메모리에 로딩된 순간의 전체 크기를 나타낸다. SubSystem : 해당 파일이 GUI인지, 드라이버인지, CLI 등인지를 나타낸다. Number of Data Directiory : DataDirectory의 개수를 나타낸다. 이 때 BaseOfCode, AddressOfEntryPoint, ImageBase의 차이가 처음에 헷갈렸는데, ImageBase : 실제 가상 메모리에 올라가는 번지수를, BaseOfCode : ImageBase에서 코드부분 시작 지점까지 얼마나 떨어져 있는지를, AddressOfEntryPoint : 실제 프로그램을 실행할 때 제일 처음 시작되는 부분(Main함수)이 얼마나 떨어져 있는지를 나타낸다. IMAGE_SECTION_HEADER 여기선 각 Section들의 속성들을 나타낸다. Virtual Size : 메모리 내에서 해당 섹션이 차지하는 크기를 나타낸다. RVA : 메모리에서 해당 섹션의 시작 주소의 offset을 나타낸다.(RVA : Relative Virtual Address) Size of Raw Data : 파일에서의 섹션의 크기를 나타낸다. Pointer to Raw data : 파일에서의 해당 섹션의 offset을 나타낸다. Characteristics : 해당 섹션의 속성(읽기 전용인지, 읽고 쓰기 전부 가능한지 등)을 나타낸다. 이 때 Section으론 .text : 프로그램의 실행 코드가 담겨있음. .data : 읽고 쓰기 모두 가능한 Data Section. 초기화된 전역변수 및 static 변수 위치. .rdata : 읽기 전용 Data Section. const 및 문자열 상수 등이 위치. .bss : 초기화되지 않은 전역변수가 담겨있음. .idata : Import할 DLL 및 API 관련 정보가 담긴 Section. IAT가 여기에 위치한다. .didat : DLL 단위 지연 로딩을 위한 Section. .edata : Export할 API가 담긴 Section. .rsrc : 리소스 관련 Data가 담긴 Section(아이콘, 커서 등). .reloc : 기본 재배치 정보들을 담고 있는 Section. 주소 계산법 PE에 적혀있는 주소들은 가상 주소에 해당된다. 해당 주소는 실제 메모리에 올라가면 주소가 바뀌게 되므로, 적혀있는 주소를 그대로 참조하는 것이 아닌 실제 주소와 가상 주소 사이 Offset을 계산해준 뒤 해당 Offset만큼 더해준 위치에 접근을 해주면 된다. 해당 Offset의 계산은 다음과 같다. Offset = Load Address - ImageBase 하지만 이 Offset을 무작정 써먹을 순 없고, 약간의 계산을 추가적으로 해줘야 한다. 일반적으로 DataDirectory의 6번째(DataDirectory[5])에 재배치에 관한 테이블이 존재한다. 위 그림이 바로 재배치 테이블이다. 해당 테이블의 data에 있는 값들이 바로 재배치를 해야 할 RVA 주소들로, 이 주소를 파일 위치(RAW)로 바꾼 뒤 해당 주소가 가르키는 값에 Offset을 더하는 과정을 반복해줘야 한다. 이 때 RVA를 RAW로 바꾸는 공식은 아래와 같다. RAW = RVA - VA + PTRD 이 때 VA는 해당 RVA가 속한 Section 헤더의 RVA를, PTRD는 해당 Section 헤더의 Pointer To Raw Data를 뜻한다.

졸업프로젝트 · 2026-01-02

UEFI DXE 바이너리 취약점 분석기 프로젝트_1

UEFI란 UEFI(Unified Extensible Firmware Interface, 통일 확장 펌웨어 인터페이스)란 기존 BIOS를 대체하기 위해 나온 규격이다. 기존 Legacy BIOS는 CPI 실행 과정에서 16비트 모드(키보드 탐색만 지원)에서만 실행이 될 수 있었다. 이는 메모리 주소 공간이 1MB로 제한되므로 CPU의 속도가 아무리 빨라져도 부팅 초기화 단계에서 구식 CPU의 수준에서만 동작할 수 있었다. 구형 BIOS의 모습이다. 마우스 등의 장치로는 불가능하고 오직 키보드로만 탐색할 수 있었다. 또한 BIOS가 사용하는 MBR 방식은 주소를 32비트로 관리함에 따라 최대 2TB 용량의 저장 장치만 사용할 수 있었다. 이런 문제를 해결하기 위해 UEFI가 등장했다고 보면 될 것 같다. 내용은 이 링크를 통해 많이 공부하였다. UEFI 부팅 순서 (BIOS의 부팅 순서는 따로 설명하지 않겠다.) UEFI 부팅 순서를 나타낸 그림이다. 1. SEC(Security) 단계 시스템 전원이 켜지자마자 가장 먼저 실행되는 단계. CPU가 전원을 받아 reset vector에 처음으로 명령어를 받아온다. 이 과정은 16비트 real mode의 instruction을 실행하는데, 이 작업은 프로세서를 보호 모드로 전환한다. 또한 갓 컴퓨터에 전원이 들어온 상태이므로 메인 메모리가 아직 초기화되지 않았으므로 CPU의 L1/L2 캐시를 임시 RAM으로 사용해 C 코드를 실행할 준비를 하며, 그리고 초기 펌웨어 코드가 변조되지 않았는지 검증하는 Pre-Verifier 단계를 수행한다. 2. PEI(Pre-EFI Initialization) 단계 이 단계에서 메인 메모리를 포함한 칩셋들을 초기화한다. 3. DXE(Driver Execution Enviroment) 단계 우리가 중점적으로 볼 부분이다. PEI 단계에서 메모리가 초기화되어 사용할 수 있는 상태가 되었으므로 본격적으로 드라이버들을 Load한다. 실행 파일은 PE32, PE32+(64비트) 파일이 사용된다. 이 단계에서 각 모듈들을 열거하고 실행하는 Dispatcher가 존재하는데, 각 모듈들은 USB, 그래픽, 네트워크, 파일 시스템 등 기능들을 불러오게 된다. (*HOB(Hand-Off Block) : PEI에서 DXE로 넘어갈 때 전달되는 구조체로, 이 안에 메모리 유효 범위, 부팅 볼륨 등의 정보가 담겨있으므로 이 부분을 분석하는 것이 시작점이 되지 않을까… 싶다) 4. BDS(Boot Device Selection) 단계 부팅 정책에 따라 GPT 디스크 및 EFI 시스템 파티션(OS 부트로더)을 찾는다. 이 때 윈도우라면 bootmgfw.efi, 리눅스라면 grub.efi 등 각 운영체제별 부트로더 정보들이 있고, 이를 찾아 메모리에 로드하는 단계가 된다. 우리가 컴퓨터를 켜서 BIOS 설정 환경으로 넘어가기 위해 F2나 Del키를 연타하게 되는데 이 설정 환경이 여기서 실행되게 된다. 5. TSL(Transient System Load) 단계 OS 부트로더는 이미 실행중이지만, 이 단계까지 아직 UEFI의 Boot Services를 이용할 수 있다. 부트로더가 최종적으로 커널 메모리에 올라가 실행 환경이 구축되었다면 ExitBootServices() 함수를 호출하여 제어권을 OS에 완벽히 넘기고 UEFI는 부트 프로세스를 종료한다. 6. RT(Run Time) 단계 여기부턴 OS가 완전히 컴퓨터의 제어권을 잡고 실행하게 된다. UEFI는 이 때 시스템 시간 가져오기, 시스템 리셋, 디바이스 드라이버 로드 등 일부 Runtime Service들만 사용하게 된다. 7. AL(After Life) 단계 시스템이 종료되는 시점이다. 간단히 실제 DXE 살펴보기 제미나이와 함께 간단하게 DXE .efi 파일이 어떻게 되어있는지 살펴보았다. 사용 모델은 DELL XPS 15 9560의 UEFI를 여기서 다운받았다. 다운을 받으면 .exe 형태의 파일이 다운받아진다. 이를 추출하기 위해 깃허브에 올라와있는 추출기를 다운받아 실행하였다. 추출이 완료되면 폴더가 하나 생기고 폴더 안에는 위 이미지와 같이 추출된 펌웨어들이 .bin의 형태로 저장되어 있는 것을 볼 수 있다. 이 중 “System BIOS with BIOS Guard v1.24.0.bin” 이란 파일이 분석 대상이라고 판단. 이 파일을 UEFITool을 통해 열어보았다. 해당 파일을 UEFITool을 통해 열었을 때 위와 같은 화면이 나옴을 알 수 있었다. 앞으로 이 부분들을 우리가 분석해나가야 할 것들이 될 것이다.

졸업프로젝트 · 2025-12-31

[백준, python] 14502번 - 연구소

백준 문제풀이 시작 문제 인체에 치명적인 바이러스를 연구하던 연구소에서 바이러스가 유출되었다. 다행히 바이러스는 아직 퍼지지 않았고, 바이러스의 확산을 막기 위해서 연구소에 벽을 세우려고 한다. 연구소는 크기가 N×M인 직사각형으로 나타낼 수 있으며, 직사각형은 1×1 크기의 정사각형으로 나누어져 있다. 연구소는 빈 칸, 벽으로 이루어져 있으며, 벽은 칸 하나를 가득 차지한다. 일부 칸은 바이러스가 존재하며, 이 바이러스는 상하좌우로 인접한 빈 칸으로 모두 퍼져나갈 수 있다. 새로 세울 수 있는 벽의 개수는 3개이며, 꼭 3개를 세워야 한다. 예를 들어, 아래와 같이 연구소가 생긴 경우를 살펴보자. 2 0 0 0 1 1 0 0 0 1 0 1 2 0 0 1 1 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 1 0 0 0 0 0 이때, 0은 빈 칸, 1은 벽, 2는 바이러스가 있는 곳이다. 아무런 벽을 세우지 않는다면, 바이러스는 모든 빈 칸으로 퍼져나갈 수 있다. 2행 1열, 1행 2열, 4행 6열에 벽을 세운다면 지도의 모양은 아래와 같아지게 된다. 2 1 0 0 1 1 0 1 0 1 0 1 2 0 0 1 1 0 1 0 0 0 1 0 0 0 1 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 1 0 0 0 0 0 바이러스가 퍼진 뒤의 모습은 아래와 같다. 2 1 0 0 1 1 2 1 0 1 0 1 2 2 0 1 1 0 1 2 2 0 1 0 0 0 1 2 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 1 0 0 0 0 0 벽을 3개 세운 뒤, 바이러스가 퍼질 수 없는 곳을 안전 영역이라고 한다. 위의 지도에서 안전 영역의 크기는 27이다. 연구소의 지도가 주어졌을 때 얻을 수 있는 안전 영역 크기의 최댓값을 구하는 프로그램을 작성하시오. 입력 첫째 줄에 지도의 세로 크기 N과 가로 크기 M이 주어진다. (3 ≤ N, M ≤ 8) 둘째 줄부터 N개의 줄에 지도의 모양이 주어진다. 0은 빈 칸, 1은 벽, 2는 바이러스가 있는 위치이다. 2의 개수는 2보다 크거나 같고, 10보다 작거나 같은 자연수이다. 빈 칸의 개수는 3개 이상이다. 출력 첫째 줄에 얻을 수 있는 안전 영역의 최대 크기를 출력한다. 풀이 풀이 확인하기 해당 문제는 DFS를 통해 풀 수 있다. 문제에서 제시한 지도의 넓이가 넓지 않으므로 벽을 세울 수 있는 모든 경우에 대해 바이러스를 DFS를 통해 퍼트리고 각 경우에 안전 영역이 얼마나 남는가를 계산해 가장 많이 안전 영역이 확보된 경우를 계산하여 출력하면 된다. import sys input = sys.stdin.readline n, m = map(int, input().rstrip().split()) lis = [] after = [[0] * m for _ in range(n)] for _ in range(n): lis.append(list(map(int, input().rstrip().split()))) dx = [-1, 0, 1, 0] dy = [0, 1, 0, -1] result = 0 def virus(x, y): for i in range(4): nx = x + dx[i] ny = y + dy[i] if nx >= 0 and nx < n and ny >= 0 and ny < m: if(after[nx][ny] == 0): after[nx][ny] = 2 virus(nx, ny) def get_score(): score = 0 for i in range(n): for j in range(m): if(after[i][j] == 0): score += 1 return score def dfs(count): global result if count == 3: for i in range(n): for j in range(m): after[i][j] = lis[i][j] for i in range(n): for j in range(m): if after[i][j] == 2: virus(i, j) result = max(result, get_score()) return result for i in range(n): for j in range(m): if lis[i][j] == 0: lis[i][j] = 1 count += 1 dfs(count) lis[i][j] = 0 count -= 1 dfs(0) print(result)

백준 문제풀이 · 2023-05-29

[백준, python] 11404번 - 플로이드

백준 문제풀이 시작 문제 n(2 ≤ n ≤ 100)개의 도시가 있다. 그리고 한 도시에서 출발하여 다른 도시에 도착하는 m(1 ≤ m ≤ 100,000)개의 버스가 있다. 각 버스는 한 번 사용할 때 필요한 비용이 있다. 모든 도시의 쌍 (A, B)에 대해서 도시 A에서 B로 가는데 필요한 비용의 최솟값을 구하는 프로그램을 작성하시오. 입력 첫째 줄에 도시의 개수 n이 주어지고 둘째 줄에는 버스의 개수 m이 주어진다. 그리고 셋째 줄부터 m+2줄까지 다음과 같은 버스의 정보가 주어진다. 먼저 처음에는 그 버스의 출발 도시의 번호가 주어진다. 버스의 정보는 버스의 시작 도시 a, 도착 도시 b, 한 번 타는데 필요한 비용 c로 이루어져 있다. 시작 도시와 도착 도시가 같은 경우는 없다. 비용은 100,000보다 작거나 같은 자연수이다. 시작 도시와 도착 도시를 연결하는 노선은 하나가 아닐 수 있다. 출력 n개의 줄을 출력해야 한다. i번째 줄에 출력하는 j번째 숫자는 도시 i에서 j로 가는데 필요한 최소 비용이다. 만약, i에서 j로 갈 수 없는 경우에는 그 자리에 0을 출력한다. 풀이 풀이 확인하기 해당 문제는 전형적인 플로이드-와셜 알고리즘 문제로, 입력을 받은 뒤 플로이드-와셜 알고리즘을 그대로 수행해주면 된다. 단, 입력에서 시작 도시와 도착 도시를 연결하는 노선은 하나가 아닐 수 있다는 점을 생각하여 가장 짧은 간선의 정보만 기록할 수 있도록 한다. INF = int(1e9) n = int(input()) m = int(input()) graph = [[INF for _ in range(n+1)] for _ in range(n+1)] for i in range(1, n+1): graph[i][i] = 0 for _ in range(m): a, b, c = map(int, input().split()) if graph[a][b] > c: graph[a][b] = c for k in range(1, n+1): for a in range(1, n+1): for b in range(1, n+1): graph[a][b] = min(graph[a][b], graph[a][k] + graph[k][b]) for i in range(1, n+1): for j in range(1, n+1): if graph[i][j] == INF: print(0, end=" ") else: print(graph[i][j], end=" ") print()

백준 문제풀이 · 2023-05-06

[백준, python] 2887번 - 행성 터널

백준 문제풀이 시작 문제 때는 2040년, 이민혁은 우주에 자신만의 왕국을 만들었다. 왕국은 N개의 행성으로 이루어져 있다. 민혁이는 이 행성을 효율적으로 지배하기 위해서 행성을 연결하는 터널을 만들려고 한다. 행성은 3차원 좌표위의 한 점으로 생각하면 된다. 두 행성 $A(x_A, y_A, z_A)$와 $B(x_B, y_B, z_B)$를 터널로 연결할 때 드는 비용은 $\min($|$x_A-x_B$|$, $|$y_A-y_B$|$,$ |$z_A-z_B$|$)$이다. 민혁이는 터널을 총 N-1개 건설해서 모든 행성이 서로 연결되게 하려고 한다. 이때, 모든 행성을 터널로 연결하는데 필요한 최소 비용을 구하는 프로그램을 작성하시오. 입력 첫째 줄에 행성의 개수 N이 주어진다. (1 ≤ N ≤ 100,000) 다음 N개 줄에는 각 행성의 x, y, z좌표가 주어진다. 좌표는 -109보다 크거나 같고, 109보다 작거나 같은 정수이다. 한 위치에 행성이 두 개 이상 있는 경우는 없다. 출력 첫째 줄에 모든 행성을 터널로 연결하는데 필요한 최소 비용을 출력한다. 풀이 풀이 확인하기 해당 문제를 푸는 과정에서 모든 점에서 각 점까지의 거리를 구하게 되면 메모리 초과가 발생한다. 이를 줄이기 위해 약간의 스킬이 필요한데, 바로 정렬이다. 문제에서 터널의 비용이 각 방향으로의 거리들 중 가장 작은 값이므로 약간의 정렬 스킬을 이용하면 풀 수 있는 것이다. 먼저 X축 방향으로 각 행성들을 정렬한다. 그렇게 되면 각 행성 사이간의 거리들, 즉 행성의 수가 N이라고 한다면 N-1개의 간선만 고려를 하면 되는 것이다. 같은 방식으로 Y, Z 방향도 간선을 뽑아내면 고려해야할 간선의 수가 확 줄어들게 되는 것이다. def find_parent(parent, x): if parent[x] != x: parent[x] = find_parent(parent, parent[x]) return parent[x] def union_parent(parent, a, b): a = find_parent(parent, a) b = find_parent(parent, b) if a < b: parent[b] = a else: parent[a] = b num = int(input()) parent = [0] * (num + 1) edges = [] result = 0 planet = [] for i in range(1, num+1): parent[i] = i x = [] y = [] z = [] for i in range(num): a, b, c = map(int, input().split()) x.append((a, i)) y.append((b, i)) z.append((c, i)) x.sort() y.sort() z.sort() for i in range(num-1): edges.append((x[i+1][0] - x[i][0], x[i][1], x[i+1][1])) edges.append((y[i+1][0] - y[i][0], y[i][1], y[i+1][1])) edges.append((z[i+1][0] - z[i][0], z[i][1], z[i+1][1])) edges.sort() for edge in edges: cost, a, b = edge if find_parent(parent, a) != find_parent(parent, b): union_parent(parent, a, b) result += cost print(result)

백준 문제풀이 · 2023-05-01

[백준, python] 1913번 - 달팽이

백준 문제풀이 시작 문제 홀수인 자연수 N이 주어지면, 다음과 같이 1부터 N2까지의 자연수를 달팽이 모양으로 N×N의 표에 채울 수 있다. N이 주어졌을 때, 이러한 표를 출력하는 프로그램을 작성하시오. 또한 N2 이하의 자연수가 하나 주어졌을 때, 그 좌표도 함께 출력하시오. 예를 들어 N=5인 경우 6의 좌표는 (4,3)이다. 입력 첫째 줄에 홀수인 자연수 N(3 ≤ N ≤ 999)이 주어진다. 둘째 줄에는 위치를 찾고자 하는 N^2 이하의 자연수가 하나 주어진다. 출력 N개의 줄에 걸쳐 표를 출력한다. 각 줄에 N개의 자연수를 한 칸씩 띄어서 출력하면 되며, 자릿수를 맞출 필요가 없다. N+1번째 줄에는 입력받은 자연수의 좌표를 나타내는 두 정수를 한 칸 띄어서 출력한다. 풀이 풀이 확인하기 이번 문제는 구현 문제로 문제에 주어진 조건대로만 문제를 풀면 풀 수 있다. 그래서 머릿속에 떠오르는 그대로 코드를 짰다. 그래서 코드가 상당히 길고 더러운데 이 부분은 충분히 줄일 수 있을 것 같다.. import sys input = sys.stdin.readline num = int(input()) lis = [[0 for _ in range(num)] for _ in range(num)] find = int(input()) howMany = 1 currentx = int(num/2) currenty = int(num/2) lis[currentx][currenty] = 1 wherex = currentx wherey = currenty num2 = 2 for i in range(num - int(num/2) -1): currentx -= 1 lis[currentx][currenty] = num2 if(num2 == find): wherex = currentx wherey = currenty num2 += 1 for _ in range(howMany): currenty += 1 lis[currentx][currenty] = num2 if(num2 == find): wherex = currentx wherey = currenty num2 += 1 howMany += 1 for _ in range(howMany): currentx += 1 lis[currentx][currenty] = num2 if(num2 == find): wherex = currentx wherey = currenty num2 += 1 for _ in range(howMany): currenty -= 1 lis[currentx][currenty] = num2 if(num2 == find): wherex = currentx wherey = currenty num2 += 1 for _ in range(howMany): currentx -= 1 lis[currentx][currenty] = num2 if(num2 == find): wherex = currentx wherey = currenty num2 += 1 howMany+=1 for i in lis: print(*i) print(wherex+1, end = " ") print(wherey+1)

백준 문제풀이 · 2023-02-26

[백준, python] 9536번 - 여우는 어떻게 울지?

백준 문제풀이 시작 문제 고대 미스테리로 전해지는 여우의 울음소리를 밝혀내기 위해 한신이는 고성능 녹음기로 무장하고 숲으로 들어갔다. 하지만 숲에는 동물들이 가득해, 녹음된 음성에는 다른 동물들의 울음소리가 섞여 있다. 그러나 한신이는 철저한 준비를 해 왔기 때문에 다른 동물들이 어떤 울음소리를 내는지 정확히 알고 있다. 그러므로 그 소리를 모두 걸러내면 남은 잡음은 분명히 여우의 울음소리일 것이다. 입력 첫 번째 줄에는 테스트케이스의 개수 T가 입력된다. 각 테스트케이스는 아래와 같이 구성되어 있다. 테스트케이스의 첫 줄에는 몇 개의 단어로 이루어진 녹음된 소리가 입력된다. 단어는 알파벳 소문자로만 이루어져 있으며 공백으로 구분된다. 단어의 길이는 최대 100글자이고, 단어의 개수는 최대 100개이다. 다음 줄부터는 여우를 제외한 동물들의 울음소리가 goes 의 형태로 입력된다. 최소 1마리, 최대 100마리이며, 이름은 최대 100글자이고 실제로 존재하는 동물의 이름이다. 여우를 제외한 동물의 울음소리는 한 단어이고 최대 100글자이다. 마지막 줄에는 한신이가 알고 싶어하는 질문이 주어진다. what does the fox say? 출력 각 테스트케이스마다 여우의 울음소리를 한 줄씩, 녹음된 순서대로 출력한다. 여우의 울음소리가 녹음되어 있음이 보장된다. (알려진 것과는 달리, 여우는 모스 부호로 의사소통하지 않는다.) 풀이 풀이 확인하기 입력받은 테스트 케이스만큼 반복문을 돌리고 반복문 내에서 모든 동물들의 울음소리를 리스트화 한다. 이후 반복문으로 받으며 what does the fox say? 가 아닐 때까지 반복적으로 동물들의 울음소리를 제거한다. 이후 리스트를 출력한다. import sys input = sys.stdin.readline num = int(input()) for _ in range(num): lis = input().strip().split() while True: question = input().strip().split() if(question == ["what", "does", "the", "fox", "say?"]): break else: lis = [i for i in lis if i != question[2]] print(*lis)

백준 문제풀이 · 2023-02-24

[백준, python] 1706번 - 크로스워드

백준 문제풀이 시작 문제 동혁이는 크로스워드 퍼즐을 좋아한다. R×C 크기의 크로스워드 퍼즐을 생각해 보자. 이 퍼즐은 R×C 크기의 표로 이루어지는데, 퍼즐을 다 풀면 금지된 칸을 제외하고는 각 칸에 알파벳이 하나씩 적혀 있게 된다. 아래는 R = 5, C = 5 인 경우 다 푼 퍼즐의 한 예이다. 검은 칸은 금지된 칸이다. 세로 또는 가로로 연속되어 있고, 더 이상 확장될 수 없는 낱말이 퍼즐 내에 존재하는 단어가 된다. 위의 퍼즐과 같은 경우, 가로 낱말은 good, an, messy, it, late의 5개가 있고, 세로 낱말은 game, one, sit, byte의 4개가 있다. 이 중 사전식 순으로 가장 앞서 있는 낱말은 an이다. 다 푼 퍼즐이 주어졌을 때, 퍼즐 내에 존재하는 모든 낱말 중 사전식 순으로 가장 앞서 있는 낱말을 구하는 프로그램을 작성하시오. 입력 첫째 줄에는 퍼즐의 R과 C가 빈 칸을 사이에 두고 주어진다. (2 ≤ R, C ≤ 20) 이어서 R개의 줄에 걸쳐 다 푼 퍼즐이 주어진다. 각 줄은 C개의 알파벳 소문자 또는 금지된 칸을 나타내는 #로 이루어진다. 낱말이 하나 이상 있는 입력만 주어진다. 출력 첫째 줄에 사전식 순으로 가장 앞서 있는 낱말을 출력한다. 풀이 풀이 확인하기 이번 문제는 조건에 알맞는 문자열을 찾을 수 있도록 분기를 잘 해줘야 한다. 입력받은 크로스워드를 이차원 배열로 담고, 가로로 된 단어를 찾는 이중 반복문을 한번, 세로로 찾는 이중 반복문을 한번, 총 두번의 반복문을 돌린다. 반복문으로 순회하다가 #을 만난다면 지금까지 읽은 단어가 1글자보다 크다면 단어 리스트에 추가하고 아닐 경우 추가하지 않는다.(한글자는 단어가 아니기 때문.) 순회가 전부 끝나고 단어가 모였다면 정렬 후 첫번째 값을 출력한다. import sys input = sys.stdin.readline width, height = map(int, input().split()) lis = [[]for _ in range(width)] for i in range(width): a = list(input().strip()) lis[i] = a words = [] for i in range(width): word = "" for j in range(height): if lis[i][j] == "#": if len(word) > 1: words.append(word) word = "" elif j == height-1 and lis[i][j] != "#": word += lis[i][j] if len(word) > 1: words.append(word) else: word += lis[i][j] for i in range(height): word = "" for j in range(width): if lis[j][i] == "#": if len(word) > 1: words.append(word) word = "" elif j == width-1 and lis[j][i] != "#": word += lis[j][i] if len(word) > 1: words.append(word) else: word += lis[j][i] words.sort() print(words[0])

백준 문제풀이 · 2023-02-23

[백준, python] 4949번 - 균형잡힌 세상

백준 문제풀이 시작 문제 세계는 균형이 잘 잡혀있어야 한다. 양과 음, 빛과 어둠 그리고 왼쪽 괄호와 오른쪽 괄호처럼 말이다. 정민이의 임무는 어떤 문자열이 주어졌을 때, 괄호들의 균형이 잘 맞춰져 있는지 판단하는 프로그램을 짜는 것이다. 문자열에 포함되는 괄호는 소괄호(“()”) 와 대괄호(“[]”)로 2종류이고, 문자열이 균형을 이루는 조건은 아래와 같다. 모든 왼쪽 소괄호(“(“)는 오른쪽 소괄호(“)”)와만 짝을 이뤄야 한다. 모든 왼쪽 대괄호(“[“)는 오른쪽 대괄호(“]”)와만 짝을 이뤄야 한다. 모든 오른쪽 괄호들은 자신과 짝을 이룰 수 있는 왼쪽 괄호가 존재한다. 모든 괄호들의 짝은 1:1 매칭만 가능하다. 즉, 괄호 하나가 둘 이상의 괄호와 짝지어지지 않는다. 짝을 이루는 두 괄호가 있을 때, 그 사이에 있는 문자열도 균형이 잡혀야 한다. 정민이를 도와 문자열이 주어졌을 때 균형잡힌 문자열인지 아닌지를 판단해보자. 입력 각 문자열은 마지막 글자를 제외하고 영문 알파벳, 공백, 소괄호(“( )”), 대괄호(“[ ]”)로 이루어져 있으며, 온점(“.”)으로 끝나고, 길이는 100글자보다 작거나 같다. 입력의 종료조건으로 맨 마지막에 온점 하나(“.”)가 들어온다. 출력 각 줄마다 해당 문자열이 균형을 이루고 있으면 “yes”를, 아니면 “no”를 출력한다. 풀이 풀이 확인하기 입력받은 문자열이 .일 경우 종료, .이 아닐 경우 반복문을 통해 순회하며 [, (, ), ]를 만날 경우 상황에 따라 조건을 처리한다. [, (를 만날 경우 각각 ), ]를 짝지어 만난다면 pop, 아닐 경우 그대로 push를 한다. 그리고 stack의 길이가 0이 아닐 경우 no, 0일 경우 yes를 출력한다. import sys from functools import cmp_to_key input = sys.stdin.readline while True: inp = list(input().rstrip()) stack = [] if(inp == ["."]): break for i in inp: if(i == "[" or i == "("): stack.append(i) elif(i == "]"): if(len(stack) != 0 and stack[-1] == "["): stack.pop() else: stack.append(i) elif(i == ")"): if(len(stack) != 0 and stack[-1] == "("): stack.pop() else: stack.append(i) if(len(stack) == 0): print("yes") else: print("no") P.S. 조건문 처리 과정에서 if(stack[-1] == "["): 와 같이 줄 경우 stack의 길이가 0일 때 indexError가 발생하므로 이에 유의하여 처리해야 한다.

백준 문제풀이 · 2023-02-22

[백준, python] 1931번 - 회의실 배정

백준 문제풀이 시작 문제 한 개의 회의실이 있는데 이를 사용하고자 하는 N개의 회의에 대하여 회의실 사용표를 만들려고 한다. 각 회의 I에 대해 시작시간과 끝나는 시간이 주어져 있고, 각 회의가 겹치지 않게 하면서 회의실을 사용할 수 있는 회의의 최대 개수를 찾아보자. 단, 회의는 한번 시작하면 중간에 중단될 수 없으며 한 회의가 끝나는 것과 동시에 다음 회의가 시작될 수 있다. 회의의 시작시간과 끝나는 시간이 같을 수도 있다. 이 경우에는 시작하자마자 끝나는 것으로 생각하면 된다. 입력 첫째 줄에 회의의 수 N(1 ≤ N ≤ 100,000)이 주어진다. 둘째 줄부터 N+1 줄까지 각 회의의 정보가 주어지는데 이것은 공백을 사이에 두고 회의의 시작시간과 끝나는 시간이 주어진다. 시작 시간과 끝나는 시간은 2^31-1보다 작거나 같은 자연수 또는 0이다. 출력 첫째 줄에 최대 사용할 수 있는 회의의 최대 개수를 출력한다. 풀이 풀이 확인하기 이 문제는 인터벌 스케줄링(Interval Scheduling)으로 유명한 알고리즘을 사용해 풀 수 있다. 회의실 배정은 종료가 빨리 되는 회의를 우선시 하여 탐색하면 최적해를 얻을 수 있다. 입력으로 들어온 리스트들을 회의가 빨리 끝나는 순으로 정렬해준 뒤 리스트 탐색을 하며 가능한 경우들을 하나씩 확인하며 가능한 최대 경우를 출력한다. import sys from functools import cmp_to_key input = sys.stdin.readline num = int(input()) lis = [] for _ in range(num): a = list(map(int, input().strip().split())) lis.append(a) def cmp(a, b): if a[1] > b[1]: return 1 elif a[1] == b[1]: if a[0] > b[0]: return 1 else: return -1 else: return -1 lis.sort(key=cmp_to_key(cmp)) ans = 1 end_time = lis[0][1] for i in range(1, num): if(lis[i][0] >= end_time): end_time = lis[i][1] ans += 1 print(ans)

백준 문제풀이 · 2023-02-21

[백준, python] 9935번 - 문자열 폭발

백준 문제풀이 시작 문제 상근이는 문자열에 폭발 문자열을 심어 놓았다. 폭발 문자열이 폭발하면 그 문자는 문자열에서 사라지며, 남은 문자열은 합쳐지게 된다. 폭발은 다음과 같은 과정으로 진행된다. 문자열이 폭발 문자열을 포함하고 있는 경우에, 모든 폭발 문자열이 폭발하게 된다. 남은 문자열을 순서대로 이어 붙여 새로운 문자열을 만든다. 새로 생긴 문자열에 폭발 문자열이 포함되어 있을 수도 있다. 폭발은 폭발 문자열이 문자열에 없을 때까지 계속된다. 상근이는 모든 폭발이 끝난 후에 어떤 문자열이 남는지 구해보려고 한다. 남아있는 문자가 없는 경우가 있다. 이때는 “FRULA”를 출력한다. 폭발 문자열은 같은 문자를 두 개 이상 포함하지 않는다. 입력 첫째 줄에 문자열이 주어진다. 문자열의 길이는 1보다 크거나 같고, 1,000,000보다 작거나 같다. 둘째 줄에 폭발 문자열이 주어진다. 길이는 1보다 크거나 같고, 36보다 작거나 같다. 두 문자열은 모두 알파벳 소문자와 대문자, 숫자 0, 1, …, 9로만 이루어져 있다. 출력 첫째 줄에 모든 폭발이 끝난 후 남은 문자열을 출력한다. 풀이 풀이 확인하기 이 문제는 스택을 통해 효율적으로 문자열을 지울 수 있다. 먼저 스택을 통해 문자열을 한글자씩 push한다. 그리고 문자열의 끝 폭발 문자열의 개수만큼 비교하며 만약 문자열의 끝부분이 폭발 문자열과 동일하다면 폭발 문자열의 길이만큼 문자열에서 pop을 한 뒤, 완성된 스택을 조건에 따라 출력한다. import sys input = sys.stdin.readline lis = list(input().strip()) find = list(input().strip()) stack = [] for i in range(len(lis)): stack.append(lis[i]) if(len(stack) >= len(find)): if(stack[len(stack)-len(find):] == find): for _ in range(len(find)): stack.pop() if(len(stack) == 0): print("FRULA") else: for i in range(len(stack)): print(stack[i], end="")

백준 문제풀이 · 2023-02-17

[백준, python] 11279번 - 최대 힙

백준 문제풀이 시작 문제 널리 잘 알려진 자료구조 중 최대 힙이 있다. 최대 힙을 이용하여 다음과 같은 연산을 지원하는 프로그램을 작성하시오. 1.배열에 자연수 x를 넣는다. 2.배열에서 가장 큰 값을 출력하고, 그 값을 배열에서 제거한다. 프로그램은 처음에 비어있는 배열에서 시작하게 된다. 입력 첫째 줄에 연산의 개수 N(1 ≤ N ≤ 100,000)이 주어진다. 다음 N개의 줄에는 연산에 대한 정보를 나타내는 정수 x가 주어진다. 만약 x가 자연수라면 배열에 x라는 값을 넣는(추가하는) 연산이고, x가 0이라면 배열에서 가장 큰 값을 출력하고 그 값을 배열에서 제거하는 경우이다. 입력되는 자연수는 231보다 작다. 출력 입력에서 0이 주어진 회수만큼 답을 출력한다. 만약 배열이 비어 있는 경우인데 가장 큰 값을 출력하라고 한 경우에는 0을 출력하면 된다. 풀이 풀이 확인하기 파이썬에는 우선순위 힙을 지원하는 라이브러리가 존재한다. heapq를 import하여 사용할 것이다. 하지만 heapq는 최소 힙을 지원하므로 입맛에 맞게 최대 힙으로 바꿔야 하는데, 숫자를 push하고 pop할 때 모두 -를 붙여 입력, 출력을 해주면 최대 힙으로 바꿔줄 수 있다. import sys from heapq import * input = sys.stdin.readline num = int(input()) heap = [] len = 0 for _ in range(num): a = int(input()) if(len == 0 and a == 0): print(0) elif(a == 0): print(-heappop(heap)) len -= 1 else: heappush(heap, -a) len += 1

백준 문제풀이 · 2023-02-16

[백준, python] 10773번 - 제로

백준 문제풀이 시작 문제 나코더 기장 재민이는 동아리 회식을 준비하기 위해서 장부를 관리하는 중이다. 재현이는 재민이를 도와서 돈을 관리하는 중인데, 애석하게도 항상 정신없는 재현이는 돈을 실수로 잘못 부르는 사고를 치기 일쑤였다. 재현이는 잘못된 수를 부를 때마다 0을 외쳐서, 가장 최근에 재민이가 쓴 수를 지우게 시킨다. 재민이는 이렇게 모든 수를 받아 적은 후 그 수의 합을 알고 싶어 한다. 재민이를 도와주자! 입력 첫 번째 줄에 정수 K가 주어진다. (1 ≤ K ≤ 100,000) 이후 K개의 줄에 정수가 1개씩 주어진다. 정수는 0에서 1,000,000 사이의 값을 가지며, 정수가 “0” 일 경우에는 가장 최근에 쓴 수를 지우고, 아닐 경우 해당 수를 쓴다. 정수가 “0”일 경우에 지울 수 있는 수가 있음을 보장할 수 있다. 출력 재민이가 최종적으로 적어 낸 수의 합을 출력한다. 최종적으로 적어낸 수의 합은 231-1보다 작거나 같은 정수이다. 풀이 풀이 확인하기 이 문제는 전형적인 스택 문제이다. 파이썬은 리스트를 가지고 스택의 기능을 사용할 수 있다. 입력을 받으면서 0이면서 동시에 리스트의 길이가 0이면 continue, 리스트의 길이가 0이 아니면서 0이 입력이 되면 pop, 아닐 경우 push를 한다. 이후 리스트의 모든 값들을 더해 출력한다. import sys input = sys.stdin.readline num = int(input()) lis = [] for _ in range(num): a = int(input()) if(a == 0 and len(lis) == 0): continue elif(a == 0): lis.pop() else: lis.append(a) ans = 0 for i in lis: ans = ans + i print(ans)

백준 문제풀이 · 2023-02-15

[백준, python] 12015번 - 가장 긴 증가하는 부분 수열 2

백준 문제풀이 시작 문제 수열 A가 주어졌을 때, 가장 긴 증가하는 부분 수열을 구하는 프로그램을 작성하시오. 예를 들어, 수열 A = {10, 20, 10, 30, 20, 50} 인 경우에 가장 긴 증가하는 부분 수열은 A = {10, 20, 10, 30, 20, 50} 이고, 길이는 4이다. 입력 첫째 줄에 수열 A의 크기 N (1 ≤ N ≤ 1,000,000)이 주어진다. 둘째 줄에는 수열 A를 이루고 있는 Ai가 주어진다. (1 ≤ Ai ≤ 1,000,000) 출력 첫째 줄에 수열 A의 가장 긴 증가하는 부분 수열의 길이를 출력한다. 풀이 풀이 확인하기 이 문제는 백준 11053번과 동일한 문제로 보이지만 똑같이 코드를 짤 경우 시간 초과가 뜰 것이다. 그래서 시간을 줄일 수 있는 방법을 생각해야 한다. 기존 문제를 푸는 과정에서 매번 max 함수를 통해 값을 비교하는 과정에서 모든 뒤 숫자들을 비교하게 된다. 이는 비효율적이므로 이분 탐색을 통해 해당 수가 뒤 어디에 들어올만한지 효율적으로 찾을 수 있다. 위치를 찾은 뒤 해당 수와 수를 교체하는 과정으로 코드를 수정해주면 O(NlogN) 시간으로 문제를 해결할 수 있다. (P.S. 해당 코드의 ans는 실제 lis가 아니다.) import sys from bisect import bisect_left, bisect_right input = sys.stdin.readline f = int(input()) line = list(map(int, input().strip().split())) ans = [] lens = 1 ans.append(line[0]) for i in range(1, len(line)): if(ans[lens-1] < line[i]): ans.append(line[i]) lens += 1 else: j = bisect_left(ans, line[i]) ans[j] = line[i] print(lens)

백준 문제풀이 · 2023-02-14

백준 풀이 주요 알고리즘 정리

백준에서 문제를 풀어보니 자주 보이는 문제 유형들에 사용되는 알고리즘을 정리할 수 있을 것 같다는 생각이 들었다. 그래서 코딩 테스트, 백준 문제풀이 등에서 자주 보이던 유형들을 정리해보려고 한다. (계속 공부해 나가는 과정에서 업데이트 할 수 있다면 할 예정.) 1. 브루트포스 알고리즘 가장 단순한 방법이다. 바로 모든 경우의 수를 다 넣어보는 단순무식한 방법이다. 4자리 숫자 자물쇠 번호를 맞추는 가장 쉬운 방법이 무엇일까? 바로 0000부터 9999까지 다 넣어보면 되는 것이다. 이 방법이 바로 브루트포스 알고리즘이다. 1059번 1233번 등 문제를 브루트포스 알고리즘으로 풀 수 있다. 2. 그리디 알고리즘 그리디 알고리즘은 브루트포스 알고리즘과 비슷한 알고리즘이다. 하지만 브루트포스 알고리즘은 모든 경우를 다 본다면 그리디 알고리즘은 매 순간마다 자기에게 가장 이득이 되는 선택을 취하게 된다. 1417번 2839번 등 문제를 그리디 알고리즘으로 풀 수 있다. 3. DFS와 BFS DFS와 BFS는 그래프 탐색 알고리즘이다. DFS는 Deep-First Search의 줄임말로 그래프의 노드와 다음 노드를 넘어갈 때 해당 노드의 하위 노드까지 완벽히 탐색한 뒤 다음 노드로 넘어가는 것이다. 그리고 BFS는 Breadth-First Search의 줄임말로 그래프의 갈림길이 발생할 때마다 모든 경우를 넓게 탐색한 뒤 다음으로 넘어가게 된다. 말로는 이해가 힘들어 실제 트리를 통해 탐색 결과를 비교해보면 해당 그래프를 DFS를 통해 탐색할 경우 2 > 7 > 2 > 6 > 5 > 11 > 5 > 9 > 4 의 순서로 탐색을 진행할 것이다. 하지만 BFS로 탐색할 경우 2 > 7 > 5 > 2 > 6 > 9 > 5 > 11 > 4 의 순서로 탐색을 한다는 차이점이 있다. DFS의 구현은 일반적으로 재귀를 통하여 구현한다. def dfs(start): visited[start] = 1 print(start, end=" ") for i in graph[start]: if not visited[i]: dfs(i) 와 같은 형태로 DFS를 구현할 수 있다. BFS의 구현은 queue 자료구조를 통해 구현한다. def bfs(start): queue = [start] visited[start] = True while queue: v = queue.pop(0) print(v, end=" ") for i in graph[v]: if not visited[i]: visited[i] = True queue.append(i) 와 같은 형태로 BFS를 구현할 수 있다. DFS는 그래프의 모든 경우를 하나하나 탐색해야할 때, BFS는 그래프 내의 최단 거리를 찾아야할 때 자주 사용된다. 2644번 1260번 등 문제를 DFS 알고리즘으로 풀 수 있다. 4. 이분 탐색 이분 탐색은 오름차순으로 정렬된 리스트에서 원하는 수를 효율적으로 찾을 수 있는 알고리즘이다. 예를 들어 2, 3, 4, 7, 9, 11, 23 이란 리스트에서 3을 찾고 싶을 경우를 예시로 들자. 이분 탐색의 시작은 중앙값을 찾는 것이다. 저 리스트에서 중앙값은 7인데, 이때 7은 3보다 큼을 알 수 있다. 찾는 수가 중앙값보다 크다면 중앙보다 더 큰 값들은 탐색할 필요가 없으므로 처음부터 중앙값 전까지만 찾으면 되는 것이다. 이 방식을 반복하여 3이 두번째에 있음을 알 수 있는 것이다. 파이썬에서는 bisect 라이브러리를 통해 쉽게 구할 수 있다. 12015번 1920번 등 문제를 이분 탐색으로 풀 수 있지만, 시간 복잡도를 줄이기 위해서도 자주 쓴다. 5. 다이나믹 프로그래밍 아마 알고리즘 공부를 입문한 뒤 가장 처음으로 어려운 부분이 아닐까 싶다. 다이나믹 프로그래밍이란 시간 복잡도를 줄이기 위해 효율적으로 알고리즘을 작성하는 방법을 의미한다. 예를 들어보자. def fib(n): if n==1 or n==2: return 1 else: return fib(n-1) + fib(n-2) 피보나치 수를 구하는 파이썬 코드이다. 쉽게 짤 수 있지만 문제가 있다. 예를 들어 fib(6)을 알기 위해선 fib(4), fib(5)를 알아야 한다. 그리고 fib(4)는 다시 fib(3), fib(2)를, fib(5)는 fib(3), fib(4)를 알아야 한다. 여기서 문제가 발생한다. fib(3), fib(4)를 중복해서 구하게 되는 문제가 발생한다. 실제로 저 코드를 돌려보면 해당 문제 때문에 30 이상의 숫자는 결과를 확인하기 힘들 정도로 오래 걸림을 알 수 있다. 하지만 만약 저 겹치는 숫자들을 저장을 해둔다면 어떨까? 굳이 계산할 필요 없이 이미 구한 수는 저장한 값을 그대로 가져오기만 하면 되는 것이다. 이를 통해 비약적으로 프로그램 실행 속도를 단축할 수 있는 것이다. 이런 식으로 중복되는 연산들을 줄이자 라는 생각에서 출발한 것이 바로 다이나믹 프로그래밍인 것이다. 다이나믹 프로그래밍 방식에는 탑다운(Top-down), 바텀업(Bottom-up), 메모이제이션(Memoization) 등의 방식이 있다. 9184번 11053번 등의 문제를 다이나믹 프로그래밍으로 풀 수 있다.

백준 문제풀이 · 2023-02-13

[백준, python] 11478번 - 서로 다른 부분 문자열의 개수

백준 문제풀이 시작 문제 문자열 S가 주어졌을 때, S의 서로 다른 부분 문자열의 개수를 구하는 프로그램을 작성하시오. 부분 문자열은 S에서 연속된 일부분을 말하며, 길이가 1보다 크거나 같아야 한다. 예를 들어, ababc의 부분 문자열은 a, b, a, b, c, ab, ba, ab, bc, aba, bab, abc, abab, babc, ababc가 있고, 서로 다른것의 개수는 12개이다. 입력 첫째 줄에 문자열 S가 주어진다. S는 알파벳 소문자로만 이루어져 있고, 길이는 1,000 이하이다. 출력 첫째 줄에 S의 서로 다른 부분 문자열의 개수를 출력한다. 풀이 풀이 확인하기 이번 문제는 set을 사용하면 쉽게 풀 수 있다. set 자료형은 중복되는 값은 자동으로 들어가지 않는데, 이를 이용해 “aaa”와 같이 겹치는 요소들을 쉽게 제거할 수 있다. 이중 반복문을 통해 가능한 경우의 수의 부분 문자열들을 전부 set에 넣고, set의 요소들의 개수만 출력하면 되는 것이다. (set 자료구조는 O(1)의 시간복잡도를 가지는 매우 빠른 자료구조인데, 이 원리에 대하여 궁금하다면 hash table을 검색해보자. 참고로 파이썬의 다른 자료구조인 dictonray 역시 비슷한 구조를 가지고 있다.) import sys input = sys.stdin.readline line = input().strip() num = set([]) for i in range(0, len(line)+1): for j in range(i+1, len(line)+1): num.add(line[i:j]) print(len(num))

백준 문제풀이 · 2023-02-10

[백준, python] 11053번 - 가장 긴 증가하는 부분 수열

백준 문제풀이 시작 문제 수열 A가 주어졌을 때, 가장 긴 증가하는 부분 수열을 구하는 프로그램을 작성하시오. 예를 들어, 수열 A = {10, 20, 10, 30, 20, 50} 인 경우에 가장 긴 증가하는 부분 수열은 A = {10, 20, 10, 30, 20, 50} 이고, 길이는 4이다. 입력 첫째 줄에 수열 A의 크기 N (1 ≤ N ≤ 1,000)이 주어진다. 둘째 줄에는 수열 A를 이루고 있는 Ai가 주어진다. (1 ≤ Ai ≤ 1,000) 출력 첫째 줄에 수열 A의 가장 긴 증가하는 부분 수열의 길이를 출력한다. 풀이 풀이 확인하기 입력받는 리스트와 memoization을 위한 리스트를 만들어 주고, memoization용 리스트의 길이는 입력 리스트의 길이와 동일하게 만들고 1로 초기화해준다. 이후 반복문으로 돌면서 i번째에 존재하는 값이 j번째에 존재하는 값보다 더 크다면 memoization의 i번째와 j번째값 + 1 을 비교하여 더 큰 값으로 update한다. 이후 memoization용 리스트의 가장 큰 값이 lis의 길이가 된다. import sys input = sys.stdin.readline num = int(input()) lis = list(map(int, input().strip().split())) mem = [1 for _ in range(len(lis))] for i in range(1, len(lis)): for j in range(0, i): if(lis[i] > lis[j]): mem[i] = max(mem[i], mem[j]+1) print(max(mem))

백준 문제풀이 · 2023-02-09

[백준, python] 1912번 - 연속합

백준 문제풀이 시작 문제 n개의 정수로 이루어진 임의의 수열이 주어진다. 우리는 이 중 연속된 몇 개의 수를 선택해서 구할 수 있는 합 중 가장 큰 합을 구하려고 한다. 단, 수는 한 개 이상 선택해야 한다. 예를 들어서 10, -4, 3, 1, 5, 6, -35, 12, 21, -1 이라는 수열이 주어졌다고 하자. 여기서 정답은 12+21인 33이 정답이 된다. 입력 첫째 줄에 정수 n(1 ≤ n ≤ 100,000)이 주어지고 둘째 줄에는 n개의 정수로 이루어진 수열이 주어진다. 수는 -1,000보다 크거나 같고, 1,000보다 작거나 같은 정수이다. 출력 첫째 줄에 답을 출력한다. 풀이 풀이 확인하기 입력받는 리스트와 memoization을 위한 리스트를 만들어 주고, memoization용 리스트의 첫번째에 입력받은 리스트의 첫번째 값을 담는다. 이후 나머지는 memoization 리스트의 현재보다 한칸 전 값에 현재 값을 더한 값과 현재 값을 비교 해 더 큰 값을 담는다. 이후 memoization 리스트에서 가장 큰 값을 출력한다. num = int(input()) arr = list(map(int, input().split(" "))) mem = [0]*num mem[0] = arr[0] for i in range(1, num): mem[i] = max(arr[i], mem[i-1] + arr[i]) print(max(mem))

백준 문제풀이 · 2023-02-08

[백준, python] 1932번 - 정수 삼각형

백준 문제풀이 시작 문제 7 3 8 8 1 0 2 7 4 4 4 5 2 6 5 위 그림은 크기가 5인 정수 삼각형의 한 모습이다. 맨 위층 7부터 시작해서 아래에 있는 수 중 하나를 선택하여 아래층으로 내려올 때, 이제까지 선택된 수의 합이 최대가 되는 경로를 구하는 프로그램을 작성하라. 아래층에 있는 수는 현재 층에서 선택된 수의 대각선 왼쪽 또는 대각선 오른쪽에 있는 것 중에서만 선택할 수 있다. 삼각형의 크기는 1 이상 500 이하이다. 삼각형을 이루고 있는 각 수는 모두 정수이며, 범위는 0 이상 9999 이하이다. 입력 첫째 줄에 삼각형의 크기 n(1 ≤ n ≤ 500)이 주어지고, 둘째 줄부터 n+1번째 줄까지 정수 삼각형이 주어진다. 출력 첫째 줄에 합이 최대가 되는 경로에 있는 수의 합을 출력한다. 풀이 풀이 확인하기 이번 문제는 DP를 통해 풀 수 있다. 입력을 받은 뒤 두번째 줄부터 반복문을 통해 돌며 위치가 양 끝이라면 위에서 내려올 수 있는 곳은 하나밖에 없으므로 해당 값과 현재 위치를 더한 값으로 업데이트하고, 다른 수들은 위에서 내려올 수 있는 두 수 중 큰 값과 현재 위치를 더한 값으로 업데이트하는 과정을 반복해 내려온 뒤, 맨 밑 줄에 있는 수중 가장 큰 값을 출력한다. import sys input = sys.stdin.readline a = int(input()) data = [] for _ in range(a): data.append(list(map(int, input().strip().split()))) b = 0 for i in range(1, a): for j in range(0, len(data[i])): if(j == 0): data[i][j] = data[i-1][0] + data[i][j] elif(j == len(data[i])-1): data[i][j] = data[i-1][b-1] + data[i][j] else: data[i][j] = max(data[i-1][j-1], data[i-1][j]) + data[i][j] b = len(data[i]) print(max(data[a-1]))

백준 문제풀이 · 2023-02-07

[백준, python] 9184번 - 신나는 함수 실행

백준 문제풀이 시작 문제 재귀 호출만 생각하면 신이 난다! 아닌가요? 다음과 같은 재귀함수 w(a, b, c)가 있다. if a <= 0 or b <= 0 or c <= 0, then w(a, b, c) returns: 1 if a > 20 or b > 20 or c > 20, then w(a, b, c) returns: w(20, 20, 20) if a < b and b < c, then w(a, b, c) returns: w(a, b, c-1) + w(a, b-1, c-1) - w(a, b-1, c) otherwise it returns: w(a-1, b, c) + w(a-1, b-1, c) + w(a-1, b, c-1) - w(a-1, b-1, c-1) 위의 함수를 구현하는 것은 매우 쉽다. 하지만, 그대로 구현하면 값을 구하는데 매우 오랜 시간이 걸린다. (예를 들면, a=15, b=15, c=15) a, b, c가 주어졌을 때, w(a, b, c)를 출력하는 프로그램을 작성하시오. 입력 입력은 세 정수 a, b, c로 이루어져 있으며, 한 줄에 하나씩 주어진다. 입력의 마지막은 -1 -1 -1로 나타내며, 세 정수가 모두 -1인 경우는 입력의 마지막을 제외하면 없다. 출력 입력으로 주어진 각각의 a, b, c에 대해서, w(a, b, c)를 출력한다. 풀이 풀이 확인하기 이번 문제는 DP를 통해 풀 수 있다. 문제에서 1부터 20까지만 필요하므로 memoization을 위한 배열은 3차원으로 1부터 20까지 적을 수 있도록 크기를 만들고, 함수를 정의한다. w 함수는 문제에서 준 sudo code와 동일하게 작성하지만 memoization이 되어있는 값이라면 재귀를 통한 연산 없이 바로 반환하고, 없다면 똑같이 연산을 진행한 뒤 배열의 해당 값에 해당하는 위치에 값을 저장해둔다. import sys input = sys.stdin.readline mem = [[[0 for _ in range(21)] for _ in range(21)]for _ in range(21)] def w(a, b, c): if a <= 0 or b <= 0 or c <= 0: return 1 if a > 20 or b > 20 or c > 20: return w(20, 20, 20) if mem[a][b][c]: return mem[a][b][c] if a < b and b < c: mem[a][b][c] = w(a, b, c-1) + w(a, b-1, c-1) - w(a, b-1, c) return mem[a][b][c] else: mem[a][b][c] = w(a-1, b, c) + w(a-1, b-1, c) + w(a-1, b, c-1) - w(a-1, b-1, c-1) return mem[a][b][c] while(True): aa, bb, cc = map(int, input().split()) if(aa == -1 and bb == -1 and cc == -1): break print("w(" + str(aa) + ", " + str(bb) + ", " + str(cc) +") = ", end="") print(w(aa, bb, cc))

백준 문제풀이 · 2023-02-06

[백준, python] 1774번 - 우주신과의 교감

백준 문제풀이 시작 문제 황선자씨는 우주신과 교감을 할수 있는 채널러 이다. 하지만 우주신은 하나만 있는 것이 아니기때문에 황선자 씨는 매번 여럿의 우주신과 교감하느라 힘이 든다. 이러던 와중에 새로운 우주신들이 황선자씨를 이용하게 되었다. 하지만 위대한 우주신들은 바로 황선자씨와 연결될 필요가 없다. 이미 황선자씨와 혹은 이미 우주신끼리 교감할 수 있는 우주신들이 있기 때문에 새로운 우주신들은 그 우주신들을 거쳐서 황선자 씨와 교감을 할 수 있다. 우주신들과의 교감은 우주신들과 황선자씨 혹은 우주신들 끼리 이어진 정신적인 통로를 통해 이루어 진다. 하지만 우주신들과 교감하는 것은 힘든 일이기 때문에 황선자씨는 이런 통로들이 긴 것을 좋아하지 않는다. 왜냐하면 통로들이 길 수록 더 힘이 들기 때문이다. 또한 우리들은 3차원 좌표계로 나타낼 수 있는 세상에 살고 있지만 우주신들과 황선자씨는 2차원 좌표계로 나타낼 수 있는 세상에 살고 있다. 통로들의 길이는 2차원 좌표계상의 거리와 같다. 이미 황선자씨와 연결된, 혹은 우주신들과 연결된 통로들이 존재한다. 우리는 황선자 씨를 도와 아직 연결이 되지 않은 우주신들을 연결해 드려야 한다. 새로 만들어야 할 정신적인 통로의 길이들이 합이 최소가 되게 통로를 만들어 “빵상”을 외칠수 있게 도와주자. 입력 첫째 줄에 우주신들의 개수(N<=1,000) 이미 연결된 신들과의 통로의 개수(M<=1,000)가 주어진다. 두 번째 줄부터 N개의 줄에는 황선자를 포함하여 우주신들의 좌표가 (0<= X<=1,000,000), (0<=Y<=1,000,000)가 주어진다. 그 밑으로 M개의 줄에는 이미 연결된 통로가 주어진다. 번호는 위의 입력받은 좌표들의 순서라고 생각하면 된다. 좌표는 정수이다. 출력 첫째 줄에 만들어야 할 최소의 통로 길이를 출력하라. 출력은 소수점 둘째짜리까지 출력하여라. 풀이 풀이 확인하기 이번 문제는 최소 스패닝 문제이지만 두가지 차이점이 존재하는데 가중치가 나와있지 않다. 이미 연결된 간선이 존재한다. 라는 문제가 존재한다. 하지만 1의 경우 두 우주신 사이의 거리가 가중치가 된다. 그러므로 두 간선 사이의 가중치를 반복문을 통해 구해 edge에 추가해주면 평범한 MST 문제가 된다. 2번 역시 그저 나온 두 우주신들을 union 연산만 해주면 된다. import sys input = sys.stdin.readline def find(p, a): if(p[a] != a): p[a] = find(p, p[a]) return p[a] def union(p, a, b): a = find(p, a) b = find(p, b) if(a < b): p[b] = a else: p[a] = b v, e = map(int, input().split()) p = [0] * (v + 1) edge = [] cost = 0.0 for i in range(1, v+1): p[i] = i data = [] for _ in range(v): a, b = map(int, input().split()) data.append([a, b]) for i in range(len(data)): for j in range(i+1, len(data)): costs = abs(((data[j][1] - data[i][1])**2 + (data[j][0] - data[i][0])**2)**(1/2)) edge.append((costs, i+1, j+1)) for _ in range(e): f, g = map(int, input().split()) union(p, f, g) edge.sort() for ed in edge: c, a, b = ed if(find(p, a) != find(p, b)): union(p, a, b) cost += c print("{:.2f}".format(cost)) P.S. 문제 내용이 정말 스펙타클하군요…

백준 문제풀이 · 2023-01-30

[백준, python] 6800번 - Huffman Encoding

백준 문제풀이 시작 문제 There is an ingenious text-compression algorithm called Huffman coding, designed by David Huffman in 1952. The basic idea is that each character is associated with a binary sequence (i.e., a sequence of 0s and 1s). These binary sequences satisfy the prefix-free property: a binary sequence for one character is never a prefix of another character’s binary sequence. It is worth noting that to construct a prefix-free binary sequence, simply put the characters as the leaves of a binary tree, and label the “left” edge as 0 and the ”right” edge as 1. The path from the root to a leaf node forms the code for the character at that leaf node. For example, the following binary tree constructs a prefix-free binary sequence for the characters {A, B, C, D, E}: That is, A is encoded as 00, B is encoded as 01, C is encoded as 10, D is encoded as 110 and E is encoded as 111. The benefit of a set of codes having the prefix-free property is that any sequence of these codes can be uniquely decoded into the original characters. Your task is to read a Huffman code (i.e., a set of characters and associated binary sequences) along with a binary sequence, and decode the binary sequence to its character representation. 입력 The first line of input will be an integer k (1 ≤ k ≤ 20), representing the number of characters and associated codes. The next k lines each contain a single character, followed by a space, followed by the binary sequence (of length at most 10) representing the associated code of that character. You may assume that the character is an alphabet character (i.e., ‘a’…‘z’ and ‘A’..‘Z’). You may assume that the sequence of binary codes has the prefix-free property. On the k + 2nd line is the binary sequence which is to be decoded. You may assume the binary sequence contains codes associated with the given characters, and that the k + 2nd line contains no more than 250 binary digits. 출력 On one line, output the characters that correspond to the given binary sequence. 풀이 풀이 확인하기 입력을 받은 뒤 binary sequence를 key로 가지는 dictionary를 만든다. 그리고 0과 1로 이뤄진 문자열을 받아 queue로 만들어 하나씩 pop을 하면서 해당 데이터가 dictionary에 없다면 다시 pop해서 더하고, 해당 데이터가 dictionary에 있으면 변환을 하여 정답 문자열에 더한 뒤 pop한 데이터들을 전부 초기화해주는 과정을 반복한다. import sys from collections import deque input = sys.stdin.readline num = int(input()) data = {} for _ in range(num): a = input().strip().split() data[a[1]] = a[0] encode = deque(input().strip()) temp = "" ans = "" while True: temp = temp + encode.popleft() if temp in data: ans = ans + data[temp] temp = "" if(len(encode) == 0): break print(ans)

백준 문제풀이 · 2023-01-26

[백준, python] 14621번 - 나만 안되는 연애

백준 문제풀이 시작 문제 깽미는 24살 모태솔로이다. 깽미는 대마법사가 될 순 없다며 자신의 프로그래밍 능력을 이용하여 미팅 어플리케이션을 만들기로 결심했다. 미팅 앱은 대학생을 타겟으로 만들어졌으며 대학교간의 도로 데이터를 수집하여 만들었다. 이 앱은 사용자들을 위해 사심 경로를 제공한다. 이 경로는 3가지 특징을 가지고 있다. 사심 경로는 사용자들의 사심을 만족시키기 위해 남초 대학교와 여초 대학교들을 연결하는 도로로만 이루어져 있다. 사용자들이 다양한 사람과 미팅할 수 있도록 어떤 대학교에서든 모든 대학교로 이동이 가능한 경로이다. 시간을 낭비하지 않고 미팅할 수 있도록 이 경로의 길이는 최단 거리가 되어야 한다. 만약 도로 데이터가 만약 왼쪽의 그림과 같다면, 오른쪽 그림의 보라색 선과 같이 경로를 구성하면 위의 3가지 조건을 만족하는 경로를 만들 수 있다. 이때, 주어지는 거리 데이터를 이용하여 사심 경로의 길이를 구해보자. 입력 입력의 첫째 줄에 학교의 수 N와 학교를 연결하는 도로의 개수 M이 주어진다. (2 ≤ N ≤ 1,000) (1 ≤ M ≤ 10,000) 둘째 줄에 각 학교가 남초 대학교라면 M, 여초 대학교라면 W이 주어진다. 다음 M개의 줄에 u v d가 주어지며 u학교와 v학교가 연결되어 있으며 이 거리는 d임을 나타낸다. (1 ≤ u, v ≤ N) , (1 ≤ d ≤ 1,000) 출력 깽미가 만든 앱의 경로 길이를 출력한다. (모든 학교를 연결하는 경로가 없을 경우 -1을 출력한다.) 풀이 풀이 확인하기 이번 문제는 1197번 문제와 거의 동일하다. 해당 링크.를 참조하자. 여기서 다른 점은 edge 추가 과정에서 edge가 연결하는 두 vertex가 둘 다 M이거나 W일 경우 추가하지 않고, 또한 MST를 만든 뒤 edge의 수가 vertex의 수 - 1가 아닐 경우 모든 학교가 연결되어있지 않다는 뜻이므로 -1을 출력한다. import sys input = sys.stdin.readline def find(p, a): if(p[a] != a): p[a] = find(p, p[a]) return p[a] def union(p, a, b): a = find(p, a) b = find(p, b) if(a < b): p[b] = a else: p[a] = b v, e = map(int, input().split()) p = [0] * (v + 1) edge = [] cost = 0 s = 0 for i in range(1, v+1): p[i] = i lis = input().strip().split() for _ in range(e): a, b, c = map(int, input().split()) if(lis[a-1] != lis[b-1]): edge.append((c, a, b)) edge.sort() for ed in edge: c, a, b = ed if(find(p, a) != find(p, b)): union(p, a, b) cost += c s+=1 if(s != v-1): print(-1) else: print(cost)

백준 문제풀이 · 2023-01-26

[백준, python] 1197번 - 최소 스패닝 트리

백준 문제풀이 시작 문제 그래프가 주어졌을 때, 그 그래프의 최소 스패닝 트리를 구하는 프로그램을 작성하시오. 최소 스패닝 트리는, 주어진 그래프의 모든 정점들을 연결하는 부분 그래프 중에서 그 가중치의 합이 최소인 트리를 말한다. 입력 첫째 줄에 정점의 개수 V(1 ≤ V ≤ 10,000)와 간선의 개수 E(1 ≤ E ≤ 100,000)가 주어진다. 다음 E개의 줄에는 각 간선에 대한 정보를 나타내는 세 정수 A, B, C가 주어진다. 이는 A번 정점과 B번 정점이 가중치 C인 간선으로 연결되어 있다는 의미이다. C는 음수일 수도 있으며, 절댓값이 1,000,000을 넘지 않는다. 그래프의 정점은 1번부터 V번까지 번호가 매겨져 있고, 임의의 두 정점 사이에 경로가 있다. 최소 스패닝 트리의 가중치가 -2,147,483,648보다 크거나 같고, 2,147,483,647보다 작거나 같은 데이터만 입력으로 주어진다. 출력 첫째 줄에 최소 스패닝 트리의 가중치를 출력한다. 풀이 풀이 확인하기 해당 문제는 최소 스패닝 트리(MST)인지 확인하는 문제이다. MST를 구하기 위해 사용하는 알고리즘이 크루스칼 알고리즘(Kruskal Algorithm)인데, 이는 즉 해당 문제가 크루스칼 알고리즘을 구현하는 문제라고 볼 수 있는 것이다. 크루스칼 알고리즘을 위해 cycle을 판단하는 구조인 union-find 구조를 구현하고, 형태에 맞게 입력을 받은 뒤, 입력받은 edge를 가중치를 기준으로 오름차순 정렬을 해준다. 그리고 edge를 순회하며 만약 해당 edge를 추가했을 때 cycle이 발생하지 않는다면 해당 edge를 union하며 값을 추가한다. (cycle이 발생하면 edge를 하나 삭제함으로써 가중치를 줄일 수 있기 때문.) import sys input = sys.stdin.readline def find(p, a): if(p[a] != a): p[a] = find(p, p[a]) return p[a] def union(p, a, b): a = find(p, a) b = find(p, b) if(a < b): p[b] = a else: p[a] = b v, e = map(int, input().split()) p = [0] * (v + 1) edge = [] cost = 0 for i in range(1, v+1): p[i] = i for _ in range(e): a, b, c = map(int, input().split()) edge.append((c, a, b)) edge.sort() for ed in edge: c, a, b = ed if(find(p, a) != find(p, b)): union(p, a, b) cost += c print(cost)

백준 문제풀이 · 2023-01-25

[백준, python] 1002번 - 터렛

백준 문제풀이 시작 문제 조규현과 백승환은 터렛에 근무하는 직원이다. 하지만 워낙 존재감이 없어서 인구수는 차지하지 않는다. 다음은 조규현과 백승환의 사진이다. 이석원은 조규현과 백승환에게 상대편 마린(류재명)의 위치를 계산하라는 명령을 내렸다. 조규현과 백승환은 각각 자신의 터렛 위치에서 현재 적까지의 거리를 계산했다. 조규현의 좌표 (x1, y1)와 백승환의 좌표 (x2, y2)가 주어지고, 조규현이 계산한 류재명과의 거리 r1과 백승환이 계산한 류재명과의 거리 r2가 주어졌을 때, 류재명이 있을 수 있는 좌표의 수를 출력하는 프로그램을 작성하시오. 입력 첫째 줄에 테스트 케이스의 개수 T가 주어진다. 각 테스트 케이스는 다음과 같이 이루어져 있다. 한 줄에 x1, y1, r1, x2, y2, r2가 주어진다. x1, y1, x2, y2는 -10,000보다 크거나 같고, 10,000보다 작거나 같은 정수이고, r1, r2는 10,000보다 작거나 같은 자연수이다. 출력 각 테스트 케이스마다 류재명이 있을 수 있는 위치의 수를 출력한다. 만약 류재명이 있을 수 있는 위치의 개수가 무한대일 경우에는 -1을 출력한다. 풀이 풀이 확인하기 해당 문제에서 조규현과 백승환의 위치를 원의 중점, 류재명까지의 각각의 거리를 반지름, 그리고 류재명의 위치라 원의 교점이라고 바꾸면 문제가 쉽게 풀린다. 원의 교점이 발생하는 경우는 원이 같을 경우 교점은 -1 원이 외접할 경우 교점은 1 원이 내접할 경우 교점은 1 원이 밖에 떨어져 있으면 교점은 0 원이 안에 있으면 교점은 0 그 외에는 2 로 생각할 수 있다. 이를 조건에 따라 잘 분기해주면 풀 수 있다. import sys input = sys.stdin.readline num = int(input()) for _ in range(num): a = list(map(int, input().strip().split(' '))) dist = abs((((a[4]- a[1])**2) + ((a[3]- a[0])**2)) ** (1/2)) maxd = 0 mind = 0 if(a[5]>a[2]): maxd = a[5] mind = a[2] else: maxd = a[2] mind = a[5] if(dist == 0 and maxd == mind): print(-1) elif(maxd + mind == dist): print(1) elif(maxd - mind == dist): print(1) elif(maxd + mind < dist): print(0) elif(dist + mind < maxd): print(0) else: print(2)

백준 문제풀이 · 2023-01-20

[백준, python] 16139번 - 인간 - 컴퓨터 상호작용

백준 문제풀이 시작 문제 승재는 인간-컴퓨터 상호작용에서 생체공학 설계를 공부하다가 키보드 자판이 실용적인지 궁금해졌다. 이를 알아보기 위해 승재는 다음과 같은 생각을 했다. ‘문자열에서 특정 알파벳이 몇 번 나타나는지 알아봐서 자주 나타나는 알파벳이 중지나 검지 위치에 오는 알파벳인지 확인하면 실용적인지 확인할 수 있을 것이다.’ 승재를 도와 특정 문자열 $S$, 특정 알파벳 $\alpha$와 문자열의 구간 $[l,r]$이 주어지면 $S$의 $l$번째 문자부터 $r$번째 문자 사이에 $\alpha$가 몇 번 나타나는지 구하는 프로그램을 작성하여라. 승재는 문자열의 문자는 $0$번째부터 세며, $l$번째와 $r$번째 문자를 포함해서 생각한다. 주의할 점은 승재는 호기심이 많기에 (통계적으로 크게 무의미하지만) 같은 문자열을 두고 질문을 $q$번 할 것이다. 입력 첫 줄에 문자열 $S$가 주어진다. 문자열의 길이는 200,000자 이하이며 알파벳 소문자로만 구성되었다. 두 번째 줄에는 질문의 수 $q$가 주어지며, 문제의 수는 1 $\leq q\leq$ 200,000을 만족한다. 세 번째 줄부터 ($q$+2)번째 줄에는 질문이 주어진다. 각 질문은 알파벳 소문자 $\alpha_i$와 $0\leq l_i\leq r_i<|S|$를 만족하는 정수 $l_i,r_i$가 공백으로 구분되어 주어진다. 출력 각 질문마다 줄을 구분해 순서대로 답변한다. $i$번째 줄에 $S$의 $l_i$번째 문자부터 $r_i$번째 문자 사이에 $\alpha_i$가 나타나는 횟수를 출력한다. 풀이 풀이 확인하기 해당 문제를 풀면서 알파벳을 입력받았을 때 얼마나 있는지 문자열을 그때그때 전부 순회하여 찾으면 O(N)의 시간이 걸리게 된다. 그러므로 좀 더 빠르게 계산을 하는 방법이 필요한데, 누적합을 사용하면 계산을 O(1) 시간 내에 계산할 수 있다. 누적합을 구하기 위해 배열을 하나 만든다. 그리고 배열에서 문자열을 순회하며 해당 알파벳이 나올 때마다 1씩 더해 계속 append 해준다. 그러면 몇번째 글자까지 해당 알파벳이 얼마나 나왔는지 알 수 있을 것이다. 하지만 문제에서는 특정 구간을 구해야 하는데, 이때 예를 들어 A[i, j]를 구하고 싶다면 누적합 배열을 B라 가정하면 B[j+1] - B[i]를 계산해주면 바로 구할 수 있다. import sys input = sys.stdin.readline string = list(input().rstrip()) num = int(input()) ans = {} for i in range(97, 123): temp = 0 sum = [0] for j in string: if(chr(i) == j): temp += 1 sum.append(temp) ans[chr(i)] = sum for _ in range(num): inp = input().rstrip().split(' ') sys.stdout.write(str(ans[inp[0]][int(inp[2])+1] - ans[inp[0]][int(inp[1])]) + '\n')

백준 문제풀이 · 2023-01-19

[백준, python] 1629번 - 곱셈

백준 문제풀이 시작 문제 자연수 A를 B번 곱한 수를 알고 싶다. 단 구하려는 수가 매우 커질 수 있으므로 이를 C로 나눈 나머지를 구하는 프로그램을 작성하시오. 입력 첫째 줄에 A, B, C가 빈 칸을 사이에 두고 순서대로 주어진다. A, B, C는 모두 2,147,483,647 이하의 자연수이다. 출력 첫째 줄에 A를 B번 곱한 수를 C로 나눈 나머지를 출력한다. 풀이 풀이 확인하기 문제를 얼핏 보면 매우 쉬운 문제같지만 시간 제한에 주목하면 평범한 방식으로는 절대 통과하지 못함을 알 수 있다. 그래서 우리는 중고등학교에서 배웠던 지수법칙을 응용할 것이다. 이때 지수법칙이란 ${x^n}\times{x^m} = {x^{n+m}}$ 인데 이를 제곱 식에 맞게 잘 응용하면 \[{x^n}= \begin{cases} x^{\frac{x}{2}}\times x^{\frac{x}{2}} & \text{if } \,\, n \% 2 = 0, \\ x^{\frac{x}{2}}\times x^{\frac{x}{2}}\times {x^1} & \text{if } \,\, n \% 2 = 1 . \end{cases}\] 의 형태로 바꿀 수 있다. 이렇게 계산을 할 경우 기존 거듭제곱보다 훨씬 적은 양의 계산만 가지고도 거듭제곱을 풀 수 있다. 이를 프로그램에 옮겨 문제가 원하는 요구사항대로 출력하면 풀 수 있다. import sys input = sys.stdin.readline def mul(a, b, c): if (b == 1): return a % c else: s = mul(a, b//2, c) x = s*s if(b % 2 == 0): return x % c else: return (x * mul(a, 1, c)) % c a, b, c = map(int, input().split(" ")) print(mul(a, b, c)) P.S. 원래는 문제를 풀 때 mul 함수에선 거듭제곱만 구하고 이후 마지막 수로 나눈 나머지를 구했는데, 이렇게 할 경우 시간 초과가 발생한다. 그래서 함수 내에 옮기니까 시간 제한이 걸리지 않고 통과함을 알 수 있었다. 왜 그런지는 찾아보아야 할 듯 하다.

백준 문제풀이 · 2023-01-18

[백준, python] 5430번 - AC

백준 문제풀이 시작 문제 선영이는 주말에 할 일이 없어서 새로운 언어 AC를 만들었다. AC는 정수 배열에 연산을 하기 위해 만든 언어이다. 이 언어에는 두 가지 함수 R(뒤집기)과 D(버리기)가 있다. 함수 R은 배열에 있는 수의 순서를 뒤집는 함수이고, D는 첫 번째 수를 버리는 함수이다. 배열이 비어있는데 D를 사용한 경우에는 에러가 발생한다. 함수는 조합해서 한 번에 사용할 수 있다. 예를 들어, “AB”는 A를 수행한 다음에 바로 이어서 B를 수행하는 함수이다. 예를 들어, “RDD”는 배열을 뒤집은 다음 처음 두 수를 버리는 함수이다. 배열의 초기값과 수행할 함수가 주어졌을 때, 최종 결과를 구하는 프로그램을 작성하시오. 입력 첫째 줄에 테스트 케이스의 개수 T가 주어진다. T는 최대 100이다. 각 테스트 케이스의 첫째 줄에는 수행할 함수 p가 주어진다. p의 길이는 1보다 크거나 같고, 100,000보다 작거나 같다. 다음 줄에는 배열에 들어있는 수의 개수 n이 주어진다. (0 ≤ n ≤ 100,000) 다음 줄에는 [x1, … ,xn]과 같은 형태로 배열에 들어있는 정수가 주어진다. (1 ≤ xi ≤ 100) 전체 테스트 케이스에 주어지는 p의 길이의 합과 n의 합은 70만을 넘지 않는다. 출력 각 테스트 케이스에 대해서, 입력으로 주어진 정수 배열에 함수를 수행한 결과를 출력한다. 만약, 에러가 발생한 경우에는 error를 출력한다. 풀이 풀이 확인하기 해당 문제를 풀며 R을 만나는 순간마다 뒤집을 경우 큰 문제가 발생한다. reverse 함수를 사용하면 리스트를 새로 다시 만든다고 생각하면 된다. 이렇게 되면 만약 예를 들어 RRRRRRRRRRRRR과 같이 R을 많이 쓸 경우 엄청난 시간 문제가 발생할 것이다. 그러므로 R을 마주칠 때마다 몇번 뒤집는지 계산하고, 이후 뒤집는 수가 홀수면 뒤집고, 아니면 안뒤집으면 한번만 뒤집으면 된다. 이 과정에서 D를 만났을 때 처리가 애매해지는데, 무작정 앞에서부터 지우면 RD같은 경우에 문제가 발생할 것이다. 그러므로 뒤집는 수를 여기서 다시 확인해서 홀수면 뒤집을 것이므로 맨 뒤에서, 짝수면 안뒤집으므로 맨 앞에서 pop을 한다. 이 때문에 우린 deque을 사용할 것이다. 또한 확인해줘야하는 요소가 일부 있는데, 먼저 리스트의 0의 경우 D는 불가능하지만 R은 가능하다. 그러므로 0이라고 무작정 error를 출력하는 것이 아닌 []로 리스트를 만들어줘야 한다. 그리고 출력을 잘 봐야 하는데, [1,2]처럼 리스트 사이에 공백이 존재하지 않는다. 그러므로 바로 리스트를 int형으로 바꿔 출력하면 안되고 join 함수를 사용하여 공백을 적절히 처리해준다. import sys from collections import deque input = sys.stdin.readline num = int(input()) answer = [] for _ in range(num): is_Error = False command = input().rstrip() num1 = int(input()) lis = input().replace('[', ',').replace(']', ',').rstrip().split(',')[1:-1] if(num1 == 0): lis = [] else: lis = deque(map(int,lis)) is_reverse = 0 for i in command: if(i == "R"): is_reverse += 1 elif(i == "D"): if(len(lis) == 0): is_Error = True break else: if(is_reverse % 2 == 1): lis.pop() else: lis.popleft() if(is_Error): print('error') else: if(is_reverse % 2 == 1): lis.reverse() print('['+','.join(map(str, lis))+']')

백준 문제풀이 · 2023-01-17

[백준, python] 22233번 - 가희와 키워드

백준 문제풀이 시작 문제 가희는 블로그를 운영하고 있습니다. 가희는 블로그에 글을 쓰기 위해, 메모장에 키워드를 적곤 합니다. 지금까지 메모장에 써진 키워드는 모두 서로 다르며, 총 N개가 존재합니다. 가희는 새로운 글을 작성할 때, 최대 10개의 키워드에 대해서 글을 작성합니다. 이 키워드들 중에 메모장에 있었던 키워드는 가희가 글을 쓴 이후, 메모장에서 지워지게 됩니다. 가희는 블로그에 글을 쓰고 나서, 메모장에 있는 키워드 개수가 몇 개인지 알고 싶습니다. 가희를 도와주세요. 입력 첫 번째 줄에 가희가 메모장에 적은 키워드 개수 N, 가희가 블로그에 쓴 글의 개수 M이 공백으로 구분해서 주어집니다. 2번째 줄부터 N+1번째 줄까지 메모장에 적은 키워드 N개가 주어집니다. N+2번째 줄부터 N+M+1번째 줄까지, 가희가 쓴 글과 관련된 키워드가 , (쉼표)로 구분해서 주어집니다. 공백으로 구분되지 않음을 유의해 주세요. 출력 x번째 줄에는 x번째 글을 쓰고 난 후에 메모장에 남아 있는 키워드의 개수를 출력해 주세요. 풀이 풀이 확인하기 입력을 받은 뒤 dictionary에 입력받은 키워드들을 담는다. 이후 사용한 키워드들이 주어질 때 요소들이 dictionary에 있다면 제거하고 남은 키워드들의 개수를 따로 담아 출력한다. import sys input = sys.stdin.readline num1, num2 = map(int, input().strip().split(' ')) line = {} answer = [] for _ in range(num1): a = input().strip() line[a] = "" for _ in range(num2): unused = 0 b = input().strip().split(',') for i in range(0, len(b)): if b[i] in line: del line[b[i]] answer.append(len(line)) for i in answer: print(i)

백준 문제풀이 · 2023-01-16

[백준, python] 9996번 - 한국이 그리울 땐 서버에 접속하지

백준 문제풀이 시작 문제 선영이는 이번 학기에 오스트레일리아로 교환 학생을 가게 되었다. 호주에 도착하고 처음 며칠은 한국 생각을 잊으면서 즐겁게 지냈다. 몇 주가 지나니 한국이 그리워지기 시작했다. 선영이는 한국에 두고온 서버에 접속해서 디렉토리 안에 들어있는 파일 이름을 보면서 그리움을 잊기로 했다. 매일 밤, 파일 이름을 보면서 파일 하나하나에 얽힌 사연을 기억하면서 한국을 생각하고 있었다. 어느 날이었다. 한국에 있는 서버가 망가졌고, 그 결과 특정 패턴과 일치하는 파일 이름을 적절히 출력하지 못하는 버그가 생겼다. 패턴은 알파벳 소문자 여러 개와 별표(*) 하나로 이루어진 문자열이다. 파일 이름이 패턴에 일치하려면, 패턴에 있는 별표를 알파벳 소문자로 이루어진 임의의 문자열로 변환해 파일 이름과 같게 만들 수 있어야 한다. 별표는 빈 문자열로 바꿀 수도 있다. 예를 들어, “abcd”, “ad”, “anestonestod”는 모두 패턴 “a*d”와 일치한다. 하지만, “bcd”는 일치하지 않는다. 패턴과 파일 이름이 모두 주어졌을 때, 각각의 파일 이름이 패턴과 일치하는지 아닌지를 구하는 프로그램을 작성하시오. 입력 첫째 줄에 파일의 개수 N이 주어진다. (1 ≤ N ≤ 100) 둘째 줄에는 패턴이 주어진다. 패턴은 알파벳 소문자와 별표(아스키값 42) 한 개로 이루어져 있다. 문자열의 길이는 100을 넘지 않으며, 별표는 문자열의 시작과 끝에 있지 않다. 출력 총 N개의 줄에 걸쳐서, 입력으로 주어진 i번째 파일 이름이 패턴과 일치하면 “DA”, 일치하지 않으면 “NE”를 출력한다. 참고로, “DA”는 크로아티어어로 “YES”를, “NE”는 “NO”를 의미한다. 풀이 풀이 확인하기 해당 문제는 정규식으로 풀면 쉽게 풀 수 있다. 입력받은 뒤 정규식으로 변환하고, 이후 입력받은 뒤 매칭을 시켜 매칭시킨 결과가 입력받은 문자와 동일하면 DA, 아니면 NE를 출력하도록 한다. import re import sys input = sys.stdin.readline num = int(input()) toFind = input().strip().split("*") reg1 = toFind[0]+".*"+toFind[1]+"+" reg = re.compile(reg1) lis = [] for _ in range(num): b = input().strip() a = reg.match(b) if(a and a.group() == b): print("DA") else: print("NE")

백준 문제풀이 · 2023-01-12

[백준, python] 18870번 - 좌표 압축

백준 문제풀이 시작 문제 수직선 위에 N개의 좌표 X1, X2, …, XN이 있다. 이 좌표에 좌표 압축을 적용하려고 한다. Xi를 좌표 압축한 결과 X’i의 값은 Xi > Xj를 만족하는 서로 다른 좌표의 개수와 같아야 한다. X1, X2, …, XN에 좌표 압축을 적용한 결과 X’1, X’2, …, X’N를 출력해보자. 입력 첫째 줄에 N이 주어진다. 둘째 줄에는 공백 한 칸으로 구분된 X1, X2, …, XN이 주어진다. 출력 첫째 줄에 X’1, X’2, …, X’N을 공백 한 칸으로 구분해서 출력한다. 풀이 풀이 확인하기 입력을 받은 뒤 리스트를 복사하고, 해당 리스트를 set으로 바꿔 중복되는 요소를 지우고, 다시 리스트로 바꾼 뒤 해당 리스트를 정렬해서 순서를 추출했다. 이후 기존 리스트와 순서를 비교하여 출력한다. 이때 비교를 하는 과정에서 그냥 반복문으로 비교하면 시간 초과가 발생하므로 이분 탐색으로 비교한다. import sys import copy input = sys.stdin.readline num = int(input()) lis = list(map(int, input().strip().split(" "))) lis2 = copy.deepcopy(lis) lis2 = list(set(lis2)) lis2.sort() for i in range(0, len(lis)): left = 0 right = len(lis2)-1 while(left <= right): mid = (left+right)//2 if (lis2[mid] == lis[i]): print(mid) break elif (lis2[mid]>lis[i]): right = mid-1 else: left = mid+1 P.S. 지금 보니 복사 이후 set으로 바꾸고 다시 리스트로 바꾸는 과정이 매우 비효율적인 것 같다. 입력받는 과정에서 저장을 딕셔너리로 저장한 뒤 key값만 추출하면 조금 더 빠르게 할 수 있지 않을까 싶다.

백준 문제풀이 · 2023-01-12

[백준, python] 7785번 - 회사에 있는 사람

백준 문제풀이 시작 문제 상근이는 세계적인 소프트웨어 회사 기글에서 일한다. 이 회사의 가장 큰 특징은 자유로운 출퇴근 시간이다. 따라서, 직원들은 반드시 9시부터 6시까지 회사에 있지 않아도 된다. 각 직원은 자기가 원할 때 출근할 수 있고, 아무때나 퇴근할 수 있다. 상근이는 모든 사람의 출입카드 시스템의 로그를 가지고 있다. 이 로그는 어떤 사람이 회사에 들어왔는지, 나갔는지가 기록되어져 있다. 로그가 주어졌을 때, 현재 회사에 있는 모든 사람을 구하는 프로그램을 작성하시오. 입력 첫째 줄에 로그에 기록된 출입 기록의 수 n이 주어진다. (2 ≤ n ≤ 10^6) 다음 n개의 줄에는 출입 기록이 순서대로 주어지며, 각 사람의 이름이 주어지고 “enter”나 “leave”가 주어진다. “enter”인 경우는 출근, “leave”인 경우는 퇴근이다. 회사에는 동명이인이 없으며, 대소문자가 다른 경우에는 다른 이름이다. 사람들의 이름은 알파벳 대소문자로 구성된 5글자 이하의 문자열이다. 출력 현재 회사에 있는 사람의 이름을 사전 순의 역순으로 한 줄에 한 명씩 출력한다. 풀이 풀이 확인하기 파이썬에서 자체 제공하는 딕셔너리를 사용하여 문제를 해결했다. 딕셔너리의 key값에 이름, value에 enter 또는 leave를 입력받아 저장하고, 딕셔너리를 순회하며 value가 enter인 key만 리스트로 가져와 정렬하고 출력한다. import sys input = sys.stdin.readline company = {} num = int(input()) for _ in range(num): people = input().strip().split(" ") company[people[0]] = people[1] ans = [] for i in company: if(company[i] == "enter"): ans.append(i) ans.sort(reverse=True) for i in range(len(ans)): print(ans[i])

백준 문제풀이 · 2023-01-11

[백준, python] 1448번 - 삼각형 만들기

백준 문제풀이 시작 문제 세준이는 N개의 빨대를 가지고 있다. N개의 빨대 중에 3개의 빨대를 선택했을 때, 이 빨대로 삼각형을 만들 수 있다면, 세 변의 길이의 합의 최댓값을 구하고 싶다. 입력 첫째 줄에 빨대의 개수 N이 주어진다. N은 3보다 크거나 같고, 1,000,000보다 작거나 같은 자연수이다. 둘째 줄부터 N개의 줄에 빨대의 길이가 한 줄에 하나씩 주어진다. 빨대의 길이는 1,000,000보다 작거나 같은 자연수이다. 각 사람의 부모는 최대 한 명만 주어진다. 출력 첫째 줄에 삼각형 세 변의 길이의 합의 최댓값을 출력한다. 만약 삼각형을 만들 수 없으면 -1을 출력한다. 풀이 풀이 확인하기 삼각형은 가장 큰 변을 제외한 두 변의 합이 가장 큰 변의 크기보다 커야 한다. 리스트를 입력받아 내림차순으로 정렬한 뒤 두번째, 세번째 요소를 더한 값이 첫번째 요소보다 작거나 같다면 다음으로, 크다면 결과를 저장한다. import sys input = sys.stdin.readline num = int(input()) lis = [] for _ in range(0, num): a = int(input()) lis.append(a) lis.sort(reverse=True) ans = -1 is_Find = False for i in range(0, len(lis)-2): if(lis[i] < (lis[i+1] + lis[i+2])): ans = lis[i] + lis[i+1] + lis[i+2] break print(ans)

백준 문제풀이 · 2023-01-10

[백준, python] 2644번 - 촌수 계산

백준 문제풀이 시작 문제 우리 나라는 가족 혹은 친척들 사이의 관계를 촌수라는 단위로 표현하는 독특한 문화를 가지고 있다. 이러한 촌수는 다음과 같은 방식으로 계산된다. 기본적으로 부모와 자식 사이를 1촌으로 정의하고 이로부터 사람들 간의 촌수를 계산한다. 예를 들면 나와 아버지, 아버지와 할아버지는 각각 1촌으로 나와 할아버지는 2촌이 되고, 아버지 형제들과 할아버지는 1촌, 나와 아버지 형제들과는 3촌이 된다. 여러 사람들에 대한 부모 자식들 간의 관계가 주어졌을 때, 주어진 두 사람의 촌수를 계산하는 프로그램을 작성하시오. 입력 사람들은 1, 2, 3, …, n (1 ≤ n ≤ 100)의 연속된 번호로 각각 표시된다. 입력 파일의 첫째 줄에는 전체 사람의 수 n이 주어지고, 둘째 줄에는 촌수를 계산해야 하는 서로 다른 두 사람의 번호가 주어진다. 그리고 셋째 줄에는 부모 자식들 간의 관계의 개수 m이 주어진다. 넷째 줄부터는 부모 자식간의 관계를 나타내는 두 번호 x,y가 각 줄에 나온다. 이때 앞에 나오는 번호 x는 뒤에 나오는 정수 y의 부모 번호를 나타낸다. 각 사람의 부모는 최대 한 명만 주어진다. 출력 입력에서 요구한 두 사람의 촌수를 나타내는 정수를 출력한다. 어떤 경우에는 두 사람의 친척 관계가 전혀 없어 촌수를 계산할 수 없을 때가 있다. 이때에는 -1을 출력해야 한다. 풀이 풀이 확인하기 해당 문제는 dfs 함수 내에서 재귀적으로 연산을 하였다. 입력을 받은 뒤 정답 리스트를 만들고, 방문이 이뤄질 때마다 방문 수를 증가시키고, 사람을 찾을 경우 리스트에 방문 수를 담는다. import sys input = sys.stdin.readline vertex = int(input()) people1, people2 = map(int, input().split(' ')) edge = int(input()) graph = [[] for _ in range(vertex + 1)] visited = [0] * (vertex + 1) for _ in range(edge): a, b = map(int, input().split()) graph[a].append(b) graph[b].append(a) ans = [] def dfs(start, num): num+=1 visited[start] = 1 if(people2 == start): ans.append(num) for i in graph[start]: if not visited[i]: dfs(i, num) dfs(people1, 0) if(len(ans) != 0): print(ans) else: print(-1)

백준 문제풀이 · 2023-01-09

[백준, python] 5567번 - 결혼식

백준 문제풀이 시작 문제 상근이는 자신의 결혼식에 학교 동기 중 자신의 친구와 친구의 친구를 초대하기로 했다. 상근이의 동기는 모두 N명이고, 이 학생들의 학번은 모두 1부터 N까지이다. 상근이의 학번은 1이다. 상근이는 동기들의 친구 관계를 모두 조사한 리스트를 가지고 있다. 이 리스트를 바탕으로 결혼식에 초대할 사람의 수를 구하는 프로그램을 작성하시오. 입력 첫째 줄에 상근이의 동기의 수 n (2 ≤ n ≤ 500)이 주어진다. 둘째 줄에는 리스트의 길이 m (1 ≤ m ≤ 10000)이 주어진다. 다음 줄부터 m개 줄에는 친구 관계 ai bi가 주어진다. (1 ≤ ai < bi ≤ n) ai와 bi가 친구라는 뜻이며, bi와 ai도 친구관계이다. 출력 첫째 줄에 상근이의 결혼식에 초대하는 동기의 수를 출력한다. 풀이 풀이 확인하기 해당 문제는 1을 root로 하는 dfs 문제로 바꿔 볼 수 있다. 입력을 받은 뒤 리스트로 변환하고, 1번째 리스트를 제외한 나머지 리스트들 안에서 1이 보일 경우 1과 연결되어있단 소리이므로 리스트를 초기화해준 뒤 해당 그래프를 dfs를 돌려 결과를 얻는다. import sys input = sys.stdin.readline vertex = int(input()) edge = int(input()) graph = [[] for _ in range(vertex + 1)] for _ in range(edge): a, b = map(int, input().split()) graph[a].append(b) graph[b].append(a) for i in graph: i.sort() for i in range(2, len(graph)): is_1 = False for j in range(0, len(graph[i])): if(graph[i][j] == 1): is_1 = True break if not is_1: graph[i] = [] a = [] visited = [0] * (vertex + 1) num = 0 def dfs(start): global num visited[start] = 1 num += 1 print(start, end=" ") for i in graph[start]: if not visited[i]: dfs(i) dfs(1) print(num-1)

백준 문제풀이 · 2023-01-06

[백준, python] 4948번 - 베르트랑 공준

백준 문제풀이 시작 문제 베르트랑 공준은 임의의 자연수 n에 대하여, n보다 크고, 2n보다 작거나 같은 소수는 적어도 하나 존재한다는 내용을 담고 있다. 이 명제는 조제프 베르트랑이 1845년에 추측했고, 파프누티 체비쇼프가 1850년에 증명했다. 예를 들어, 10보다 크고, 20보다 작거나 같은 소수는 4개가 있다. (11, 13, 17, 19) 또, 14보다 크고, 28보다 작거나 같은 소수는 3개가 있다. (17,19, 23) 자연수 n이 주어졌을 때, n보다 크고, 2n보다 작거나 같은 소수의 개수를 구하는 프로그램을 작성하시오. 입력 입력은 여러 개의 테스트 케이스로 이루어져 있다. 각 케이스는 n을 포함하는 한 줄로 이루어져 있다. 입력의 마지막에는 0이 주어진다. 출력 각 테스트 케이스에 대해서, n보다 크고, 2n보다 작거나 같은 소수의 개수를 출력한다. 풀이 풀이 확인하기 해당 문제는 소수를 일일히 검사하려는 순간 시간 초과가 발생함을 확인했다. 예를 들어 10000과 10001을 입력했을 때 10000에서부터 20000까지 검사한 뒤 10001에서 20002까지 검사하는 과정에서 10000을 검사할 때 중첩된 부분이 발생하는 것이다. 그래서 n의 최대값인 123456의 2를 곱한 만큼의 값을 에라토스테네스의 체로 검사를 하여 전부 True 및 False를 미리 계산해놓고, 이후에 검사하는 과정에서는 계산 결과를 그대로 가져다 쓰기만 하였다. import math import sys input = sys.stdin.readline sieve = [True] * 246912 m = int(math.sqrt(246912)) for i in range(2, m + 1): if sieve[i] == True: for j in range(i+i, 246912, i): sieve[j] = False sieve.append(False) num = 0 answer = [] while True: is_prime = 0 num = int(input()) if(num == 0): break for i in range(num+1, (2*num)+1): if(sieve[i] == True): is_prime += 1 answer.append(is_prime) for i in range(0, len(answer)): print(answer[i])

백준 문제풀이 · 2023-01-05

[백준, python] 1735번 - 분수 합

백준 문제풀이 시작 문제 분수 A/B는 분자가 A, 분모가 B인 분수를 의미한다. A와 B는 모두 자연수라고 하자. 두 분수의 합 또한 분수로 표현할 수 있다. 두 분수가 주어졌을 때, 그 합을 기약분수의 형태로 구하는 프로그램을 작성하시오. 기약분수란 더 이상 약분되지 않는 분수를 의미한다. 입력 첫째 줄과 둘째 줄에, 각 분수의 분자와 분모를 뜻하는 두 개의 자연수가 순서대로 주어진다. 입력되는 네 자연수는 모두 30,000 이하이다. 출력 첫째 줄에 구하고자 하는 기약분수의 분자와 분모를 뜻하는 두 개의 자연수를 빈 칸을 사이에 두고 순서대로 출력한다. 풀이 풀이 확인하기 해당 문제는 두 수의 최대공약수를 구하는 방법인 유클리드 호제법에 대한 이해가 필요하다. 유클리드 호제법이란 두 수가 나눠떨어지지 않는다면 두 수를 나눈 나머지를 구하고, 그 수와 나머지를 나누는 과정을 반복해 나가며 나누어 떨어질 때까지 계산해나가면 그 수가 최대공약수가 되는 것이다. 자세한 내용은 링크 를 참조하면 좋을 것 같다. def euc(x, y): if((y % x) == 0): return x else: return euc(y % x, x) a, b = map(int, input().split(' ')) c, d = map(int, input().split(' ')) e = a*d + c*b f = b*d g = euc(e, f) print(int(e/g), end=" ") print(int(f/g))

백준 문제풀이 · 2023-01-03

[백준, python] 1260번 - DFS와 BFS

백준 문제풀이 시작 문제 그래프를 DFS로 탐색한 결과와 BFS로 탐색한 결과를 출력하는 프로그램을 작성하시오. 단, 방문할 수 있는 정점이 여러 개인 경우에는 정점 번호가 작은 것을 먼저 방문하고, 더 이상 방문할 수 있는 점이 없는 경우 종료한다. 정점 번호는 1번부터 N번까지이다. 입력 첫째 줄에 정점의 개수 N(1 ≤ N ≤ 1,000), 간선의 개수 M(1 ≤ M ≤ 10,000), 탐색을 시작할 정점의 번호 V가 주어진다. 다음 M개의 줄에는 간선이 연결하는 두 정점의 번호가 주어진다. 어떤 두 정점 사이에 여러 개의 간선이 있을 수 있다. 입력으로 주어지는 간선은 양방향이다. 출력 첫째 줄에 DFS를 수행한 결과를, 그 다음 줄에는 BFS를 수행한 결과를 출력한다. V부터 방문된 점을 순서대로 출력하면 된다. 풀이 풀이 확인하기 이번 문제는 그래프 순회 방식 중 dfs와 bfs를 사용하여 문제를 해결해야 한다. dfs는 재귀, bfs는 queue를 사용하여 문제를 해결하였다. 링크 를 참조하여 문제를 풀었다. import sys input = sys.stdin.readline def dfs(start): visited[start] = 1 print(start, end=" ") for i in graph[start]: if not visited[i]: dfs(i) def bfs(start): queue = [start] visited[start] = True while queue: v = queue.pop(0) print(v, end=" ") for i in graph[v]: if not visited[i]: visited[i] = True queue.append(i) vertex, edge, first = map(int, input().split()) graph = [[] for _ in range(vertex + 1)] for _ in range(edge): a, b = map(int, input().split()) graph[a].append(b) graph[b].append(a) for i in graph: i.sort() a = [] visited = [0] * (vertex + 1) dfs(first) print() visited = [0] * (vertex + 1) bfs(first) P.S. BFS 및 DFS 알고리즘은 이론으로만 공부하고 실제 코드로 짜본 적이 없어서 이번 풀이는 인터넷에 의존하여 거의 복사 붙여넣기 수준으로 이뤄졌다. 당분간 그래프 탐색을 시작으로 알고리즘 공부를 위주로 해야하지 않을까 싶다.

백준 문제풀이 · 2023-01-03

[백준, python] 1032번 - 명령 프롬프트

백준 문제풀이 시작 문제 시작 -> 실행 -> cmd를 쳐보자. 검정 화면이 눈에 보인다. 여기서 dir이라고 치면 그 디렉토리에 있는 서브디렉토리와 파일이 모두 나온다. 이때 원하는 파일을 찾으려면 다음과 같이 하면 된다. dir *.exe라고 치면 확장자가 exe인 파일이 다 나온다. “dir 패턴”과 같이 치면 그 패턴에 맞는 파일만 검색 결과로 나온다. 예를 들어, dir a?b.exe라고 검색하면 파일명의 첫 번째 글자가 a이고, 세 번째 글자가 b이고, 확장자가 exe인 것이 모두 나온다. 이때 두 번째 문자는 아무거나 나와도 된다. 예를 들어, acb.exe, aab.exe, apb.exe가 나온다. 이 문제는 검색 결과가 먼저 주어졌을 때, 패턴으로 뭘 쳐야 그 결과가 나오는지를 출력하는 문제이다. 패턴에는 알파벳과 “.” 그리고 “?”만 넣을 수 있다. 가능하면 ?을 적게 써야 한다. 그 디렉토리에는 검색 결과에 나온 파일만 있다고 가정하고, 파일 이름의 길이는 모두 같다. 입력 첫째 줄에 파일 이름의 개수 N이 주어진다. 둘째 줄부터 N개의 줄에는 파일 이름이 주어진다. N은 50보다 작거나 같은 자연수이고 파일 이름의 길이는 모두 같고 길이는 최대 50이다. 파일이름은 알파벳 소문자와 ‘.’ 로만 이루어져 있다. 출력 첫째 줄에 패턴을 출력하면 된다. 풀이 풀이 확인하기 해당 문제는 입력으로 들어오는 문자열의 길이가 모두 같다는 점을 가지고 쉽게 풀 수 있다. 숫자를 입력받고 입력받은 숫자만큼 반복문을 통해 문자열을 리스트에 담는다. 그리고 들어온 문자열의 길이만큼 반복문을 돌고, 반복문 내에서 리스트를 순회하며 해당 문자열의 인덱스가 모든 문자열이 공통으로 가진 값인지 확인한 뒤, 같으면 정답 문자열에 해당 글자를, 다르면 정답 문자열에 ?를 더한다. stringList = [] num = int(input()) for i in range(0, num): string = input() stringList.append(string) answer = "" for i in range(0, len(stringList[0])): temp = True for j in range(0, len(stringList)): if(stringList[0][i] != stringList[j][i]) : temp = False break if(temp == True) : answer = answer + stringList[0][i] else: answer = answer + "?" print(answer)

백준 문제풀이 · 2023-01-02

개발하는 쿼카

Contact

All Posts