2. multiprocessing

프로세스와 스레드 기반의 병렬화를 위한 저수준 인터페이스를 제공한다.

먼저 프로세스나 스레프 풀을 활용하는 몬테 카를로 방식을 사용해 원주율을 추정할 것이다. 이 문제는 단순하며 복잡도도 잘 알려져 있으므로 병렬화가 쉽다. 또한 numpy를 사용할 때 예기치 못한 결과를 볼 수 있다.

그 다음에는 Pool 방식을 사용해서 소수를 찾는다. 소수를 찾는 과정의 예측 불가능한 복잡성을 살펴보고, 어떻게해야 부하를 효율적으로(또는 비효율적으로!) 분산시켜서 계산 자원을 가장 잘 활용할 수 있는지 살펴본다. 큐를 다루면서 소수 검색을 마칠 것이다. 그 과정에서 Pool 대신 Process 객체를 사용하고, 작업 목록과 포이즌 필을 활용해서 각 작업자의 생명주기를 조정해보자.

몬테 카를로 방식을 사용해 원주율 추정하기

반지름이 1인 단위원으로 표현되는 “다트 판”에 가상의 다트를 수천 번 던져서 원주율을 추정할 수 있다. 원주와 그 내부에 떨어진 다트의 개수 사이의 관계를 사용해서 원주율을 추산한다.

이는 이상적으로 프로세스에 전체 부하를 균등하게 나눌 수 있는 첫 번째 문제이다. 각 프로세스는 별도의 cpu에서 작동한다. 부하가 같으니 모든 프로세스는 같은 시간에 끝날 것이다. 따라서 이 문제에 새로운 CPU나 하이퍼스레드를 추가하면 속도가 빨라진다.

스레드를 하나만 사용하면 56초 걸리고, 스레드가 둘 이상이어도 속도가 빨라지지 않는다. 프로세스를 둘 이상 사용하면 실행 시간을 더 짧게 만들 수 있다.

2개나 4개의 코어를 활용할 때 선형적인 속도 향상을 얻었지만, 노트북에 물리적 코어가 4개밖에 없으므로 프로세스를 8개 사용하더라도 추가로 얻는 속도 향상은 거의 없다.

스레드를 사용하면 각 명령은 GIL 때문에 제약이 걸린다. 따라서 각 스레드를 별도의 CPU에 실행할 수 있음에도 불구하고, 다른 스레드가 실행 중이지 않을 때만 실행한다.

프로세스를 사용하는 버번은 이런 제약이 없다. 각 프로세스가 단일 스레드를 싱행하는 별도의 파이썬 인터프리터이니 공유 객체로 인한 GIL 경쟁이 없다.

from random import uniform
from multiprocessing import Pool
import time
import matplotlib.pyplot as plt

def estimate_circle(nbr_estimates):
    nbr_trials_in_quarter_unit_circle = 0
    for step in range(int(nbr_estimates)):
        x = uniform(0, 1)
        y = uniform(0, 1)
        is_in_unit_circle = x * x + y * y < 1.0
        nbr_trials_in_quarter_unit_circle += is_in_unit_circle

    return nbr_trials_in_quarter_unit_circle

def run_simulation(nbr_parallel_blocks, nbr_samples_in_total=1e8):
    pool = Pool(processes=nbr_parallel_blocks)
    nbr_samples_per_worker = nbr_samples_in_total / nbr_parallel_blocks
    nbr_trials_in_quarter_unit_circle = pool.map(estimate_circle, [nbr_samples_per_worker] * nbr_parallel_blocks)

    pool.close()
    pool.join()

    # 병렬로 실행된 결과를 종합해서 총 원 안에 있는 점들의 개수 계산
    total_nbr_trials_in_quarter_unit_circle = sum(nbr_trials_in_quarter_unit_circle)

    # 원주율 추정 (1/4 원에 해당하므로 4배 곱)
    estimated_pi = 4 * total_nbr_trials_in_quarter_unit_circle / nbr_samples_in_total
    return estimated_pi

if __name__ == "__main__":
    nbr_samples_in_total = 1e8  # 총 시뮬레이션 샘플 수

    process_counts = range(1, 11)  # 1부터 10까지의 프로세스 수
    computation_times = []  # 각 프로세스 수에 따른 계산 시간 저장

    for nbr_parallel_blocks in process_counts:
        start_time = time.time()  # 시작 시간 기록
        estimated_pi = run_simulation(nbr_parallel_blocks, nbr_samples_in_total)
        end_time = time.time()    # 종료 시간 기록

        total_time = end_time - start_time
        computation_times.append(total_time)  # 계산 시간 저장

        print(f"Processes: {nbr_parallel_blocks}, Estimated Pi: {estimated_pi}, Time: {total_time:.2f} seconds")

    # 계산 시간 그래프 출력
    plt.figure(figsize=(10, 6))
    plt.plot(process_counts, computation_times, marker='o', linestyle='-', color='b')
    plt.title("Computation Time vs Number of Processes")
    plt.xlabel("Number of Processes")
    plt.ylabel("Computation Time (seconds)")
    plt.grid(True)
    plt.show()

multiprocessing 을 Joblib 으로 바꾸기

Joblib은 multiprocessing을 개선한 모듈로 경량 파이프라이닝을 활성화하면서 병렬 계산을 쉽게 하고, 결과를 쉽게 디스크 기반의 캐시로 사용할 있다.

다음과 같은 경우 Joblib을 사용하면 쉽게 성능을 높일 수 있다.

당황스러울 정도로 병렬적인 루프를 처리하는 데 순수 파이썬을 사용 중이다.(넘파이 여부는 상관 x)
출력을 디스크에 저장해 세션과 세션 사이에 결과를 캐시할 수 있는데도, 부작용없이 비용이 많이 드는 함수를 호출한다.
프로세스 사이에 넘파이를 공유할 수 있지만 어떻게 하는지를 모른다.

from random import uniform
from joblib import Parallel, delayed
import time
import matplotlib.pyplot as plt

def estimate_circle(nbr_estimates):
    nbr_trials_in_quarter_unit_circle = 0
    for step in range(int(nbr_estimates)):
        x = uniform(0, 1)
        y = uniform(0, 1)
        is_in_unit_circle = x * x + y * y < 1.0
        nbr_trials_in_quarter_unit_circle += is_in_unit_circle

    return nbr_trials_in_quarter_unit_circle

def run_simulation(nbr_parallel_blocks, nbr_samples_in_total=1e8):
    nbr_samples_per_worker = nbr_samples_in_total / nbr_parallel_blocks
    # Parallel과 delayed를 사용하여 작업 병렬화
    nbr_trials_in_quarter_unit_circle = Parallel(n_jobs=nbr_parallel_blocks)(
        delayed(estimate_circle)(nbr_samples_per_worker) for _ in range(nbr_parallel_blocks)
    )

    # 병렬로 실행된 결과를 종합해서 총 원 안에 있는 점들의 개수 계산
    total_nbr_trials_in_quarter_unit_circle = sum(nbr_trials_in_quarter_unit_circle)

    # 원주율 추정 (1/4 원에 해당하므로 4배 곱)
    estimated_pi = 4 * total_nbr_trials_in_quarter_unit_circle / nbr_samples_in_total
    return estimated_pi

if __name__ == "__main__":
    nbr_samples_in_total = 1e8  # 총 시뮬레이션 샘플 수

    process_counts = range(1, 11)  # 1부터 10까지의 프로세스 수
    computation_times = []  # 각 프로세스 수에 따른 계산 시간 저장

    for nbr_parallel_blocks in process_counts:
        start_time = time.time()  # 시작 시간 기록
        estimated_pi = run_simulation(nbr_parallel_blocks, nbr_samples_in_total)
        end_time = time.time()    # 종료 시간 기록

        total_time = end_time - start_time
        computation_times.append(total_time)  # 계산 시간 저장

        print(f"Processes: {nbr_parallel_blocks}, Estimated Pi: {estimated_pi}, Time: {total_time:.2f} seconds")

    # 계산 시간 그래프 출력
    plt.figure(figsize=(10, 6))
    plt.plot(process_counts, computation_times, marker='o', linestyle='-', color='b')
    plt.title("Computation Time vs Number of Processes (joblib)")
    plt.xlabel("Number of Processes")
    plt.ylabel("Computation Time (seconds)")
    plt.grid(True)
    plt.show()

함수 호출 결과를 똑똑하게 캐시하기

Joblib의 Memory 캐시는 유용한 기능이다. Memory 는 함수 결과를 입력 인자에 따라 디스크 캐시로 저장하는 데커레이터다. 이 캐시는 파이썬 세션 간에 영속적으로 유지되므로, 컴퓨터를 껐다가 다음날 켜서 같은 코드를 다시 실행해도 캐시에 저장한 결과를 사용할 수 있다.

소수 찾기

다음으로, 아주 큰 범위의 수에서 소수를 검사하는 방법을 살펴보자. 전체 범위에서 어느 위치에 있느냐에 따라 부하가 달라지고 여러 수의 소수 여부를 검사하는 작업의 복잡도를 예측할 수 없다는 점에서 원주율 문제와는 성격이 다르다.

소수성을 판별하는 순차적인 함수를 작성하고 가능한 인수의 집합을 각각의 프로세스에 넘겨 검사할 수 있다. 이 문제는 당황스러울 정도로 병렬적이다. 이는 공유해야할 상태가 전혀 없다는 의미이다.

multiprocessing 모듈을 사용하면 부하를 쉽게 제어할 수 있다. 따라서 계산에 필요한 자원을 활용(또는 오용!)하려면 작업 큐를 어떻게 튜닝할 수 있는지를 검토하고, 자원을 조금 더 효율적으로 사용할 수 있는 쉬운 방법을 탐구해 보려 한다.

즉 미리 정해진 자원 집합에 복잡도가 달라지는 여러 작업을 효율적으로 배분해서 부하를 균등화할 방법을 살펴볼 것이다.

import math
import time
import matplotlib.pyplot as plt

def check_prime(n):
    if n < 2:  # 1은 소수가 아니므로 False 처리
        return False
    if n % 2 == 0:
        return n == 2  # 2는 유일한 짝수 소수이므로 예외 처리
    for i in range(3, int(math.sqrt(n) + 1), 2):
        if n % i == 0:
            return False
    return True

# 범위를 지정하고 각 범위에서 걸리는 시간을 기록
start_range = 10000
end_range = 1000000
step = 10000

numbers = range(start_range, end_range + 1, step)
times = []

# 각 숫자 범위 내의 모든 수에 대해 소수 판별하는 데 걸린 시간 측정
for number in numbers:
    start_time = time.time()

    # 1부터 해당 숫자 범위까지의 모든 소수 판별
    primes = [n for n in range(1, number + 1) if check_prime(n)]

    end_time = time.time()

    elapsed_time = end_time - start_time
    times.append(elapsed_time)

# 걸린 시간에 따른 그래프 그리기
plt.plot(numbers, times, label='Prime Check Time')
plt.xlabel('Number')
plt.ylabel('Time (seconds)')
plt.title('Time to Check All Primes from 1 to n')
plt.grid(True)
plt.legend()
plt.show()

수는 대부분 소수가 아닌 합성수다. 이런 수를 그림에 점으로 표시했다. 그중 일부는 검사 비용이 적게 들지만 나머지는 여러 가지 인수를 검사해야만 한다.

작업을 프로세스 풀에 분산하면 얼마나 많은 작업이 각 작업자에 넘어갔는지를 정확히 알 수 없다. 모든 작업을 균등하게 배분해서 한 번에 넘겨 처리하거나, 작업을 수많은 단위로 구분해서 빈 코어에 전달할 수 있을 것이다.

이를 chunksize 매개변수를 사용해 제어한다. 작업 단위를 크게 만들면 통신 부가비용이 줄고, 작업 단위를 작게 만들면 자원 할당을 더 세밀하게 제어할 수 있다.

소수 검색 프로그램의 작업 단위는 check_prime으로 검사할 수 n개다. chunksize을 10으로 설정하면 각 프로세스 정수 10개로 이뤄진 목록을 한 번에 하나씩 처리한다.