[Data Processing] 단어 삭제를 통한 데이터 증강(Data Augmentation)

💃 단어 삭제를 통한 데이터 증강(Data Augmentation)

1. OS 와 Random 모듈 Import

import os
import random

OS	Random
운영 체제와 상호작용을 위한 모듈로, 디렉토리나 파일과 관련된 다양한 작업에 이용됨	난수 생성 및 시퀀스에서의 무작위 요소 선택 등의 기능을 위한 모듈

2. 주어진 파일 경로에서 랜덤하게 하나의 단어를 삭제하는 remove_random_word() 함수 구현

def remove_random_word(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        content = file.read()
        words = content.split()

        if len(words) > 1:  # Ensure there's at least one word to remove
            index_to_remove = random.randint(0, len(words) - 1)
            words.pop(index_to_remove)

    with open(file_path, 'w', encoding='utf-8') as file:
        file.write(' '.join(words))

# 함수 호출 시 실행 경로

① 파일을 읽은 후 그 내용을 'content' 에 저장

② 공백을 기준으로 'content' 를 분할

③ 분할한 결과물을 리스트 'words' 에 저장

④ 'words' 의 길이가 1보다 큰 경우(= 삭제할 단어가 존재하는 경우) 랜덤한 인덱스 선택

⑤ 선택된 인덱스에 해당하는 단어를 'words' 에서 삭제

⑥ 변경된 'words' 를 파일에 다시 쓰며 단어가 삭제된 상태로 파일 저장

3. remove_random_word() 함수를 호출하기 위한 process_files() 함수 구현

def process_files(folder_path):
    for i in range(1, 증강할 파일 개수 + 1):
        print("데이터 증강에 성공했습니다.")
        file_name = f"file ({i}).txt"
        file_path = os.path.join(folder_path, file_name)
        if os.path.isfile(file_path):
            remove_random_word(file_path)

# 함수 호출 시 실행 경로

① 1부터 "증강할 파일 개수 + 1" 까지의 수를 순회하며 파일 탐색

② 파일이 존재하는 경우, remove_random_word() 함수를 호출

③ 해당 파일에서 단어를 랜덤하게 삭제

4. 모듈과 스크립트의 동작 구분을 위해 if name == "main" 구문 작성

if __name__ == "__main__":
    folder_path = r"파일이 위치한 경로"
    process_files(folder_path)

++ if __name__ == "__main__" 구문은 왜 필요할까?

if __name__ == "__main__" 은 스크립트가 직접 실행되는 경우(스크립트가 모듈로 임포트되지 않고 바로 실행되는 경우)에 한해서만 process_files 함수를 호출하는 역할을 수행하는 구문이다.

즉, 위 구문은 스크립트가 모듈로 임포트되었을 때 특정 코드 블록이 자동으로 실행되는 것을 방지하며, 이를 통해 모듈과 스크립트의 동작을 구분하여 코드를 실행할 수 있다.

💃 단어 삭제를 통한 데이터 증강(Data Augmentation) 스크립트 코드 전문

import os
import random

def remove_random_word(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        content = file.read()
        words = content.split()

        if len(words) > 1:  # Ensure there's at least one word to remove
            index_to_remove = random.randint(0, len(words) - 1)
            words.pop(index_to_remove)

    with open(file_path, 'w', encoding='utf-8') as file:
        file.write(' '.join(words))

def process_files(folder_path):
    for i in range(1, 2233):
        print("완료")
        file_name = f"file ({i}).txt"
        file_path = os.path.join(folder_path, file_name)
        if os.path.isfile(file_path):
            remove_random_word(file_path)

if __name__ == "__main__":
    folder_path = r"C:\Users\USER\Desktop\Data Augmentation_단어 삭제(수사기관 사칭형)"
    process_files(folder_path)

저작자표시 비영리 변경금지 (새창열림)

'✒️ Kibwa Voice Phishing Prev Project > Data Processing' 카테고리의 다른 글

[Data Processing] '번역 후 회귀' 데이터 증강(Data Augmentation) 스크립트를 활용한 실제 보이스피싱 데이터 증강 (0)	2023.07.27
[Data Processing] 동의어(유의어) 교체를 통한 데이터 증강(Data Augmentation) 스크립트 작성 (0)	2023.07.14
[Data Processing] 문장 재구성을 통한 데이터 증강(Data Augmentation) 스크립트 작성 (0)	2023.07.13
[Data Processing] 번역 후 회귀를 통한 데이터 증강(Data Augmentation) 스크립트 작성 (0)	2023.07.12
[Data Processing] 데이터 증강(Data Augmentation) 관련 개념 및 기법 조사 (0)	2023.06.25

🕰️ 공부하자 공부 🕰️

[Data Processing] 단어 삭제를 통한 데이터 증강(Data Augmentation)

💃 단어 삭제를 통한 데이터 증강(Data Augmentation)

1. OS 와 Random 모듈 Import

2. 주어진 파일 경로에서 랜덤하게 하나의 단어를 삭제하는 remove_random_word() 함수 구현

3. remove_random_word() 함수를 호출하기 위한 process_files() 함수 구현

4. 모듈과 스크립트의 동작 구분을 위해 if name == "main" 구문 작성

💃 단어 삭제를 통한 데이터 증강(Data Augmentation) 스크립트 코드 전문

'✒️ Kibwa Voice Phishing Prev Project > Data Processing' 카테고리의 다른 글

티스토리툴바

[Data Processing] 단어 삭제를 통한 데이터 증강(Data Augmentation)

💃 단어 삭제를 통한 데이터 증강(Data Augmentation)

1. OS 와 Random 모듈 Import

2. 주어진 파일 경로에서 랜덤하게 하나의 단어를 삭제하는 remove_random_word() 함수 구현

3. remove_random_word() 함수를 호출하기 위한 process_files() 함수 구현

4. 모듈과 스크립트의 동작 구분을 위해 if __name__ == "__main__" 구문 작성

💃 단어 삭제를 통한 데이터 증강(Data Augmentation) 스크립트 코드 전문

'✒️ Kibwa Voice Phishing Prev Project > Data Processing' 카테고리의 다른 글

관련글

티스토리툴바

4. 모듈과 스크립트의 동작 구분을 위해 if name == "main" 구문 작성