ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [인코딩] 유니코드 인코딩 처리 (특히 json 입출력 시)
    Python 2020. 12. 28. 10:16

    파이썬에서 데이터를 json으로 저장하면 유니코드 16진수로 저장된다.

    딕셔너리를 json.dump() 메소드로 저장하면

    import json 
    
    before = {"테스트1": "test1", "테스트2": "test2", "테스트3": ["테스트3-1", "테스트3-2", "테스트3-3"], "테스트4": {"테스트4-1": "테스트4-1-1"}}
    
    with open('sample.json', 'a+') as fp:
        json.dump(before, fp)
    

    아래처럼 유니코드 16진수로 표현된다.

    # sample.json
    {"\ud14c\uc2a4\ud2b81": "test1", "\ud14c\uc2a4\ud2b82": "test2", "\ud14c\uc2a4\ud2b83": ["\ud14c\uc2a4\ud2b83-1", "\ud14c\uc2a4\ud2b83-2", "\ud14c\uc2a4\ud2b83-3"], "\ud14c\uc2a4\ud2b84": {"\ud14c\uc2a4\ud2b84-1": "\ud14c\uc2a4\ud2b84-1-1"}}

    이대로 json.load() 메소드로 읽어오면 문제없이 저장한대로 출력된다.

    with open('sample.json', 'r') as fp:
        after = json.load(fp)
    
    print(after)
    # {'테스트1': 'test1', '테스트2': 'test2', '테스트3': ['테스트3-1', '테스트3-2', '테스트3-3'], '테스트4': {'테스트4-
    1': '테스트4-1-1'}}

    데이터를 한글로 저장하고 싶다면, 저장시에 ensure_ascii=False 옵션을 넣어주면 된다.

    [참조] 파이썬 JSON 저장시 유니코드 문자열 표시하기

    import json 
    
    before = {"테스트1": "test1", "테스트2": "test2", "테스트3": ["테스트3-1", "테스트3-2", "테스트3-3"], "테스트4": {"테스트4-1": "테스트4-1-1"}}
    
    with open('sample2.json', 'a+', encoding="UTF-8") as fp:
        json.dump(before, fp, ensure_ascii=False)
    

    저장시에 한글로 저장된 것을 확인할 수 있다.

    # sample2.json
    {"테스트1": "test1", "테스트2": "test2", "테스트3": ["테스트3-1", "테스트3-2", "테스트3-3"], "테스트4": {"테스트4-1": "테스트4-1-1"}}

     

     

    만약 json 데이터를 dictonary가 아니라 str 타입으로 가져와야 하는데, 인코딩을 바꿔야 한다면

    일단 json.load()로 받고 json.dumps()로 변환하는 게 이상적이다.

    물론 ensure_ascii=False 옵션을 넣어줘야 한다. 생략할 경우 유니코드 문자열로 저장된다.

    with open('sample.json', 'r', encoding="UTF-8") as fp:
        after = json.load(fp)
    
    print(type(json.dumps(after, ensure_ascii=False))) # <class 'str'>
    print(json.dumps(after, ensure_ascii=False)) # ensure_ascii 옵션을 잊지 말자
    '''{"테스트1": "test1", "테스트2": "test2", "테스트3": ["테스트3-1", "테스트3-2", "테스트3-3"], "테스트4": {"테스트4-
    1": "테스트4-1-1"}}'''
    
    print(type(json.dumps(after))) # <class 'str'>
    print(json.dumps(after))
    '''{"\ud14c\uc2a4\ud2b81": "test1", "\ud14c\uc2a4\ud2b82": "test2", "\ud14c\uc2a4\ud2b83": ["\ud14c\uc2a4\ud2b83-1",
    "\ud14c\uc2a4\ud2b83-2", "\ud14c\uc2a4\ud2b83-3"], "\ud14c\uc2a4\ud2b84": {"\ud14c\uc2a4\ud2b84-1": "\ud14c\uc2a4\
    ud2b84-1-1"}}'''

     

    그런데 어떤 이유로 인해 json.load()로 읽을 수가 없고 다른 기호들과 유니코드가 섞여버린 경우,

    유니코드 16진수로 저장된 데이터를 그냥 인코딩 옵션만 주고 read()로 읽는 건 소용이 없기 때문에

    with open('sample.json', 'r', encoding="ascii") as fp:
        noJson = fp.read()
    
    print(noJson)
    '''
    {"\ud14c\uc2a4\ud2b81": "test1", "\ud14c\uc2a4\ud2b82": "test2", "\ud14c\uc2a4\ud2b83": ["\ud14c\uc2a4\ud2b83-1",
    "\ud14c\uc2a4\ud2b83-2", "\ud14c\uc2a4\ud2b83-3"], "\ud14c\uc2a4\ud2b84": {"\ud14c\uc2a4\ud2b84-1": "\ud14c\uc2a4\
    ud2b84-1-1"}}
    '''

     

    decode('unicode-escape') 메소드를 이용해야한다.

    [참조] Convert a Unicode string to a string in Python (containing extra symbols)

    with open('sample.json', 'r', encoding="UTF-8") as fp:
        noJson = fp.read()
    
    print(noJson.encode().decode('unicode-escape'))
    
    '''
    {"테스트1": "test1", "테스트2": "test2", "테스트3": ["테스트3-1", "테스트3-2", "테스트3-3"], "테스트4": {"테스트4-
    1": "테스트4-1-1"}}
    '''

    이 경우 encoding 설정은 유니코드 텍스트에 섞여있는 다른 기호들 기준으로 따라가면 된다.

    나머지 기호에 인코딩 이슈가 없는 경우, 유니코드 문자열은 텍스트파일 출력시의 인코딩에 영향을 받지 않는다.

    (latin1 이런 걸로 해도 잘 읽힌다. 어차피 유니코드기 때문에 상관없는듯하다.)

     

    위의 'unicode-escape'는 str을 bytes로 인코딩할 때나, bytes-like object를 str으로 디코딩할 때 쓰인다. [공식문서는 이쪽]

    데이터를 데이터.encode('unicode-escape').decode() 처리하면

    json.dump(ensure_ascii=True)로 저장한 파일과 같은 결과를 얻을 수 있다.

    beforeSTR = '{"테스트1": "test1", "테스트2": "test2", "테스트3": ["테스트3-1", "테스트3-2", "테스트3-3"], "테스트4": {"테스트4-1": "테스트4-1-1"}}'
    print(beforeSTR.encode('unicode-escape'))
    '''
    b'{"\\ud14c\\uc2a4\\ud2b81": "test1", "\\ud14c\\uc2a4\\ud2b82": "test2", "\\ud14c\\uc2a4\\ud2b83": ["\\ud14c\\uc2a
    4\\ud2b83-1", "\\ud14c\\uc2a4\\ud2b83-2", "\\ud14c\\uc2a4\\ud2b83-3"], "\\ud14c\\uc2a4\\ud2b84": {"\\ud14c\\uc2a4\
    \ud2b84-1": "\\ud14c\\uc2a4\\ud2b84-1-1"}}'
    '''
    
    print(beforeSTR.encode('unicode-escape').decode())
    '''
    '{"\ud14c\uc2a4\ud2b81": "test1", "\ud14c\uc2a4\ud2b82": "test2", "\ud14c\uc2a4\ud2b83": ["\ud14c\uc2a4\ud2b83-1",
    "\ud14c\uc2a4\ud2b83-2", "\ud14c\uc2a4\ud2b83-3"], "\ud14c\uc2a4\ud2b84": {"\ud14c\uc2a4\ud2b84-1": "\ud14c\uc2a4\
    ud2b84-1-1"}}'
    '''

     

     

    댓글

Designed by Tistory.