-
해시태그로 알아본 건설사 인기도 전처리네이버 블로그 태그 개수 2023. 5. 29. 01:05반응형
먼저 건설사에 대한 정보를 가져오기위하여 2022년 도급순위파일을 가져왔다.
https://www.worker.co.kr/link/2002R100.asp
해당파일은 다음과 같이 상호, 대표자, 소재지, 전화번호부터 각각 어떻게 도급순위가 평가되었는지를 알수있는 파일이다.
인기도를 확인하려면 역시 상호만 필요하다.
여기서 고민이 생겼다.
주식회사, (주)ㅁㅁ건설, ㅁㅁ건설(주) 등 주식회사임을 나타내는 순서가 각 회사마다 다양하다..
-> 결국 알아주는건 대표적인 브랜드이지 않을까 싶기도하고, 따라서 주식회사, (주) 등은 다 빼버리고 이후 이름이 중복되는건 더 유명한 회사의 게시글이지 않을까 싶어서 중복은 제거해버린다.
위와같은 엑셀자료를 불러오면 다음과 같이 순서가 너무 뒤죽박죽이되어버린다.
편하게하려면 역시 엑셀을 이용하여 셀 병합이 되어있는 부분을 제거하고 진행하면 되겠지만..
단순히 가져올 데이터가 건설사 이름뿐이니 그냥 진행한다.
df.dropna()를 이용하여 결측치를 먼저 제거한다.
이후 순위를 날려버리려다가 그냥 뒤에도 다 날려버렸다
여기서 이제 컬럼명을 수정해주고, (주), 주식회사, 그리고 띄워져있는 부분을 다 제거한다.
df_fix['건설사명'] = df_fix['건설사명'].str.replace('주식회사', '').str.replace(r'\(.*?\)', '', regex=True).str.replace(' ', '').str.strip()df_fix살짝 하드코딩스럽다.
이렇게 일단 전처리를 해보았다.
급 생각난 인덱스도 초기화 해준다.
drop=True를 해줘야지 기존 인덱스 위치에 대체하기에, drop을 해주어야하고,
inplace를 하지 않으려면 df_fix=df_fix(drop=True)를 해야하는데 굳이,,? 그냥 inplace=True를 넣어준다.
근데 마지막에 있는 신한은 어떻게 하지..?
이름은 이런 이유로 인기도 산정하는데 한계가 있는 것 같다.
반응형'네이버 블로그 태그 개수' 카테고리의 다른 글
네이버 해시태그 수로 알아본 전국 박물관 및 미술관 인기도 (2) 2023.05.10 해시태그로 알아본 전세계 항공사 인기순위 feat.태그모음 (0) 2023.04.27 해시태그로 알아본 울릉도 꽃 인기순위 (0) 2023.04.21 해시태그로 알아본 미삭동물(?) 인기도 (0) 2023.04.19