본문 바로가기

python

(4)
유튜브 트렌드 비교 분석 - 데이터 분석편 유튜브 인기동영상 리스트는 다양한 시청자의 관심을 끌거나 흥미로움, 새로움을 느낄 만한 동영상을 노출하는 것이다. 이를 판단하기 위해서 유튜브는 조회수, 조회수 증가 속도, 영상과의 비교 결과 등을 고려하고 있다. 따라서 17년 11월~ 18년 12월의 인기동영상 데이터를 분석하여 영상 트렌드와 이용자의 영상 소비 패턴을 파악해보고 22년 7~8월 인기동영상 데이터와 비교 분석하여 트렌드, 영상 소비 패턴의 공통점, 차이점을 도출해내고자 하였다. 물론 1년치의 데이터와 한달치의 데이터를 비교하는 것에는 무리가 있겠지만 지속적으로 데이터를 수집하기에는 어렵기 때문에 어느정도 감안하고 진행해보았다. 먼저 카테고리별 인기동영상 수를 보았을 때 entertainment, news & politics, peopl..
유튜브 트렌드 비교 분석 - 데이터 수집편 우선 데이터 수집 방법이다. from selenium import webdriver webdriver라는 API를 통해 운영체제에 설치된 Chrome등의 브라우저를 제어할 수 있다. #인기동영상 url 크롤링 url = 'https://www.youtube.com/feed/trending' driver = webdriver.Chrome("/Users/joseongju/Downloads/chromedriver 4") driver.maximize_window() url = "https://www.youtube.com/feed/trending" driver.get(url) tm.sleep(40) # 인기동영상 url url = [] for video_tag in driver.find_elements(By.CS..
HR데이터를 활용한 퇴직자 예측 모델 최근 들어 조기퇴사자가 굉장히 증가하고 있다. 1년 이내 조기퇴사자가 발생하는 것에 대해서 기업의 85%가 동의를 할 정도이다. 퇴직율이 증가할수록 기업에게 있어서 크게 두 가지 리스크가 존재한다. 신입 사원들의 교육 비용과 핵심 인재 탈출이다. 신입사원 교육 비용과 채용 비용이 6천만원에서 크게는 1억 원 정도로 산정되고 있다. 이렇게 투자를 해도 조기 퇴사를 한다면 재채용을 진행해야 하고 또다시 교육 비용을 투자해야 한다. 이에 따라 신입사원 투자 비용은 기하급수적으로 증가할 수 있다. 이 뿐만 아니라 핵심 인재의 퇴직을 사전에 파악하지 못한다면 핵심 인재를 손실할 수 있는 리스크 또한 존재한다. 따라서 예측 모델을 통해 사전에 퇴직 위험을 가진 직원들을 추려내고 직원별 맞춤형 솔루션을 제공한다면 기..
지하철 장애인 시위에 대한 유튜브 댓글 분석 3월 24일 아침 8시 전장연 활동가들은 23번째 출근길 지하철 시위를 진행하였다. 이에 한 정치인은 비문명적인 방식으로 시위를 벌인다, 서울 시민의 아침을 볼모로 잡는다는 등의 내용으로 강하게 비판하였다. 국민들의 목소리를 대신 해주어야 하는 정치인으로서 과연 국민들의 목소리를 대변해주었는지 장애인 시위 관련 연상의 댓글을 분석하여 여론 분석을 해보았다. 추가적으로 시위가 정치적 쟁점이 되어 버리면서 장애인들의 시위에 대한 이유, 복지 현황 등은 주목 받지 못한 점이 아쉬워 이를 같이 정리해보았다. 장애인 지하철 시위 여론을 분석하기 위해 장애인 지하철 시위 검색어의 상위 조회수 4개의 동영상을 샘플링 하였다. 특정 정치인과의 토론, 인터뷰 및 장애인 이동권 불편함을 담은 영상은 분석 목적에 어긋나기에..