Dev/인공지능
2020. 4. 13.
[파이썬] 웹페이지 가장 많이 사용되는 단어의 빈도
위키 데이터의 ‘computer’ 용어 웹페이지 데이터를 받아서 가장 많이 사용되는 단어의 빈도를 찾아본다. - 로직 : 크롤링 / 태그 추출 / 단어 분리 / 단어 정렬 / 단어 카운트 - Code import urllib.request ## url import re ## html 태그 제거 from bs4 import BeautifulSoup ## 태그 제거 함수 : https://www.fun25.co.kr/blog/python-remove-html-tag/?page=8 참고 def remove_tag(content): cleanr =re.compile('') cleantext = re.sub(cleanr, '', content) return cleantext ## url 설정 url='https:..