본문 바로가기
Crawling

BeautifulSoup 라이브러리로 parshing(파싱) 작업하기 = BeautifulSOup 객체화 / select로 태그 가져오기 (아이디 # , 클래스 . ) /

by leehii 2022. 7. 1.

res.text 값을 컴퓨터언어로 바꿔줘야 함

( parshing 파싱 작업)

 

-----------------------------------------

 

from bs4 import BeautifulSoup as bs으로 

BeautifulSoup 라이브러리를 불러오고

 

bs(parsing할 데이터, parsing할 종류)

이렇게 파싱하면 해당 값이 평소 보던 html 태그 형식으로 바뀐다

 

!파싱의 종류중 lxml이 작업속도가 빠르고 허술하여 오류가 잘 안남!

 

이 과정을 BeautifulSoup 객체화라고 한다

 

이 값을 변수에 담아준다

soup = bs(res.text, 'lxml')

---------------------------------------------------

 

soup.select('가져올 값')

 

가져올 값이 태그의 id일 경우

soup.select(태그#id이름)

 

가져올 값이 태그의 class일 경우

soup.select(태그.class이름)

 

(ex)

원하는 값이 a태그의 nav 클래스에 있을경우

 

soup.select('a.nav')

--------------------------------------------------

 

이 형태는 리스트 형태이므로 인덱싱해서 원하는 자료 가져오기 가능

 

soup.select('a.nav')[인덱스번호]

이 자료를 태그를 벗겨내고 텍스트 형으로 바꾸려면

 

soup.select('a.nav')[인덱스번호].text

 

 

--------------------------------------------------------------------------------------