Langchain GPT 함수 호출로 데이터 스크래핑과 추출하는 방법

Find AI Tools
No difficulty
No complicated process
Find ai tools

Langchain GPT 함수 호출로 데이터 스크래핑과 추출하는 방법

📚 테이블 목차

  1. 도입
  2. 웹 스크래핑을 위한 유틸리티 함수
  3. OpenAI와 랭 체인을 활용한 간단한 스크래핑
  4. Future Tools 스크래핑
  5. Soccer News 최신 뉴스 스크래핑
  6. Monster 사이트에서 취업정보 스크래핑
  7. YouTube 채널 비디오 스크래핑
  8. 재정 서비스 위원회 구성원 스크래핑
  9. 최근 배우고 있는 사람들은 pi 너비와 그 BYTE 간격 요구사항에_DEV_SAMPLE_S

📝 도입

안녕하세요 여러분! 타일러입니다. 오늘은 웹 스크래핑에 대해 알아보려고 합니다. 크롤링 툴 좀 잘 다뤄보려고 노력하고 있지만, 아직은 그리 능숙하지 못한 것 같아 아쉽습니다. 제 친구 중에는 웹 스크래핑 도구를 능숙하게 다루는 사람들이 있는데, 아마 이제쯤 정부의 감시 목록에도 올라갔을 것 같아요. 하지만 오늘 이 비디오에서는 우리가 간단하게 정보를 스크래핑하고 이를 활용하는 몇 가지 유틸리티 함수를 소개해드리려고 합니다. 물론 스크래핑한 데이터를 상업적으로 사용할 수 있는지 여부는 항상 확인해야 합니다. 연구 목적으로 이용하는 경우라면 크게 문제가 없을 수도 있지만, 일부 사이트에서는 웹 스크래핑을 허용하지 않을 수도 있습니다. 어쨌든 파이썬의 랭 체인과 OpenAI의 언어 모델을 사용하여 간단한 스크래핑을 진행해보겠습니다. 그럼 시작해볼까요?

🔍 웹 스크래핑을 위한 유틸리티 함수

먼저 필요한 몇 가지 라이브러리를 불러와야 합니다. 우선 OpenAI 키를 불러와야 하는데, 저는 개인적으로 OpenAI 언어 모델을 다른 어떤 모델보다 우수하다고 생각하기 때문에 OpenAI 키를 불러와야 합니다. 물론 이름이 'OpenAI'인데 실제로는 '오픈'되어 있지 않다는 점은 정말 싫은데요, 어쨌든 파이썬의 아름다운 스프 라이브러리와 playwright 라이브러리도 필요합니다. 보통 playwright는 파이썬 애플리케이션 테스트용으로 사용되지만, 우리는 이를 이용해 브라우저를 열고 Lang Chain을 업데이트할 겁니다. 그리고 스크래핑한 데이터를 보다 원하는 형태로 만들어주는 추출 체인을 사용하게 될 건데, 추출 체인은 문서에서 엔티티를 추출하기 위해 OpenAI 함수 매개변수를 사용합니다. 정리하자면, 이번 비디오에서는 파이썬 언어 모델과 Lang Chain을 활용한 간단한 스크래핑에 대해 알아보도록 하겠습니다.

💻 OpenAI와 랭 체인을 활용한 간단한 스크래핑

이제 실제로 웹 스크래핑을 진행해보겠습니다. 가장 먼저 스크래핑할 사이트로 Future Tools를 선택해보겠습니다. 이 사이트는 AI 유튜버와 관련된 사이트인데요. 최신 AI 도구들이 모두 여기에 있다고 생각하시면 됩니다. 다시 한 번 말씀드리지만, 스크래핑한 데이터를 상업적으로 사용하지 말아야 합니다. 그저 재미로 어떤 새로운 도구들이 있는지 확인해보는 용도로 사용하는 것이 좋습니다. 저는 변호사가 아니기 때문에 이용 약관을 잘 읽고 사용하셔야 합니다. 그럼 playwright를 실행해보죠. 그러면 웹사이트의 내용이 텍스트 형태로 출력될 것입니다. 이를 확인해보겠습니다. 출력된 텍스트를 살펴보면 웹사이트의 HTML 내용이 출력된 것을 확인할 수 있습니다. 이제 Lang Chain을 사용한 추출 체인에 해당 사이트의 URL을 넣어 데이터를 추출해보겠습니다. 기다리셔야 할 수 있습니다. 잠시 멈춰서 다시 실행해야 할 수도 있습니다. 이 작업이 완료되면, Future Tools에서 제품 이름과 제품에 대한 설명을 얻을 수 있습니다. 이렇게 데이터를 스크래핑하고 추출된 결과를 확인할 수 있습니다. 다음으로는 다른 사이트에서도 동일한 작업을 시도해보겠습니다. 해당 사이트에서 최신 소식을 스크래핑해보죠. 이 사이트는 아마 가장 간단하게 스크래핑할 수 있는 사이트 중 하나일 것입니다. 별도의 작업 없이도 원하는 데이터를 쉽게 추출할 수 있습니다. 또한 랭 체인을 사용하여 추출한 구조화된 데이터를 다른 AI 작업에 활용할 수도 있습니다. 이제 진행해볼까요? 다시 한 번 실행하겠습니다. 이번에는 해커 뉴스의 최신 뉴스를 추출해보도록 하겠습니다. 추출 체인에는 이전과 달리 제품 이름과 설명이 아닌, 게시물의 제목, 추천 수, 댓글 수를 추출하도록 지정해줍니다. 게시물의 제목과 추천 수, 댓글 수가 정상적으로 추출되는 것을 확인할 수 있습니다. 더 나아가 URL도 추출할 수 있도록 코드를 추가해보죠. 이제 URL 추출을 위한 코드를 추가한 후 다시 실행해봅시다. 이 때, URL이 항상 존재하지는 않을 수 있으므로 선택 사항이라고 표시해두었습니다. 최신 뉴스를 가져온 결과 몇 개의 결과가 출력되었습니다. URL이 있는 게시물은 항상 그렇지 않을 수 있으므로 이 점은 염두에 두어야 합니다. 이제는 어쨌든 여러분들에게 유익한 정보를 추출할 수 있는 도구를 가졌습니다. 댓글 기능 등을 활용하여 자동으로 스팸 메시지를 게시하는 봇을 만들 수도 있습니다. 그러나 저는 소송을 당하는 것을 피하기 위해 그런 일을 하지 않으려고 합니다. 다음으로 넘어가보겠습니다. 이번에는 취업정보를 스크래핑해보겠습니다. 일일이 사이트를 클릭하지 않고도 여러 개의 취업 사이트에서 정보를 구해보고 싶다고 가정해봅시다. LA 지역에서 첫 번째 페이지의 취업 정보를 스크래핑해보도록 하겠습니다. Monster의 메인 페이지에 있는 채용 공고 정보를 얻어올 것입니다. 페이지를 하나씩 클릭하지 않아도 정보를 한꺼번에 얻을 수 있으므로 더 효율적입니다. 출력된 텍스트 중에서 와이드 범위 라이브러리를 이용하여 우리가 원하는 정보들을 가져올 수 있습니다. 눈에 띄는 정보를 확인해보겠습니다. 우리는 이번 비디오에서는 파이썬 코드를 실제로 사용해보기 위해 쉬운 예시를 골랐습니다. 실제로는 도대체 어떻게 사용할 수 있는지에 대해 여러분들이 알려주세요. 이 코드는 너무나 어리석습니다. 어쨌든 일반적인 파이썬 코드를 작성할 수 있는 기회였습니다. 빠져나옵시다. 이 정도 어리석은 내용이면 이제 저는 밖에서 시간을 보낼 겁니다. 여러분들을 사랑합니다. 다음 비디오에서 뵙겠습니다. 안녕!

Most people like

Are you spending too much time looking for ai tools?
App rating
4.9
AI Tools
100k+
Trusted Users
5000+
WHY YOU SHOULD CHOOSE TOOLIFY

TOOLIFY is the best ai tool source.