티스토리 뷰

공장 (factory)/- Programming..

[Java] 다른 페이지의 HTML 요소 가져오기.

공부하는 나부랭이, 무중력고기 2014.05.09 20:30

   현재 페이지에서 다른 HTML 페이지에 있는 내용을 추출해서 가져오고 싶었다.


   열심히 구글링을 하면서 jQuery,Ajax.. 막 찾아서 해봤지만 영 되지 않았다.


   그러다 발견한 stackoverflow 질문답변 ☞ http://stackoverflow.com/questions/16654995/java-parse-html-file-and-extract-text


   JSoup 라이브러리를 써보란다. 


   검색해봤더니 이런 훌륭한 가이드가 딱~! ☞ http://blog.acronym.co.kr/337


   예제 한번 보고 코드어시스트로 훑어보면 사용법을 대략 알 수 있다.


   앞서 정규식을 이용한 이미지 태그 추출을 올렸는데, 이 라이브러리를 사용하면 복잡한 정규식 따윈 안써도 된다.(물론 자바 라이브러리이기 때문에 자바에서만 가능;;)


   위 블로거 분이 설명을 잘 해주셔서 자세히 쓰지 않아도 될 것 같다. 다운로드 위치와 파일, 간단한 예제 하나를 아래 올린다.



다운로드 주소 ☞ http://jsoup.org/download


jsoup-1.7.3.jar




   test.html

	
Hello World~!



   Java Class

// 불러올 파일의 주소.
String fileUrl = "test.html";
		
// Jsoup을 이용해 HTML Doc 추출
Document doc = Jsoup.connect(fileUrl).get();

// 외부 파일이 아닌 String으로 된 HTML 내용 자체를 pase하고 싶다면 아래와 같이.
// Jsoup.parse(htmlString);

// hello 클래스 안에 있는 값을 가져옴. 
Elements hello = doc.select(".hello");

String text = null;

for(Element e : hello){
	text = e.text(); // 텍스트만 추출.
}

// 결과값은 Hello World~!
System.out.println("text" + text);
>



   간단하게 텍스트만 추출하도록 해봤는데, 코드어시스트를 받아보면 getElement~~나 attr 등을 사용해 클래스명이나 아이디명 혹은 요소별로 뽑아낼 수 있다.



저작자 표시 비영리 변경 금지
신고
댓글
  • 남보나 감사합니다 덕분에 좋은정보 얻었어요 ㅠㅠ html그대로 가져오고 싶었는데 감사합니다 ㅎㅎㅎ👍👍👍 2017.10.13 10:50 신고
댓글쓰기 폼
Total
869,778
Today
82
Yesterday
297
«   2017/11   »
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30    
글 보관함