티스토리 뷰

   현재 페이지에서 다른 HTML 페이지에 있는 내용을 추출해서 가져오고 싶었다.


   열심히 구글링을 하면서 jQuery,Ajax.. 막 찾아서 해봤지만 영 되지 않았다.


   그러다 발견한 stackoverflow 질문답변 ☞ http://stackoverflow.com/questions/16654995/java-parse-html-file-and-extract-text


   JSoup 라이브러리를 써보란다. 


   검색해봤더니 이런 훌륭한 가이드가 딱~! ☞ http://blog.acronym.co.kr/337


   예제 한번 보고 코드어시스트로 훑어보면 사용법을 대략 알 수 있다.


   앞서 정규식을 이용한 이미지 태그 추출을 올렸는데, 이 라이브러리를 사용하면 복잡한 정규식 따윈 안써도 된다.(물론 자바 라이브러리이기 때문에 자바에서만 가능;;)


   위 블로거 분이 설명을 잘 해주셔서 자세히 쓰지 않아도 될 것 같다. 다운로드 위치와 파일, 간단한 예제 하나를 아래 올린다.



다운로드 주소 ☞ http://jsoup.org/download


jsoup-1.7.3.jar




   test.html

	
Hello World~!



   Java Class

// 불러올 파일의 주소.
String fileUrl = "test.html";
		
// Jsoup을 이용해 HTML Doc 추출
Document doc = Jsoup.connect(fileUrl).get();

// 외부 파일이 아닌 String으로 된 HTML 내용 자체를 pase하고 싶다면 아래와 같이.
// Jsoup.parse(htmlString);

// hello 클래스 안에 있는 값을 가져옴. 
Elements hello = doc.select(".hello");

String text = null;

for(Element e : hello){
	text = e.text(); // 텍스트만 추출.
}

// 결과값은 Hello World~!
System.out.println("text" + text);
>



   간단하게 텍스트만 추출하도록 해봤는데, 코드어시스트를 받아보면 getElement~~나 attr 등을 사용해 클래스명이나 아이디명 혹은 요소별로 뽑아낼 수 있다.



댓글
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
글 보관함