티스토리 뷰
현재 페이지에서 다른 HTML 페이지에 있는 내용을 추출해서 가져오고 싶었다.
열심히 구글링을 하면서 jQuery,Ajax.. 막 찾아서 해봤지만 영 되지 않았다.
그러다 발견한 stackoverflow 질문답변 ☞ http://stackoverflow.com/questions/16654995/java-parse-html-file-and-extract-text
JSoup 라이브러리를 써보란다.
검색해봤더니 이런 훌륭한 가이드가 딱~! ☞ http://blog.acronym.co.kr/337
예제 한번 보고 코드어시스트로 훑어보면 사용법을 대략 알 수 있다.
앞서 정규식을 이용한 이미지 태그 추출을 올렸는데, 이 라이브러리를 사용하면 복잡한 정규식 따윈 안써도 된다.(물론 자바 라이브러리이기 때문에 자바에서만 가능;;)
위 블로거 분이 설명을 잘 해주셔서 자세히 쓰지 않아도 될 것 같다. 다운로드 위치와 파일, 간단한 예제 하나를 아래 올린다.
다운로드 주소 ☞ http://jsoup.org/download
test.html
Hello World~!
Java Class
// 불러올 파일의 주소.
String fileUrl = "test.html";
// Jsoup을 이용해 HTML Doc 추출
Document doc = Jsoup.connect(fileUrl).get();
// 외부 파일이 아닌 String으로 된 HTML 내용 자체를 pase하고 싶다면 아래와 같이.
// Jsoup.parse(htmlString);
// hello 클래스 안에 있는 값을 가져옴.
Elements hello = doc.select(".hello");
String text = null;
for(Element e : hello){
text = e.text(); // 텍스트만 추출.
}
// 결과값은 Hello World~!
System.out.println("text" + text);
>간단하게 텍스트만 추출하도록 해봤는데, 코드어시스트를 받아보면 getElement~~나 attr 등을 사용해 클래스명이나 아이디명 혹은 요소별로 뽑아낼 수 있다.
'공장 (factory) > - Programming..' 카테고리의 다른 글
| [jQuery UI] submit 후 dialog 창 닫기 (0) | 2014.07.10 |
|---|---|
| [Java] Google Authenticator(Google OTP)를 이용한 개발. (42) | 2014.06.10 |
| [Java] 정규식을 이용한 이미지 태그 추출 (1) | 2014.05.09 |
| [Java] 프로젝트를 라이브러리 파일로 만들기. (1) | 2014.04.21 |
| [Eclipse/Maven] 메이븐 설치 요약. (0) | 2014.04.07 |
댓글
jsoup-1.7.3.jar