티스토리 뷰
현재 페이지에서 다른 HTML 페이지에 있는 내용을 추출해서 가져오고 싶었다.
열심히 구글링을 하면서 jQuery,Ajax.. 막 찾아서 해봤지만 영 되지 않았다.
그러다 발견한 stackoverflow 질문답변 ☞ http://stackoverflow.com/questions/16654995/java-parse-html-file-and-extract-text
JSoup 라이브러리를 써보란다.
검색해봤더니 이런 훌륭한 가이드가 딱~! ☞ http://blog.acronym.co.kr/337
예제 한번 보고 코드어시스트로 훑어보면 사용법을 대략 알 수 있다.
앞서 정규식을 이용한 이미지 태그 추출을 올렸는데, 이 라이브러리를 사용하면 복잡한 정규식 따윈 안써도 된다.(물론 자바 라이브러리이기 때문에 자바에서만 가능;;)
위 블로거 분이 설명을 잘 해주셔서 자세히 쓰지 않아도 될 것 같다. 다운로드 위치와 파일, 간단한 예제 하나를 아래 올린다.
다운로드 주소 ☞ http://jsoup.org/download
test.html
Hello World~!
Java Class
// 불러올 파일의 주소. String fileUrl = "test.html"; // Jsoup을 이용해 HTML Doc 추출 Document doc = Jsoup.connect(fileUrl).get(); // 외부 파일이 아닌 String으로 된 HTML 내용 자체를 pase하고 싶다면 아래와 같이. // Jsoup.parse(htmlString); // hello 클래스 안에 있는 값을 가져옴. Elements hello = doc.select(".hello"); String text = null; for(Element e : hello){ text = e.text(); // 텍스트만 추출. } // 결과값은 Hello World~! System.out.println("text" + text);>
간단하게 텍스트만 추출하도록 해봤는데, 코드어시스트를 받아보면 getElement~~나 attr 등을 사용해 클래스명이나 아이디명 혹은 요소별로 뽑아낼 수 있다.
'공장 (factory) > - Programming..' 카테고리의 다른 글
[jQuery UI] submit 후 dialog 창 닫기 (0) | 2014.07.10 |
---|---|
[Java] Google Authenticator(Google OTP)를 이용한 개발. (42) | 2014.06.10 |
[Java] 정규식을 이용한 이미지 태그 추출 (1) | 2014.05.09 |
[Java] 프로젝트를 라이브러리 파일로 만들기. (1) | 2014.04.21 |
[Eclipse/Maven] 메이븐 설치 요약. (0) | 2014.04.07 |
댓글