1、求採集俠域名授權,草根站長真心不容易啊!
嗯 好,我給你授權
2、如何抓取一個網址下的所有頁面鏈接 ?
由於題目是放在【編程語言】欄目下的,但沒有指定希望使用哪種編程語言,我選擇使用java語言來實現。
在Java中,使用HttpURLConnection即可連接URL,隨後可以使用InputStreamReader獲取網頁內容文本。然後,使用正則表達式解析網頁內容文本,找到所有的<a>標簽即實現需求。
以下是詳細代碼:
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class HtmlParser {
/**
* 要分析的網頁
*/
String htmlUrl;
/**
* 分析結果
*/
ArrayList<String> hrefList = new ArrayList();
/**
* 網頁編碼方式
*/
String charSet;
public HtmlParser(String htmlUrl) {
// TODO 自動生成的構造函數存根
this.htmlUrl = htmlUrl;
}
/**
* 獲取分析結果
*
* @throws IOException
*/
public ArrayList<String> getHrefList() throws IOException {
parser();
return hrefList;
}
/**
* 解析網頁鏈接
*
* @return
* @throws IOException
*/
private void parser() throws IOException {
URL url = new URL(htmlUrl);
HttpURLConnection connection = (HttpURLConnection) url.openConnection();
connection.setDoOutput(true);
String contenttype = connection.getContentType();
charSet = getCharset(contenttype);
InputStreamReader isr = new InputStreamReader(
connection.getInputStream(), charSet);
BufferedReader br = new BufferedReader(isr);
String str = null, rs = null;
while ((str = br.readLine()) != null) {
rs = getHref(str);
if (rs != null)
hrefList.add(rs);
}
}
/**
* 獲取網頁編碼方式
*
* @param str
*/
private String getCharset(String str) {
Pattern pattern = Pattern.compile("charset=.*");
Matcher matcher = pattern.matcher(str);
if (matcher.find())
return matcher.group(0).split("charset=")[1];
return null;
}
/**
* 從一行字元串中讀取鏈接
*
* @return
*/
private String getHref(String str) {
Pattern pattern = Pattern.compile("<a href=.*</a>");
Matcher matcher = pattern.matcher(str);
if (matcher.find())
return matcher.group(0);
return null;
}
public static void main(String[] arg) throws IOException {
HtmlParser a = new HtmlParser("http://news.163.com/");
ArrayList<String> hrefList = a.getHrefList();
for (int i = 0; i < hrefList.size(); i++)
System.out.println(hrefList.get(i));
}
}
3、有軟體可以批量採集同IP網址採集,和整個C段網址採集的嗎?
你可以試試馬風窩超級爬蟲,全自動採集網址,也可以自己導入網址後查詢同IP網址,c段網址,還有關鍵詞網址無線採集器,一鍵採集,無需設置
4、如何採集導航裡面網站域名和網站名字?
有很多採集器可以使用,如果只要採集標題和鏈接的話,很容易 的。建議用火車頭
5、有沒有關鍵詞採集器這種東西?愛站上採集關鍵詞的,想要。
前言:此版本的軟體安裝包附加破解教程我可以給您一份,不過僅供個人使用,切勿傳播,希望可以幫助您
軟體功能
1、百度結果採集,域名的排名、網頁標題、網頁URL、PR值、BR值、外鏈數、百度流量、出站鏈接、內鏈、百度收錄數、百度反向鏈接。
2、可採集愛站、站長網、7C站三個站的信息,輸入域名,採集:關鍵詞、排名、搜索量、PC端搜索量、移動端搜索量、收錄量、鏈接地址、標題(自動入庫data.mdb,還可以導出EXCEL),入庫是為了方便關鍵詞篩選功能。
3、關鍵詞篩選功能,也可以說是關
點擊下載關鍵詞採集器
6、如何採集一個國家的所有域名.fr
這個還真不好統計,可能要聯系注冊商或者注冊局問了,可以看看top
7、做一個能夠實時採集到新注冊域名的工具
怎麼加你啊
8、求一個匹配域名採集的正則表達式,比如 www.yuming.com 我要匹配頁面中所有包含域名 :yuming 的鏈接
string pattern="(http://){0,1}(/w/d)*.yuming.(com|cn|net)";
解析:(http://){0,1}指示無論域名出現時是否帶有http://字樣都要進行匹配。
(/w/d)*:指示無論出現二級域名與否,只要帶有yuming字樣都要進行匹配
yuming指你要採集的域名,你自行替換吧。
(com|net|cn):要取域名的後綴,根據需要,你可以自行添加或刪減。
這個表達式相比較來說比做蜘蛛程序的表達式容易寫,你應當研究一下。做.net採集,不會正則無疑是瘸了條腿。
9、批量域名採集器的真正用處是什麼?
信息時代一個好的域名夠給您的網站帶來超大的訪問量、也就給你的企業帶來超大的利益,通常人們會一個一個去手工查詢,這樣非常慢也非常費力。只要你設置域名位數,如前綴或後綴,加上你自定義的字母或數字,軟體即可批量採集出相關的域名來進行查詢。