來源于Google資深工程師深度講解Go語言
package mainimport ("fmt""io/ioutil""net/http"
)const url = "http://www.zhenai.com/zhenghun"func main() {//發送get請求resp, err := http.Get(url)if err != nil {panic(err)}//關閉通道defer resp.Body.Close()//判斷狀態if resp.StatusCode != http.StatusOK {fmt.Errorf("StatusCode:%v \n", http.StatusOK)}//輸出結果all, err := ioutil.ReadAll(resp.Body)if err != nil {fmt.Errorf("ReadAll: %s ", err)}fmt.Printf("%s\n",all)
}
可以將整個html頁面爬取下來
正則表達式處理
package mainimport ("fmt""io/ioutil""net/http""regexp"
)//const url = "http://www.baidu.com"
const url = "http://www.zhenai.com/zhenghun"func main() {//發送get請求resp, err := http.Get(url)if err != nil {panic(err)}//關閉通道defer resp.Body.Close()//判斷狀態if resp.StatusCode != http.StatusOK {fmt.Errorf("StatusCode:%v \n", http.StatusOK)}//輸出結果all, err := ioutil.ReadAll(resp.Body)if err != nil {fmt.Errorf("ReadAll: %s ", err)}printListCity(all)
}// 獲取城市,url
const cityListRe = `<a href="(http://www.zhenai.com/zhenghun/[0-9a-z]+)"[^>]*>([^<]*)</a>`func printListCity(contents []byte) {rg := regexp.MustCompile(cityListRe)allSubmatch := rg.FindAllSubmatch(contents, -1)for _, m := range allSubmatch {fmt.Printf("%s\n ", m[1])fmt.Printf("%s\n ", m[2])}
}
結果
http://www.zhenai.com/zhenghun/zhuhai珠海http://www.zhenai.com/zhenghun/zhumadian駐馬店http://www.zhenai.com/zhenghun/zhuzhou株洲http://www.zhenai.com/zhenghun/zibo淄博http://www.zhenai.com/zhenghun/zigong自貢http://www.zhenai.com/zhenghun/ziyang1資陽http://www.zhenai.com/zhenghun/zunyi遵義
將結果存入數據庫
- 注意的是id為自增長的主鍵,不參與golang語言的表結構展示,特別是在插入時,不應該算入在內
const cityListRe = `<a href="(http://www.zhenai.com/zhenghun/[0-9a-z]+)"[^>]*>([^<]*)</a>`func mySql(contents []byte) {//用戶名:密碼^@tcp(地址:3306)/數據庫db, err := sql.Open("mysql", "root:Kou123$%^@tcp(39.107.87.114:3306)/zhenai?charset=utf8")if err!=nil {fmt.Println(err)return}//表結構type info struct {city string `db:"city"`url string `db:"url"`}//查詢表rows,err:=db.Query("SELECT * FROM city_url_id")//遍歷打印for rows.Next(){var s infoerr=rows.Scan(&s.city,&s.url,)}//執行MySql語句rg := regexp.MustCompile(cityListRe)allSubmatch := rg.FindAllSubmatch(contents, -1)for _, m := range allSubmatch {//fmt.Printf("%s\n ", m[1])//fmt.Printf("%s\n ", m[2])//插入語句db.Exec("INSERT INTO city_url_id(city,url)VALUES (?,?)", m[1], m[2])}rows.Close()
}