通過閱讀本書,你將能夠:

解析復雜的HTML頁面
遍歷多個網頁和網站
了解API的基本概念和工作原理
學習存儲數據的方法
下載、讀取并抽取網絡文檔中的數據
使用工具和方法清洗格式異常的數據
讀取并處理自然語言
越過表單和登錄窗口采集數據
學習采集JavaScript的方法
學習圖像處理和文字識別方法

“這本書中的工具和示例幫我輕松地將一些重復性工作自動化了,我可以將省下來的時間用于解決更有意思的問題。這是一本實用手冊,非常適合用來解決實際工作中的問題。”——Eric VanWyk,美國歐林工程學院電子計算機工程師" />
Python網絡數據采集
58推薦 收藏
131.6K閱讀

Python網絡數據采集

Ryan Mitchell (作者) 陶俊杰 , 陳小莉 (譯者)
2016年最受歡迎電子書 技術類TOP10,全榜單:http://www.fshbop.live/article/273709
第2版已發布:http://www.fshbop.live/book/1980
本書適合熟悉Python的程序員、安全專業人士、網絡管理員閱讀。書中不僅介紹了網絡數據采集的基本原理,還深入探討了更高級的主題,比如分析原始數據、用網絡爬蟲測試網站等。此外,書中還提供了詳細的代碼示例,以幫助你更好地理解書中的內容。

通過閱讀本書,你將能夠:

解析復雜的HTML頁面
遍歷多個網頁和網站
了解API的基本概念和工作原理
學習存儲數據的方法
下載、讀取并抽取網絡文檔中的數據
使用工具和方法清洗格式異常的數據
讀取并處理自然語言
越過表單和登錄窗口采集數據
學習采集JavaScript的方法
學習圖像處理和文字識別方法

“這本書中的工具和示例幫我輕松地將一些重復性工作自動化了,我可以將省下來的時間用于解決更有意思的問題。這是一本實用手冊,非常適合用來解決實際工作中的問題。”——Eric VanWyk,美國歐林工程學院電子計算機工程師

收藏本書能做什么?

有情況的時候會收到通知,比如電子書發布等。

PS:也會在圖靈社區電報頻道更新

電子書
¥29.99
格式
mobi   pdf

紙質書
¥46.61 ¥59.00

出版信息

本書特色

網絡上的數據量越來越大,單靠瀏覽網頁獲取信息越來越困難,如何有效地提取并利用信息已成為一個巨大的挑戰。本書采用簡潔強大的Python語言,全面介紹網絡數據采集技術,教你從不同形式的網絡資源中自由地獲取數據。你將學會如何使用Python腳本和網絡API一次性采集并處理成千上萬個網頁上的數據。

目錄

版權聲明 閱讀
O'Reilly Media, Inc. 介紹 閱讀
譯者序 閱讀
前言 閱讀
第一部分 創建爬蟲 閱讀
第 1 章 初見網絡爬蟲 閱讀
第 2 章 復雜 HTML 解析
第 3 章 開始采集
第 4 章 使用 API
第 5 章 存儲數據
第 6 章 讀取文檔
第二部分 高級數據采集
第 7 章 數據清洗
第 8 章 自然語言處理
第 9 章 穿越網頁表單與登錄窗口進行采集
第 10 章 采集 JavaScript
第 11 章 圖像識別與文字處理
第 12 章 避開采集陷阱
第 13 章 用爬蟲測試網站
第 14 章 遠程采集
附錄 A Python 簡介
附錄 B 互聯網簡介
附錄 C 網絡數據采集的法律與道德約束
作者簡介
封面介紹

作者介紹

<作者簡介>
Ryan Mitchell是數據科學家、軟件工程師,目前在波士頓LinkeDrive公司負責開發公司的API和數據分析工具。此前,曾在Abine公司構建網絡爬蟲和網絡機器人。她經常做網絡數據采集項目的咨詢工作,主要面向金融和零售業。另著有Instant Web Scraping with Java。

<譯者簡介>
陶俊杰
長期從事數據分析工作,酷愛Python,每天都和Python面對面,樂此不疲。本科畢業于北京交通大學機電學院,碩士畢業于北京交通大學經管學院。曾就職于中國移動設計院,目前在京東任職。
陳小莉
長期從事數據分析工作,喜歡Python。本科與碩士畢業于北京交通大學電信學院。目前在中科院從事科技文獻與專利分析工作。

大家也喜歡

  • Python數據科學與機器學習:從入門到實踐

    【美】弗蘭克?凱恩(Frank Kane)   陳光欣   譯

    本書介紹了使用Python進行數據分析和高效的機器學習,首先從一節Python速成課開始,然后回顧統計學和概率...

  • 深入理解Python特性

    [德]達恩·巴德爾(Dan Bader)   孫波翔   譯

    本書致力于幫助Python開發人員挖掘這門語言及相關程序庫的優秀特性,避免重復勞動,同時寫出簡潔、流暢、易讀、...

  • 精通特征工程

    愛麗絲·鄭   阿曼達·卡薩麗   陳光欣   譯

    本書介紹大量特征工程技術,闡明特征工程的基本原則。主要內容包括:機器學習流程中 的基本概念,數值型數據的基礎...

  • Django企業開發實戰:高效Python Web框架指南

    胡陽  

    本書以從零開發一個博客系統為例,介紹Django在日常工作中的應用。 本書共分為四部分。第一部分介紹編碼之前...

  • Python科學計算最佳實踐:SciPy指南

    [澳]胡安?努內茲-伊格萊西亞斯   [美]斯特凡?范德瓦爾特   [澳]哈麗雅特?達士諾   陳光欣   譯

    本書旨在介紹開源的Python算法庫和數學工具包SciPy。近年來,基于NumPy和SciPy的完整生態系統迅...

相關文章

  • 看到勘誤里已經有對第四次印刷的勘誤了,為什么電子版還是第一次印刷的版本?勘誤里的問題在電子版里也沒有修訂,依然存在!
    ifelif  發表于 2016-07-19 11:47:37
    推薦
    • 貌似圖靈的電子版更新的不夠及時

      威靈頓  發表于 2016-10-06 20:13:17
  • 作為稍微有點編程基礎,尤其是web基礎的人來說,這本書作為爬蟲入門再合適不過,書的內容不錯,作者寫的也不錯。而且這本書后半部分終于讓人明白了 為什么Python是網絡爬蟲的最佳編程工具。
    liiyee  發表于 2016-08-24 00:33:26
    推薦
    • 為什么啊,不要吊胃口啊兄弟

      bliu23  發表于 2016-10-10 20:56:12
    • @bliu23 這是個陳述句啊兄弟

      okface  發表于 2017-11-01 14:00:47
    • 兄弟,1年前的帖子了啊,感謝回復^^

      bliu23  發表于 2017-11-04 14:34:00
  • 勘誤中的問題,為什么電子版還有。
    cuing  發表于 2016-06-15 13:32:20
    推薦
  • 期待電子版
    Taipa  發表于 2016-02-29 23:19:48
    推薦
    • 是的,可以在瀏覽器里面copy代碼。

      simonclickk  發表于 2016-03-01 15:38:15
  • 看了英文電子版的,是python3,很好。大多python3的書是教編程的,將應用的很少。這個是講應用,不錯。
    simonclickk  發表于 2016-03-02 09:06:15
    推薦
    • 哪里有電子版啊

      于杰  發表于 2016-03-02 20:16:47
    • 在版權保護不嚴格的國度是可以找到英文電子版全文本的。不過國外似乎也可以找到。

      simonclickk  發表于 2016-03-03 09:51:01
  • 有電子版本的嗎?
    XiaoKuiKui  發表于 2016-03-04 17:59:29
    推薦
    • 稍后會有的。

      岳新欣  發表于 2016-03-07 10:53:22
    • 必須有電子版,可以實時copy代碼。尤其對于爬蟲這種實驗性強,并且被爬網站內容很可能變了。是的,即使是python也要copy/paste

      simonclickk  發表于 2016-03-08 16:47:17
  • 什么時候可以買?
    XiaoKuiKui  發表于 2016-03-05 09:20:54
    推薦
    • 正在印刷中,中旬就可以上市了。

      岳新欣  發表于 2016-03-07 10:53:12
  • 電子版 能不能先上
    Tio  發表于 2016-03-08 19:02:20
    推薦
    • 先后沒有關系,先看英文電子版。值得話再買入。

      simonclickk  發表于 2016-03-11 14:30:26
  • 還有多久才能出來
    葉永  發表于 2016-03-17 22:52:24
    推薦
    • 下周差不多了。

      岳新欣  發表于 2016-03-18 08:55:29
  • urllib.error.URLError: <urlopen error [WinError 10061] 由于目標計算機積極拒絕,無法連接。這個錯誤如何解決
    jingouwangzi  發表于 2016-04-28 13:41:34
    推薦
    • 這個要修改發送HTTP HEAD,模擬瀏覽器登錄!

      ifelif  發表于 2016-07-19 11:54:33
  • 不建議初學者購買這本書,書中代碼很多錯誤,初學者會抓狂的,我都考慮放棄這本書了。
    Rayer  發表于 2016-08-09 11:12:46
    推薦
    • 我去年就棄過一次了,當時買的是電子版。現在又拿第三次印刷的紙本書開始看了。電子版的錯誤一直沒糾正。。。。。

      說書人  發表于 2017-03-30 15:26:51
    • 是翻譯錯誤還是原版就是錯的?

      shawbin  發表于 2017-06-26 16:45:52
    • 我去,我被坑了,這本書真的不好,很多講都不講的

      snowx  發表于 2018-01-12 21:25:52
  • 好期待,現在正在用Python+Selenium做爬蟲,爬取動態網頁的數據,這本書來得很及時啊。
    羅世偉  發表于 2016-03-01 21:49:01
    推薦
  • 好想看,好想看,好想看,好像現在就看,電子版
    Taipa  發表于 2016-03-12 03:14:28
    推薦
  • 能買了!能買了!電子版能直接買了!!!
    Taipa  發表于 2016-03-18 11:37:25
    推薦
  • 電子版先上架了,贊一個,雖然已經看上英文版了
    張寧寧  發表于 2016-03-22 18:14:24
    推薦
双色球红球第5位尾数走势图