崗位職責(zé):1.?負(fù)責(zé)設(shè)計(jì)和開發(fā)分布式的網(wǎng)絡(luò)爬蟲應(yīng)用,進(jìn)行互聯(lián)網(wǎng)相關(guān)信息的抓取和分析;2.?負(fù)責(zé)網(wǎng)頁信息抽取技術(shù)的研究和開發(fā);3.?負(fù)責(zé)解決爬取過程中的各種反爬問題;任職要求:1、?熟悉網(wǎng)頁抓取原理及技術(shù),熟悉基于Cookie的網(wǎng)站登錄原理,熟悉基于正則表達(dá)式、Xpath、CSS等網(wǎng)頁信息;2、?精通Python/java?編程語言,精通Javascript,對(duì)HTTP協(xié)議及HTML有深入的了解;3、?精通正則表達(dá)式,用于從各種網(wǎng)絡(luò)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中抽取有用的信息;4、?熟練掌握數(shù)據(jù)庫開發(fā),對(duì)數(shù)據(jù)處理和數(shù)據(jù)質(zhì)量有較深認(rèn)識(shí);精通至少一種主流數(shù)據(jù)NoSQL、mysql數(shù)據(jù)庫;5、?熟悉http?client、js,?ajax,?webdriver、htmlunit、Nutch、selenium、ETL、HtmlParser、Jsoup,?webmagic等技術(shù)優(yōu)先;6、?有海量數(shù)據(jù)爬取經(jīng)驗(yàn)者優(yōu)先;有爬取過微博,微信,淘寶等平臺(tái)數(shù)據(jù)優(yōu)先;具有自然語言處理、機(jī)器學(xué)習(xí)背景優(yōu)先。