崗位職責(zé):1.分布式網(wǎng)絡(luò)爬蟲研發(fā),開發(fā)與完善抓取、解析、調(diào)度和存儲等模塊;2.負(fù)責(zé)分析新的數(shù)據(jù)需求,?完成數(shù)據(jù)處理的設(shè)計(文檔)和實現(xiàn);?3.負(fù)責(zé)數(shù)據(jù)的清洗、整理、整合及合并等工作;?4.負(fù)責(zé)數(shù)據(jù)處理程序設(shè)計框架改善,?數(shù)據(jù)處理性能優(yōu)化,?系統(tǒng)數(shù)據(jù)處理的能力提高;?任職要求:1.大學(xué)本科以上學(xué)歷,2年以上信息采集相關(guān)工作經(jīng)驗;?2.精通Python或java語言;3.精通網(wǎng)頁抓取原理及技術(shù),精通正則表達(dá)式,熟練從結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)中獲取信息;4.熟悉Ajax工作原理,具備扎實的數(shù)據(jù)結(jié)構(gòu)與算法功底;5.熟悉常用的反爬蟲策略,有開發(fā)自動化爬蟲框架經(jīng)驗優(yōu)先,有驗證碼識別技術(shù)者優(yōu)先;6.熟悉Mysql/MongoDB/Redis,有過數(shù)據(jù)庫調(diào)優(yōu)和海量數(shù)據(jù)存儲經(jīng)驗優(yōu)先;7.有數(shù)據(jù)處理和清晰經(jīng)驗,了解Hadoop、Spark等大數(shù)據(jù)框架和流處理技術(shù)者優(yōu)先;8.理解能力、分析能力強(qiáng),邏輯思維清晰,條理清楚,具有較強(qiáng)的協(xié)調(diào)溝通能力,有良好的團(tuán)隊協(xié)作意識。