數(shù)據(jù)挖掘,數(shù)據(jù)架構(gòu)
??
??崗位職責(zé):
??1.?負(fù)責(zé)爬蟲相關(guān)的開發(fā),實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)采集爬取、解析和提取,對數(shù)據(jù)進(jìn)行過濾、去重、清洗、結(jié)構(gòu)化處理、數(shù)據(jù)入庫等工作,并且負(fù)責(zé)反爬蟲策略制定;??
2.?負(fù)責(zé)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的挖掘與分析;
3.?提取并對用戶行為進(jìn)行分析;
??4.?參與項(xiàng)目的需求分析、功能設(shè)計(jì),承擔(dān)主要開發(fā)工作;
??
??任職要求:
??1.?計(jì)算機(jī)相關(guān)專業(yè)本科及以上學(xué)歷,3-5年工作經(jīng)驗(yàn);??
2.?有開發(fā)經(jīng)驗(yàn)及數(shù)據(jù)抓取工作經(jīng)驗(yàn),?作為主力參與過至少一個(gè)完整的爬蟲開發(fā)項(xiàng)目;??
3.?理解http,熟悉html,?DOM,?xpath,?regex;??
4.?熟練掌握Python語言折優(yōu)先;??
5.?有自然語言處理相關(guān)經(jīng)驗(yàn)者優(yōu)先;??
6.?掌握AJAX網(wǎng)頁采集技術(shù),有驗(yàn)證碼識別技術(shù)數(shù)據(jù)抓取經(jīng)驗(yàn)者優(yōu)先,有分布式爬蟲和NoSQL數(shù)據(jù)庫開發(fā)經(jīng)驗(yàn)者優(yōu)先;