崗位職責(zé):
1、負(fù)責(zé)定向數(shù)據(jù)的采集與爬取、解析處理、入庫及備份等數(shù)據(jù)日常工作;
2、研究主流網(wǎng)站的爬取方法及數(shù)據(jù)清洗處理,負(fù)責(zé)非定向數(shù)據(jù)的清洗、整理、整合及合并等工作;
3、及時解決生產(chǎn)上的系統(tǒng)問題,并對用戶提供技術(shù)支持;
崗位要求:
1、3年以上Linux環(huán)境Java/Python開發(fā)經(jīng)驗,至少2年以上爬蟲系統(tǒng)開發(fā)經(jīng)驗;
2、使用技術(shù)框架包括但不限于:Nutch,WebCollector,Scrapy,Selenium
3、熟練使用正則表達式、xpath解析數(shù)據(jù)、搜索策略、算法、數(shù)據(jù)聚類、重組技術(shù),熟悉反爬蟲;
4、有過海量代理IP池建設(shè),復(fù)雜驗證碼識別,熟練掌握安卓反編譯經(jīng)驗優(yōu)先
5、熟悉抓包工具(Wireshark,Fillder等),熟悉網(wǎng)絡(luò)通信編程,網(wǎng)頁抓取原理及技術(shù),熟悉HTTP傳輸協(xié)議,能模擬各類操作爬蟲;熟悉爬蟲實現(xiàn)原理機制;對分布式和多線程技術(shù)有一定了解;
6、熟練掌握分布式爬蟲,日采集量千萬級別以上,并充分了解抓取策略(1、深度優(yōu)先遍歷策略?2、寬度優(yōu)先遍歷策略?3、反向鏈接數(shù)策略等);
7、有較強的學(xué)習(xí)能力,對技術(shù)有鉆研精神,熱衷于新技術(shù)的學(xué)習(xí)和實踐;
8、具有良好的團隊協(xié)作精神,思維清晰敏捷,邏輯分析能力強。