崗位職責(zé):
1.負(fù)責(zé)數(shù)據(jù)采集,頁(yè)面抓取等工作的設(shè)計(jì)和研發(fā);
2.負(fù)責(zé)APP客戶端上的數(shù)據(jù)抓取工作;
3.解決抓取數(shù)據(jù)過(guò)程中遇到的疑難問(wèn)題;
4.熟悉Nutch,Heritrix,?WebCollector,Jsoup等開(kāi)源爬蟲(chóng)框架,定制實(shí)現(xiàn)批量采集,增量采集,分布式采集程序。
任職要求:
1.具有2年以上爬蟲(chóng)抓取,網(wǎng)頁(yè)信息抽取實(shí)際項(xiàng)目的工作經(jīng)驗(yàn),具有爬蟲(chóng)架構(gòu)設(shè)計(jì),數(shù)據(jù)庫(kù)設(shè)計(jì)經(jīng)驗(yàn);
2.對(duì)數(shù)據(jù)結(jié)構(gòu)和算法設(shè)計(jì)有較為深刻的理解,熟悉socket網(wǎng)絡(luò)編程、Http協(xié)議;
3.熟悉Html,Dom,JavsScript,XML和XPath等技術(shù);
4.熟悉.net、java、python等編程語(yǔ)言一種,有過(guò)實(shí)際采集軟件開(kāi)發(fā)經(jīng)驗(yàn)的優(yōu)先;
5.具有數(shù)據(jù)挖掘、自然語(yǔ)言處理、信息檢索、機(jī)器學(xué)習(xí)背景的優(yōu)先。
?
武漢工作地址:湖北省武漢市江漢區(qū)解放大道創(chuàng)世紀(jì)廣場(chǎng)B座2011
南京工作地址:江蘇省南京市浦濱路150號(hào)中科創(chuàng)新廣場(chǎng)5#302