岗位职责:
1、设计和开发分布式爬虫和调度系统,负责爬虫核心算法和调度策略优化;
2、负责网络信息搜集方向的研究与开发,应用海量网页抓取、信息精准抽取等搜索核心技 术,构建高可用性、高可扩展性的网络信息搜集平台;
3、熟悉爬虫的应用策略和网站的防爬机制,解决各类验证码识别机制,提升网页抓取的效 率和质量;
4、负责多个业务网站和 APP 数据的数据爬取、解析、过滤,清洗、消重、结构化处理等工 作,提升平台的抓取效率。
职位要求:
1、统招本科以上学历,计算机、软件、信息等相关专业;
2、熟悉 JSON、XML 等数据解析方式,熟悉
熟悉多线程爬虫;
3、了解 Mysql, Redis 等数据库的常规操作;
4、了解基于 Cookie 的登录原理;
5、了解 Linux 平台的各类命令,和 Linux 系统管理,对 Linux 各项服务以及性能指标要有一 定认识。
【加分】有数据公司爬虫实习经验优先;
【加分】拥有 JS 逆向经验优先。