update: utils 模块多项优化与功能扩展
[asin_parse.py] - ParseAsinUs 新增 response_s 参数,支持外部传入 etree 解析树,避免重复解析 - 新增搜索框分类(search_category)字段解析 - 分类路径新增 all_nodeid(全路径节点 ID 拼接)及空值保护 - initialSeenAsins 解析新增空列表保护,防止 IndexError - AI 评论按钮解析改用 data-testid 定位,过滤无效短文本 - 修复 es 站品牌解析变量名冲突 bug - 修复评论数去括号逻辑及德站 Sternebewertung 判断错误 - 修复日期解析变量名 data_time 误用 bug - 移除优惠券动态 XPATH 追加逻辑,防止重复追加 [db_connect.py] - BaseUtils.__init__ 新增 site_name 参数(默认 us),不再硬编码 - 新增 doris_connect_adv() 连接 Doris 广告库(advertising_manager) - 新增 doris_adv_direct_connect() pymysql 直连 Doris 广告库 - 清理旧版 SQLAlchemy 注释代码及调试 print 语句 - Kafka 超时 30000→40000ms,linger_ms 150→350,重试 10→5 次 [requests_param.py] - 新增 next_page_lock 线程锁和 headers_num_int_s 属性,支持多线程分页 - 修复中文检测 check_str 为 None 时报错的 bug - cookie 加载上限 300→350 条 - 修正请求头 accept-Encodin 拼写错误,移除 authority 字段 - 请求超时 10→30 秒,提升慢速页面成功率 [params_asin_xpath.py] - 全站点 review_ai_list / review_button_list 新增 data-testid XPath,兼容新版 AI 评论结构 - 全站点新增 fbm_delivery_price 字段,采集 FBM 配送运费 - 全站点新增 search_category 字段,采集搜索框当前分类 - US/UK/DE/FR 站点 td_0_text 新增多条 XPath,适配 Amazon 最新页面结构 [check_columns.py] - 取消 __main__ 注释,支持脚本直接运行 Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
Showing
This diff is collapsed.
Click to expand it.
This diff is collapsed.
Click to expand it.
This diff is collapsed.
Click to expand it.
Please
register
or
sign in
to comment