一聚教程网:一个值得你收藏的教程网站

热门教程

怎样解决 BeautifulSoup 网页抓取返回空文本的问题?

时间:2026-07-02 12:06:02 编辑:袖梨 来源:一聚教程网

本文详解为何 beautifulsoup 抓取网页时返回空文本,并指出关键原因:未正确处理重定向(http 301/302),导致获取到的是跳转响应而非目标页面 html 内容。

本文详解为何 beautifulsoup 抓取网页时返回空文本,并指出关键原因:未正确处理重定向(http 301/302),导致获取到的是跳转响应而非目标页面 html 内容。

在使用 requests + BeautifulSoup 进行网页抓取时,看似相同的代码在不同网站上表现不一致,往往源于一个被忽视的底层 HTTP 行为——重定向(Redirect)。你提供的代码中设置了 allow_redirects=False,这会导致 requests.get() 在遇到 301 或 302 响应时立即停止并返回跳转响应本身(通常不含 HTML 主体内容),而非自动跟进至最终目标页面。因此,response.content 实际是空或仅含重定向头信息,BeautifulSoup 解析后自然无法提取有效文本。

以目标网址 https://www.diabete.qc.ca/en/... 为例,该站点实际会将请求重定向至带尾部斜杠的规范 URL(如 .../female-sexuality-and-diabetes/ → .../female-sexuality-and-diabetes/ 可能触发内部路径标准化或 CDN 路由),若禁用重定向,response.status_code 很可能为 301 或 302,而 response.content 几乎为空——这正是 soup.get_text() 返回空字符串的根本原因。

✅ 正确做法是启用重定向(默认即为 True),并优化基础代码:

import requestsfrom bs4 import BeautifulSoupcurrent_url = "https://www.diabete.qc.ca/en/understand-diabetes/all-about-diabetes/complications/female-sexuality-and-diabetes/"try:    # ✅ 允许重定向(关键修复),移除不必要的 verify=False(生产环境应验证证书)    response = requests.get(        current_url,        headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'}    )    response.raise_for_status()  # 检查 HTTP 错误状态码(如 404、500)    soup = BeautifulSoup(response.content, 'html.parser')  # 直接传 bytes,避免手动 decode/encode    text = soup.get_text(" ", strip=True)    print(f"成功提取 {len(text)} 字符文本")    print(text[:200] + "...")  # 预览前 200 字符except requests.exceptions.RequestException as e:    print(f"请求失败:{e}")

? 关键注意事项:

  • allow_redirects=True 是默认行为,显式写出更清晰;禁用它仅适用于需手动控制跳转逻辑的特殊场景。
  • response.content 是原始字节流,直接传给 BeautifulSoup(配合 html.parser)比先 decode() 再 strip_accents() 更安全可靠——后者易引发编码异常,且现代网页多为 UTF-8,无需额外去重音处理。
  • 始终调用 response.raise_for_status() 检查网络错误或服务端异常,避免静默失败。
  • verify=False 会禁用 SSL 证书验证,存在安全风险,仅限调试;生产环境请确保系统证书可信或指定 cert= 参数。

总结:当 BeautifulSoup 返回空结果时,首要排查 response.status_code 是否为 200,并确认 response.content 是否包含有效 HTML —— 这比调试解析逻辑更能快速定位问题根源。重定向配置,是新手最容易忽略却影响最大的基础设置。

热门栏目