当前位置:
首页 > Python基础教程 >
-
用Python从URL中提取域名的方法
本文将使用实际的例子来解释Python的urlparse() 函数来解析和提取URL中的域名。我们还将讨论如何提高我们解析 URL 的能力和使用它们的不同组件。
用urlparse() 从 URL 中提取域名
urlparse() 方法是Python的urllib 模块的一部分,当你需要将URL拆分成不同的组件并将它们用于不同的目的时非常有用。让我们看一下这个例子:
from urllib.parse import urlparse
component = urlparse('http://www.google.com/doodles/mothers-day-2021-april-07')
print(component)
在这个代码片断中,我们首先包含了urllib 模块中的库文件。然后,我们将一个URL传递给urlparse 函数。这个函数的返回值是一个对象,它就像一个数组,有六个元素,如下所示:
- scheme – 指定我们可以用来获取在线资源的协议,例如,HTTP/HTTPS 。
- netloc – net 表示网络,loc 表示位置;所以它表示URLs的网络位置。
- path – 一个网络浏览器用来访问所提供的资源的特定途径。
- params – 这些是path 元素的参数。
- query – 遵循path 组件和数据的蒸汽,一个资源可以使用。
- fragment – 它对部件进行分类。
当我们使用打印函数显示这个对象时,它将打印其组件的值。上述代码栅栏的输出将如下:
ParseResult(scheme='http', netloc='www.google.com', path='/doodles/mothers-day-2021-april-07', params='', query='', fragment='')
你可以从输出中看到,所有的URL组件都被分离出来,作为单独的元素存储在对象中。我们可以像这样通过使用其名称来获得任何组件的值:
from urllib.parse import urlparse
domain_name = urlparse('http://www.google.com/doodles/mothers-day-2021-april-07').netloc
print(domain_name)
使用netloc 组件,我们可以得到URL的域名,如下所示:
www.google.com
这样,我们可以得到我们的URL解析,并在我们的编程中使用其不同的组件来达到各种目的。
出处:https://www.cnblogs.com/djdjdj123/p/17700050.html
栏目列表
最新更新
nodejs爬虫
Python正则表达式完全指南
爬取豆瓣Top250图书数据
shp 地图文件批量添加字段
爬虫小试牛刀(爬取学校通知公告)
【python基础】函数-初识函数
【python基础】函数-返回值
HTTP请求:requests模块基础使用必知必会
Python初学者友好丨详解参数传递类型
如何有效管理爬虫流量?
SQL SERVER中递归
2个场景实例讲解GaussDB(DWS)基表统计信息估
常用的 SQL Server 关键字及其含义
动手分析SQL Server中的事务中使用的锁
openGauss内核分析:SQL by pass & 经典执行
一招教你如何高效批量导入与更新数据
天天写SQL,这些神奇的特性你知道吗?
openGauss内核分析:执行计划生成
[IM002]Navicat ODBC驱动器管理器 未发现数据
初入Sql Server 之 存储过程的简单使用
这是目前我见过最好的跨域解决方案!
减少回流与重绘
减少回流与重绘
如何使用KrpanoToolJS在浏览器切图
performance.now() 与 Date.now() 对比
一款纯 JS 实现的轻量化图片编辑器
关于开发 VS Code 插件遇到的 workbench.scm.
前端设计模式——观察者模式
前端设计模式——中介者模式
创建型-原型模式