(75) 指定URLのWEBページのHTMLソースコードを表示

投稿者: | 2016年11月8日

3,861 views

この記事は最終更新から 1652日 が経過しています。

Pythonの urllib2 を使用し、指定したWEBページのHTMLソースコードを取得してみます。

サンプルはこちらです。
https://www.dogrow.net/python/sample/0075

urllib2は HTTPのリクエスト送信&レスポンス受信を隠蔽してくれているので、手軽にいろいろとネット上の情報収集&解析に使えそうです。

index.cgi

#!/usr/local/bin/python
# -*- coding: utf-8 -*-

print 'Content-type: text/html'

import cgi
import urllib2

def get_webpage( url ):
	file = urllib2.urlopen(url)
	return file.read();

print """
<!DOCTYPE html>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>サンプル</title>
</head>
<body>
"""

form = cgi.FieldStorage()

if form.has_key('url'):
	url = form['url'].value
	text = get_webpage(url)
	fname = 'temp.txt'
	fh = open(fname, 'w')
	fh.write(text)
	fh.close()
	print "<a href=\"" + fname + "\" target=_blank>" + fname + "</a>"

print """
<hr />
<form action="./" method=post>
URLを入力 <input type=text name=url style="width:200px;"><br />
<input type=submit value="実行">
</form>
</body>
</html>
"""

カテゴリー: WEB

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です