4,398 views
この記事は最終更新から 2237日 が経過しています。
Pythonの urllib2 を使用し、指定したWEBページのHTMLソースコードを取得してみます。
サンプルはこちらです。
https://www.dogrow.net/python/sample/0075
urllib2は HTTPのリクエスト送信&レスポンス受信を隠蔽してくれているので、手軽にいろいろとネット上の情報収集&解析に使えそうです。
index.cgi
#!/usr/local/bin/python
# -*- coding: utf-8 -*-
print 'Content-type: text/html'
import cgi
import urllib2
def get_webpage( url ):
file = urllib2.urlopen(url)
return file.read();
print """
<!DOCTYPE html>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>サンプル</title>
</head>
<body>
"""
form = cgi.FieldStorage()
if form.has_key('url'):
url = form['url'].value
text = get_webpage(url)
fname = 'temp.txt'
fh = open(fname, 'w')
fh.write(text)
fh.close()
print "<a href=\"" + fname + "\" target=_blank>" + fname + "</a>"
print """
<hr />
<form action="./" method=post>
URLを入力 <input type=text name=url style="width:200px;"><br />
<input type=submit value="実行">
</form>
</body>
</html>
"""
アクセス数(直近7日): ※試験運用中、BOT除外簡易実装済2025-12-03: 2回 2025-12-02: 0回 2025-12-01: 0回 2025-11-30: 0回 2025-11-29: 0回 2025-11-28: 1回 2025-11-27: 0回