(75) 指定URLのWEBページのHTMLソースコードを表示

4,398 views

この記事は最終更新から 2237日が経過しています。

Pythonの urllib2 を使用し、指定したWEBページのHTMLソースコードを取得してみます。

サンプルはこちらです。
https://www.dogrow.net/python/sample/0075

urllib2は HTTPのリクエスト送信＆レスポンス受信を隠蔽してくれているので、手軽にいろいろとネット上の情報収集＆解析に使えそうです。

index.cgi

#!/usr/local/bin/python
# -*- coding: utf-8 -*-

print 'Content-type: text/html'

import cgi
import urllib2

def get_webpage( url ):
	file = urllib2.urlopen(url)
	return file.read();

print """
&lt;!DOCTYPE html&gt;
&lt;html&gt;
&lt;head&gt;
&lt;meta http-equiv="Content-Type" content="text/html; charset=utf-8" /&gt;
&lt;title&gt;サンプル&lt;/title&gt;
&lt;/head&gt;
&lt;body&gt;
"""

form = cgi.FieldStorage()

if form.has_key('url'):
	url = form['url'].value
	text = get_webpage(url)
	fname = 'temp.txt'
	fh = open(fname, 'w')
	fh.write(text)
	fh.close()
	print "&lt;a href=\"" + fname + "\" target=_blank&gt;" + fname + "&lt;/a&gt;"

print """
&lt;hr /&gt;
&lt;form action="./" method=post&gt;
URLを入力 &lt;input type=text name=url style="width:200px;"&gt;&lt;br /&gt;
&lt;input type=submit value="実行"&gt;
&lt;/form&gt;
&lt;/body&gt;
&lt;/html&gt;
"""

アクセス数（直近7日）: ※試験運用中、BOT除外簡易実装済

2025-12-03: 2回

2025-12-02: 0回

2025-12-01: 0回

2025-11-30: 0回

2025-11-29: 0回

2025-11-28: 1回

2025-11-27: 0回

index.cgi

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル