3,891 views
この記事は最終更新から 1791日 が経過しています。
Pythonの urllib2 を使用し、指定したWEBページのHTMLソースコードを取得してみます。
サンプルはこちらです。
https://www.dogrow.net/python/sample/0075
urllib2は HTTPのリクエスト送信&レスポンス受信を隠蔽してくれているので、手軽にいろいろとネット上の情報収集&解析に使えそうです。
index.cgi
#!/usr/local/bin/python # -*- coding: utf-8 -*- print 'Content-type: text/html' import cgi import urllib2 def get_webpage( url ): file = urllib2.urlopen(url) return file.read(); print """ <!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <title>サンプル</title> </head> <body> """ form = cgi.FieldStorage() if form.has_key('url'): url = form['url'].value text = get_webpage(url) fname = 'temp.txt' fh = open(fname, 'w') fh.write(text) fh.close() print "<a href=\"" + fname + "\" target=_blank>" + fname + "</a>" print """ <hr /> <form action="./" method=post> URLを入力 <input type=text name=url style="width:200px;"><br /> <input type=submit value="実行"> </form> </body> </html> """