python span镶嵌匹配_使用beautifulsoup解析嵌套span标记

news/2024/7/5 21:29:18

所以这是工作的方式，比我以前的工作方式要好，但仍然存在一些问题。我发布了完整的脚本，你可以看到我在做什么。我将花费一些时间和精力来研究这些问题，但这将帮助我更好地学习python和beauthulsoup。在"""

This program imports a list of stock ticker symbols from "ca_stocks.txt"

It then goes to the Globe website and gets current company stock data

It then writes this data to a file to a CSV file in the form

index, ticker, date&time, dimension, measure

"""

import urllib2

import csv, os

import datetime

import re #regular expressions library

import bs4

#from bs4 import BeautifulStoneSoup as bss

#from time import gmtime, strftime

#from lxml import etree

import pyquery

#import dataextract as tde

os.chdir('D:\\02 - \\003 INVESTMENTS\\Yahoo Finance Data')

symbolfile = open('ca_stocks2.txt')

symbolslist = symbolfile.read().split('\n')

def pairs(l,n):

# l = list

# n = number

return zip(*[l[i::n] for i in range(n)])

def main():

i=0

while i

print symbolslist[i]

url = urllib2.urlopen("http://www.theglobeandmail.com/globe-investor/markets/stocks/summary/?q=" +symbolslist[i])

root = bs4.BeautifulSoup(url)

[span.text for span in root("li.clearfix > span")]

[(span.text, span.findNextSibling('span').text) for span in root.select("li.clearfix > span.label")]

dims = [[]] *40

mess = [[]] *40

j=0

for span in root.select("li.clearfix > span.label"):

#print "%s\t%s" % ( span.text, span.findNextSibling('span').text)

dims[j] = span.text

mess[j] = span.findNextSibling('span').text

j+=1

nowtime = datetime.datetime.now().isoformat()

with open('globecdndata.csv','ab') as f:

fw = csv.writer(f, dialect='excel')

for s in range(0,37):

csvRow = s, symbolslist[i], nowtime, dims[s], mess[s]

print csvRow

fw.writerow(csvRow)

f.close()

i+=1

if __name__ == "__main__":

main()

我知道这是很难看的代码，但是嘿，我正在学习。CSV的输出如下所示：

(4，'T-T'，'2013-11-09T19:32:32.416000'，u'Bidx0'，u'36.88')

(5，'T-T'，'2013-11-09T19:32:32.416000'，u'Askx0'，u'36.93')

(6，'T-T'，'2013-11-09T19:32:32.416000'，u'52周高点05/22'，u'37.94')

“05/22”的日期每到一个新的高点或低点就会改变。这对于维度(字段)的名称并不理想。在

(7，'T-T'，'2013-11-09T19:32:32.416000'，u'52-星期低06/27'，u'29.52')

(35，“T-T”，“2013-11-09T19:32:32.416000”，u'Top 1000排名：'，u'Profit:28收入：34资产：36')

出于某种原因，它将这些维度(字段)和度量(数据)集中在一起。隐马尔可夫模型。。。在

这是一些问题的清单。但是，就像我说的，我现在应该能弄清楚了。学到很多，谢谢。有人知道他们在做什么，提供一些意见是非常棒的。在

python span镶嵌匹配_使用beautifulsoup解析嵌套span标记

相关文章

swift学习--控制流

java gui登录界面_JAVA GUI编辑用户登陆界面

selenium grid2 初探

java gc信息_JVM之GC回收信息详解

java webService

java 网络多线程_Java 网络编程与多线程

php 获取cdn 客户端,关于cdn 转发之后获取客户端真实ip 问题

bzip2压缩