果粉有福了!5分钟学会用Python统计自己最爱听的音乐
cac55 2024-10-11 10:51 17 浏览 0 评论
作为一个最狂热的果粉,喜欢用苹果来播放自己最爱的音乐,随时让音乐充满自己的生活。想统计自己哪些音乐才是自己最爱吗?想知道哪些音乐是自己第一次听见就相伴终身吗?下面用Python来完成您的心愿。
下面的实战项目在iTunes播放列表文件中查找重复的乐曲音轨(重复的频率越多就是你最爱的音乐:-)),并绘制各种统计数据,如音轨长度和评分。你可以从查看iTunes播放列表格式开始,然后学习如何用Python提取这些文件的信息。为了绘制这些数据,要用到matplotlib库。
在这个项目中,我们将学习以下主题:
- XML和属性列表(p-list)文件;
- Python列表和字典;
- 使用Python的set对象;
- 使用numpy数组;
- 直方图和散点图;
- 用matplotlib库绘制简单的图;
- 创建和保存数据文件。
iTunes播放列表文件剖析
iTunes资料库中的信息可以导出为播放列表文件(在iTunes中选择File?Library?Export Playlist)。播放列表文件以可扩展标记语言(XML)写成,这是一种基于文本的语言,旨在分层表示基于文本的信息。它包括一些用户定义的标签所构成的树状集合,标签形如<MyTag>,每个标签可以有一些属性和子标签,其中包含附加的信息。
如果在文本编辑器中打开一个播放列表文件,你会看到类似这样的简化版本:
<?xml version="1.0" encoding="UTF-8"?> ① <!DOCTYPE plist PUBLIC "-//Apple Computer//DTD PLIST 1.0//EN" "http://www apple.com/DTDs/PropertyList-1.0.dtd"> ② <plist version="1.0"> ③ <dict> ④ <key>Major Version</key><integer>1</integer> <key>Minor Version</key><integer>1</integer> --snip-- ⑤ <key>Tracks</key> <dict> <key>2438</key> <dict> <key>Track ID</key><integer>2438</integer> <key>Name</key><string>Yesterday</string> <key>Artist</key><string>The Beatles</string> <key>Composer</key><string>Lennon [John], McCartney [Paul]</string> <key>Album</key><string>Help!</string> </dict> --snip-- </dict> ⑥ <key>Playlists</key> <array> <dict> <key>Name</key><string>Now</string> <key>Playlist ID</key><integer>21348</integer> --snip-- <array> <dict> <key>Track ID</key><integer>6382</integer> </dict> --snip-- </array> </dict> </array> </dict> </plist>
属性列表(P-list)文件将对象表示为字典,<dict> 和 <key> 标签与这种方式有关。字典是把键和值关联起来的数据结构,让查找值变得容易。属性列表文件使用字典的字典,其中和键关联的值往往自身又是另一个词典(甚至一个字典列表)。
<xml>标签确定文件为XML文件。在这个开始标签之后,文档类型定义(DTD)定义了XML文档的结构①。如你所见,苹果在该标签中的统一资源定位符(URL)中定义了这种结构。
在②行,文件声明了顶层<plist>标签,其唯一子元素是字典<dict> ③。该字典包含了各种键,在④行,包括Major Version、Minor Version,等等,但我们的兴趣在⑤行的Tracks键。注意,该键对应的值也是一个字典,它将整数的音轨ID映射到另一个字典,其中包含Name、Artist等元素。音乐收藏中的每个音轨都有唯一的音轨ID键。
播放列表顺序在⑥行由Playlists定义,它是顶层字典的一个子节点。
所需模块
在这个项目中,我们用内置模块plistlib来读取播放列表文件。我们还用matplotlib库来绘图,用numpy的数组来存储数据。
代码
该项目的目标是找到你的音乐收藏中的重复乐曲,确定播放列表之间共同的音轨,绘制音轨时长的分布图,以及歌曲评分和时长之间的关系图。
随着音乐收藏不断增加,你总会遇到重复的乐曲。为了确定重复的乐曲,查找与Tracks键关联的字典中的名称(前面讨论过),找到重复的乐曲,并用音轨长度作为附加准则来检测重复的乐曲,因为名称相同、但长度不同的音轨,可能是不一样的。
要找到两个或多个播放列表之间共同的音轨,你需要将音乐收藏导出为播放列表文件,收集每个播放列表的音轨名称,作为集合进行比较,通过发现集合的交集来找到共同的音轨。
在收集音乐收藏数据的同时,我们将使用强大的matplotlib(http://matplotlib.org/)绘图软件包来创建一些图,该软件包由已故的John Hunter开发。我们可以绘制直方图来显示音轨时长的分布,绘制散点图来比较乐曲评分与长度。
要查看完整的项目代码,请直接跳到1.4节。
查找重复
首先可以用findDuplicates()方法来查找重复的曲目,如下所示:
def findDuplicates(fileName): print('Finding duplicate tracks in %s...' % fileName) # read in a playlist ① plist = plistlib.readPlist(fileName) # get the tracks from the Tracks dictionary ② tracks = plist['Tracks'] # create a track name dictionary ③ trackNames = {} # iterate through the tracks ④ for trackId, track in tracks.items(): try: ⑤ name = track['Name'] duration = track['Total Time'] # look for existing entries ⑥ if name in trackNames: # if a name and duration match, increment the count # round the track length to the nearest second ⑦ if duration//1000 == trackNames[name][0]//1000: count = trackNames[name][1] ⑧ trackNames[name] = (duration, count+1) else: # add dictionary entry as tuple (duration, count) ⑨ trackNames[name] = (duration, 1) except: # ignore pass
在①行,readPlist()方法接受一个p-list文件作为输入,并返回顶层字典。在②行,访问Tracks字典,在③行,创建一个空的字典,用来保存重复的乐曲。在④行,开始用items()方法迭代Tracks字典,这是Python在迭代字典时取得键和值的常用方法。
在⑤行,取得字典中每个音轨的名称和时长。用in关键字,检查当前乐曲的名称是否已在被构建的字典中⑥。如果是这样的,程序检查现有的音轨和新发现的音轨长度是否相同⑦,用//操作符,将每个音轨长度除以1000,由毫秒转换为秒,并四舍五入到最接近的秒,以进行检查(当然,这意味着,只有毫秒差异的两个音轨被认为是相同的)。如果确定这两个音轨长度相等,就取得与name关联的值,这是(duration,count)元组,并在⑧行增加计数。如果这是程序第一次遇到的音轨名称,就创建一个新条目,count为1⑨。
将代码的主for循环放在try语句块中,这是因为一些乐曲音轨可能没有定义乐曲名称。在这种情况下,跳过该音轨,在except部分只包含pass(什么也不做)。
提取重复
利用以下代码,提取重复的音轨:
# store duplicates as (name, count) tuples ① dups = [] for k, v in trackNames.items(): ② if v[1] > 1: dups.append((v[1], k)) # save duplicates to a file ③ if len(dups) > 0: print("Found %d duplicates. Track names saved to dup.txt" % len(dups)) else: print("No duplicate tracks found!") ④ f = open("dups.txt", "w") for val in dups: ⑤ f.write("[%d] %s\n" % (val[0], val[1])) f.close()
在①行,创建一个空列表,保存重复乐曲。接下来,迭代遍历trackNames字典,如果count(用v[1]访问,因为它是元组的第二个元素)大于1②,则将元组(name,count)添加到列表中。在③行,程序打印它找到的信息,然后用open()方法将信息存入文件④。在⑤行,迭代遍历dups列表,写下重复的条目。
查找多个播放列表中共同的音轨
现在,让我们来看看如何找到多个播放列表中共同的乐曲音轨:
def findCommonTracks(fileNames): # a list of sets of track names ① trackNameSets = [] for fileName in fileNames: # create a new set ② trackNames = set() # read in playlist ③ plist = plistlib.readPlist(fileName) # get the tracks tracks = plist['Tracks'] # iterate through the tracks for trackId, track in tracks.items(): try: # add the track name to a set ④ trackNames.add(track['Name']) except: # ignore pass # add to list ⑤ trackNameSets.append(trackNames) # get the set of common tracks ⑥ commonTracks = set.intersection(*trackNameSets) # write to file if len(commonTracks) > 0: ⑦ f = open("common.txt", "w") for val in commonTracks: s = "%s\n" % val ⑧ f.write(s.encode("UTF-8")) f.close() print("%d common tracks found. " "Track names written to common.txt." % len(commonTracks)) else: print("No common tracks!")
首先,将播放列表的文件名列表传入findCommonTracks(),它创建一个空列表①,保存从每个播放列表创建的一组对象。然后程序迭代遍历列表中的每个文件。对每个文件,创建一个名为trackNames的Python set对象②,然后像在findDuplicates()中一样,用plistlib读入文件③,取得Tracks字典。接下来,迭代遍历该字典中的每个音轨,并添加trackNames对象④。程序读完一个文件中的所有音轨后,将这个集合加入trackNameSets⑤。
在⑥行,使用set.intersection()方法来获得集合之间共同音轨的集合(用Python*的运算符来展开参数列表)。如果程序发现集合之间的共同音轨,就将音轨名称写入一个文件。在⑦行,打开文件,接下来的两行代码完成写入。使用encode()来格式化输出,确保所有Unicode字符都正确处理⑧。
收集统计信息
接下来,用plotStats()方法,针对这些音轨名称收集统计信息:
def plotStats(fileName): # read in a playlist ① plist = plistlib.readPlist(fileName) # get the tracks from the playlist tracks = plist['Tracks'] # create lists of song ratings and track durations ② ratings = [] durations = [] # iterate through the tracks for trackId, track in tracks.items(): try: ③ ratings.append(track['Album Rating']) durations.append(track['Total Time']) except: # ignore pass # ensure that valid data was collected ④ if ratings == [] or durations == []: print("No valid Album Rating/Total Time data in %s." % fileName) return
这里的目标是收集评分和音轨时长,然后画一些图。在①行和接下来的代码行中,读取了播放列表文件,并访问Tracks字典。接下来,创建两个空列表,保存评分和时长②(在iTunes播放列表中,评分是一个整数,范围是[0,100])。迭代遍历音轨,在③行,将评分和时长添加到相应的列表中。最后,在④行检查完整性,确保从播放列表文件收集了有效数据。
绘制数据
我们已准备好绘制一些数据了。
# scatter plot ① x = np.array(durations, np.int32) # convert to minutes ② x = x/60000.0 ③ y = np.array(ratings, np.int32) ④ pyplot.subplot(2, 1, 1) ⑤ pyplot.plot(x, y, 'o') ⑥ pyplot.axis([0, 1.05*np.max(x), -1, 110]) ⑦ pyplot.xlabel('Track duration') ⑧ pyplot.ylabel('Track rating') # plot histogram pyplot.subplot(2, 1, 2) ⑨ pyplot.hist(x, bins=20) pyplot.xlabel('Track duration') pyplot.ylabel('Count') # show plot ⑩ pyplot.show()
在①行,利用numpy.array()(在代码中作为np导入),将音轨时长数据放到32位整数数组中。然后在②行,利用numpy,将一个操作应用于数组中的每个元素。在这个例子中,将每个以毫秒为单位的时长值除以值60×1000。在③行,将乐曲评分保存另一个numpy数组y中。
用matplotlib在同一图像上绘制两张图。在④行,提供给subplot()的参数(即,(2, 1, 1))告诉matplotlib,该图应该有两行(2)一列(1),且下一个点应在第一行(1)。在⑤行,通过调用plot()创建一个点,并且o告诉matplotlib用圆圈来表示数据。
在⑥行,为 x 轴和 y 轴设置略微大一点儿的范围,以便在图和轴之间留一些空间。在⑦和⑧行,为 x 轴和 y 轴设置说明文字。
现在用matplotlib的方法hist(),在同一张图中的第二行中,绘制时长直方图⑨。bins参数设置了数据分区的个数,其中每分区用于添加在这个范围内的计数。最后,调用show()⑩,matplotlib在新窗口中显示出漂亮的图。
命令行选项
现在,我们来看看该程序的main()方法如何处理命令行参数:
def main(): # create parser descStr = """ This program analyzes playlist files (.xml) exported from iTunes. """ ① parser = argparse.ArgumentParser(description=descStr) # add a mutually exclusive group of arguments ② group = parser.add_mutually_exclusive_group() # add expected arguments ③ group.add_argument('--common', nargs='*', dest='plFiles', required=False) ④ group.add_argument('--stats', dest='plFile', required=False) ⑤ group.add_argument('--dup', dest='plFileD', required=False) # parse args ⑥ args = parser.parse_args() if args.plFiles: # find common tracks findCommonTracks(args.plFiles) elif args.plFile: # plot stats plotStats(args.plFile) elif args.plFileD: # find duplicate tracks findDuplicates(args.plFileD) else: ⑦ print("These are not the tracks you are looking for.")
本书的大多数项目都有命令行参数。不要尝试手工分析它们并搞得一团糟,要将这个日常的任务委派给Python的argparse模块。在①行,为此创建了一个ArgumentParser对象。该程序可以做三件不同的事情,如发现播放列表之间的共同音轨,绘制统计数据,或发现播放列表中重复的曲目。但是,一个时间程序只能做其中一件事,如果用户决定同时指定两个或多个选项,我们不希望它崩溃。argparse模块为这个问题提供了一个解决方案,即相互排斥的参数分组。在②行,用parser.add_mutually_exclusive_group()方法来创建这样一个分组。
在③、④和⑤行,指定了前面提到的命令行选项,并输入应该将解析值存入的变量名(args.plFiles、args.plFile和args.plFileD),实际解析在⑥行完成。参数解析后,就将它们传递给相应的函数,findCommonTracks()、plotStats()和findDuplicates(),本章前面讨论过这些函数。
要查看参数是否被解析,就测试args中相应的变量名。例如,如果用户没有使用--common选项(该选项找出播放列表之间的共同音轨),解析后args.plFiles应该设置为None。
在⑦行,处理用户未输入任何参数的情况。
完整代码
下面是完整的程序。在https://github.com/electronut/pp/tree/master/playlist/,你也可以找到本项目的代码和一些测试数据。
import re, argparse import sys from matplotlib import pyplot import plistlib import numpy as np def findCommonTracks(fileNames): """ Find common tracks in given playlist files, and save them to common.txt. """ # a list of sets of track names trackNameSets = [] for fileName in fileNames: # create a new set trackNames = set() # read in playlist plist = plistlib.readPlist(fileName) # get the tracks tracks = plist['Tracks'] # iterate through the tracks for trackId, track in tracks.items(): try: # add the track name to a set trackNames.add(track['Name']) except: # ignore pass # add to list trackNameSets.append(trackNames) # get the set of common tracks commonTracks = set.intersection(*trackNameSets) # write to file if len(commonTracks) > 0: f = open("common.txt", 'w') for val in commonTracks: s = "%s\n" % val f.write(s.encode("UTF-8")) f.close() print("%d common tracks found. " "Track names written to common.txt." % len(commonTracks)) else: print("No common tracks!") def plotStats(fileName): """ Plot some statistics by reading track information from playlist. """ # read in a playlist plist = plistlib.readPlist(fileName) # get the tracks from the playlist tracks = plist['Tracks'] # create lists of song ratings and track durations ratings = [] durations = [] # iterate through the tracks for trackId, track in tracks.items(): try: ratings.append(track['Album Rating']) durations.append(track['Total Time']) except: # ignore pass # ensure that valid data was collected if ratings == [] or durations == []: print("No valid Album Rating/Total Time data in %s." % fileName) return # scatter plot x= np.array(durations, np.int32) # convert to minutes x = x/60000.0 y = np.array(ratings, np.int32) pyplot.subplot(2, 1, 1) pyplot.plot(x, y, 'o') pyplot.axis([0, 1.05*np.max(x), -1, 110]) pyplot.xlabel('Track duration') pyplot.ylabel('Track rating') # plot histogram pyplot.subplot(2, 1, 2) pyplot.hist(x, bins=20) pyplot.xlabel('Track duration') pyplot.ylabel('Count') # show plot pyplot.show() def findDuplicates(fileName): """ Find duplicate tracks in given playlist. """ print('Finding duplicate tracks in %s...' % fileName) # read in playlist plist = plistlib.readPlist(fileName) # get the tracks from the Tracks dictionary tracks = plist['Tracks'] # create a track name dictionary trackNames = {} # iterate through tracks for trackId, track in tracks.items(): try: name = track['Name'] duration = track['Total Time'] # look for existing entries if name in trackNames: # if a name and duration match, increment the count # round the track length to the nearest second if duration//1000 == trackNames[name][0]//1000: count = trackNames[name][1] trackNames[name] = (duration, count+1) else: # add dictionary entry as tuple (duration, count) trackNames[name] = (duration, 1) except: # ignore pass # store duplicates as (name, count) tuples dups = [] for k, v in trackNames.items(): if v[1] > 1: dups.append((v[1], k)) # save duplicates to a file if len(dups) > 0: print("Found %d duplicates. Track names saved to dup.txt" % len(dups)) else: print("No duplicate tracks found!") f = open("dups.txt", 'w') for val in dups: f.write("[%d] %s\n" % (val[0], val[1])) f.close() # gather our code in a main() function def main(): # create parser descStr = """ This program analyzes playlist files (.xml) exported from iTunes. """ parser = argparse.ArgumentParser(description=descStr) # add a mutually exclusive group of arguments group = parser.add_mutually_exclusive_group() # add expected arguments group.add_argument('--common', nargs='*', dest='plFiles', required=False) group.add_argument('--stats', dest='plFile', required=False) group.add_argument('--dup', dest='plFileD', required=False) # parse args args = parser.parse_args() if args.plFiles: # find common tracks findCommonTracks(args.plFiles) elif args.plFile: # plot stats plotStats(args.plFile) elif args.plFileD: # find duplicate tracks findDuplicates(args.plFileD) else: print("These are not the tracks you are looking for.") # main method if __name__ == '__main__': main()
1.5 运行程序
下面是该程序的运行示例:
$ python playlist.py --common test-data/maya.xml test-data/rating.xml
下面是输出:
5 common tracks found. Track names written to common.txt. $ cat common.txt God Shuffled His Feet Rubric Floe Stairway To Heaven Pi's Lullaby moksha:playlist mahesh$
现在,让我们绘制这些音轨的一些统计数据。
$ python playlist.py --stats test-data/rating.xml
图1-1展示了这次运行的输出。
小结
在这个项目中,我们开发了一个程序,分析了iTunes播放列表。在这个过程中,我们学习了一些有用的Python结构。在接下来的项目中,你将基于这里介绍的一些基础知识,探索各种有趣的主题,深入地研究Python。
相关推荐
- 花十几万配的顶级电脑:遭遇诡异Bug无法开机!机主绝望发帖求助
-
快科技7月1日消息,一位3D图形工作者在组装了一台价值约2万美元(约合14.3万元人民币)的顶级DIY电脑后,遭遇了令人头疼的问题。Reddit用户joel_motion介绍,他的这台电脑配备了AMD...
- 麒麟系统笔记本电脑问题及解决方法
-
最近配发了麒麟系统的笔记本电脑,WPS、微信、QQ等软件倒是都有,日常办公还行,但也发现了一些问题,如:1、(网络打印机问题)据到场的技术人员讲,直接USB口连接的常见打印机都有相应的驱动程序,可以正...
- 电脑驱动问题修复方法全总结(电脑驱动坏了怎么修复不成功呢)
-
在电脑使用过程中,驱动程序出现问题可能导致设备无法正常工作,影响用户体验。下面为您详细总结不同场景下修复电脑驱动问题的多种解决方案,涵盖从基础到进阶,再到系统级的操作方法,以及硬件排查和预防建议。一、...
- 电脑总是莫名其妙出故障,立即检查这个设置!
-
不久前贴吧看到过这么一个帖子:有个做设计的狠人,仗着自己32G内存条,非说虚拟内存是微软的智商税。结果呢?Photoshop渲染到99%直接闪退,3D建模文件当场“灰飞烟灭”。电脑操作系统可不像人懂得...
- 网友被很简单的一个电脑问题折腾了几个月还没弄好,挺感慨的
-
昨天晚上,一个网友询问一个型号的电脑主机买了不合适可不可以退,我挺奇怪的,就问他具体怎么回事,他说他的电吉它总是连不上电脑,无法调音,请人重装了几次系统,又请人折腾数次,几个月一直没搞定,怀疑是电脑本...
- 一次诡异的电脑重启故障(电脑出现异常重启)
-
在公司的日常运营中,设备的稳定运行至关重要。近日,公司里一台用于检测设备的电脑出现了异常状况,着实让我费了一番周折才解决问题。那天,我接到同事反馈,说这台检测设备电脑莫名地重启。我立刻放下手中的工作,...
- 德国所有机场突发电脑系统故障 大量航班受影响
-
当地时间1月3日,德国所有机场突发电脑系统故障,导致大范围航班运行受影响。据德国联邦警察发言人证实,机场边检及相关系统无法正常运行,旅客需面临长时间排队和等待的状况。△资料图多个机场出现严重技术故障据...
- 电脑维修入门基本知识大全(电脑维修入门基本知识大全图解)
-
以下是电脑维修入门基本知识的系统整理,结合硬件维护、故障排查及使用习惯三大核心方向,帮助新手快速掌握关键要点:一、硬件基础与识别1.核心组件认知主板:硬件连接中枢,故障易导致开机无反应。CPU/内存/...
- 电脑上网常用故障及其解决方法(电脑网络故障怎么修复)
-
干了这么多年的网络,今天我就来总结一下,经常出现的网络故障及其解决的方法,看看有没有哪些故障是你遇见过的?怎么解决的?下面我们从这几个点来分析:一、IP地址问题显示IP地址冲突,我们怎么办?Windo...
- 维修电脑常用的7个方法(维修电脑常用的7个方法是什么)
-
今天介绍维修电脑常用的7个解决方法,平时电脑开不了机,按开机键没反应,或者电源指示灯闪烁,屏幕不亮,显示无信号,或者开机主板有警报声,电脑缺少各种系统文件,或者开机蓝屏等使用以下这7个方法,可以修好8...
- 突然崩了!很多人以为电脑坏了!官方紧急回应
-
QQ崩了这事儿真挺逗。上午十一点多正干活呢,桌面QQ突然闪退报错,反复登录就是进不去。第一反应绝对是骂电脑不争气,有人甚至把系统重装了。结果热搜跳出来"QQ崩了",合着白忙活半天。腾讯...
- 电脑网络连不上网?10个步骤轻松排查故障,小白也能自己修!
-
大家有没有遇到过这种情况?正追剧到关键时刻,突然提示"网络连接失败";急着要交的文档传不上网盘,急得直冒汗。别慌!今天教大家10个小白都能操作的排查方法,不用拆电脑也不用求人,跟着做就...
- 电脑开机花屏肯定不是电脑的问题(电脑开机花屏是怎么回事)
-
文章最后,了解更多,领取红包。世界上这么多人,每天运用电脑的人就更是数不计数,所以每天世界上的每个角落都有很多人在面临着不一样的电脑问题。小编我今天就来说说,当电脑出现开机花屏的时候,应该怎么搞定。所...
- 电脑没有声音怎么办?不是电脑的问题,是你不知道怎么设置的问题
-
电脑没有声音怎么办?了解这几招快速解决!有没有碰到过这样的经历,电脑用着突然没有声音了;或者重启电脑之后,电脑没声音了。然后绞尽脑汁尝试各种办法,搞了好久也没有解决这个问题,今天小编给大家介绍几种方法...
- 《电脑故障不求人,这些维修技巧要掌握!》
-
电脑故障不求人,这些维修技巧要掌握!电脑罢工别慌!掌握基础排查逻辑,80%小问题可自救。以下分场景拆解实用技巧,让你秒变“修机达人”。一、开机无反应:先查“供电三件套”1.电源检查-按机箱电源键,...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- 如何绘制折线图 (52)
- javaabstract (48)
- 新浪微博头像 (53)
- grub4dos (66)
- s扫描器 (51)
- httpfile dll (48)
- ps实例教程 (55)
- taskmgr (51)
- s spline (61)
- vnc远程控制 (47)
- 数据丢失 (47)
- wbem (57)
- flac文件 (72)
- 网页制作基础教程 (53)
- 镜像文件刻录 (61)
- ug5 0软件免费下载 (78)
- debian下载 (53)
- ubuntu10 04 (60)
- web qq登录 (59)
- 笔记本变成无线路由 (52)
- flash player 11 4 (50)
- 右键菜单清理 (78)
- cuteftp 注册码 (57)
- ospf协议 (53)
- ms17 010 下载 (60)