PyPI官网下载|biggerquery-0.6.dev8.tar.gz资源-CSDN文库

版权申诉

175 浏览量 2022-01-26 16:15:57 上传评论收藏 37KB GZ 举报

共45个文件

py：34个

txt：7个

pkg-info：2个

《PyPI官网下载：深入理解biggerquery-0.6.dev8.tar.gz》在Python的世界里，PyPI（Python Package Index）是开发者们分享和获取开源软件包的重要平台。当我们看到“PyPI官网下载 | biggerquery-0.6.dev8.tar.gz”这样的标题时，我们可以理解这是一款名为biggerquery的Python库的最新版本。这个资源的全名揭示了它的版本号为0.6.dev8，意味着它可能处于开发阶段，尚未发布正式版。接下来，让我们一起深入探讨这个压缩包以及其背后的分布式技术和云原生概念。 biggerquery库显然与Google BigQuery服务有关，这是一个强大的云端数据仓库和分析工具。通过biggerquery库，Python开发者可以轻松地与BigQuery进行交互，执行SQL查询，管理数据集和表，甚至进行大数据处理。这个版本0.6.dev8可能是对原有功能的增强或修复了一些已知问题，以提供更稳定和高效的服务。在标签中提到了"zookeeper"，这暗示biggerquery库可能使用Apache ZooKeeper作为其分布式协调服务。Zookeeper是一个广泛使用的开源系统，用于分布式环境中的配置管理、命名服务、集群同步等任务。在biggerquery中，Zookeeper可能用于确保多节点之间的数据一致性，或者在分布式环境中管理和跟踪BigQuery连接。 “分布式”和“云原生”这两个标签则揭示了biggerquery库的设计哲学。分布式意味着该库设计用于处理大规模、分布式的数据，允许在多台机器上并行运行任务，提高效率和可扩展性。而“云原生”则表明biggerquery是为现代云环境设计的，它充分利用云计算的优势，如弹性伸缩、自动化运维和微服务架构，以适应快速变化的业务需求。至于压缩包子文件的文件名称列表，只有“biggerquery-0.6.dev8”，这意味着解压后我们会得到一个包含biggerquery库源代码和其他相关文件的目录结构。通常，这会包括Python模块、测试文件、文档、示例代码等。开发者可以通过阅读源代码了解其实现细节，通过运行测试验证其功能，并参考文档学习如何在自己的项目中使用这个库。总结来说，biggerquery-0.6.dev8.tar.gz是Python社区的一个开源项目，它提供了与Google BigQuery的便捷接口，同时利用了分布式技术和云原生设计，以适应现代大数据分析的需求。通过深入研究这个库，开发者可以提升自己在大数据处理、分布式系统和云原生应用方面的技能，更好地应对复杂的数据挑战。

资源推荐

资源详情

资源评论

收起资源包目录

biggerquery-0.6.dev8.tar.gz （45个子文件）

biggerquery-0.6.dev8

PKG-INFO 15KB

test

test_beam_manager.py 10KB

test_utils.py 5KB

test_job.py 5KB

test_user_commons

test_sensor.py 2KB

__init__.py 0B

test_fastai

test_predict.py 8KB

__init__.py 0B

test_labels.py 2KB

test_configuration.py 3KB

test_deployment.py 7KB

test_workflow.py 4KB

test_interactive.py 20KB

test_monitoring.py 7KB

test_dataset_manager.py 465B

setup.cfg 38B

biggerquery.egg-info

PKG-INFO 15KB

requires.txt 278B

SOURCES.txt 1KB

top_level.txt 17B

dependency_links.txt 1B

requirements

stackdriver_extras.txt 32B

beam_extras.txt 57B

base.txt 163B

setup.py 1KB

biggerquery

test_utils.py 2KB

user_commons

labels.py 434B

sensor.py 592B

fastai

predict.py 1KB

predict_component.py 4KB

__init__.py 0B

predict_io.py 3KB

__init__.py 0B

job.py 3KB

utils.py 3KB

deployment.py 5KB

beam_manager.py 8KB

configuration.py 2KB

__init__.py 1KB

workflow.py 5KB

gcp_defaults.py 94B

monitoring.py 5KB

dataset_manager.py 13KB

interactive.py 13KB

README.md 12KB

# BiggerQuery — The Python framework for BigQuery Tired of the limiting BigQuery console? Open your Jupyter notebook and start working with BigQuery using Python! BiggerQuery lets you: * Work with BigQuery using Python code. * Create a workflow that you can automatically convert to an Airflow DAG. * Implement a configurable environment for your workflows. * Organize your data processing. * Create a workflow from a Jupyter notebook. * Work with BigQuery from any other environment. * Run and schedule the Apache-Beam pipelines. * Mix BigQuery, Python and Apache-Beam in your workflows. BiggerQuery scales to your needs. It's very easy to start making queries and creating workflows. If needed, BiggerQuery lets you implement complex stuff (the Allegro experimentation platform was created using the BiggerQuery framework). ## Installation `pip install biggerquery` `pip install biggerquery[beam]`(if you want to use the Apache Beam) ## Compatibility BiggerQuery is compatible with Python >= 3.5. ## Cheat sheet ### Setup We recommend using the Jupyter Lab to go through the examples. You can also run the examples as scripts, or from your own Jupyter notebook. In those cases, you can authorize using `pydata_google_auth`(look at the example below) or [Google sdk](https://cloud.google.com/sdk/docs/quickstarts). Inside this repository you can find the file named 'MilitaryExpenditure.csv'. Use the script below to load the csv to the BigQuery table. You will use the created table to explore the BiggerQuery methods. First of all, install the dependencies: `pip install biggerquery` `pip install pydata_google_auth` Then, fill up the PROJECT_ID and DATA_PATH: ```python PROJECT_ID = 'put-you-project-id-here' DATA_PATH = '/path/to/json/file/311_requests.csv' import biggerquery as bgq import pydata_google_auth import pandas as pd credentials = pydata_google_auth.get_user_credentials(['https://www.googleapis.com/auth/bigquery']) dataset = bgq.Dataset( project_id=PROJECT_ID, dataset_name='external_data', credentials=credentials) df = pd.read_csv(DATA_PATH, dtype={ 'street_number': str, 'state_plane_x_coordinate': str }) load_table = dataset.load_table_from_dataframe('311_requests', df, partitioned=False) load_table.run() ``` ### Authorize with a GCP user account ```python import biggerquery as bgq import pydata_google_auth credentials = pydata_google_auth.get_user_credentials(['https://www.googleapis.com/auth/bigquery']) dataset = bgq.Dataset( project_id='put-you-project-id-here', dataset_name='biggerquery_cheatsheet', credentials=credentials) ``` ### Create table ```python import biggerquery as bgq dataset = bgq.Dataset( project_id='put-you-project-id-here', dataset_name='biggerquery_cheatsheet', internal_tables=['request_aggregate']) create_table = dataset.create_table(""" CREATE TABLE IF NOT EXISTS request_aggregate ( batch_date TIMESTAMP, request_count INT64) PARTITION BY DATE(batch_date)""") create_table.run() ``` ### Query table ```python import biggerquery as bgq PROJECT_ID = 'put-you-project-id-here' dataset = bgq.Dataset( project_id=PROJECT_ID, dataset_name='biggerquery_cheatsheet', external_tables={ '311_requests': '{}.external_data.311_requests'.format(PROJECT_ID) }) select_requests = dataset.collect(""" SELECT * FROM `{311_requests}` WHERE DATE(TIMESTAMP(created_date)) = "{dt}" LIMIT 1000 """) requests_df = select_requests.run('2014-05-21') print(requests_df) ``` ### Estimate query cost(dry run) ```python import biggerquery as bgq PROJECT_ID = 'put-you-project-id-here' dataset = bgq.Dataset( project_id=PROJECT_ID, dataset_name='biggerquery_cheatsheet', external_tables={ '311_requests': '{}.external_data.311_requests'.format(PROJECT_ID) }) dry_select = dataset.dry_run(""" SELECT * FROM `{311_requests}` WHERE DATE(TIMESTAMP(created_date)) = "{dt}" LIMIT 1000 """) print(dry_select.run('2014-05-21')) ``` ### Write to table ```python import biggerquery as bgq PROJECT_ID = 'put-you-project-id-here' dataset = bgq.Dataset( project_id=PROJECT_ID, dataset_name='biggerquery_cheatsheet', external_tables={ '311_requests': '{}.external_data.311_requests'.format(PROJECT_ID) }, internal_tables=['request_aggregate']) create_table = dataset.create_table(""" CREATE TABLE IF NOT EXISTS request_aggregate ( batch_date TIMESTAMP, request_count INT64) PARTITION BY DATE(batch_date)""").run() write_truncate_daily_request_count = dataset.write_truncate('request_aggregate', """ WITH batched_requests as ( SELECT DATE(TIMESTAMP(created_date)) as batch_date, * FROM `{311_requests}` WHERE DATE(TIMESTAMP(created_date)) = "{dt}" ) SELECT TIMESTAMP(batch_date) as batch_date, count(*) as request_count FROM `batched_requests` WHERE DATE(TIMESTAMP(created_date)) = "{dt}" GROUP BY batch_date """) write_truncate_daily_request_count.run('2014-05-21') ``` ### Create non-partitioned table from query results ```python import biggerquery as bgq PROJECT_ID = 'put-you-project-id-here' dataset = bgq.Dataset( project_id=PROJECT_ID, dataset_name='biggerquery_cheatsheet', external_tables={ '311_requests': '{}.external_data.311_requests'.format(PROJECT_ID) }, internal_tables=['request_aggregate_tmp']) write_tmp_daily_request_count = dataset.write_tmp('request_aggregate_tmp', """ WITH batched_requests as ( SELECT DATE(TIMESTAMP(created_date)) as batch_date, * FROM `{311_requests}` WHERE DATE(TIMESTAMP(created_date)) = "{dt}" ) SELECT TIMESTAMP(batch_date) as batch_date, count(*) as request_count FROM `batched_requests` WHERE DATE(TIMESTAMP(created_date)) = "{dt}" GROUP BY batch_date """) write_tmp_daily_request_count.run('2014-05-21') ``` ### Save pandas DataFrame to table ```python import biggerquery as bgq import pandas as pd PROJECT_ID = 'put-you-project-id-here' dataset = bgq.Dataset( project_id=PROJECT_ID, dataset_name='biggerquery_cheatsheet', external_tables={ '311_requests': '{}.external_data.311_requests'.format(PROJECT_ID) }, internal_tables=['request_aggregate']) create_table = dataset.create_table(""" CREATE TABLE IF NOT EXISTS request_aggregate ( batch_date TIMESTAMP, request_count INT64) PARTITION BY DATE(batch_date)""").run() load_df = dataset.load_table_from_dataframe('request_aggregate', pd.DataFrame([{ 'batch_date': pd.Timestamp('2017-01-01T12'), 'request_count': 200 }])) load_df.run('2017-01-01') ``` ### Generate DAG from notebook Create an empty notebook and add the following processing logic: ```python import biggerquery as bgq PROJECT_ID = 'put-you-project-id-here' dataset = bgq.Dataset( project_id=PROJECT_ID, dataset_name='biggerquery_cheatsheet', external_tables={ '311_requests': '{}.external_data.311_requests'.format(PROJECT_ID) }, internal_tables=['request_aggregate']) create_table = dataset.create_table(""" CREATE TABLE IF NOT EXISTS request_aggregate ( batch_date TIMESTAMP, request_count INT64) PARTITION BY DATE(batch_date)""") write_truncate_daily_request_count = dataset.write_truncate('request_aggregate', """ WITH batched_requests as ( SELECT DATE(TIMESTAMP(created_date)) as batch_date, * FROM `{311_requests}` WHERE DATE(TIMESTAMP(created_date)) = "{dt}" ) SELECT TIMESTAMP(batch_date) as batch_date, count(*) as request_count FROM `batched_requests` WHERE DATE(TIMESTAMP(created_date)) = "{dt}" GROUP BY batch_date """) workflow_v1 = bgq.Workflow(definition=[ create_table.to_job(), write_truncate_daily_request_count.to_job() ]) ``` Next, create another notebook and add the following code that will generate the Airflow DAG: ```python import biggerquery as bgq bgq.build_dag_from_notebook('/path/to/your/notebook.ipynb', 'workflow_v1', start_date='201

评论收藏

内容反馈

版权申诉