John Arbash Meinel's Bazaar Blog

>>> from meliae import loader
>>> om = loader.load('big.dump')
>>> om.remove_expensive_references()
>>> om.summarize()
Total 8364538 objects, 286 types, Total size = 440.4MiB (461765737 bytes)
Index   Count   %      Size   % Cum     Max Kind
0 2193778  26 181553569  39  39 4194281 str
1   12519   0  97231956  21  6012583052 dict
2 1599439  19  68293428  14  75     304 tuple
3 3459765  41  62169616  13  88      20 bzrlib._static_tuple_c.StaticTuple
4      82   0  29372712   6  94 8388724 set
5 1052573  12  12630876   2  97      12 int
6    1644   0   4693700   1  98 2351848 list
7    4038   0   2245128   0  99     556 _LazyGroupCompressFactory
>>> dicts = om.get_all('dict')
>>> dicts[0]
dict(417338688 12583052B 1045240refs 2par)
>>> bigd = dicts[0]
>>> from pprint import pprint as pp
We'll use pprint a lot, so map it to something easy to type.
>>> pp(bigd.p)
[frame(39600120 464B 23refs 1par '_get_remaining_record_stream'),
_BatchingBlockFetcher(180042960 556B 17refs 3par)]
>>> pp(bigd.p[1].refs_as_dict())
{'batch_memos': dict(584888016 140B 4refs 1par),
'gcvf': GroupCompressVersionedFiles(571002736 556B 13refs 9par),
'keys': list(186984208 16968B 4038refs 2par),
'last_read_memo': tuple(536280880 40B 3refs 1par),
'locations': dict(417338688 12583052B 1045240refs 2par),
'manager': _LazyGroupContentManager(584077552 172B 7refs 3716par),
'memos_to_get': list(186983248 52B 1refs 2par),
'total_bytes': 774119}
'locations': dict(417338688 12583052B 1045240refs 2par)
>>> om.summarize(bigd)
Total 4035636 objects, 22 types, Total size = 136.8MiB (143461221 bytes)
Index   Count   %      Size   % Cum     Max Kind
0 1567864  38  66895512  46  46      52 tuple
1  285704   7  24972909  17  64     226 str
2 1142424  28  20757800  14  78      20 bzrlib._static_tuple_c.StaticTuple
...
8       2   0      1832   0  99    1684 FIFOCache
9      35   0      1120   0  99      32 _InternalNode
>>> bigd[0]
bzrlib._static_tuple_c.StaticTuple(408433296 20B 2refs 9par)
>>> bigd[1]
tuple(618390272 44B 4refs 1par)
>>> pp(bigd[0].c)
[str(40127328 80B 473par 'svn-v4:138bc75d-0d04-0410-961f-82ee72b054a4:trunk:126948'),
str(247098672 85B 37par '14@138bc75d-0d04-0410-961f-82ee72b054a4:trunk%2Fgcc%2Finput.h')]
>>> pp(bigd[1].c)
[tuple(618383880 36B 2refs 1par),
bzrlib._static_tuple_c.StaticTuple(569848240 16B 1refs 3par),
NoneType(505223636 8B 1074389par),
tuple(618390416 48B 5refs 1par)]
locations = self._index.get_build_details(keys)
  :return: A dict of key: (index_memo, compression_parent, parents, record_details).
>>> indexes = om.get_all('BTreeGraphIndex')
>>> om.summarize(bigd, excluding=[o.address for o in indexes])
Total 3740667 objects, 6 types, Total size = 122.9MiB (128855911 bytes)
Index   Count   %      Size   % Cum     Max Kind
  0 1567860  41  66895360  51  51      48 tuple
  1  189162   5  19690647  15  67     226 str
  2  948160  25  17261048  13  80      20 bzrlib._static_tuple_c.StaticTuple
  3       1   0  12583052   9  9012583052 dict
  4 1035483  27  12425796   9  99      12 int
  5       1   0         8   0 100       8 NoneType
 result[key] = (self._node_to_position(entry),
               None, parents, (method, None))
class _GCBuildDetails(object):
   """A blob of data about the build details.

   This stores the minimal data, which then allows compatibility with the old
   api, without taking as much memory.
   """

   __slots__ = ('_index', '_group_start', '_group_end', '_basis_end',
                '_delta_end', '_parents')

   method = 'group'
   compression_parent = None

   def __init__(self, parents, position_info):
       self._parents = parents
       self._index = position_info[0]
       self._group_start = position_info[1]
       # Is this _end or length? Doesn't really matter to us
       self._group_end = position_info[2]
       self._basis_end = position_info[3]
       self._delta_end = position_info[4]

   def __repr__(self):
       return '%s(%s, %s)' % (self.__class__.__name__,
           self.index_memo, self._parents)

   @property
   def index_memo(self):
       return (self._index, self._group_start, self._group_end,
               self._basis_end, self._delta_end)

   @property
   def record_details(self):
       return static_tuple.StaticTuple(self.method, None)

   def __getitem__(self, offset):
       """Compatibility thunk to act like a tuple."""
       if offset == 0:
           return self.index_memo
       elif offset == 1:
           return self.compression_parent # Always None
       elif offset == 2:
           return self._parents
       elif offset == 3:
           return self.record_details
       else:
           raise IndexError('offset out of range')

   def __len__(self):
       return 4

>>> from bzrlib import branch, trace, initialize; initialize().__enter__()

>>> b = branch.Branch.open('.')
>>> b.lock_read()
LogicalLockResult(/2.3-gc-build-details/)>)
>>> keys = b.repository.texts.keys()
>>> trace.debug_memory('holding all keys')
WorkingSize   33192KiB  PeakWorking   34772KiB  holding all keys
>>> locations = b.repository.texts._index.get_build_details(keys)
>>> trace.debug_memory('holding all keys')
WorkingSize   77604KiB  PeakWorking   87960KiB  holding all keys
>>>
>>> om = loader.load('my.dump')
>>> om.summarize()
>>> om.summarize()
Total 5078730 objects, 290 types, Total size = 367.4MiB (385233882 bytes)
Index   Count   %      Size   % Cum     Max Kind
    0 2375950  46 224148214  58  58 4194313 str
    1   63209   1  77855404  20  78 3145868 dict
    2 1647097  32  29645488   7  86      20 bzrlib._static_tuple_c.StaticTuple
    3  374259   7  14852532   3  89     304 tuple
    4  138464   2  12387988   3  93     536 unicode
 ...
om.compute_total_size()
>>> dirstate = om.get_all('DirState')[0]
>>> om.summarize(dirstate)
Total 5025919 objects, 242 types, Total size = 362.0MiB (379541089 bytes)
Index   Count   %      Size   % Cum     Max Kind
    0 2355265  46 223321197  58  58 4194313 str
...
>>> from pprint import pprint as pp
>>> pp(dirstate.refs_as_dict())
{'_bisect_page_size': 4096,
...
'_sha1_file': instancemethod(34050336 40B 3refs 1par),
'_sha1_provider': ContentFilterAwareSHA1Provider(41157008 172B 3refs 2par),
...
'crc_expected': -1471338016}
>>> pp(om[41157008].c)
[str(30677664 28B 265par 'tree'),
WorkingTree6(41157168 556B 35refs 7par),
type(39222976 452B 4refs 4par 'ContentFilterAwareSHA1Provider')]
>>> wt = om[41157168]
>>> om.summarize(dirstate, excluding=[wt.address])
Total 5025896 objects, 238 types, Total size = 362.0MiB (379539040 bytes)
object
>>> om.remove_expensive_references()
removed 1906 expensive refs from 5078730 objs
>>> om.summarize(dirstate, excluding=[wt.address])
Total 699709 objects, 19 types, Total size = 42.2MiB (44239684 bytes)
Index   Count   %      Size   % Cum     Max Kind
    0  285690  40  20997620  47  47     226 str
    1  212977  30   8781420  19  67      48 tuple
    2   69640   9   8078240  18  85     116 set
...
>>> om = loader.load(filename)
>>> om.compute_parents()
>>> om.collapse_instance_dicts()
from meliae import scanner
scanner.dump_all_objects('test-file.dump')
$ python
>>> from meliae import loader
>>> om = loader.load('test-file.dump')
loaded line 3579013, 3579014 objs, 377.4 / 377.4 MiB read in 79.6s
>>> om.compute_parents(); om.collapse_instance_dicts()
set parents  3579013 /  3579014
checked  3579013 /  3579014 collapsed   383480
set parents  3195533 /  3195534
>>> s  = om.summarize(); s
Total 3195534 objects, 418 types, Total size = 496.8MiB (520926557 bytes)
Index   Count   %      Size   % Cum     Max Kind
   0  189886   5 211153232  40  40    1112 Thread
   1  199117   6  72510520  13  5412583192 dict
   2  189892   5  65322848  12  66     344 _Condition
   3  380809  11  30464720   5  72      80 instancemethod
   4  397892  12  28673968   5  78    2080 tuple
   5  380694  11  27409968   5  83      72 builtin_function_or_method
   6  446606  13  26100905   5  88   14799 str
   7  189886   5  21267232   4  92     112 _socketobject
   8  197255   6  14568080   2  95   14688 list
...
>>> threads = om.get_all('Thread')
>>> threads[0]
Thread(32874448 1112B 23refs 3par)
>>> threads[0].c # shortcut for 'children'
[str(11409312 54B 189887par '_Thread__block'), _Condition(32903248 344B 11refs
 1par), str(11408976 53B 189887par '_Thread__name'), str(32862080 77B 1par 
'PoolThread-twisted.internet.reactor-1'), str(1...
>>> from pprint import pprint as pp
>>> pp(threads[0].c)
[str(11409312 54B 189887par '_Thread__block'),
 _Condition(32903248 344B 11refs 1par),
 str(11408976 53B 189887par '_Thread__name'),
 str(32862080 77B 1par 'PoolThread-twisted.internet.reactor-1'),
 str(11429168 57B 189887par '_Thread__daemonic'),
 bool(7478912 24B 572370par 'False'),
 str(11409200 56B 189887par '_Thread__started'),
 bool(7478944 24B 571496par 'True'),
...
>>> pp(threads[0].refs_as_dict)
{'_Thread__args': tuple(140013759823952 56B 2008par),
 '_Thread__block': _Condition(32903248 344B 11refs 1par),
 '_Thread__daemonic': False,
 '_Thread__initialized': True,
 '_Thread__kwargs': dict(32516192 280B 1par),
 '_Thread__name': 'PoolThread-twisted.internet.reactor-1',
 '_Thread__started': True,
...
>>> pp(threads[0].p)
[list(33599432 104B 1refs 1par),
 list(33649944 104B 1refs 1par),
 dict(11279168 1048B 10refs 1par)]
>>> pp(threads[0].p[0].p)
[ThreadPool(32888520 1120B 21refs 2par)]
>> pp(threads[0].p[0].p[0].refs_as_dict())
{'joined': False,
 'max': 10,
 'min': 0,
 'name': 'twisted.internet.reactor',
 'q': Queue(32888592 1120B 15refs 1par),
 'started': True,
 'threads': list(33599432 104B 1refs 1par),
 'waiters': list(33649944 104B 1refs 1par),
 'workers': 1,
 'working': list(33649656 72B 1par)}
>>> pp(threads[0].p[1].p)
[ThreadPool(32888520 1120B 21refs 2par)]
>>> pp(threads[0].p[2].p)
[dict(11253824 3352B 98refs 70par)]
>>> d = threads[0].p[2].p[0]
>>> d
dict(11253824 3352B 98refs 70par)
>>> pp(d.refs_as_dict())
>>> pp(d.refs_as_dict())
{'BoundedSemaphore': 'BoundedSemaphore',
 'Condition': 'Condition',
 'Event': 'Event',
 'Lock': builtin_function_or_method(10872592 72B 1refs 7par),
 'RLock': 'RLock',
 'Semaphore': 'Semaphore',
 'Thread': 'Thread',
...
>>> d.c[1]
type(11280288 880B 4refs 2par '_BoundedSemaphore')
>>> pp([p for p in d.p if p.type_str == 'module'])
[module(11411416 56B 1refs 18par 'threading')]
from meliae import scanner
scanner.dump_all_objects('filename.json')
>>> from meliae import loader
>>> om = loader.load('filename.json')
>>> s = om.summarize(); s

This dumps out something like:
Total 17916 objects, 96 types, Total size = 1.5MiB (1539583 bytes)
Index   Count   %      Size   % Cum     Max Kind
   0     701   3    546460  35  35   49292 dict
   1    7138  39    414639  26  62    4858 str
   2     208   1     94016   6  68     452 type
   3    1371   7     93228   6  74      68 code
   4    1431   7     85860   5  80      60 function
   5    1448   8     59808   3  84     280 tuple
   6     552   3     40760   2  86     684 list
   7      56   0     29152   1  88     596 StgDict
   8    2167  12     26004   1  90      12 int
   9     619   3     24760   1  91      40 wrapper_descriptor
  10     570   3     20520   1  93      36 builtin_function_or_method
  ...
om.compute_referrers()
>>> om[s.summaries[0].max_address]
MemObject(29351984, dict, 49292 bytes, 1578 refs [...], 1 referrers [26683840])

>>> om[26683840]
MemObject(29337264, function, format_string, 60 bytes, 6 refs...)
>>> s = om.summarize(); s
Total 17701 objects, 96 types, Total size = 1.5MiB (1539583 bytes)
Index   Count   %      Size   % Cum     Max Kind
    0    7138  40    414639  26  26    4858 str
    1     486   2    394632  25  52   49292 dict
    2     208   1     94016   6  58     452 type
    3    1371   7     93228   6  64      68 code
    4    1431   8     85860   5  70      60 function
    5     149   0     82844   5  75     556 ReadLineTextBuffer
    6      93   0     65384   4  79    6312 module
    7    1448   8     59808   3  83     280 tuple
    8     552   3     40760   2  86     684 list
    9      56   0     29152   1  88     596 StgDict
   10    2167  12     26004   1  90      12 int
bzr branch
Total 2805995 objects, 276 types, Total size = 946.0MiB (991983819 bytes)
Index   Count   %      Size   % Cum     Max Kind
    0 1939090  69 916011611  92  92 5762600 str
    1    9449   0  33069868   3  95 3145868 dict
    2  132202   4  12506732   1  96     536 unicode
    3  383436  13   7048652   0  97      20 bzrlib._static_tuple_c.StaticTuple
    4  160027   5   5873744   0  98     304 tuple
    5    5429   0   5185252   0  98  412236 list
    6   62256   2   4482432   0  99      72 InventoryFile
    7     148   0   1334032   0  99 1048692 set
    8    2185   0   1214860   0  99     556 GroupCompressBlock
    9    8003   0    992372   0  99     124 CHKInventoryDirectory
...
text1:
first line
second line
third line

text2:
 first line
 modified second line
 third line

text3:
 first line
 remodified second line
 third line

 bzr version-info --custom \
  --template="#define VERSION_INFO \"Project 1.2.3 (r{revno})\"\n"
3466 Canonical.com Patch Queue Manager 2008-06-02 [merge]
    (jam) Give Aaron the benefit of bug #202928

3467 Canonical.com Patch Queue Manager 2008-06-03 [merge]
    (Martin Albisetti) Better message when a repository is locked.

3468 Canonical.com Patch Queue Manager 2008-06-03 [merge]
    (mbp) merge 1.6b1 back to trunk

3469 Canonical.com Patch Queue Manager 2008-06-04 [merge]
    (mbp) Update more users of default file modes from control_files to bzrdir

3470 Canonical.com Patch Queue Manager 2008-06-04 [merge]
    (Jelmer) Move update_revisions() implementation from BzrBranch to
      Branch.

3471 Canonical.com Patch Queue Manager 2008-06-04 [merge]
    (vila) Split a test

3472 Canonical.com Patch Queue Manager 2008-06-04 [merge]
    (jam) Fix bug #235407, if someone merges the same revision twice,
      don't record the second one.

3473 Canonical.com Patch Queue Manager 2008-06-05 [merge]
    Isolate the test HTTPServer from chdir calls (Robert Collins)

3474 Canonical.com Patch Queue Manager 2008-06-05 [merge]
    Add the 'alias' command (Tim Penhey)

3475 Canonical.com Patch Queue Manager 2008-06-05 [merge]
    (mbp) #234748 fix problems in final newline on Knit add_lines and
      get_lines

bzr checkout
bzr unbind
bzr commit --local
bzr gannotate
bzr viz
bzr init; bzr add; bzr commit -m "initial import"
bzr merge
project/doc
project
externals
bzr log
svn log
bzr log --short
bzr-svn
svn log
svn annotate
'Bars.c'
'bar.c'

John Arbash Meinel's Bazaar Blog

Step-by-step Meliae

Meliae 0.3.0, statistics on subsets

Meliae 0.2.1

Meliae 0.2.0

Memory Debugging with Meliae

The Joys of multiple releases

Refactoring work for review (and keep your annotations)

brisbane-core

This Week in Bazaar

Last Week in Bazaar

This Week in Bazaar

This Week in Bazaar

This Week in Bazaar

This Week in Bazaar

This Week in Bazaar

This Week in Bazaar

DVCS Comparison: On mainline merges and fast forwards

This Week in Bazaar

This Week in Bazaar

This Week in Bazaar

This Week in Bazaar

Creating a new Launchpad Project (redux)

This Week In Bazaar First Edition

Bazaar vs Subversion

Ogg Vorbis and iTunes